在阿里云通義智能硬件展上,一款全新的多模態交互開發套件正式亮相。這款開發套件整合了千問、萬相、百聆三款通義基礎大模型,并預置了十多款適用于生活休閑、工作效率等領域的Agent和MCP工具,為AI硬件的開發帶來了新的可能性。
該開發套件不僅具備聽覺和視覺能力,還能進行思考并與物理世界進行交互。其應用范圍廣泛,可覆蓋AI眼鏡、學習機、陪伴玩具以及智能機器人等多種硬件設備。在芯片適配方面,這款套件支持超過30款主流的ARM、RISC-V和MIPS架構終端芯片平臺,為硬件設備的快速接入提供了便利。未來,通義大模型家族還將與玄鐵RISC-V架構實現軟硬全鏈路的協同優化,進一步提升推理性能。
在模型優化層面,阿里云針對多模態交互場景進行了深入分析,推出了專為AI硬件交互設計的模型。這些模型支持全雙工語音、視頻和圖文等多種交互方式,端到端語音交互時延可低至1秒,視頻交互時延則低至1.5秒。套件預置的Mcp工具和Agent覆蓋了生活、工作、娛樂和教育等多個領域。例如,用戶可以直接調用出行規劃Agent,獲取路線規劃、旅行攻略以及吃喝玩樂的推薦。
該開發套件還接入了阿里云百煉平臺生態,允許用戶添加其他開發者提供的Mcp和Agent模板,并通過A2A協議兼容第三方Agent。這一設計極大地擴展了應用的能力邊界,幫助企業靈活搭建符合自身需求的業務場景。
在展會現場,阿里云展示了面向智能穿戴設備、陪伴機器人和具身智能等領域的解決方案。以AI眼鏡為例,基于千問VL和百聆CosyVoice等模型,阿里云構建了完整的交互鏈路,包括感知層、規劃層、執行層以及長期記憶功能。這使得AI眼鏡能夠實現同聲傳譯、拍照翻譯、多模態備忘錄和錄音轉寫等功能,有效解決了交互不自然和回答準確率低的問題。
針對家庭陪伴機器人場景,阿里云的解決方案基于千問模型和多模態交互套件,不僅能夠實時監測異常狀況并及時推送告警信息,還支持用戶通過關鍵詞查找和定位視頻,與機器人進行對話交互并控制設備。展會上,多家具身智能廠商如魔法原子、靈心巧手、跨維智能和原力無限等展示了各自的人形機器人、四足機器人和靈巧手產品。其中,人形機器人現場彈鋼琴和制作咖啡的表演吸引了大量觀眾。
阿里云宣布與樂聚機器人達成全棧AI合作。雙方將基于阿里云的算力、AI平臺和千問模型,共同開展人形機器人訓練場合作,并探索基于千問模型的具身智能聯合解決方案和產品開發。目前,樂聚新版展廳機器人已接入千問模型,在語音交互、知識庫問答和實時對話等場景中表現出更快的響應速度、更準確的答案和更自然的互動體驗。






















