巨人財經 - 專業科技行業財經媒體

阿里云深圳展發布多模態交互套件 賦能智能硬件開啟交互新體驗

   發布時間:2026-01-09 13:49 作者:顧雨柔

在深圳南山區舉辦的阿里云通義智能硬件展上,一款集成了多模態交互能力的開發套件正式亮相。該套件融合了千問、萬相、百聆三大通義基礎大模型,并預置了覆蓋生活休閑與工作效率領域的十余款智能工具,支持語音交互、視覺識別、邏輯推理及物理世界互動,可廣泛應用于AI眼鏡、學習設備、陪伴機器人等智能硬件場景。

據現場介紹,這款開發套件通過降低技術門檻、提升響應速度和拓展應用場景,為硬件廠商提供了完整的解決方案。例如在AI眼鏡領域,基于千問VL視覺語言模型與百聆CosyVoice語音技術,阿里云構建了從感知到執行的完整交互鏈路,實現了同聲傳譯、拍照翻譯、多模態備忘錄等實用功能,有效解決了傳統設備交互生硬、信息處理效率低的問題。用戶佩戴設備后,可通過語音指令完成復雜操作,系統還能自動記錄關鍵信息并生成結構化備忘。

針對家庭陪伴場景,阿里云展示了基于多模態套件的機器人解決方案。該系統通過實時環境感知與異常行為監測,可主動推送安全預警信息;用戶不僅能通過自然語言與設備對話,還能通過關鍵詞檢索歷史視頻片段,實現精準的內容回溯。現場演示中,機器人根據用戶指令快速定位到特定時間段的監控畫面,并同步調取相關環境數據,展現了多模態交互在復雜場景中的協同能力。

展覽現場還設置了互動體驗區,觀眾可近距離觀察機器人制作咖啡的全過程。從識別指令、規劃動作到精準操作設備,機器人通過多模態交互系統展現了類人化的服務能力。技術人員介紹,這類具身智能設備未來可擴展至醫療護理、教育輔導等領域,通過持續學習用戶習慣優化服務模式。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新