小米機器人團隊近日宣布,正式開源其最新研發的具身智能VLA模型——Xiaomi-Robotics-0。該模型以47億參數的規模,結合MoT混合架構,通過多模態VLM大模型作為基礎,并嵌入多層DiT結構,實現了通用理解與精細控制的雙重突破。
在性能測試中,Xiaomi-Robotics-0展現出顯著優勢。該模型在Libero、Calvin和SimplerEnv等主流測試集上,與30種同類模型對比后,均取得當前最優成績。更值得關注的是,其消費級硬件即可支持實時推理,為機器人技術的大規模應用提供了可能。
針對傳統VLA模型普遍存在的推理延遲問題,研發團隊創新性地采用異步推理模式與Λ-shape Attention Mask機制。這一設計有效解決了“動作斷層”現象,使機器人在執行積木拆解、疊毛巾等復雜任務時,能夠保持動作連貫性并快速響應環境變化。實驗數據顯示,該模型在真實場景中的手眼協調能力顯著提升。
技術架構方面,Xiaomi-Robotics-0通過跨模態預訓練框架,在保留物體檢測、視覺問答等基礎能力的同時,實現了多模態信息的深度融合。這種設計既保證了模型對復雜指令的理解能力,又通過分層控制機制確保了動作執行的精準度,為具身智能的落地應用開辟了新路徑。




















