螞蟻靈波的“慢”哲學：以扎實技術布局具身智能未來之路

發布時間：2026-02-11 18:06 來源：快訊作者：陳麗

在1956年的經典科幻電影《禁忌星球》中，一個名為Robby的機器人成為人類對機器人技術最早的想象之一。這個力大無窮且邏輯嚴密的機器人，被設定了一條不可違背的規則——不能傷害人類。七十年后，螞蟻集團以Robby為靈感，推出了旗下具身智能公司的新品牌“螞蟻靈波”，從Robby到Robbyant，最終定格為如今的名稱。

此前，外界對螞蟻靈波的了解大多停留在2025年外灘大會上展示的R1機器人，這款會炒菜的機器人更像是一個技術展示的Demo。然而，在2026年1月底，螞蟻靈波通過密集發布四個具身智能模型，徹底改變了這一印象。這四個模型分別是LingBot-Depth、LingBot-VLA、LingBot-World和LingBot-VA，并同步開放了模型權重和代碼。LingBot-Depth還開源了200萬對高質量RGB-深度配對數據集，LingBot-VLA則開源了完整的后訓練工具鏈。這一幾乎完全透明的發布方式在開源社區引發了廣泛關注。

其中，LingBot-World作為世界模型，能夠生成高保真、高動態的物理交互場景，其效果迅速登頂X平臺科技板塊熱榜和Hugging Face熱門論文榜。然而，螞蟻靈波的選擇遠不止于此。在具身智能領域，技術路線尚未統一，螞蟻靈波選擇了一條更慢但更扎實的發展路徑。

在VLA模型的訓練中，螞蟻靈波團隊與星海圖、松靈機器人等合作伙伴積累了約20,000小時的真實世界操作數據，涵蓋9種主流雙臂機器人配置。這一數據規模是當前開源社區中最大的，并在GM-100的真機測評中取得了超越Pi0.5的高分。同時，螞蟻靈波還率先推出了業界首個自回歸視覺—動作世界模型，進一步展示了其在具身智能領域的領先地位。LingBot-VA發布不到一周，英偉達也推出了類似的VA模型。

螞蟻靈波首席科學家沈宇軍在接受專訪時表示，具身智能仍處于“GPT-1時刻”，數據稀缺和范式未定是當前的主要挑戰。基于這一判斷，螞蟻靈波構建了一套完整的體系，包括LingBot-Depth用于解決感知層的“看不清”問題，LingBot-World負責世界模擬與數據生成，LingBot-VLA基于海量真實數據學會執行基礎動作，LingBot-VA則引入因果預測探索更高層次的規劃和控制能力。沈宇軍將這一體系形容為“四個模型‘一盤棋’”，它們是同一系統中的不同模塊，而非彼此獨立。

在團隊內部，圍繞技術路線的爭論并不少見，但一旦方向確定，所有人都會全力以赴。這種精神也體現在螞蟻靈波對開源的堅定支持上。沈宇軍表示，開源不僅是為了避免成為“井底之蛙”，更是為了讓社區發現那些內部難以預料的漏洞和用法。通過提供完整的代碼和數據管線，螞蟻靈波希望為學界提供一個“能站上去的底座”，而不是讓每個人都從零開始。

在具身智能的數據路線上，螞蟻靈波堅定選擇了“真機數據”，而對“合成數據”持保留態度。沈宇軍解釋說，真機采集的成本下降速度將快于物理引擎的質變速度。在基座模型階段，真實數據的物理保真度是仿真數據無法比擬的。因此，螞蟻靈波選擇了一條“慢”但正確的路。

對于未來，沈宇軍認為具身智能模型仍處于早期階段，類似于語言模型的GPT-1時刻。他預計，至少需要三年時間才能解決數據采集、選擇和訓練原生基礎模型等關鍵問題。如果行業能夠加速合作，2026年至2028年可能會分別跨過這些節點。螞蟻靈波的下一步計劃包括擴大數據規模、針對性地彌補多模態和視頻生成的短板，以及提升機器人的移動能力。

當被問及螞蟻靈波的“獨門武器”時，沈宇軍強調了團隊的核心優勢。這支團隊在想象力、工程能力和耐力上都非常強，且得到了螞蟻集團在算力、存儲和工程體系上的扎實支持。他特別提到，2025年11月底是團隊的一個重要時刻，當時LingBot-Depth模型首次在真實測試中跑贏現有方案，打響了第一槍，讓團隊相信這條路能走通。

更多>同類內容