在1956年的經典科幻電影《禁忌星球》中,一個名為Robby的機器人成為人類對機器人技術最早的想象之一。這個力大無窮且邏輯嚴密的機器人,被設定了一條不可違背的規則——不能傷害人類。七十年后,螞蟻集團以Robby為靈感,推出了旗下具身智能公司的新品牌“螞蟻靈波”,從Robby到Robbyant,最終定格為如今的名稱。
此前,外界對螞蟻靈波的了解大多停留在2025年外灘大會上展示的R1機器人,這款會炒菜的機器人更像是一個技術展示的Demo。然而,在2026年1月底,螞蟻靈波通過密集發布四個具身智能模型,徹底改變了這一印象。這四個模型分別是LingBot-Depth、LingBot-VLA、LingBot-World和LingBot-VA,并同步開放了模型權重和代碼。LingBot-Depth還開源了200萬對高質量RGB-深度配對數據集,LingBot-VLA則開源了完整的后訓練工具鏈。這一幾乎完全透明的發布方式在開源社區引發了廣泛關注。
其中,LingBot-World作為世界模型,能夠生成高保真、高動態的物理交互場景,其效果迅速登頂X平臺科技板塊熱榜和Hugging Face熱門論文榜。然而,螞蟻靈波的選擇遠不止于此。在具身智能領域,技術路線尚未統一,螞蟻靈波選擇了一條更慢但更扎實的發展路徑。
在VLA模型的訓練中,螞蟻靈波團隊與星海圖、松靈機器人等合作伙伴積累了約20,000小時的真實世界操作數據,涵蓋9種主流雙臂機器人配置。這一數據規模是當前開源社區中最大的,并在GM-100的真機測評中取得了超越Pi0.5的高分。同時,螞蟻靈波還率先推出了業界首個自回歸視覺—動作世界模型,進一步展示了其在具身智能領域的領先地位。LingBot-VA發布不到一周,英偉達也推出了類似的VA模型。
螞蟻靈波首席科學家沈宇軍在接受專訪時表示,具身智能仍處于“GPT-1時刻”,數據稀缺和范式未定是當前的主要挑戰。基于這一判斷,螞蟻靈波構建了一套完整的體系,包括LingBot-Depth用于解決感知層的“看不清”問題,LingBot-World負責世界模擬與數據生成,LingBot-VLA基于海量真實數據學會執行基礎動作,LingBot-VA則引入因果預測探索更高層次的規劃和控制能力。沈宇軍將這一體系形容為“四個模型‘一盤棋’”,它們是同一系統中的不同模塊,而非彼此獨立。
在團隊內部,圍繞技術路線的爭論并不少見,但一旦方向確定,所有人都會全力以赴。這種精神也體現在螞蟻靈波對開源的堅定支持上。沈宇軍表示,開源不僅是為了避免成為“井底之蛙”,更是為了讓社區發現那些內部難以預料的漏洞和用法。通過提供完整的代碼和數據管線,螞蟻靈波希望為學界提供一個“能站上去的底座”,而不是讓每個人都從零開始。
在具身智能的數據路線上,螞蟻靈波堅定選擇了“真機數據”,而對“合成數據”持保留態度。沈宇軍解釋說,真機采集的成本下降速度將快于物理引擎的質變速度。在基座模型階段,真實數據的物理保真度是仿真數據無法比擬的。因此,螞蟻靈波選擇了一條“慢”但正確的路。
對于未來,沈宇軍認為具身智能模型仍處于早期階段,類似于語言模型的GPT-1時刻。他預計,至少需要三年時間才能解決數據采集、選擇和訓練原生基礎模型等關鍵問題。如果行業能夠加速合作,2026年至2028年可能會分別跨過這些節點。螞蟻靈波的下一步計劃包括擴大數據規模、針對性地彌補多模態和視頻生成的短板,以及提升機器人的移動能力。
當被問及螞蟻靈波的“獨門武器”時,沈宇軍強調了團隊的核心優勢。這支團隊在想象力、工程能力和耐力上都非常強,且得到了螞蟻集團在算力、存儲和工程體系上的扎實支持。他特別提到,2025年11月底是團隊的一個重要時刻,當時LingBot-Depth模型首次在真實測試中跑贏現有方案,打響了第一槍,讓團隊相信這條路能走通。




















