巨人財經 - 專業科技行業財經媒體

螞蟻靈波“逆向思維”破局:具身智能從物理交互出發,構建AI新未來

   發布時間:2026-02-05 21:05 作者:鄭佳

在人工智能領域,一場關于具身智能的變革正悄然興起。當業界還在探討大語言模型(LLM)的潛力邊界時,螞蟻集團旗下的螞蟻靈波科技(Robbyant)以一系列開源成果,將物理AI的探索推向了新的高度。連續四天,四款具身智能模型——高精度空間感知模型LingBot-Depth、具身大模型LingBot-VLA、世界模型LingBot-World以及具身世界模型LingBot-VA——相繼問世,引發了全球AI社區的廣泛關注。

螞蟻靈波的崛起并非偶然。早在2025年成立之初,這家公司便肩負著在具身領域探索通用人工智能(AGI)的使命。螞蟻靈波CEO朱興在采訪中透露,螞蟻的AGI版圖涵蓋數字智能與物理智能兩大板塊。在設立靈波科技前,螞蟻已通過投資多家相關企業,布局了整機、核心零部件、靈巧手及具身大模型等關鍵環節。而靈波科技的成立,則標志著螞蟻正式將AI的觸角從數字世界延伸至物理世界。

“我們篤定數字世界的智能遠未達到極限,語言模型、多模態模型、視頻生成模型仍將持續進化。”朱興表示,“但與此同時,我們也在探索另一條路徑——從物理交互出發,在真實世界中構建智能。”這一理念在靈波科技的技術路線中得到了充分體現。與當前流行的“Sim-to-Real”(從仿真到現實)路徑不同,靈波科技選擇了“互聯網數據+真實數據”的組合,試圖通過真實世界的反饋來訓練具身智能模型。

螞蟻靈波首席科學家沈宇軍指出,仿真數據雖能解決部分訓練數據稀缺的問題,但在流體、柔性物體及傳感器誤差等復雜場景中,仿真往往難以準確模擬現實。相比之下,真實數據雖然成本較高,但隨著產業發展和數據采集技術的進步,這一問題將逐步得到解決。靈波科技的實踐驗證了這一思路的可行性。基于超兩萬小時的高質量真機數據預訓練,LingBot-VLA在權威評測中超越了多項國際頂尖基線,成為現實世界機器人技術的一大突破。

在四款開源模型中,LingBot-VA無疑是最具野心的作品。作為全球首個用于通用機器人控制的因果視頻-動作世界模型,它通過視頻生成模型實現“想象”,結合多模態模型的邏輯推理,再疊加真實環境的反饋,構建了視頻預測與現實行動之間的閉環。這一模型僅需30-50次真實世界演示即可學習新技能,成功率比常見基準模型高出約20%。沈宇軍表示:“我們不是在死記硬背仿真數據,而是在試圖理解物理規律。”這一理念與圖靈獎得主Yann LeCun關于AI在物理世界中實現預測的呼吁不謀而合。

除了LingBot-VA,靈波科技的其他模型也各具特色。LingBot-Depth通過深度傳感器誤差作為掩碼優化深度圖,大幅降低了視覺深度相機的誤差;LingBot-World則開源了視覺效果堪比谷歌Genie 3的實時可交互世界模型,為具身智能的模擬奠定了基礎。這些技術的開源,不僅為全球AI社區提供了新的工具,也展現了螞蟻靈波推動行業進步的決心。

在朱興看來,具身智能仍處于早期階段,技術路線尚未收斂。因此,螞蟻靈波更關注模型能力的上限探索以及如何降低生態伙伴的后訓練成本。為此,公司不僅開源了四款核心模型,還同步發布了高效的后訓練代碼,希望以此降低行業門檻,推動具身智能的普及。朱興的邏輯清晰而堅定:“在路線尚未明確的早期階段,開源是推進行業進步的最優解。”

螞蟻靈波的野心不止于此。與特斯拉Optimus“造腦也造驅干”的封閉模式不同,靈波科技希望成為機器人領域的“安卓系統”。通過跨構型路徑和與數據提供商的深度合作,靈波科技試圖構建一個開放的生態系統,讓硬件廠商能夠以更低的成本將靈波的“大腦”適配到自己的“身體”上。這一策略不僅體現了螞蟻靈波的技術自信,也為其在未來的競爭中奠定了基礎。

當然,挑戰依然存在。沈宇軍指出,強化學習的具體落地范式尚未收斂,AI推理中至關重要的“慢思考”能力仍在探索中。但背靠螞蟻集團的AGI整體戰略、業界一梯隊的AI基礎設施支持以及堅定的資金投入,靈波科技顯然已經做好了長期作戰的準備。隨著四款模型的連續發布和開源,螞蟻的AI戰略實現了從數字世界到物理世界的關鍵延伸。一個深度融合、開源開放并服務于真實場景的AGI生態,正在加速成型。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新