百億資金難解渴！具身智能新方向：世界模型、架構、數據與硬件如何破局？

發布時間：2025-11-21 15:43 來源：快訊作者：周琳

在近日舉辦的2025智源具身Open Day活動上，智源研究院向外界全面展示了其在具身智能領域的最新研究成果，并組織多場行業圓桌討論，聚焦當前具身智能發展的核心議題。此次活動匯聚了眾多業內專家與企業代表，共同探討具身智能的未來方向。

智源研究院院長王仲遠在開場演講中，介紹了過去一年在具身智能方向取得的兩大關鍵進展：世界模型的突破與具身大腦全棧體系的構建。他重點介紹了原生多模態世界模型Emu3.5，該模型在訓練數據量和參數規模上均有顯著提升，訓練數據從15年視頻擴展至790年，參數規模從8B提升至34B。同時，引入自研DiDA技術，使視頻和圖像生成速度大幅提升，達到與Diffusion、DiT類模型相當的水平。王仲遠指出，Emu3.5不再局限于語言主導的“下一個Token預測”，而是專注于具身智能所需的“下一時空狀態預測”。

在具身大腦全棧體系方面，智源研究院正在構建跨異構本體的具身智能體系，包括RoboBrain（具身大腦）、RoboOS（跨本體操作系統）和基于VLA的RoboBrain-0。這些模型已在多種形態的機器人本體上部署，能夠完成從導覽、導購到復雜交互的多樣化任務。智源還展示了在全身控制方向的能力，宇樹G1機器人在其控制框架BAAI Thor的支持下，成功完成拖動1.4噸汽車的實驗。

活動現場的圓桌討論環節，圍繞多個關鍵問題展開深入探討。在“世界模型是不是實現具身智能的關鍵”這一議題上，王仲遠認為，如果世界模型僅停留在視頻生成層面，未必能成為具身智能的基座。北京大學助理教授、銀河通用創始人及首席技術官王鶴也強調，機器人需要的是根據自身形態和目標預測下一步狀態的世界模型，這類模型必須基于大量機器人專屬數據構建。

關于“具身智能是否需要統一架構”的問題，招商局集團AI首席科學家張家興提出，具身智能未來不應繼續沿用“大模型的語言中心范式”，而需要一套“先行動、再視覺、最后語言”的具身原生結構，以行動與感知為核心。智元機器人首席科學家羅劍嵐則認為，具身智能的最終“大模型”不會是單體模型，而是由VLA、世界模型和RL組成的閉環系統。

在數據層面，多位嘉賓強調了真實數據的重要性，認為機器人必須在真實場景中學習真實性、多樣性和規模化。王鶴指出，仿真數據是當前更現實的突破口，許多底層控制能力依賴大量強化學習，而這些訓練在真實世界中幾乎無法完成。王仲遠則認為，視頻數據是最容易大規模獲取且最接近真實世界的數據形式，其價值類似于孩子通過視頻認識世界，再通過真實交互提升技能。

當被問及“如果有100億元推進具身智能會如何分配”時，多位嘉賓給出了不同答案。自變量創始人兼CEO王潛認為，第一優先級是吸納頂尖人才，其次是算力和數據投入。加速進化創始人兼CEO程昊則表示，100億元其實不夠，更重要的是用愿景吸引全球科研人才。星海圖聯合創始人趙行提出要打造覆蓋物理世界的最大數據引擎，張家興則希望將資金用于打造屬于具身智能的模型體系。

在另一場關于硬件的圓桌討論中，嘉賓們圍繞“人形機器人是否是具身智能的最終形態”展開辯論。多位嘉賓達成共識：模型與硬件并非相互定義，真正的決定要素是場景。星源智創始人兼CEO劉東認為，具身智能體系應分層構建，上層大模型可跨本體復用，但小腦層模型需根據硬件結構調整。北京人形機器人創新中心CTO唐劍直言，模型和硬件都無法單獨定義對方，場景才是決定機器人形態的關鍵因素。

更多>同類內容