在近日舉辦的2025智源具身Open Day活動上,智源研究院向外界全面展示了其在具身智能領域的最新研究成果,并組織多場行業圓桌討論,聚焦當前具身智能發展的核心議題。此次活動匯聚了眾多業內專家與企業代表,共同探討具身智能的未來方向。
智源研究院院長王仲遠在開場演講中,介紹了過去一年在具身智能方向取得的兩大關鍵進展:世界模型的突破與具身大腦全棧體系的構建。他重點介紹了原生多模態世界模型Emu3.5,該模型在訓練數據量和參數規模上均有顯著提升,訓練數據從15年視頻擴展至790年,參數規模從8B提升至34B。同時,引入自研DiDA技術,使視頻和圖像生成速度大幅提升,達到與Diffusion、DiT類模型相當的水平。王仲遠指出,Emu3.5不再局限于語言主導的“下一個Token預測”,而是專注于具身智能所需的“下一時空狀態預測”。
在具身大腦全棧體系方面,智源研究院正在構建跨異構本體的具身智能體系,包括RoboBrain(具身大腦)、RoboOS(跨本體操作系統)和基于VLA的RoboBrain-0。這些模型已在多種形態的機器人本體上部署,能夠完成從導覽、導購到復雜交互的多樣化任務。智源還展示了在全身控制方向的能力,宇樹G1機器人在其控制框架BAAI Thor的支持下,成功完成拖動1.4噸汽車的實驗。
活動現場的圓桌討論環節,圍繞多個關鍵問題展開深入探討。在“世界模型是不是實現具身智能的關鍵”這一議題上,王仲遠認為,如果世界模型僅停留在視頻生成層面,未必能成為具身智能的基座。北京大學助理教授、銀河通用創始人及首席技術官王鶴也強調,機器人需要的是根據自身形態和目標預測下一步狀態的世界模型,這類模型必須基于大量機器人專屬數據構建。
關于“具身智能是否需要統一架構”的問題,招商局集團AI首席科學家張家興提出,具身智能未來不應繼續沿用“大模型的語言中心范式”,而需要一套“先行動、再視覺、最后語言”的具身原生結構,以行動與感知為核心。智元機器人首席科學家羅劍嵐則認為,具身智能的最終“大模型”不會是單體模型,而是由VLA、世界模型和RL組成的閉環系統。
在數據層面,多位嘉賓強調了真實數據的重要性,認為機器人必須在真實場景中學習真實性、多樣性和規模化。王鶴指出,仿真數據是當前更現實的突破口,許多底層控制能力依賴大量強化學習,而這些訓練在真實世界中幾乎無法完成。王仲遠則認為,視頻數據是最容易大規模獲取且最接近真實世界的數據形式,其價值類似于孩子通過視頻認識世界,再通過真實交互提升技能。
當被問及“如果有100億元推進具身智能會如何分配”時,多位嘉賓給出了不同答案。自變量創始人兼CEO王潛認為,第一優先級是吸納頂尖人才,其次是算力和數據投入。加速進化創始人兼CEO程昊則表示,100億元其實不夠,更重要的是用愿景吸引全球科研人才。星海圖聯合創始人趙行提出要打造覆蓋物理世界的最大數據引擎,張家興則希望將資金用于打造屬于具身智能的模型體系。
在另一場關于硬件的圓桌討論中,嘉賓們圍繞“人形機器人是否是具身智能的最終形態”展開辯論。多位嘉賓達成共識:模型與硬件并非相互定義,真正的決定要素是場景。星源智創始人兼CEO劉東認為,具身智能體系應分層構建,上層大模型可跨本體復用,但小腦層模型需根據硬件結構調整。北京人形機器人創新中心CTO唐劍直言,模型和硬件都無法單獨定義對方,場景才是決定機器人形態的關鍵因素。





















