巨人財經 - 專業科技行業財經媒體

智源“悟界·Emu3”登Nature正刊:自回歸路線或成多模態世界模型新方向

   發布時間:2026-02-02 14:18 作者:蘇婉清

北京智源人工智能研究院推出的多模態大模型“悟界·Emu3”近日登上國際頂級學術期刊《自然》(Nature)正刊,成為繼DeepSeek之后第二個獲此殊榮的中國大模型團隊研究成果。這一突破標志著中國在多模態人工智能領域的研究邁入國際前沿,為構建可擴展、統一的多模態智能系統提供了全新路徑。

“悟界·Emu3”模型的核心創新在于僅通過“預測下一個token”的自回歸技術路線,實現了文本、圖像和視頻的統一學習。這一方法摒棄了傳統多模態模型中復雜的組合式架構,以極簡的架構設計同時支持生成與感知任務。Nature編輯在點評中指出,該成果在性能上可媲美專用模型,為原生多模態助手、世界模型及具身智能等方向的發展奠定了基礎。

自2024年10月發布以來,Emu3在多項基準測試中表現優異。在文本到圖像生成任務中,其性能超越SDXL等擴散模型,接近DALL-E 3等頂尖水平;視頻生成方面,VBench評分達81,超過Open-Sora 1.2;視覺語言理解得分62.1,略高于LLaVA-1.6。研究團隊通過大規模消融實驗驗證了多模態學習的規模定律,證明模型能力隨數據規模增長而顯著提升。

該模型的研發歷程充滿挑戰。2024年初,團隊面臨技術路徑選擇的關鍵決策:是沿用主流的擴散模型架構,還是探索自回歸路線的統一可能性。最終,團隊組建了50人的專項攻關組,以離散token方式重構視覺模態表示,將圖像、文本和視頻統一到同一表示空間中。這一過程中,團隊解決了圖像壓縮效率低、訓練穩定性差等技術難題,歷經近一年時間完成模型訓練。

Emu3的架構設計體現了“極簡主義”理念。模型基于Transformer解碼器架構,擴展了嵌入層以容納視覺標記,通過兩階段優化方案實現高效訓練。在推理階段,模型支持無分類器引導和低延遲生成,可自然擴展至機器人操作、多模態交錯生成等復雜任務。研究團隊還開源了模型代碼和關鍵技術,推動社區持續創新。

2025年10月,團隊進一步推出Emu3.5版本,實現了從“預測下一個token”到“預測下一個狀態”的能力躍遷。該版本通過大規模長時序視頻訓練,學習到時空與因果關系,在虛擬世界探索任務中超越谷歌Nano Banana等模型,首次提出多模態Scaling新范式。這一進展為具身智能等物理AI領域提供了重要技術支撐。

北京智源研究院自成立以來,始終聚焦大模型原始創新。其發布的“悟道”系列模型曾創下全球最大語言模型紀錄,開源的200余款模型累計下載量超7.6億次。此次Emu3登上Nature正刊,不僅驗證了中國AI研究的技術實力,也為全球多模態大模型發展提供了新思路。隨著開源生態的完善和產業鏈的協同發展,中國在人工智能基礎研究領域的國際影響力將持續擴大。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新