百度近日正式推出并上線了其原生全模態大模型文心5.0正式版,標志著中國在多模態人工智能領域邁出了重要一步。該模型擁有2.4萬億參數,采用創新的原生全模態統一建模技術,能夠同時處理文本、圖像、音頻和視頻等多種形式的信息輸入與輸出,為用戶提供更加全面和智能的服務體驗。
在權威基準測試中,文心5.0正式版展現了卓越的性能。其語言與多模態理解能力超越了Gemini-2.5-Pro和GPT-5-High等國際知名模型,穩居全球第一梯隊。同時,該模型在圖像和視頻生成方面也達到了垂直領域專精模型的水平,整體技術處于世界領先地位。目前,個人用戶可以通過文心APP和文心一言官網體驗這一創新成果,而企業和開發者則可通過百度千帆平臺進行調用。
百度集團副總裁吳甜介紹,文心5.0的技術路線與業界常見的“后期融合”方案不同,它采用統一的自回歸架構進行原生全模態建模。這種架構將文本、圖像、視頻和音頻等多源數據在同一模型框架內聯合訓練,使多模態特征在統一架構下充分融合并協同優化,從而實現原生的全模態統一理解與生成。這一創新技術為多模態人工智能的發展開辟了新的路徑。
除了原生全模態建模技術外,文心5.0還采用了超大規模混合專家結構,具備超稀疏激活參數,激活參數比低于3%。這一設計在保持模型強大能力的同時,有效提升了推理效率,降低了計算成本。模型還基于大規模工具環境合成長程任務軌跡數據,并采用基于思維鏈和行動鏈的端到端多輪強化學習訓練,顯著提升了智能體和工具調用能力。
在實際應用中,文心5.0展現了強大的多模理解、代碼生成和創意寫作能力。例如,在大會現場演示中,僅輸入一段博主復刻“活了么”App教程視頻,文心5.0便能自動拆解步驟,理解核心交互邏輯,并直接生成可運行的前端代碼。在創意寫作任務中,模型還能模擬《紅樓夢》中王熙鳳的語言風格,生成融合古典語境與現代商業邏輯的“大觀園資產重組方案”,充分展示了其情境理解與創作能力。
為了進一步提升模型的專業性和嚴謹性,百度還推出了“文心導師”計劃。目前,該計劃已吸引835位來自科技、金融、文化、教育、醫療、能源等十余個重點行業以及數理化生文史哲等學科的專家加入。這些專家在知識傳授、鑒賞評價和專業校準方面對大模型進行指導,幫助模型在邏輯嚴謹性、專業深度、創意質量和價值觀對齊等方面不斷精進。
文心5.0的上線不僅體現了中國模型廠商在多模態大模型底層的自主創新能力,也有助于提升中國AI在全球產業競爭中的技術話語權。此前,文心5.0系列模型已多次登上LMArena全球大模型競技場,并在文本榜和視覺理解榜上位居國內第一,躋身國際第一梯隊。1月15日的數據顯示,文心5.0以1460分位列LMArena文本榜國內第一、全球第八,超越了GPT-5.1-High、Gemini-2.5-Pro等多款國內外主流模型。






















