巨人財經 - 專業科技行業財經媒體

國產AI再創輝煌!上交團隊ML-Master 2.0登頂OpenAI基準,引領科研新范式

   發布時間:2025-12-25 14:48 作者:沈如風

在AI科研領域,一場由中國團隊引領的變革正在悄然發生。由上海交通大學人工智能學院、上海算法創新研究院與深勢科技聯合組建的SciMaster團隊,近日憑借其自主研發的AI機器學習專家ML-Master 2.0,在OpenAI設立的權威基準測試MLE-bench中力壓國際科技巨頭,以56.44%的獎牌率登頂全球榜首。這一突破不僅標志著中國在AI驅動科研領域的技術實力,更展現了國產開源大模型DeepSeek-V3.2-Speciale的強大潛力。

傳統AI在科研中的應用往往局限于短程任務,例如生成代碼或解答特定問題。然而,真實科研場景遠比想象復雜:科研人員需要經歷假設設定、實驗設計、代碼調試、結果分析的完整閉環,這個過程可能持續數小時甚至數天,且失敗是常態。SciMaster團隊敏銳捕捉到這一痛點,將ML-Master 2.0定位為“為真實機器學習工程而生”的自主智能體,其核心目標是在無人工干預的條件下,實現超長程自主探索。

ML-Master 2.0的突破性在于其“超長程自主”能力。團隊摒棄了將上下文視為一次性推理材料的傳統思路,轉而構建了一套層次化認知緩存(HCC)機制。該機制將科研過程中的認知資產分為三個層級:即時經驗(Experience)服務于當前決策,穩定知識(Knowledge)在任務中反復調用,先驗智慧(Wisdom)則跨任務遷移復用。通過動態篩選和層級提升,系統既能避免“上下文爆炸”導致的混亂,又能防止“遺忘歷史”造成的重復試錯,從而在長達數十小時的探索中保持方向穩定。

在MLE-bench的評測中,ML-Master 2.0展現了顯著優勢。該基準測試要求AI在真實機器學習工程場景中完成實驗設計、代碼實現、調試修正等完整流程,其難度遠超理想化的答題任務。測試結果顯示,ML-Master 2.0的獎牌率較Google、meta等團隊基于閉源模型的智能體提升28.3%,且全程無需人工干預。這一成績的取得,得益于其基于國產大模型DeepSeek-V3.2-Speciale的架構優化,以及HCC機制對長期試錯經驗的高效積累。

目前,ML-Master 2.0已進入實際應用階段。在理論計算物理領域,它協助科研人員模擬復雜量子系統,通過自主調整實驗參數,顯著縮短了模擬周期;在具身智能機器人訓練中,其超長程自主能力使機器人能夠持續優化動作策略,無需頻繁人工重置。這些落地案例證明,ML-Master 2.0不僅能在評測中領先,更能解決真實科研中的關鍵問題。

為推動技術普惠,SciMaster團隊已將ML-Master 2.0的核心代碼開源,并通過SciMaster平臺逐步開放產品化能力。目前,該平臺已上線Waiting List申請通道,感興趣的研究者和工程團隊可通過“SciMaster的朋友圈”提前體驗。這一舉措不僅降低了AI科研工具的使用門檻,更為全球AI4Science社區提供了中國方案的參考。

從科幻作品中的“智子”到現實中的自主AI科學家,人類對智能體探索科學的想象正逐步成真。ML-Master 2.0的突破表明,通過將認知過程視為可積累、可演化的資源,AI已具備在真實科研環境中長期成長的能力。在這場全球競逐中,中國團隊正以開源大模型為基石,書寫屬于自己的篇章。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新