國產AI再創輝煌！上交團隊ML-Master 2.0登頂OpenAI基準，引領科研新范式

發布時間：2025-12-25 14:48 來源：快訊作者：沈如風

在AI科研領域，一場由中國團隊引領的變革正在悄然發生。由上海交通大學人工智能學院、上海算法創新研究院與深勢科技聯合組建的SciMaster團隊，近日憑借其自主研發的AI機器學習專家ML-Master 2.0，在OpenAI設立的權威基準測試MLE-bench中力壓國際科技巨頭，以56.44%的獎牌率登頂全球榜首。這一突破不僅標志著中國在AI驅動科研領域的技術實力，更展現了國產開源大模型DeepSeek-V3.2-Speciale的強大潛力。

傳統AI在科研中的應用往往局限于短程任務，例如生成代碼或解答特定問題。然而，真實科研場景遠比想象復雜：科研人員需要經歷假設設定、實驗設計、代碼調試、結果分析的完整閉環，這個過程可能持續數小時甚至數天，且失敗是常態。SciMaster團隊敏銳捕捉到這一痛點，將ML-Master 2.0定位為“為真實機器學習工程而生”的自主智能體，其核心目標是在無人工干預的條件下，實現超長程自主探索。

ML-Master 2.0的突破性在于其“超長程自主”能力。團隊摒棄了將上下文視為一次性推理材料的傳統思路，轉而構建了一套層次化認知緩存（HCC）機制。該機制將科研過程中的認知資產分為三個層級：即時經驗（Experience）服務于當前決策，穩定知識（Knowledge）在任務中反復調用，先驗智慧（Wisdom）則跨任務遷移復用。通過動態篩選和層級提升，系統既能避免“上下文爆炸”導致的混亂，又能防止“遺忘歷史”造成的重復試錯，從而在長達數十小時的探索中保持方向穩定。

在MLE-bench的評測中，ML-Master 2.0展現了顯著優勢。該基準測試要求AI在真實機器學習工程場景中完成實驗設計、代碼實現、調試修正等完整流程，其難度遠超理想化的答題任務。測試結果顯示，ML-Master 2.0的獎牌率較Google、meta等團隊基于閉源模型的智能體提升28.3%，且全程無需人工干預。這一成績的取得，得益于其基于國產大模型DeepSeek-V3.2-Speciale的架構優化，以及HCC機制對長期試錯經驗的高效積累。

目前，ML-Master 2.0已進入實際應用階段。在理論計算物理領域，它協助科研人員模擬復雜量子系統，通過自主調整實驗參數，顯著縮短了模擬周期；在具身智能機器人訓練中，其超長程自主能力使機器人能夠持續優化動作策略，無需頻繁人工重置。這些落地案例證明，ML-Master 2.0不僅能在評測中領先，更能解決真實科研中的關鍵問題。

為推動技術普惠，SciMaster團隊已將ML-Master 2.0的核心代碼開源，并通過SciMaster平臺逐步開放產品化能力。目前，該平臺已上線Waiting List申請通道，感興趣的研究者和工程團隊可通過“SciMaster的朋友圈”提前體驗。這一舉措不僅降低了AI科研工具的使用門檻，更為全球AI4Science社區提供了中國方案的參考。

從科幻作品中的“智子”到現實中的自主AI科學家，人類對智能體探索科學的想象正逐步成真。ML-Master 2.0的突破表明，通過將認知過程視為可積累、可演化的資源，AI已具備在真實科研環境中長期成長的能力。在這場全球競逐中，中國團隊正以開源大模型為基石，書寫屬于自己的篇章。

更多>同類內容