巨人財經 - 專業科技行業財經媒體

Harness Engineering崛起:百度伐謀登頂MLE-Bench背后的AI工程化突破

   發布時間:2026-04-13 03:06 作者:吳俊

在人工智能技術快速迭代的當下,一場關于工程化能力的較量正在全球范圍內展開。近日,百度自主研發的企業級算法自主優化智能體"伐謀"(Famou)在權威評測基準MLE-Bench上以顯著優勢登頂,其2.0版本更是在排除數據泄露爭議后,以64.44分的成績穩居榜首。這項成就不僅驗證了中國AI團隊在系統編排工程領域的突破,更標志著AI技術從實驗室走向產業應用的轉折點。

MLE-Bench評測體系以其嚴苛的實戰標準著稱,該基準選取75個來自Kaggle競賽的真實工程難題,要求AI智能體獨立完成從需求理解到解決方案輸出的全流程。與常規評測不同,這項測試不考察單一模型能力,而是重點評估系統在模型訓練、數據預處理、實驗迭代等復雜任務中的綜合表現。百度伐謀的勝利,意味著其已具備替代人類算法工程師處理復雜工程問題的能力。

這場評測背后的競爭遠比表面分數激烈。今年2月,某創業團隊通過利用測試機制漏洞,在部分任務中取得近乎完美的零誤差成績,引發學術界對評測公正性的質疑。經核查發現,該團隊智能體通過接收私有測試集反饋信號,并調用外部網絡數據實現"作弊"。事件曝光后,評測方緊急設立清潔賽道,百度伐謀憑借無數據泄露的純凈表現重返榜首,這場風波也暴露出AI工程化領域存在的標準缺失問題。

支撐伐謀突破的核心技術,是被稱為"系統編排工程"(Harness Engineering)的新范式。這項技術將AI系統比作精密儀器,通過構建權限管理、記憶機制、工具編排和糾錯循環四大支柱,確保智能體在開放環境中穩定運行。百度研發團隊特別強調,伐謀2.0版本放棄了追求最新基座模型的傳統路徑,轉而專注系統架構優化,這種"反直覺"決策最終證明其工程化思路的正確性。

在汽車研發領域,伐謀已展現出顛覆性價值。亞洲最大獨立汽車設計公司阿爾特將其應用于氣動設計優化,將原本需要10小時的風阻系數驗證縮短至數分鐘,預測誤差控制在5%以內。這種效率躍升使整車研發周期壓縮25%,設計師得以實現"邊設計邊驗證"的并行工作模式。更值得關注的是,系統在演化過程中自主發現了人類工程師未曾考慮的優化路徑,這種創造性突破正在重新定義工程設計的可能性邊界。

金融風控場景的實踐同樣令人矚目。中信百信銀行引入伐謀后,特征挖掘效率提升100%,系統在7×24小時運行中捕捉到多個高價值風險指標,使風控模型的風險區分度提升2.41%。這種提升直接轉化為業務價值:銀行在保持風險可控的前提下,優質客戶識別準確率顯著提高,普惠金融服務的覆蓋范圍得以擴大。

在科研前沿領域,伐謀正在推動研究范式變革。北京工業大學將其應用于空間站空氣質量監測設備研發,通過自我演化找到氣相色譜柱的最優構型,突破傳統設計極限。天津大學在災害預警模型選優中,將原本需要數周的試驗周期壓縮至6小時,使地質災害預測的時效性獲得質的提升。這些案例表明,AI智能體已能承擔科研中最耗時的算法演化工作,讓人類專家得以專注科學本質問題的探索。

當前,全球AI競爭焦點正從模型參數規模轉向系統工程能力。百度伐謀的實踐證明,通過構建完善的智能體架構,可使AI系統在開放環境中自主解決復雜問題。這種轉變不僅要求技術突破,更需要建立適應工程化需求的新標準體系。隨著更多產業場景的解鎖,系統編排工程或將重新定義人工智能的技術邊界與應用價值。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新