智元SOP系統：開啟機器人真實世界規模化智能進化新篇章

發布時間：2026-01-06 23:41 來源：快訊作者：顧青青

在機器人技術領域，一項名為SOP（Scalable Online Post-training）的創新系統近日引發關注。該系統由智元具身研究中心研發，旨在解決通用機器人在真實世界部署時面臨的兩大核心挑戰：既要適應復雜多變的物理環境，又要具備處理多樣化任務的泛化能力。這一突破性成果標志著機器人訓練范式從實驗室環境向真實場景的跨越式發展。

傳統VLA（視覺-語言-動作）預訓練模型雖具備基礎通用性，但在真實場景中常因任務特異性要求不足而受限。研究團隊指出，離線數據采集的邊際效益遞減問題，使得單純依賴預訓練的機器人難以持續提升性能。為此，SOP系統創造性地將訓練架構重構為"在線、集群、并行"模式，通過多機器人協同實現低延遲閉環學習：機器人集群在執行任務時實時采集交互數據，云端服務器同步進行模型更新，更新后的參數在分鐘級內回傳至所有機器人。

該系統的核心優勢體現在三方面：其一，分布式探索機制使狀態空間覆蓋率提升300%以上，有效突破單機訓練的探索瓶頸；其二，基于最新策略的實時推理采集，將分布偏移問題降低至傳統方法的1/5；其三，通過空間并行而非時間串行的訓練方式，在提升任務性能的同時保留了模型的泛化能力。實驗數據顯示，采用SOP框架的HG-DAgger算法在商超場景中實現33%的綜合性能提升，疊衣服任務的吞吐量更是躍升114%。

在硬件擴展性測試中，四機器人集群展現出顯著優勢。相同訓練時間內，集群系統的任務成功率比單機模式高出12%，且訓練效率提升至2.4倍。研究團隊特別強調，多機協同能有效防止模型過擬合單機特征，這種硬件擴展帶來的學習加速效應，為大規模機器人部署提供了可行性路徑。更引人注目的是，在預訓練數據邊際效應遞減的情況下，SOP系統仍能通過在線經驗實現突破性提升——僅需3小時在軌訓練即可獲得30%的性能增益，遠超80小時人類專家數據的4%提升。

實際場景測試進一步驗證了系統的魯棒性。當機器人被部署到全新環境時，雖然初始性能出現預期下降，但經過SOP系統數小時在線訓練后，其任務執行能力迅速恢復至穩定水平。這種"部署即進化"的特性，徹底改變了傳統機器人的生命周期管理范式。研究團隊形象地比喻："機器人不應是出廠即定型的工業產品，而應成為在真實世界中持續進化的智能生命體。"

目前，SOP系統已實現與主流后訓練算法的無縫集成，其模塊化設計支持快速迭代升級。這項突破不僅為通用機器人商業化落地掃清關鍵障礙，更開創了"群體智能"的新范式——通過共享個體經驗實現集體進化，讓每臺機器人的每一次操作都成為推動整個系統智能躍升的階梯。隨著更多真實場景數據的積累，這種訓練模式有望催生出具備真正自主進化能力的機器人生態系統。

更多>同類內容