前阿里千問技術負責人林俊旸在離職后發布的長文中,對AI大模型領域的技術路線變革提出了重要觀點。他指出,當前行業正經歷從“推理型思考”向“智能體思考”的范式轉移,這一轉變標志著技術競爭的核心要素已發生根本性變化。以OpenAI o1和DeepSeek-R1為代表的推理模型浪潮,推動行業從單純擴大預訓練數據規模,轉向強化學習后訓練階段的深度優化,數學驗證與代碼生成等可量化領域成為評估模型能力的關鍵指標。
在技術實踐層面,林俊旸披露了千問團隊在Qwen3研發過程中遭遇的架構沖突。該團隊曾嘗試構建支持混合思考模式的系統,但發現指令模型與推理模型存在根本性矛盾:前者需要極致的響應速度與簡潔架構,后者則依賴大量計算資源進行復雜推演。這種數據分布與目標函數的差異,導致強行融合的模型在兩項指標上均表現平平。基于商業場景對效率與成本的嚴苛要求,Qwen2507版本最終選擇推出分離的30B指令模型與235B推理模型,而Anthropic等企業仍在探索統一架構的可行性。
對于技術演進方向,林俊旸強調智能體強化學習將重塑行業技術棧。他預測,未來模型將不再局限于內部推理軌跡的延長,而是通過與環境交互實現計劃迭代。這種轉變要求訓練與推理過程徹底解耦,同時帶來新的安全挑戰——當大模型獲得調用搜索引擎、執行代碼等外部工具權限后,如何防范獎勵函數被惡意操縱將成為關鍵課題。他特別指出,行業競爭壁壘正從算法創新轉向系統工程能力,包括高質量交互環境構建、防作弊機制設計以及多智能體協作框架開發等領域。























