從推理到行動：林俊旸揭秘Qwen試錯，大模型未來轉向智能體思維

發布時間：2026-03-28 19:19 來源：快訊作者：馮璃月

在人工智能領域，一場關于發展方向的深刻討論正愈演愈烈。近期，前阿里千問技術負責人林俊旸在離職后首次公開發聲，憑借一篇題為《從“推理”思維到“智能體思維”》的長文，為這場討論注入了新的思考，引發了行業內的廣泛關注。他明確指出，大模型的未來并非單純比拼推理鏈的長度，而是要學會“為行動而思考”，通過與世界的互動來解決實際問題。

這篇長文不僅是對千問研發歷程的深度復盤，更是對整個AI行業未來走向的一次重新審視。當OpenAI的o1、DeepSeek-R1等模型將“推理模型時代”推向高潮時，林俊旸卻提出了一個更為根本的問題：大模型究竟應該以何種方式思考？答案，或許就隱藏在從“推理思維”到“智能體思維”的范式轉變之中。

回顧千問團隊的探索歷程，2025年初的一次大膽嘗試令人印象深刻。團隊試圖將“思考模式”與“指令模式”融合于同一模型之中，打造出后來的Qwen3。林俊旸的初衷十分美好：一個先進的模型應當具備自動調節算力投入的能力，根據問題的難易程度靈活應對——簡單問題直接作答，復雜問題深入思考，難題則全力推演。然而，現實卻給了他們沉重的一擊。合并后的模型在思考時變得啰嗦猶豫，指令模式也失去了原有的干脆、穩定與低成本優勢。問題并非出在模型架構上，而是源于兩種模式在數據分布和行為目標上的巨大差異，強行融合只會導致“兩頭受損”，而非相互補充。

這次失敗讓林俊旸深刻認識到，單純延長推理鏈、堆砌算力并非AI發展的終極答案。當整個行業都在熱衷于探討“如何讓模型思考得更久”時，他卻開始思考：AI的思考究竟應該服務于什么目的？

要解答這個問題，就需要深入理解推理思維與智能體思維這兩種截然不同的“大腦”模式。推理思維，以OpenAIo1、DeepSeek-R1為代表，其核心在于靜態、內部、獨白式的長推理鏈。它的目標在于追求思考的質量和正確性，例如解數學題、編寫代碼或通過基準測試。在實現方式上，模型在封閉環境中獨自思考，通過延長推理鏈、增加計算量來輸出越來越長的“思考過程”文本。然而，這種思維模式的局限性也十分明顯：它只能回答問題，卻無法解決問題——即便知道答案，也缺乏將其付諸實踐的能力；能夠生成方案，卻無法確保方案的落地執行。

相比之下，智能體思維則是一種全新的方向。它強調為行動而思考，在環境中思考，并通過反饋閉環不斷修正自身。其目標并非“思考得足夠久”，而是“利用思考來支撐有效行動”，在與世界的互動中持續推進任務。在實現方式上，模型不再孤立地進行推演，而是邊思考邊行動——調用各種工具、獲取反饋信息、在失敗后調整計劃，并在多輪交互中保持思路的一致性。這種思維模式賦予了模型處理純推理模型無法解決的問題的能力，例如何時停止思考并采取行動、選擇何種工具、整合嘈雜的環境信息、修訂計劃以及維持多輪交互的一致性等。

Anthropic的Claude系列為林俊旸提供了關鍵啟發。Claude3.7作為“可控預算的混合推理模型”，以及Claude4在推理與工具調用之間的交錯進行，都表明思考不再僅僅是為了展示，而是為了服務于編碼、工具調用、長時任務和智能體工作流等實際需求。

智能體思維的落地實施，離不開一個核心概念——HarnessEngineering（駕馭工程）。林俊旸將其比喻為AI的“腳手架”和模型的“操作系統”。如果把大模型比作“引擎”，那么Harness就是圍繞引擎打造的“車”——沒有它，再強大的引擎也無法發揮作用。從本質上講，Harness是為AI搭建一個包含環境、工具、約束、反饋循環和多智能體協同機制的完整系統。它的作用在于將“裸模型”轉化為能夠在現實任務中持續行動、修正并完成工作的Agent（智能體）。用公式表示就是：Agent=Model+Harness——模型是大腦，而Harness則是手腳、眼睛和控制系統。

Harness的核心價值在于解決“執行難題”。很多時候，模型執行任務失敗并非因為不夠聰明，而是由于外部系統過于復雜混亂，導致模型迷失方向、重復失敗或忘記目標。Harness正是為了解決這些問題而設計的：它能夠協調模型調用API、數據庫、代碼執行器等工具，使“思考”能夠落地為“行動”；通過將行動結果反饋給模型，讓它了解“做對了沒有”，并據此修正策略；設定規則和沙箱環境，防止模型“作弊”（如直接搜索答案、濫用工具）；協調規劃器、領域專家和子智能體之間的分工，使復雜任務能夠高效推進。

然而，在智能體時代，核心競爭力將轉向系統工程能力。環境設計將成為“一等研究對象”，環境的穩定性、真實性、覆蓋面和反饋豐富度將變得至關重要——就像在SFT時代人們癡迷于數據多樣性一樣，現在需要癡迷于環境質量。訓推協同也將成為關鍵，訓練和推理需要緊密結合，使模型能夠在接近生產的環境中學習，解決“推理側等待反饋、訓練側斷糧”的低效問題。反作弊與魯棒性也不容忽視，需要防范“獎勵作弊”行為，提升評估器和環境的抗利用能力。同時，多智能體接口的設計也至關重要，需要建立高效的協同機制，讓不同智能體能夠各司其職，控制上下文，避免污染。

智能體思維的終極意義在于推動AI從“被動回答問題的百科全書”轉變為“主動解決問題的數字行動者”。以安排商務晚宴為例，傳統大模型可能會為你生成菜單、推薦餐廳并撰寫邀請函，但聯系餐廳、預訂、發送邀請和確認等后續工作仍需你自己完成。而AI智能體則只需你提供“下周三8人晚宴，人均500元，CEO海鮮過敏”等基本信息，它就能自動查詢日歷、篩選餐廳、預訂場地、發送邀請并提醒你進行最終確認。

這場從推理思維到智能體思維、從訓練模型到訓練系統、從比拼算法到比拼Harness工程能力的變革，并非技術細節的簡單優化，而是AI從“能思考”到“能做事”的本質跨越。隨著這一變革的深入推進，真正的AI強者將不再是“會解題的學霸”，而是“能辦事的實干家”。我們也將迎來一個AI真正融入日常生活、切實解決實際問題的新時代。

更多>同類內容