前谷歌研究員發聲：AI發展不能盲目依賴算力，探索新方向才是關鍵

發布時間：2026-01-13 00:20 來源：快訊作者：顧雨柔

過去十年，人工智能（AI）領域的創新似乎遵循著一條簡單公式：增加參數數量、擴大數據規模、提升算力水平。然而，隨著行業進入新的發展階段，這種模式是否還能持續引領進步，已成為學界和產業界共同關注的焦點。當"算力決定一切"的信念逐漸滲透到整個領域的研究文化中，學術界因資源匱乏被邊緣化、研究參與地域高度集中、資本投入導致發表傳統封閉化等問題日益凸顯。

前谷歌大腦研究員、Cohere前AI研究負責人Sara Hooker近期發表文章指出，深度神經網絡領域持續擴展訓練計算資源的效率正在急劇下降。當前模型訓練中，大量資源被用于學習低頻特征的長尾部分，而所有跡象表明，這種投入已進入收益遞減階段。在模型規模增長速度放緩的背景下，如何讓模型從環境中有效學習并適應新知識，成為比單純擴大規模更關鍵的問題。

一個值得關注的現象是，近年來多個領域出現小模型性能超越大型模型的案例。這種逆轉趨勢表明，模型規模與性能之間的關系正在發生根本性轉變。研究發現，訓練后的模型可以刪除大量權重而不顯著影響性能，但若在訓練初期就限制權重數量，則無法達到同等效果。這種矛盾現象反映出深度學習技術本身存在效率問題——或許存在更優的學習方法，能夠擺脫對龐大網絡規模的依賴。

深度神經網絡在學習效率方面存在顯著缺陷：它們能快速掌握常見特征，卻需要消耗大量算力來學習罕見特征。由于訓練過程基于平均誤差最小化原則，低頻特征的信號在批量更新中被稀釋，導致現實世界中大量低頻屬性的學習變得異常困難。人類智能能夠高效處理這類長尾數據，而當前深度學習技術在這方面表現欠佳，大量計算資源被浪費在記憶長尾數據上。

數據質量對計算資源依賴度的降低作用正在顯現。研究表明，通過去重、數據修剪和優先級排序等手段改進訓練語料庫，可以彌補模型規模的不足。這意味著可學習參數數量并非性能提升的絕對限制因素，提高數據質量能夠減少對計算資源的需求。同時，指令微調、模型蒸餾、思維鏈推理、檢索增強生成等新型算法技術，正在通過優化訓練方式彌補計算量的不足，使相同資源能夠產生更顯著的效益。

模型架構設計對可擴展性的影響不容忽視。新架構的引入能夠從根本上改變計算量與性能之間的關系，使現有的擴展規律失去意義。當前流行的Scaling Law（擴展定律）雖然對預訓練測試損失預測有一定價值，但在真實下游任務中的表現往往混亂且不一致。這種理論局限性的根源在于，它試圖用算力規模精確預測復雜系統的未來表現，而現實中的能力提升曲線常不符合冪律分布，不同領域的可靠性差異巨大。

行業正在經歷方向性轉變：一方面，短期內仍會繼續擴大模型規模以榨取現有架構的剩余性能；另一方面，算力與性能的關系已變得難以預測，單純依賴算力的路徑正逐漸失去穩定性。前沿實驗室開始將研究重心轉向優化空間的根本性重塑，包括在推理階段投入更多計算資源、通過搜索和工具調用提升表現、利用合成數據塑造訓練分布等新方向。這些方法大多不依賴梯度更新，徹底偏離了以訓練為中心的傳統路徑。

智能系統的發展重心正在從"更強模型"轉向"更善互動的系統"。算法本身不再是唯一關鍵，交互方式、界面設計和多組件協同正在成為決定智能上限的重要因素。曾經屬于人機交互領域的小眾問題，如今已上升為計算機科學研究的核心議題。這種轉變標志著AI發展進入新階段，需要同時優化算法、數據和系統架構等多個維度。

現有以Transformer為核心的架構已顯現明顯的邊際收益遞減特征。隨著模型開始持續與世界互動，如何避免災難性遺忘成為關鍵挑戰，而依賴全局參數更新的深度網絡在持續學習方面存在先天局限。越來越多的跡象表明，下一次真正的技術躍遷需要全新的架構設計，能夠形成相對獨立、可專門化的知識區域，更接近人類大腦的學習方式。這種架構革新將成為突破當前發展瓶頸的關鍵所在。

更多>同類內容