Kimi新架構引硅谷熱議：馬斯克點贊Karpathy銳評，深度學習迎變革？

發布時間：2026-03-17 12:41 來源：快訊作者：鄭浩

傳統殘差結構自2015年提出以來，始終是神經網絡加深的基石。但當大模型層數突破數百層后，這種"一刀切"的信息疊加方式暴露出致命缺陷：所有層級輸出以固定權重涌入主干路徑，導致早期提取的關鍵特征被后續海量信息淹沒。研究團隊通過實驗發現，在PreNorm架構下，模型隱藏狀態范數隨深度呈指數增長，迫使深層網絡必須產生極大輸出才能獲得"發言權"，這種機制不僅造成參數浪費，更使梯度分布嚴重失衡——初始層梯度占總量80%以上，而深層梯度幾乎可以忽略不計。

AttnRes的創新在于將深度維度轉化為可檢索的特征空間。每層配備的"偽查詢向量"如同智能導航儀，通過計算與歷史層輸出的相似度生成注意力權重，配合RMSNorm歸一化防止異常值主導。為解決全量注意力計算成本過高的問題，團隊開發出分塊注意力機制：將數百層網絡劃分為8-16個模塊，模塊內維持基礎累加，模塊間進行精細注意力聚合。這種設計使顯存占用僅與模塊數量成正比，在Kimi Linear架構（480億參數）的實測中，端到端推理延遲增加不足2%，卻帶來1.25倍的算力效率提升。

在1.4萬億token訓練數據的驗證下，新架構展現出驚人的性能躍遷：在知識深度測試GPQA-Diamond中提升7.5分，數學競賽任務Minerva Math和代碼生成任務Humaneval分別提高3.6分和3.1分，通用理解基準MMLU和中文能力測試C-eval也全面超越傳統模型。更關鍵的是，梯度分布可視化顯示，所有層級均保持活躍狀態，首層嵌入信息能穿透數十層直達決策層，徹底解決了傳統架構的信息稀釋難題。

這項由18歲準高三生陳光宇領銜的研究，正在改寫深度學習的發展軌跡。前OpenAI核心研究員Jerry Tworek評價："當殘差連接從機械疊加變為智能調度，我們正在見證深度學習2.0時代的曙光。"隨著計算硬件突破內存帶寬瓶頸，這種深度維度的全量檢索機制或將重新定義模型擴展法則，使AGI之路不再依賴單純的參數堆砌，而是轉向更高效的深度調度藝術。

更多>同類內容