巨人財經 - 專業科技行業財經媒體

Kimi新架構引硅谷熱議:馬斯克點贊Karpathy銳評,深度學習迎變革?

   發布時間:2026-03-17 12:41 作者:鄭浩

傳統殘差結構自2015年提出以來,始終是神經網絡加深的基石。但當大模型層數突破數百層后,這種"一刀切"的信息疊加方式暴露出致命缺陷:所有層級輸出以固定權重涌入主干路徑,導致早期提取的關鍵特征被后續海量信息淹沒。研究團隊通過實驗發現,在PreNorm架構下,模型隱藏狀態范數隨深度呈指數增長,迫使深層網絡必須產生極大輸出才能獲得"發言權",這種機制不僅造成參數浪費,更使梯度分布嚴重失衡——初始層梯度占總量80%以上,而深層梯度幾乎可以忽略不計。

AttnRes的創新在于將深度維度轉化為可檢索的特征空間。每層配備的"偽查詢向量"如同智能導航儀,通過計算與歷史層輸出的相似度生成注意力權重,配合RMSNorm歸一化防止異常值主導。為解決全量注意力計算成本過高的問題,團隊開發出分塊注意力機制:將數百層網絡劃分為8-16個模塊,模塊內維持基礎累加,模塊間進行精細注意力聚合。這種設計使顯存占用僅與模塊數量成正比,在Kimi Linear架構(480億參數)的實測中,端到端推理延遲增加不足2%,卻帶來1.25倍的算力效率提升。

在1.4萬億token訓練數據的驗證下,新架構展現出驚人的性能躍遷:在知識深度測試GPQA-Diamond中提升7.5分,數學競賽任務Minerva Math和代碼生成任務Humaneval分別提高3.6分和3.1分,通用理解基準MMLU和中文能力測試C-eval也全面超越傳統模型。更關鍵的是,梯度分布可視化顯示,所有層級均保持活躍狀態,首層嵌入信息能穿透數十層直達決策層,徹底解決了傳統架構的信息稀釋難題。

這項由18歲準高三生陳光宇領銜的研究,正在改寫深度學習的發展軌跡。前OpenAI核心研究員Jerry Tworek評價:"當殘差連接從機械疊加變為智能調度,我們正在見證深度學習2.0時代的曙光。"隨著計算硬件突破內存帶寬瓶頸,這種深度維度的全量檢索機制或將重新定義模型擴展法則,使AGI之路不再依賴單純的參數堆砌,而是轉向更高效的深度調度藝術。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新