馬斯克盛贊Kimi新突破！大模型底層架構迎來十年未有之變局

發布時間：2026-03-18 18:56 來源：快訊作者：胡穎

在人工智能領域，底層架構的創新往往比上層應用的優化更具顛覆性。月之暗面Kimi團隊近期發布的技術報告《Attention Residuals》（注意力殘差），通過重構殘差連接機制，在同等算力下將模型訓練效率提升至傳統方法的1.25倍，這項突破性成果引發了硅谷頂尖AI專家的廣泛關注。OpenAI前核心成員Jerry Tworek甚至將其譽為"深度學習2.0的開端"，認為這項研究標志著基礎范式變革的起點。

傳統大模型普遍采用殘差連接結構，這種自2015年ResNet論文提出的設計，通過保留原始輸入的"直通道"解決了深層網絡訓練難題。但Kimi團隊發現，這種等權疊加所有層輸出的方式存在根本性缺陷：隨著網絡深度增加，中間層的貢獻會被后續層的信息稀釋，導致大量計算資源浪費在無效訓練上。實驗數據顯示，現有模型中超過30%的神經網絡層對最終效果影響微乎其微。

研究團隊通過數學推導發現，殘差連接在深度方向的信息聚合問題，與循環神經網絡（RNN）在時間方向的信息衰減具有相同的數學結構。基于這個洞察，他們創造性地將Transformer的注意力機制從序列維度旋轉90度，應用到網絡深度維度。新設計的AttnRes模塊為每層配備動態查詢向量，使模型能夠自主選擇需要參考的前序層信息，就像為每個神經網絡層配備了智能信息篩選器。

在工程實現上，團隊采用分塊注意力機制（Block AttnRes）解決大規模訓練的內存瓶頸。通過將128層網絡劃分為8個計算塊，在塊間使用注意力機制、塊內保留傳統殘差連接，既保證了效果又控制了計算開銷。測試表明，這種設計在480億參數模型上僅增加4%訓練成本，就實現了驗證損失顯著下降。在博士級科學推理GPQA-Diamond基準測試中，新模型準確率提升7.5%，數學解題能力提升3.6%，代碼生成質量提升3.1%。

這項突破的深層意義在于改變了模型架構的設計范式。傳統模型偏好"寬而淺"的結構，而AttnRes技術使"窄而深"的架構成為更優選擇。可視化分析顯示，新模型訓練過程中各層梯度分布更加均勻，有效解決了PreNorm結構中后期層數值爆炸的問題。更值得關注的是，這種信息聚合方式的變革為跨模態訓練開辟了新路徑，Kimi團隊同期發布的Vision RL技術就通過類似機制，使純文本模型在視覺任務上的表現提升2.1%。

Kimi團隊同步披露的系列創新顯示，這場底層技術革命正在全面展開。他們研發的MuonClip優化器將計算效率提升至AdamW的兩倍，Kimi Linear架構在超長上下文處理中實現5-6倍解碼加速。這些突破共同構成了"Token效率×長上下文×智能體協作"的三維Scaling框架，標志著大模型發展從資源堆砌轉向效率革命的新階段。正如研究團隊在GitHub開源頁面所強調的："當別人忙著給通天塔添磚加瓦時，我們選擇重新夯實地基。"

更多>同類內容