在人工智能領域,底層架構的創新往往比上層應用的優化更具顛覆性。月之暗面Kimi團隊近期發布的技術報告《Attention Residuals》(注意力殘差),通過重構殘差連接機制,在同等算力下將模型訓練效率提升至傳統方法的1.25倍,這項突破性成果引發了硅谷頂尖AI專家的廣泛關注。OpenAI前核心成員Jerry Tworek甚至將其譽為"深度學習2.0的開端",認為這項研究標志著基礎范式變革的起點。
傳統大模型普遍采用殘差連接結構,這種自2015年ResNet論文提出的設計,通過保留原始輸入的"直通道"解決了深層網絡訓練難題。但Kimi團隊發現,這種等權疊加所有層輸出的方式存在根本性缺陷:隨著網絡深度增加,中間層的貢獻會被后續層的信息稀釋,導致大量計算資源浪費在無效訓練上。實驗數據顯示,現有模型中超過30%的神經網絡層對最終效果影響微乎其微。
研究團隊通過數學推導發現,殘差連接在深度方向的信息聚合問題,與循環神經網絡(RNN)在時間方向的信息衰減具有相同的數學結構。基于這個洞察,他們創造性地將Transformer的注意力機制從序列維度旋轉90度,應用到網絡深度維度。新設計的AttnRes模塊為每層配備動態查詢向量,使模型能夠自主選擇需要參考的前序層信息,就像為每個神經網絡層配備了智能信息篩選器。
在工程實現上,團隊采用分塊注意力機制(Block AttnRes)解決大規模訓練的內存瓶頸。通過將128層網絡劃分為8個計算塊,在塊間使用注意力機制、塊內保留傳統殘差連接,既保證了效果又控制了計算開銷。測試表明,這種設計在480億參數模型上僅增加4%訓練成本,就實現了驗證損失顯著下降。在博士級科學推理GPQA-Diamond基準測試中,新模型準確率提升7.5%,數學解題能力提升3.6%,代碼生成質量提升3.1%。
這項突破的深層意義在于改變了模型架構的設計范式。傳統模型偏好"寬而淺"的結構,而AttnRes技術使"窄而深"的架構成為更優選擇。可視化分析顯示,新模型訓練過程中各層梯度分布更加均勻,有效解決了PreNorm結構中后期層數值爆炸的問題。更值得關注的是,這種信息聚合方式的變革為跨模態訓練開辟了新路徑,Kimi團隊同期發布的Vision RL技術就通過類似機制,使純文本模型在視覺任務上的表現提升2.1%。
Kimi團隊同步披露的系列創新顯示,這場底層技術革命正在全面展開。他們研發的MuonClip優化器將計算效率提升至AdamW的兩倍,Kimi Linear架構在超長上下文處理中實現5-6倍解碼加速。這些突破共同構成了"Token效率×長上下文×智能體協作"的三維Scaling框架,標志著大模型發展從資源堆砌轉向效率革命的新階段。正如研究團隊在GitHub開源頁面所強調的:"當別人忙著給通天塔添磚加瓦時,我們選擇重新夯實地基。"





















