Kimi新架構引行業關注！17歲高中生共著論文成焦點

發布時間：2026-03-18 12:29 來源：快訊作者：柳晴雪

研究團隊的核心靈感源于對網絡深度與序列時間維度的對偶性觀察。傳統殘差連接通過無差別累加各層信息，導致早期特征被稀釋且訓練不穩定。而Attention Residuals技術創造性地讓當前層動態選擇需要關注的前置層信息，通過可學習的偽查詢向量與前層輸出構建注意力機制，實現了信息的選擇性聚合。這種設計使模型在保持推理延遲增加不到2%的同時，訓練效率提升了25%。

為解決計算復雜度隨層數平方增長的問題，研究團隊提出了Block AttnRes分塊壓縮方案。該方案將連續層劃分為塊，每塊結束時生成摘要向量，后續層僅需關注塊間表征與塊內實時輸出。這種創新使注意力計算復雜度從O(L2)降至O(L·B)，在保持性能的同時顯著提升了計算效率。團隊還通過緩存式流水線通信等工程優化，進一步增強了技術的實用性。

這項研究的共同第一作者之一陳廣宇的成長軌跡頗具傳奇色彩。這位北京中學生通過黑客松活動嶄露頭角，其設計的"ThirdArm"機械輔助手項目獲得評委董科含的關注。在導師指導下，他系統學習了Transformer架構等底層技術，并通過研讀經典論文、參與GitHub開源項目逐步建立認知。這種從興趣到專業能力的蛻變，最終將他帶入了Kimi團隊的核心研發圈。

在Kimi Linear架構的驗證中，Attention Residuals技術展現了顯著優勢。同等計算預算下，采用該技術的模型在數學推理、代碼生成等任務中表現優異，多語言理解的一致性也得到改善。更值得關注的是，這項技術可作為殘差連接的直接替代方案，無需修改網絡其他部分即可實現性能提升。研究團隊將其視為"時間-深度對偶性"的重要實踐，認為深度神經網絡的層處理與循環神經網絡的時間步處理本質相通。

陳廣宇的學術經歷折射出新一代科研工作者的成長路徑。從經營跨境電商到專注底層技術研究，他的轉變始于對Transformer架構的深入探索。在硅谷實習期間，他參與了涉及144張H100顯卡的探索性項目，并在CEO指導下延伸至運營層面工作。這種從理論到實踐的完整訓練，使他能夠在Kimi團隊中迅速承擔核心研發任務。目前，該技術的完整實現已開源，為AI社區提供了新的研究范式。

更多>同類內容