研究團隊的核心靈感源于對網絡深度與序列時間維度的對偶性觀察。傳統殘差連接通過無差別累加各層信息,導致早期特征被稀釋且訓練不穩定。而Attention Residuals技術創造性地讓當前層動態選擇需要關注的前置層信息,通過可學習的偽查詢向量與前層輸出構建注意力機制,實現了信息的選擇性聚合。這種設計使模型在保持推理延遲增加不到2%的同時,訓練效率提升了25%。
為解決計算復雜度隨層數平方增長的問題,研究團隊提出了Block AttnRes分塊壓縮方案。該方案將連續層劃分為塊,每塊結束時生成摘要向量,后續層僅需關注塊間表征與塊內實時輸出。這種創新使注意力計算復雜度從O(L2)降至O(L·B),在保持性能的同時顯著提升了計算效率。團隊還通過緩存式流水線通信等工程優化,進一步增強了技術的實用性。
這項研究的共同第一作者之一陳廣宇的成長軌跡頗具傳奇色彩。這位北京中學生通過黑客松活動嶄露頭角,其設計的"ThirdArm"機械輔助手項目獲得評委董科含的關注。在導師指導下,他系統學習了Transformer架構等底層技術,并通過研讀經典論文、參與GitHub開源項目逐步建立認知。這種從興趣到專業能力的蛻變,最終將他帶入了Kimi團隊的核心研發圈。
在Kimi Linear架構的驗證中,Attention Residuals技術展現了顯著優勢。同等計算預算下,采用該技術的模型在數學推理、代碼生成等任務中表現優異,多語言理解的一致性也得到改善。更值得關注的是,這項技術可作為殘差連接的直接替代方案,無需修改網絡其他部分即可實現性能提升。研究團隊將其視為"時間-深度對偶性"的重要實踐,認為深度神經網絡的層處理與循環神經網絡的時間步處理本質相通。
陳廣宇的學術經歷折射出新一代科研工作者的成長路徑。從經營跨境電商到專注底層技術研究,他的轉變始于對Transformer架構的深入探索。在硅谷實習期間,他參與了涉及144張H100顯卡的探索性項目,并在CEO指導下延伸至運營層面工作。這種從理論到實踐的完整訓練,使他能夠在Kimi團隊中迅速承擔核心研發任務。目前,該技術的完整實現已開源,為AI社區提供了新的研究范式。






















