當全球AI競爭進入白熱化階段,一家來自中國的AI公司正以顛覆性技術突破引發行業震動。月之暗面旗下Kimi團隊發布的《Attention Residuals》技術報告,通過重構深度學習核心架構,在硅谷科技圈掀起討論熱潮。這項被OpenAI前研究副總裁Jerry Tworek稱為"深度學習2.0"的技術革新,不僅連續三天登頂Twitter全球熱搜榜,更獲得馬斯克"令人印象深刻"的公開贊譽。
傳統深度學習模型依賴的殘差連接結構,自2015年ResNet論文提出后十年未有根本性突破。這種"全盤累加"的信息處理方式,如同將所有提示詞無差別堆砌給AI,導致關鍵信息被稀釋、計算效率低下。Kimi團隊提出的注意力殘差機制,通過引入動態權重分配,使模型能自主判斷各層級信息的價值權重,實現信息處理的"結構性選擇"。實驗數據顯示,改進后的48B模型訓練效率提升1.25倍,有效改寫了大模型訓練的成本曲線。
在英偉達GTC 2026大會上,創始人楊植麟的演講揭開了Kimi K2.5的技術全貌。針對行業沿用近十年的技術標準,團隊提出三大重構方案:用MuonClip優化器替代傳統Adam,在萬億參數訓練中實現2倍計算效率;開發Kimi Linear混合注意力架構,使超長上下文解碼速度提升5-6倍;以及將注意力殘差機制嵌入殘差連接,構建信息選擇性聚合通道。這些創新形成完整技術閉環,直指現有架構的核心瓶頸。
技術突破帶來的商業價值正在顯現。作為全球用戶量最大的AI編程平臺Cursor和獨立搜索服務商Perplexity唯一接入的中國開源模型,K2.5憑借90%性能、七分之一價格的競爭優勢,在海外API市場實現日均訪問量10-20倍增長。今年1月上線的Kimi Claw訂閱服務,個人支付訂單環比暴增8280%,2月持續上漲123.8%。資本市場的追捧更為直接——近三個月估值飆升4倍,融資規模超過多數同行IPO募資額。
楊植麟在演講中特別強調技術范式的轉變:"十年前受限于算力,新想法難以通過規模化實驗驗證。如今我們擁有完整的縮放階梯,可以嚴謹驗證每個技術假設。"這種研究理念的升級,使Kimi擺脫"中國版ChatGPT"的標簽束縛,直接參與全球AI底層創新競爭。從優化器革命到注意力機制重構,從殘差連接突破到智能體集群演進,這家中國公司正以系統性技術革新,重新定義下一代大模型的發展路徑。






















