巨人財經 - 專業科技行業財經媒體

17歲高三生領銜Kimi團隊創新架構,馬斯克點贊,AI界迎來新星力量

   發布時間:2026-03-23 09:27 作者:胡穎

中國人工智能領域迎來突破性進展——月之暗面(Moonshot AI)團隊提出的"注意力殘差"(Attention Residuals)架構引發全球關注。這項發表于GitHub的技術成果,通過重構Transformer模型的信息流動機制,使480億參數模型訓練效率提升1.25倍,被特斯拉CEO埃隆·馬斯克評價為"令人印象深刻的工作"。該研究的核心創新在于引入動態注意力機制,取代傳統殘差連接中固定的權重累加方式,使神經網絡能夠根據輸入內容選擇性聚合歷史層信息。

論文第一作者陳廣宇的履歷同樣引發震動。這位來自深圳國際學校的17歲高三學生,在加入月之暗面僅5個月后,便以核心成員身份參與這項顛覆性研究。其社交媒體顯示,這位同時擁有美國計算機奧林匹克競賽鉑金組經歷和Kimi內部黑客馬拉松冠軍的少年,目前擔任機器學習研究員,直接參與中國頂尖開源大模型的核心架構開發。研究團隊特別澄清,論文前三位作者貢獻相當,陳廣宇強調這是集體智慧的結晶。

這項被命名為AttnRes的新架構,通過引入輸入依賴的softmax注意力機制,實現了深度維度上的范式轉變。傳統模型采用線性累加方式處理各層輸出,而新方法允許每層動態檢索歷史信息,形成類似自注意力的聚合模式。技術驗證顯示,該架構在Kimi Linear模型中表現優異,特別在處理長序列依賴時展現出顯著優勢。行業分析師指出,這項突破可能重新定義大模型的基礎架構標準。

月之暗面作為2023年成立的AI新銳,由清華大學校友楊植麟領銜創立,其開發的Kimi大模型已在國際基準測試中多次比肩GPT-4等頭部模型,被業界譽為中國"AI四小虎"之一。陳廣宇的雙重身份——在校學生與頂尖研究員——創造了AI領域的新紀錄。這位預計今年畢業的天才少年,此前已入選羅德信托全球未來領袖計劃,并在美國Tilde Research實驗室完成AI研究項目,其成長軌跡引發教育界對人才培養模式的重新思考。

研究團隊公布的實驗數據顯示,采用AttnRes架構的模型在保持精度的同時,顯著降低了計算資源消耗。這種效率提升在訓練超大規模模型時尤為重要,可能為AI基礎設施建設提供新的優化路徑。目前,相關代碼已在GitHub開源,全球開發者可自由訪問技術細節。陳廣宇表示,團隊正在探索該架構在多模態學習等領域的應用潛力,期待與全球研究者共同推進技術邊界。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新