巨人財經 - 專業科技行業財經媒體

阿里未來生活實驗室新突破:專家分化學習讓MoE模型專家“各顯神通”

   發布時間:2026-03-01 03:00 作者:周偉

在大模型技術飛速發展的當下,混合專家模型(MoE)已成為眾多頂尖模型的核心架構。從備受矚目的GPT - 5到性能卓越的DeepSeek - V3,MoE的身影無處不在。然而,一個關鍵問題逐漸浮現:模型中的眾多“專家”是否都在有效發揮各自的專業能力,還是存在大量重復工作?

在MoE預訓練過程中,原本期望不同專家能“各司其職”,但實際情況卻是專家們出現了“同質化”現象,即不同專家處理任務的方式和結果趨于一致。這一現象被學術界稱為“專家同質化”,它直接導致MoE模型參數利用不充分,限制了模型的擴展能力。阿里巴巴研究團隊深入探究后發現,MoE預訓練過程中的信息缺失是造成這一問題的根源。

為解決這一難題,阿里巴巴研究團隊提出了一種創新的專家分化學習策略。該策略巧妙利用預訓練數據中天然存在的“領域標簽”,設計出全新的輔助損失函數。此函數通過鼓勵不同領域的Token在路由統計信息上呈現差異,引導專家發展出真正的專業能力,從而有效避免專家同質化。

傳統MoE訓練中,負載均衡損失雖能提高總的路由多樣性,但存在明顯缺陷。它只關注所有專家是否都被使用,而不考慮具體使用情況,如同公司發獎金只看重員工是否忙碌,而不關注工作是否重復。這種“盲目”的提升方式,使得模型傾向于通過增加域內多樣性來應付,而非增加域間多樣性,導致專家無法真正分化。

阿里巴巴團隊提出的專家分化學習策略,核心在于一種名為專家分化損失(LED)的訓練目標函數。其設計基于一個關鍵的數學原理——多樣性分解定理,即總多樣性等于域間多樣性加上域內多樣性。LED的目標是精準鎖定并最大化域間多樣性,通過最大化不同領域之間的“排斥力”,將總多樣性的額度分配給“域間差異”,迫使專家實現功能分化。

為驗證分化學習的效果,研究團隊構建了兩種不同粒度的領域標簽體系進行實驗。一種是粗粒度的3 - Class體系,簡單分為英文、中文、數學;另一種是細粒度的49 - Class體系,利用分類器將數據細分為49個具體主題,如物理、歷史、計算機科學等。實驗結果顯示,使用49類細粒度標簽訓練的模型性能顯著優于使用3類標簽的模型,表明給專家的分工指令越具體,MoE模型涌現出的專業能力越強。

在3B、8B、15B三種規模的模型上,研究團隊進行了長達100B Tokens的從零預訓練。在預訓練階段最重要的訓練損失對比中,專家分化學習在語言建模損失上展現出穩定且顯著的訓練收益。在MMLU、C - eval、CMMLU、ARC等7個主流基準測試中,搭載專家分化學習的模型全面超越標準MoE基線。特別是在15B模型上,細粒度策略帶來的平均分提升超過1個百分點,這在預訓練領域通常意味著數百億Token的訓練差距。

為直觀展示專家分化效果,研究團隊繪制了三角單純形圖。圖中三角形三個頂點分別代表“數學”“中文”“英文”三個純粹領域。左圖(基線模型)中,所有點都集中在三角形中間,說明無論輸入何種領域,激活的專家都差不多,專家為“通用工”;右圖(采用專家分化學習的模型)中,點明顯向三角形頂點發散,緊貼邊緣,證明處理不同領域的專家已完全分化,實現了真正的專精特新。

值得一提的是,LED計算十分輕量級,僅涉及Router輸出的低維向量運算。實驗數據顯示,相比標準MoE,新方法的訓練吞吐量幾乎沒有下降,且額外推理成本為零。這一成果表明,通過重新思考MoE中“專家”的定義,利用數據中的“領域結構”作為監督信號,能有效挖掘MoE潛力,為預訓練技術發展提供了新思路。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新