阿里未來生活實驗室新突破：專家分化學習讓MoE模型專家“各顯神通”

發布時間：2026-03-01 03:00 來源：快訊作者：周偉

在大模型技術飛速發展的當下，混合專家模型（MoE）已成為眾多頂尖模型的核心架構。從備受矚目的GPT - 5到性能卓越的DeepSeek - V3，MoE的身影無處不在。然而，一個關鍵問題逐漸浮現：模型中的眾多“專家”是否都在有效發揮各自的專業能力，還是存在大量重復工作？

在MoE預訓練過程中，原本期望不同專家能“各司其職”，但實際情況卻是專家們出現了“同質化”現象，即不同專家處理任務的方式和結果趨于一致。這一現象被學術界稱為“專家同質化”，它直接導致MoE模型參數利用不充分，限制了模型的擴展能力。阿里巴巴研究團隊深入探究后發現，MoE預訓練過程中的信息缺失是造成這一問題的根源。

為解決這一難題，阿里巴巴研究團隊提出了一種創新的專家分化學習策略。該策略巧妙利用預訓練數據中天然存在的“領域標簽”，設計出全新的輔助損失函數。此函數通過鼓勵不同領域的Token在路由統計信息上呈現差異，引導專家發展出真正的專業能力，從而有效避免專家同質化。

傳統MoE訓練中，負載均衡損失雖能提高總的路由多樣性，但存在明顯缺陷。它只關注所有專家是否都被使用，而不考慮具體使用情況，如同公司發獎金只看重員工是否忙碌，而不關注工作是否重復。這種“盲目”的提升方式，使得模型傾向于通過增加域內多樣性來應付，而非增加域間多樣性，導致專家無法真正分化。

阿里巴巴團隊提出的專家分化學習策略，核心在于一種名為專家分化損失（LED）的訓練目標函數。其設計基于一個關鍵的數學原理——多樣性分解定理，即總多樣性等于域間多樣性加上域內多樣性。LED的目標是精準鎖定并最大化域間多樣性，通過最大化不同領域之間的“排斥力”，將總多樣性的額度分配給“域間差異”，迫使專家實現功能分化。

為驗證分化學習的效果，研究團隊構建了兩種不同粒度的領域標簽體系進行實驗。一種是粗粒度的3 - Class體系，簡單分為英文、中文、數學；另一種是細粒度的49 - Class體系，利用分類器將數據細分為49個具體主題，如物理、歷史、計算機科學等。實驗結果顯示，使用49類細粒度標簽訓練的模型性能顯著優于使用3類標簽的模型，表明給專家的分工指令越具體，MoE模型涌現出的專業能力越強。

在3B、8B、15B三種規模的模型上，研究團隊進行了長達100B Tokens的從零預訓練。在預訓練階段最重要的訓練損失對比中，專家分化學習在語言建模損失上展現出穩定且顯著的訓練收益。在MMLU、C - eval、CMMLU、ARC等7個主流基準測試中，搭載專家分化學習的模型全面超越標準MoE基線。特別是在15B模型上，細粒度策略帶來的平均分提升超過1個百分點，這在預訓練領域通常意味著數百億Token的訓練差距。

為直觀展示專家分化效果，研究團隊繪制了三角單純形圖。圖中三角形三個頂點分別代表“數學”“中文”“英文”三個純粹領域。左圖（基線模型）中，所有點都集中在三角形中間，說明無論輸入何種領域，激活的專家都差不多，專家為“通用工”；右圖（采用專家分化學習的模型）中，點明顯向三角形頂點發散，緊貼邊緣，證明處理不同領域的專家已完全分化，實現了真正的專精特新。

值得一提的是，LED計算十分輕量級，僅涉及Router輸出的低維向量運算。實驗數據顯示，相比標準MoE，新方法的訓練吞吐量幾乎沒有下降，且額外推理成本為零。這一成果表明，通過重新思考MoE中“專家”的定義，利用數據中的“領域結構”作為監督信號，能有效挖掘MoE潛力，為預訓練技術發展提供了新思路。

更多>同類內容