MoE機制簡介
Mixture-of-Experts(MoE,混合專家)是一種“分而治之”的神經網絡架構思想。在MoE模型中,存在多個并行的子網絡,被稱為“專家”。每個專家通常擅長處理特定類型的輸入特征或知識片段。而在模型前向計算時,并非激活所有專家參與運算,而是通過一個專門的門控網絡(Gate Network)為每個輸入動態選擇少量最適合的專家來處理。這種機制使每個輸入僅激活模型中一小部分參數(稀疏激活),從而大幅提升模型參數規模上限的同時保持計算開銷在可控范圍內。
MoE的核心思想最早可以追溯到上世紀90年代:Jacobs等人在1991年提出了混合專家模型的概念,用多個專家網絡共同完成任務,并由一個門控( gating )機制根據輸入情況加權融合這些專家的輸出。現代深度學習中,MoE架構在大規模模型上的成功應用始于2017年,Shazeer等人將MoE引入到語言模型訓練中,構建了超大規模的MoE模型,使模型總參數量達到百億級,但每次推理只需激活其中極小一部分參數。這項工作證明了MoE在參數擴展與計算效率上的巨大潛力:相比于傳統“密集”模型需要激活所有參數,MoE模型通過稀疏激活節省了大量算力&#x