MoR vs MoE架構對比：更少參數、更快推理的大模型新選擇

Google DeepMind 近期發布了關于遞歸混合（Mixture of Recursion）架構的研究論文，這一新型 Transformers 架構變體在學術界和工業界引起了廣泛關注。該架構通過創新的設計理念，能夠在保持模型性能的前提下顯著降低推理延遲和模型規模。

本文將深入分析遞歸混合（MoR）與專家混合（MoE）兩種架構在大語言模型中的技術特性差異，探討各自的適用場景和實現機制，并從架構設計、參數效率、推理性能等多個維度進行全面對比。

專家混合（Mixture of Experts）架構原理

專家混合架構將神經網絡模型分解為共享基礎層和多個專門化的專家模塊，其中每個專家模塊都是經過特定訓練的小型前饋神經網絡，負責處理特定類型的輸入模式。

在推理過程中，當輸入令牌通過模型時，路由機制會從眾多專家中選擇性激活少數幾個（通常為2-4個，總專家數可能達64個或更多）來處理該令牌。這種設計使得不同令牌在模型中遵循不同的計算路徑，從而實現了在不增加實際計算量的情況下擴大模型容量的目標。這一機制類似于在復雜任務中僅調用相關專業人員而非整個團隊的協作模式。

遞歸混合（Mixture of Recursion）架構原理

遞歸混合架構采用了截然不同的設計思路，它使用一個相對較小的共享計算塊（通常由幾個 Transformer 層組成），通過多次迭代處理來實現深度計算。每個輸入令牌根據其復雜程度自主決定所需的處理輪數。

在這種架構中，語義簡單的令牌會在較少的迭代后提前退出處理流程，而復雜令牌則需要經過更多輪次的遞歸處理。與 MoE 通過增加模型寬度來提升容量不同，MoR 通過動態調整計算深度來優化性能。此外，該架構通過智能緩存機制僅保留迭代過程中的必要信息，顯著降低了內存占用。整個系統中不存在多個專家模塊，而是通過單一計算塊的智能重用來實現高效計算。

基于以上架構原理，我們將從多個技術維度深入分析兩種架構的具體差異：

架構設計對比分析

專家混合架構采用分布式專家系統的設計理念，整個模型可以視為一個大型智能交換網絡。模型內部包含大量小型多層感知機專家模塊，但在處理任何單一令牌時，僅有少數專家（通常2-4個）處于激活狀態。路由器負責決策激活哪些專家，而其余專家保持空閑狀態。每個令牌在網絡中沿著獨特的路徑傳播，激活不同的專家組合。這種設計實現了大規模稀疏激活模型——雖然總體規模龐大，但實際計算量保持高效。

遞歸混合架構則采用了相反的設計策略，整個模型僅包含一個小型 Transformer 計算塊，所有令牌共享同一計算資源。令牌不是在不同專家間分流，而是在同一計算塊中進行多輪迭代處理。迭代次數完全由令牌特性決定：簡單令牌快速退出，復雜令牌進行深度處理。因此，模型呈現窄而深的特征，具備令牌特定的動態深度調整能力。

從系統架構角度來看，MoE 類似于配備多個專科醫生的大型綜合醫院，患者根據病情被路由到相應的專科部門；而 MoR 則像一位經驗豐富的全科醫生，根據患者病情復雜程度進行相應次數的深入診查——簡單感冒一次診斷即可，復雜心臟疾病則需要多輪深度檢查。

模型規模與參數效率分析

專家混合架構在運行時表現出輕量化特征，但其背后隱藏著巨大的參數規模。一個在推理時表現如同1.3B參數模型的MoE系統，實際上可能在所有專家模塊中總計包含超過100B個參數。雖然單次推理僅激活其中一小部分，但所有專家模塊都需要完整的存儲、加載和訓練支持。

這種設計帶來了計算稀疏性與內存密集性并存的特點。在訓練過程中，所有專家模塊都需要接收梯度更新，包括那些很少被激活的專家。如何在眾多專家間實現負載均衡成為了比預期更加復雜的工程挑戰。

相比之下，遞歸混合架構展現出極高的參數效率。通過在多個處理步驟中重復使用單一計算塊，該架構避免了參數數量的爆炸性增長，也無需管理復雜的專家模塊集合。實驗數據表明，一個118M參數的MoR模型在少樣本學習任務中的性能可以超越300M參數的標準Transformer模型，這種優勢并非來自更大的模型規模，而是源于更智能的計算資源利用策略。

當內存容量、存儲空間或部署成本成為關鍵考慮因素時，MoR架構相比MoE具有顯著優勢。

推理延遲性能評估

在實際部署環境中，推理延遲性能成為衡量架構實用性的關鍵指標。

專家混合架構雖然在理論分析中表現出良好的計算效率，但在實際實現中往往面臨性能瓶頸。每個令牌僅激活少數專家的策略雖然減少了計算量，但同時引入了內存訪問模式分散、計算負載不均衡以及跨設備通信開銷等問題。

對于基礎設施水平未達到Google或Microsoft等科技巨頭標準的部署環境，延遲、網絡擁塞和系統復雜性往往會抵消稀疏計算帶來的性能收益。MoE架構并非即插即用的解決方案，需要針對特定硬件環境進行深度優化。

遞歸混合架構有效避免了上述復雜性問題。由于不存在專家路由機制和跨設備通信需求，每個令牌在同一小型計算塊中進行迭代處理，并自主決定退出時機。這種設計確保了內存訪問的可預測性、支持早期退出機制，并在各種硬件環境下保持穩定的運行時性能，即使在中等性能的GPU上也能良好運行。部署MoR架構無需超算集群支持。

從推理延遲角度分析，MoR架構明顯優于MoE架構。