DeepSeek MoE架構采用跨節點專家并行(EP)架構,在提升推理系統性能方面展現出巨大潛力。這一架構在發展進程中也面臨諸多挑戰,其未來究竟是會成為行業的主流方向,還是僅適用于特定場景,成為特定領域的最優解,引發了廣泛的討論。
PPIO派歐云作為專注于分布式推理的AI infra公司,致力于探索前沿推理加速技術。PD分離(prefill-decode分離)作為一種新興的推理范式,是我們近期重要的研究方向之一,其對EP架構的發展產生了深遠影響。
一、EP 架構的技術優勢與潛力
(一)提升系統吞吐能力
EP 架構通過增大 batch size,充分挖掘 GPU 矩陣乘法的并行計算潛力,顯著提升系統的吞吐能力。在深度學習模型的推理階段,較大的 batch size 能夠讓 GPU 在單位時間內處理更多數據。
以圖像識別模型為例,當 batch size 增大時,GPU 可以同時對更多張圖片進行特征提取與分類運算,大大加快了推理速度。這種機制充分利用了 GPU 的并行計算資源,使模型在數據處理效率上得到質的提升,為大規模數據的快速處理提供了有力支持。在大規模數據處理中,采用 EP 架構增大 batch size 后,處理速度較傳統架構提升了數倍,有效縮短了任務執行時間。
(二)降低推理延遲
將專家分散到不同 GPU 上的策略,有效減輕了單個 GPU 的訪存壓力,大幅降低了推理延遲。在處理大規模語言模型推理時,模型參數規模龐大,訪存操作往往成為制約性能的關鍵因素。EP 架構通過將專家分散開來,每個 GPU 只需處理少量專家的參數,極大減少了訪存需求,讓 GPU 能夠更專注于計算任務。這使得系統在處理實時性要求較高的任務時,能夠快速響應,滿足如智能客服實時問答、在線翻譯等場景對低延遲的嚴苛要求。
從技術發展趨勢來看,隨著數據量呈爆發式增長以及模型參數規模持續擴張,對推理系統的吞吐和延遲性能要求將越來越高。EP 架構這種能夠充分利用大規模計算資源、提升計算效率的設計理念,與未來技術發展需求高度契合。隨著硬件技術的不斷進步,如 GPU 性能的進一步提升、網絡帶寬和傳輸效率的持續拓展,EP 架構有望在更廣泛的場景中發揮其優勢,具備成為主流方向的技術潛力。
為什么EP能提升推理性能?
如下圖所示,我們以DeepSeek V3模型為例說明優化原理,在LLM的推理當中,往往存在算力、訪存、存儲等瓶頸,我們從瓶頸的角度進行分析:
假設我們在8張H100的機器上運行DeepSeek V3模型,輸入的prompt長度是1k,則推理階段激活的9個專家參數大小約為22G,KV Cache則只有30M左右,實際推理中,專家參數與KV Cache都需要加載到顯卡當中。與之相比,MoE在decode階段的算力訴求遠小于1TFLOPS,而H系列的顯卡有上千TFLOPS,遠遠達不到算力瓶頸。
從上面的分析中得知MoE不是一個算力瓶頸問題,可以根據顯卡性能和業務指標對瓶頸進行更進一步的分析,例如,TPOT指標一般要求50m,這就意味著只有50ms全部用于將數據從顯存搬運到SM,同時因為碎片等原因而導致真正帶寬利用率只有50%。按照以上假設,在50ms的范圍內,帶寬為3350G/S的H800顯卡僅能夠搬運85G的數據。
如果我們不做任何EP技術,按照顯卡85G的數據搬運能力,意味著每張卡的最大batchsize只能有4(batchsize=85G/22G),與之相反,我們簡單的將EP設置為8,則batchsize能達到32(batchsize=85G/(22G/8))。從這里就能看出,EP越大,每個顯卡需要加載的專家參數量就越小,從而導致batchsize越大,同時意味著更大的推理吞吐,這便是EP提升推理性能的原理。
值得一提的是,DeepSeek在decode階段采用的EP320,進一步將batchsize做的更大,從而將顯卡性能壓榨到極致。
二、特定場景下的卓越表現
在一些特定場景中,EP 架構已展現出無可比擬的優勢,成為最優解決方案。
🌍科學計算領域
在氣象模擬、分子動力學模擬等場景中,需要處理海量數據和復雜計算任務。這些任務通常具有大規模并行計算的特點,EP 架構能夠很好地適應這種需求,通過將不同的計算任務分配到多個節點的 GPU 上并行處理,大幅縮短計算時間,提高模擬的精度和效率。在氣象模擬中,利用 EP 架構可以快速模擬全球氣象變化,為氣象預測提供更準確的數據支持。
🔍互聯網搜索和推薦系統
在互聯網搜推系統中,實時性要求極高,需要在極短時間內對用戶的查詢或行為做出響應。EP 架構憑借其低延遲特性,能夠快速處理用戶請求,為用戶提供即時的搜索結果或個性化推薦,極大提升用戶體驗,在這類場景中具有獨特的應用價值。
💹金融行業
在金融行業的高頻交易場景中,每一秒的延遲都可能導致巨大的經濟損失。EP 架構的低延遲特性能夠滿足高頻交易對實時性的嚴格要求,幫助金融機構快速做出交易決策,搶占市場先機。
🏥醫療影像診斷領域
在醫療影像診斷領域,對于大量醫學影像數據的快速分析和診斷至關重要。EP 架構的高吞吐能力可以加速影像數據的處理,讓醫生能夠更快地獲取診斷結果,為患者的治療爭取寶貴時間。在醫療影像分析中,基于 EP 架構的系統能夠快速處理大量的 X 光、CT 等影像數據,輔助醫生更高效地進行疾病診斷。
三、面臨的挑戰限制其普適性
盡管 EP 架構優勢眾多,但在實際應用中也面臨一系列嚴峻挑戰,限制了其短期內成為主流方向的可能性。
跨節點通信開銷是 EP 架構面臨的主要問題之一。由于不同節點之間需要頻繁交換數據,網絡帶寬和延遲成為制約系統性能的瓶頸。在復雜多變的網絡環境下,網絡擁塞、節點故障等問題時有發生,這可能導致通信延遲大幅增加,甚至數據傳輸錯誤,嚴重影響系統的穩定性和性能。
不同節點的硬件性能差異也給 EP 架構帶來難題。即使在同一數據中心內,不同節點的 GPU 型號、內存大小、CPU 性能等也可能存在差異,這使得任務分配和負載均衡變得更加復雜。如果不能有效解決這些問題,部分節點可能成為系統的 “堵點”,降低整體性能。
構建和維護基于 EP 架構的推理系統需要較高的技術門檻和成本投入。這不僅需要專業的技術團隊來進行系統的設計、部署和優化,還需要大量的硬件資源和網絡基礎設施支持。對于許多中小企業來說,這種高昂的成本可能難以承受,限制了 EP 架構的廣泛應用。
四、PD 分離推理范式帶來的新變量
(一)PD 分離的原理與優勢
現有部署方式是prefill+decode共同部署在同一張GPU卡上。Prefill階段主要是算力瓶頸,decode階段主要是訪存瓶頸,這兩種不同的任務在同一張卡會造成資源浪費,硬件計算效率低。PD 分離,即 prefill-decode 分離,將推理過程中的預填充(prefill)階段和解碼(decode)階段分離處理,分別在不同的GPU卡上處理。在預填充階段,系統快速生成初始的中間結果(KV),這些結果通常具有一定的規律性和可并行性。EP 架構可以充分利用其大規模并行計算能力,在多個節點上同時進行預填充計算,大大提高預填充的速度。而在解碼階段,由于其對實時性要求較高,PD 分離允許硬件更專注地處理解碼任務,優化解碼算法和資源分配。通過這種任務分離,系統能夠更好地平衡不同階段的計算資源需求,提升整體推理效率。
(二)與 EP 架構結合的挑戰
PD 分離推理范式在與 EP 架構結合的實際應用中也面臨諸多挑戰。預填充和解碼階段的硬件資源劃分需要精確的算法支持,否則可能導致資源分配不合理。如果預填充階段分配過多資源,會造成解碼階段資源緊張,影響實時性;反之,預填充階段資源不足,則會拖慢整個推理速度。預填充和解碼階段之間的數據交互也帶來了額外的通信開銷。由于兩個階段可能在不同節點或不同計算資源上進行,如何高效地傳輸中間結果,確保數據的一致性和完整性,是需要解決的難題。在網絡環境不穩定或帶寬有限時,這種通信開銷可能嚴重影響推理性能。
五、Dense LLM 模型會消失嗎?
若 EP 架構成為未來主流方向,大模型參數持續增大,dense 模型并不會徹底消失,而是會在不同場景下與 EP 架構主導的模型形成互補關系。
1. EP 架構優勢適配大參數模型:隨著大模型參數規模不斷膨脹,EP 架構憑借獨特優勢更契合發展需求。在自然語言處理的超大規模語言模型推理中,EP 架構可確保模型快速響應。
2. dense 模型的獨特價值:dense 模型雖面臨參數增長帶來的挑戰,但仍有不可替代的價值。在一些對模型精度和連續性要求極高的場景,如高精度科學計算模擬、部分醫學圖像分析任務中,dense 模型能憑借其參數緊密連接的特性,提供更精準、連續的結果。dense 模型結構相對簡單,在一些資源受限、對模型復雜度要求不高的邊緣設備場景下,更易于部署和運行,能夠高效利用有限資源完成特定任務。
3. 二者的共存與互補:未來大模型發展中,EP 架構和 dense 模型并非相互替代。在數據中心等擁有強大計算資源的場景,EP 架構主導的模型可處理大規模、復雜的任務,發揮其并行計算和資源優化優勢。而在對精度、資源利用有特定要求的邊緣計算場景,dense 模型能繼續發揮作用。
六、未來發展走向
綜合來看,未來在大尺寸LLM推理/訓練領域,EP架構可能成為最優解。隨著網絡互聯技術進步和更智能的分布式計算框架的出現,EP 架構面臨的通信和負載均衡等問題有望得到有效解決。另外,PD 分離推理范式也為 EP 架構的發展帶來了新的可能性。如果二者能夠成功融合并克服現存問題,EP 架構的應用范圍或許會得到進一步拓展。
DeepSeek MoE架構采用跨節點專家并行(EP)架構,在提升推理系統性能方面展現出巨大潛力。這一架構在發展進程中也面臨諸多挑戰,其未來究竟是會成為行業的主流方向,還是僅適用于特定場景,成為特定領域的最優解,引發了廣泛的討論。
PPIO派歐云作為專注于分布式推理的AI infra公司,致力于探索前沿推理加速技術。PD分離(prefill-decode分離)作為一種新興的推理范式,是我們近期重要的研究方向之一,其對EP架構的發展產生了深遠影響。