移動云×華為昇騰：“大EP+PD分離”架構實現單卡吞吐量跨越式提升！

在面向下一代AI基礎設施的關鍵技術攻關中，移動云與華為昇騰計算團隊深度協同，實現了大模型推理引擎的架構級突破。雙方基于昇騰AI基礎軟硬件平臺，針對DeepSeek大模型完成了大規模專家并行（Expert Parallelism，簡稱“大EP”）與預填充-解碼分離（Prefill-Decoding，簡稱“PD分離”）兩大核心技術的全棧驗證。此次驗證，標志著國產算力體系在高并發推理場景的技術成熟度邁入新階段。

“大EP”技術：通過精準的專家按需調度與高效通信機制，解決了MoE模型因專家稀疏激活導致的計算與通信資源浪費問題，使MoE模型推理效率更接近稠密模型。

“PD分離”技術：將推理過程中的Prefill和Decode階段解耦，分別部署在專用節點（P節點負責高并行Prompt處理，D節點負責低延遲Token生成），解決了兩階段資源需求錯配問題，顯著提升資源利用率和系統吞吐量。

PD分離技術示意圖

共建全棧測評規范，樹立行業評估標桿

移動云與華為昇騰團隊深度協同，共同制定大模型推理集群全棧測評規范。該規范涵蓋算力密度、高并發吞吐、互聯帶寬、集合通信、計算精度、功耗經濟性、穩定性與高可用保障八大核心維度，既填補了國產算力評估框架的空白，也為千億級模型部署奠定了堅實評估基礎。

覆蓋核心應用場景，精準契合真實需求

測評團隊針對512至64K的上下文長度范圍，系統覆蓋短輸入-短輸出、短輸入-長輸出、長輸入-短輸出、長輸入-長輸出四類核心范式，納入了智能客服問答、金融報告解析、創意內容生成、代碼邏輯分析等23個細分場景的測評數據。這一全面覆蓋確保測評結果能真實反映實際業務負載下的性能表現，完整呈現從日常對話交互到復雜長文本解析的性能情況，為差異化場景的技術選型提供精準量化依據。

各類場景性能數據分析圖

“大EP+PD分離”：單卡吞吐提效近5倍

在相同上下文場景測試中，“大EP+PD分離”架構較單機方案實現突破性提升：20輸入512輸出場景下，單卡吞吐量較單機提升一倍以上；7K輸入1K輸出場景下，單卡吞吐量較單機提升近五倍。該數據驗證了PD分離技術成功突破顯存墻瓶頸，實現資源利用率的代際跨越。

動態資源調度，實現算力最優配置

集群架構支持根據輸入輸出長度動態調節PD節點配比，以實現最優資源拓撲。這一架構為公有云大模型推理池的精細化資源調度提供了底層支撐。

本次移動云與華為昇騰的聯合技術測評，不僅系統性驗證了“大EP+PD分離”架構在差異化場景中的效能表現，更沉淀出可復用的標準化評估體系。依托這一成果，移動云將持續迭代公有云大模型推理池技術架構，推出更具性價比的產品，加速推動大語言模型規模化落地。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/90319.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/90319.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/90319.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！