在面向下一代AI基礎設施的關鍵技術攻關中,移動云與華為昇騰計算團隊深度協同,實現了大模型推理引擎的架構級突破。雙方基于昇騰AI基礎軟硬件平臺,針對DeepSeek大模型完成了大規模專家并行(Expert Parallelism,簡稱“大EP”)與預填充-解碼分離(Prefill-Decoding,簡稱“PD分離”)兩大核心技術的全棧驗證。此次驗證,標志著國產算力體系在高并發推理場景的技術成熟度邁入新階段。
“大EP”技術:通過精準的專家按需調度與高效通信機制,解決了MoE模型因專家稀疏激活導致的計算與通信資源浪費問題,使MoE模型推理效率更接近稠密模型。
“PD分離”技術:將推理過程中的Prefill和Decode階段解耦,分別部署在專用節點(P節點負責高并行Prompt處理,D節點負責低延遲Token生成),解決了兩階段資源需求錯配問題,顯著提升資源利用率和系統吞吐量。
PD分離技術示意圖
共建全棧測評規范,樹立行業評估標桿
移動云與華為昇騰團隊深度協同,共同制定大模型推理集群全棧測評規范。該規范涵蓋算力密度、高并發吞吐、互聯帶寬、集合通信、計算精度、功耗經濟性、穩定性與高可用保障八大核心維度,既填補了國產算力評估框架的空白,也為千億級模型部署奠定了堅實評估基礎。
覆蓋核心應用場景,精準契合真實需求
測評團隊針對512至64K的上下文長度范圍,系統覆蓋短輸入-短輸出、短輸入-長輸出、長輸入-短輸出、長輸入-長輸出四類核心范式,納入了智能客服問答、金融報告解析、創意內容生成、代碼邏輯分析等23個細分場景的測評數據。這一全面覆蓋確保測評結果能真實反映實際業務負載下的性能表現,完整呈現從日常對話交互到復雜長文本解析的性能情況,為差異化場景的技術選型提供精準量化依據。
各類場景性能數據分析圖
“大EP+PD分離”:單卡吞吐提效近5倍
在相同上下文場景測試中,“大EP+PD分離”架構較單機方案實現突破性提升:20輸入512輸出場景下,單卡吞吐量較單機提升一倍以上;7K輸入1K輸出場景下,單卡吞吐量較單機提升近五倍。該數據驗證了PD分離技術成功突破顯存墻瓶頸,實現資源利用率的代際跨越。
動態資源調度,實現算力最優配置
集群架構支持根據輸入輸出長度動態調節PD節點配比,以實現最優資源拓撲。這一架構為公有云大模型推理池的精細化資源調度提供了底層支撐。
本次移動云與華為昇騰的聯合技術測評,不僅系統性驗證了“大EP+PD分離”架構在差異化場景中的效能表現,更沉淀出可復用的標準化評估體系。依托這一成果,移動云將持續迭代公有云大模型推理池技術架構,推出更具性價比的產品,加速推動大語言模型規模化落地。