EP 架構:未來主流方向還是特定場景最優解?

DeepSeek MoE架構采用跨節點專家并行(EP)架構,在提升推理系統性能方面展現出巨大潛力。這一架構在發展進程中也面臨諸多挑戰,其未來究竟是會成為行業的主流方向,還是僅適用于特定場景,成為特定領域的最優解,引發了廣泛的討論。

PPIO派歐云作為專注于分布式推理的AI infra公司,致力于探索前沿推理加速技術。PD分離(prefill-decode分離)作為一種新興的推理范式,是我們近期重要的研究方向之一,其對EP架構的發展產生了深遠影響。

一、EP 架構的技術優勢與潛力

(一)提升系統吞吐能力

EP 架構通過增大 batch size,充分挖掘 GPU 矩陣乘法的并行計算潛力,顯著提升系統的吞吐能力。在深度學習模型的推理階段,較大的 batch size 能夠讓 GPU 在單位時間內處理更多數據。

以圖像識別模型為例,當 batch size 增大時,GPU 可以同時對更多張圖片進行特征提取與分類運算,大大加快了推理速度。這種機制充分利用了 GPU 的并行計算資源,使模型在數據處理效率上得到質的提升,為大規模數據的快速處理提供了有力支持。在大規模數據處理中,采用 EP 架構增大 batch size 后,處理速度較傳統架構提升了數倍,有效縮短了任務執行時間。

(二)降低推理延遲

將專家分散到不同 GPU 上的策略,有效減輕了單個 GPU 的訪存壓力,大幅降低了推理延遲。在處理大規模語言模型推理時,模型參數規模龐大,訪存操作往往成為制約性能的關鍵因素。EP 架構通過將專家分散開來,每個 GPU 只需處理少量專家的參數,極大減少了訪存需求,讓 GPU 能夠更專注于計算任務。這使得系統在處理實時性要求較高的任務時,能夠快速響應,滿足如智能客服實時問答、在線翻譯等場景對低延遲的嚴苛要求。

從技術發展趨勢來看,隨著數據量呈爆發式增長以及模型參數規模持續擴張,對推理系統的吞吐和延遲性能要求將越來越高。EP 架構這種能夠充分利用大規模計算資源、提升計算效率的設計理念,與未來技術發展需求高度契合。隨著硬件技術的不斷進步,如 GPU 性能的進一步提升、網絡帶寬和傳輸效率的持續拓展,EP 架構有望在更廣泛的場景中發揮其優勢,具備成為主流方向的技術潛力。

為什么EP能提升推理性能?

如下圖所示,我們以DeepSeek V3模型為例說明優化原理,在LLM的推理當中,往往存在算力、訪存、存儲等瓶頸,我們從瓶頸的角度進行分析:

假設我們在8張H100的機器上運行DeepSeek V3模型,輸入的prompt長度是1k,則推理階段激活的9個專家參數大小約為22G,KV Cache則只有30M左右,實際推理中,專家參數與KV Cache都需要加載到顯卡當中。與之相比,MoE在decode階段的算力訴求遠小于1TFLOPS,而H系列的顯卡有上千TFLOPS,遠遠達不到算力瓶頸。

從上面的分析中得知MoE不是一個算力瓶頸問題,可以根據顯卡性能和業務指標對瓶頸進行更進一步的分析,例如,TPOT指標一般要求50m,這就意味著只有50ms全部用于將數據從顯存搬運到SM,同時因為碎片等原因而導致真正帶寬利用率只有50%。按照以上假設,在50ms的范圍內,帶寬為3350G/S的H800顯卡僅能夠搬運85G的數據。

如果我們不做任何EP技術,按照顯卡85G的數據搬運能力,意味著每張卡的最大batchsize只能有4(batchsize=85G/22G),與之相反,我們簡單的將EP設置為8,則batchsize能達到32(batchsize=85G/(22G/8))。從這里就能看出,EP越大,每個顯卡需要加載的專家參數量就越小,從而導致batchsize越大,同時意味著更大的推理吞吐,這便是EP提升推理性能的原理。

值得一提的是,DeepSeek在decode階段采用的EP320,進一步將batchsize做的更大,從而將顯卡性能壓榨到極致。

二、特定場景下的卓越表現

在一些特定場景中,EP 架構已展現出無可比擬的優勢,成為最優解決方案。

🌍科學計算領域

在氣象模擬、分子動力學模擬等場景中,需要處理海量數據和復雜計算任務。這些任務通常具有大規模并行計算的特點,EP 架構能夠很好地適應這種需求,通過將不同的計算任務分配到多個節點的 GPU 上并行處理,大幅縮短計算時間,提高模擬的精度和效率。在氣象模擬中,利用 EP 架構可以快速模擬全球氣象變化,為氣象預測提供更準確的數據支持。

🔍互聯網搜索和推薦系統

在互聯網搜推系統中,實時性要求極高,需要在極短時間內對用戶的查詢或行為做出響應。EP 架構憑借其低延遲特性,能夠快速處理用戶請求,為用戶提供即時的搜索結果或個性化推薦,極大提升用戶體驗,在這類場景中具有獨特的應用價值。

💹金融行業

在金融行業的高頻交易場景中,每一秒的延遲都可能導致巨大的經濟損失。EP 架構的低延遲特性能夠滿足高頻交易對實時性的嚴格要求,幫助金融機構快速做出交易決策,搶占市場先機。

🏥醫療影像診斷領域

在醫療影像診斷領域,對于大量醫學影像數據的快速分析和診斷至關重要。EP 架構的高吞吐能力可以加速影像數據的處理,讓醫生能夠更快地獲取診斷結果,為患者的治療爭取寶貴時間。在醫療影像分析中,基于 EP 架構的系統能夠快速處理大量的 X 光、CT 等影像數據,輔助醫生更高效地進行疾病診斷。

三、面臨的挑戰限制其普適性

盡管 EP 架構優勢眾多,但在實際應用中也面臨一系列嚴峻挑戰,限制了其短期內成為主流方向的可能性。

跨節點通信開銷是 EP 架構面臨的主要問題之一。由于不同節點之間需要頻繁交換數據,網絡帶寬和延遲成為制約系統性能的瓶頸。在復雜多變的網絡環境下,網絡擁塞、節點故障等問題時有發生,這可能導致通信延遲大幅增加,甚至數據傳輸錯誤,嚴重影響系統的穩定性和性能。

不同節點的硬件性能差異也給 EP 架構帶來難題。即使在同一數據中心內,不同節點的 GPU 型號、內存大小、CPU 性能等也可能存在差異,這使得任務分配和負載均衡變得更加復雜。如果不能有效解決這些問題,部分節點可能成為系統的 “堵點”,降低整體性能。

構建和維護基于 EP 架構的推理系統需要較高的技術門檻和成本投入。這不僅需要專業的技術團隊來進行系統的設計、部署和優化,還需要大量的硬件資源和網絡基礎設施支持。對于許多中小企業來說,這種高昂的成本可能難以承受,限制了 EP 架構的廣泛應用。

四、PD 分離推理范式帶來的新變量

(一)PD 分離的原理與優勢

現有部署方式是prefill+decode共同部署在同一張GPU卡上。Prefill階段主要是算力瓶頸,decode階段主要是訪存瓶頸,這兩種不同的任務在同一張卡會造成資源浪費,硬件計算效率低。PD 分離,即 prefill-decode 分離,將推理過程中的預填充(prefill)階段和解碼(decode)階段分離處理,分別在不同的GPU卡上處理。在預填充階段,系統快速生成初始的中間結果(KV),這些結果通常具有一定的規律性和可并行性。EP 架構可以充分利用其大規模并行計算能力,在多個節點上同時進行預填充計算,大大提高預填充的速度。而在解碼階段,由于其對實時性要求較高,PD 分離允許硬件更專注地處理解碼任務,優化解碼算法和資源分配。通過這種任務分離,系統能夠更好地平衡不同階段的計算資源需求,提升整體推理效率。

(二)與 EP 架構結合的挑戰

PD 分離推理范式在與 EP 架構結合的實際應用中也面臨諸多挑戰。預填充和解碼階段的硬件資源劃分需要精確的算法支持,否則可能導致資源分配不合理。如果預填充階段分配過多資源,會造成解碼階段資源緊張,影響實時性;反之,預填充階段資源不足,則會拖慢整個推理速度。預填充和解碼階段之間的數據交互也帶來了額外的通信開銷。由于兩個階段可能在不同節點或不同計算資源上進行,如何高效地傳輸中間結果,確保數據的一致性和完整性,是需要解決的難題。在網絡環境不穩定或帶寬有限時,這種通信開銷可能嚴重影響推理性能。

五、Dense LLM 模型會消失嗎?

若 EP 架構成為未來主流方向,大模型參數持續增大,dense 模型并不會徹底消失,而是會在不同場景下與 EP 架構主導的模型形成互補關系。

1. EP 架構優勢適配大參數模型:隨著大模型參數規模不斷膨脹,EP 架構憑借獨特優勢更契合發展需求。在自然語言處理的超大規模語言模型推理中,EP 架構可確保模型快速響應。

2. dense 模型的獨特價值:dense 模型雖面臨參數增長帶來的挑戰,但仍有不可替代的價值。在一些對模型精度和連續性要求極高的場景,如高精度科學計算模擬、部分醫學圖像分析任務中,dense 模型能憑借其參數緊密連接的特性,提供更精準、連續的結果。dense 模型結構相對簡單,在一些資源受限、對模型復雜度要求不高的邊緣設備場景下,更易于部署和運行,能夠高效利用有限資源完成特定任務。

3. 二者的共存與互補:未來大模型發展中,EP 架構和 dense 模型并非相互替代。在數據中心等擁有強大計算資源的場景,EP 架構主導的模型可處理大規模、復雜的任務,發揮其并行計算和資源優化優勢。而在對精度、資源利用有特定要求的邊緣計算場景,dense 模型能繼續發揮作用。

六、未來發展走向

綜合來看,未來在大尺寸LLM推理/訓練領域,EP架構可能成為最優解。隨著網絡互聯技術進步和更智能的分布式計算框架的出現,EP 架構面臨的通信和負載均衡等問題有望得到有效解決。另外,PD 分離推理范式也為 EP 架構的發展帶來了新的可能性。如果二者能夠成功融合并克服現存問題,EP 架構的應用范圍或許會得到進一步拓展。

DeepSeek MoE架構采用跨節點專家并行(EP)架構,在提升推理系統性能方面展現出巨大潛力。這一架構在發展進程中也面臨諸多挑戰,其未來究竟是會成為行業的主流方向,還是僅適用于特定場景,成為特定領域的最優解,引發了廣泛的討論。

PPIO派歐云作為專注于分布式推理的AI infra公司,致力于探索前沿推理加速技術。PD分離(prefill-decode分離)作為一種新興的推理范式,是我們近期重要的研究方向之一,其對EP架構的發展產生了深遠影響。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/896956.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/896956.shtml
英文地址,請注明出處:http://en.pswp.cn/news/896956.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

[密碼學實戰]Java實現國密(SM2)密鑰協商詳解:原理、代碼與實踐

一、代碼運行結果 二、國密算法與密鑰協商背景 2.1 什么是國密算法? 國密算法是由中國國家密碼管理局制定的商用密碼標準,包括: SM2:橢圓曲線公鑰密碼算法(非對稱加密/簽名/密鑰協商)SM3:密碼…

動漫短劇開發公司,短劇小程序搭建快速上線

在當今快節奏的生活里,人們的娛樂方式愈發多元,而動漫短劇作為新興娛樂形式,正以獨特魅力迅速崛起,成為娛樂市場的耀眼新星。近年來,動漫短劇市場呈爆發式增長,吸引眾多創作者與觀眾目光。 從市場規模來看…

第四十五:創建一個vue 的程序

html <div id"app">{{ msg }}<h2>{{ web.title }}</h2><h3>{{ web.url }}</h3> </div> js /*<div id"app"></div> 指定一個 id 為 app 的 div 元素{{ }} 插值表達式, 可以將 Vue 實例中定義的數據在視圖…

docer swarm集群部署springboot項目

1.準備兩臺服務器&#xff0c;安裝好docker、docker-compose 因為用到了docker倉庫&#xff0c;安裝harbor,可以從github下載離線安裝包 2. 我這邊用到了gitlab-ci,整體流程也都差不多 1&#xff09;打包mvn clean install 2&#xff09;打鏡像 docker-compose -f docker-compo…

Python測試框架Pytest的參數化

上篇博文介紹過&#xff0c;Pytest是目前比較成熟功能齊全的測試框架&#xff0c;使用率肯定也不斷攀升。 在實際工作中&#xff0c;許多測試用例都是類似的重復&#xff0c;一個個寫最后代碼會顯得很冗余。這里&#xff0c;我們來了解一下pytest.mark.parametrize裝飾器&…

開發博客系統

前言 準備工作 數據庫表分為實體表和關系表 第一&#xff0c;建數據庫表 然后導入前端頁面 創建公共模塊 就是統一返回值&#xff0c;異常那些東西 自己造一個自定義異常 普通類 mapper 獲取全部博客 我們只需要返回id&#xff0c;title&#xff0c;content&#xff0c;us…

【Spring Boot 應用開發】-05 命令行參數

Spring Boot 常用命令行參數 Spring Boot 支持多種命令行參數&#xff0c;這些參數可以在啟動應用時通過命令行直接傳遞。以下是一些常用的命令行參數及其詳細說明&#xff1a; 1. 基本配置參數 --server.port端口號 指定應用程序運行的HTTP端口&#xff0c;默認為8080。 jav…

20250304學習記錄

第一部分&#xff0c;先來了解一下各種論文期刊吧&#xff0c;畢竟也是這把歲數了&#xff0c;還什么都不懂呢 國際期刊&#xff1a; EI收集的主要有兩種&#xff0c; JA&#xff1a;EI源刊 CA&#xff1a;EI會議 CPCI也叫 ISTP 常說的SCI分區是指&#xff0c;JCR的一區、…

2024 年 MySQL 8.0.40 安裝配置、Workbench漢化教程最簡易(保姆級)

首先到官網上下載安裝包&#xff1a;http://www.mysql.com 點擊下載&#xff0c;拉到最下面&#xff0c;點擊社區版下載 windows用戶點擊下面適用于windows的安裝程序 點擊下載&#xff0c;網絡條件好可以點第一個&#xff0c;怕下著下著斷了點第二個離線下載 雙擊下載好的安裝…

網絡安全檢查漏洞內容回復 網絡安全的漏洞

網絡安全的核心目標是保障業務系統的可持續性和數據的安全性&#xff0c;而這兩點的主要威脅來自于蠕蟲的暴發、黑客的攻擊、拒絕服務攻擊、木馬。蠕蟲、黑客攻擊問題都和漏洞緊密聯系在一起&#xff0c;一旦有重大安全漏洞出現&#xff0c;整個互聯網就會面臨一次重大挑戰。雖…

汽車智能鑰匙中PKE低頻天線的作用

PKE&#xff08;Passive Keyless Entry&#xff09;即被動式無鑰匙進入系統&#xff0c;汽車智能鑰匙中PKE低頻天線在現代汽車的智能功能和安全保障方面發揮著關鍵作用&#xff0c;以下是其具體作用&#xff1a; 信號交互與身份認證 低頻信號接收&#xff1a;當車主靠近車輛時…

uiautomatorviewer定位元素報Unexpected ... UI hierarchy

發現問題 借鑒博客 Unexpected error while obtaining UI hierarchy android app UI自動化-元素定位輔助工具 Unexpected error while obtaining UI hierarchy&#xff1a;使用uiautomatorviewer定位元素報錯 最近在做安卓自動化,安卓自動化主要工作之一就是獲取UI樹 app端獲…

通俗的方式解釋“零錢兌換”問題

“零錢兌換”是一道經典的算法題目&#xff0c;其主要問題是&#xff1a;給定不同面額的硬幣和一個總金額&#xff0c;求出湊成總金額所需的最少硬幣個數。如果沒有任何一種硬幣組合能組成總金額&#xff0c;返回-1。 解題思路 動態規劃&#xff1a;使用動態規劃是解決零錢兌…

GBT32960 協議編解碼器的設計與實現

GBT32960 協議編解碼器的設計與實現 引言 在車聯網領域&#xff0c;GBT32960 是一個重要的國家標準協議&#xff0c;用于新能源汽車與監控平臺之間的數據交互。本文將詳細介紹如何使用 Rust 實現一個高效可靠的 GBT32960 協議編解碼器。 整體架構 編解碼器的核心由三個主要組…

Halcon 車牌識別-超精細教程

車牌示例 流程: 讀取圖片轉灰度圖閾值分割,找車牌內容將車牌位置設置變換區域形狀找到中心點和弧度利用仿射變換,斜切車牌旋轉轉正,把車牌摳出來利用形態學操作拼接車牌號數字訓練ocr開始識別中文車牌 本文章用到的算子(解析) Halcon 算子-承接車牌識別-CSDN博客 rgb1_to_gray…

UDP透傳程序

UDP透傳程序 本腳本用于在 設備 A 和 設備 B 之間建立 UDP 數據轉發橋梁&#xff0c;適用于 A 和 B 設備無法直接通信的情況。 流程&#xff1a; A --> 電腦 (中繼) --> B B --> 電腦 (中繼) --> A 需要修改參數&#xff1a; B_IP “192.168.1.123” # 設備 B 的…

Holtek HT82V42A深度解析:CCD/CIS信號處理的集成化解決方案

——簡化圖像采集系統設計的終極利器 一、HT82V42A核心參數與外設資源 HT82V42A是Holtek專為圖像傳感器信號處理設計的模擬前端芯片&#xff0c;集成CCD/CIS信號處理與LED驅動功能&#xff0c;關鍵參數如下&#xff1a; 參數類別規格說明信號處理通道單通道CCD/CIS模擬信號輸…

詳細分析KeepAlive的基本知識 并緩存路由(附Demo)

目錄 前言1. 基本知識2. Demo2.1 基本2.2 拓展2.3 終極 3. 實戰 前言 &#x1f91f; 找工作&#xff0c;來萬碼優才&#xff1a;&#x1f449; #小程序://萬碼優才/r6rqmzDaXpYkJZF 基本知識推薦閱讀&#xff1a;KeepAlive知識點 從實戰中學習&#xff0c;源自實戰中vue路由的…

記一次誤禁用USB導致鍵盤鼠標失靈的修復過程

背景說明 在電腦上插入了一個USB hub&#xff0c;然后彈窗提示&#xff1a;“集線器端口上出現電涌”&#xff0c;點開讓選擇“重置”或者“關閉”&#xff0c;不小心點了關閉&#xff0c;結果這個usb口就被關了&#xff0c;再插任何東西都沒反應&#xff0c;找了很多辦法都恢…

小米手機如何錄制屏幕?手機、電腦屏幕錄制方法分享

大家最近有沒有遇到想記錄手機屏幕操作的情況&#xff1f; 比如精彩的游戲瞬間、有趣的視頻教程&#xff0c;或者需要錄制屏幕來制作演示材料。小米手機在這方面可是個好幫手&#xff0c;今天就來給你好好嘮嘮&#xff0c;小米手機如何錄制屏幕&#xff0c;以及后續如何處理這…