智算網絡中Scale-out和Scale-up網絡的技術原理

e439bdbc935b06c297831c303570d489.jpeg 

智算網絡中Scale-out網絡和Scale-up網絡的本質區別是什么?

   

一、什么是智算中心的Scale-out網絡和Scale-up網絡

數據中心網絡總體上可分為兩大類:通算網絡和智算網絡。通算網絡主要用于支持傳統的計算任務和應用,如企業的IT系統、網站托管、電子郵件服務等;而智算網絡則專門用于支持人工智能(AI)和機器學習(ML)任務。這類網絡需要更高的計算能力和更低的延遲,以處理大量的數據并執行復雜的計算任務。

當前,主流的機器學習(ML)智算網絡和通算網絡在架構上有很大差異。通算網絡通常只有一張網,而智算網絡則可能包含兩張網。如下圖所示:

3d059682cea5bd43e82626a3533ab082.jpeg

智算中心的兩張網中,一張是通過ETH/IB實現GPU之間的RDMA功能的網絡,即所謂的前端網絡,通常稱作Scale-out網絡。一張是GPU之間高速互連,可以實現POD內跨GPU之間的內存的讀寫,即所謂的后端網絡,即通常說的scale-up網絡。

在大模型的智算網絡中,訓練和推理對后端網絡的需求各有不同。以marvell的圖為例,訓練scale-up網絡時所需的帶寬容量要求更高。

1e24a195d937cfd2e6c558f4a6b9e4f4.jpeg

二、scale-out和scale-up網絡現狀

Nvidia的scale-up網絡是一種面向GPU互聯的網絡,可以實現GPU算力Scale Up擴展。該網絡采用自研NVLink互聯和NVLink網絡來實現GPU算力Scale Up擴展,相比于基于InfiniBand網絡和基于Ethernet的RoCE網絡形成差異化競爭力。

當前,基于Nvidia的NVLink技術的scale-up網絡廣泛應用于N系統的GPU。以DGX B200 NVL72為例,其由18個compute tray和9個switch tray組成,實現了高效的擴展。這一網絡由Nvidia緊密控制,確保了穩定性與性能。

Scale-out網絡以DGX B200 NVL72為例,每個compte tray的4個智能網卡和1個DPU卡組成。該網絡支持N系IB/ETH或開放的ETH系,如UEC等性能提升方案GSE。國內智算網絡普遍采用基于scale-out開發的架構。

根據Nvidia的解釋,cluster和superpod這兩個概念需要被區分開來。在superpod中,所有的GPU都通過NVLink高速總線互相連接,形成了一個全帶寬互連的域,也就是所謂的scale-up網絡。

Cluster是由所有GPU服務器組成的一個網絡群的總稱,一個cluster可以有多個superpod組成,通過scale-out網絡來連接。Superpod是一個邏輯設備,它代表了一組Pod,這些Pod共享相同的硬件資源和存儲卷。

    對于N系的GPU服務器來說,目前的Scale-up的網絡規模一般可以認為是scale-out網絡的十倍。從下圖中 GB200 超級芯片的接口上可以看出,NVLink、InfiniBand、Ethernet 三種網絡的容量配比為,NVLink 網絡 14.4Tb/s,InfiniBand 網絡 1.6Tb/s,Ethernet 網絡 400Gb/s。三種網絡的端口帶寬之比為 NVLink : InfiniBand : Ethernet = 36 : 4 : 1。

e3075239ae7db42842f20d1fc51369f5.jpeg

"Scale-up的Nvlink網絡,其帶寬是RDMA IB的近10倍,為CPU間數據存儲提供了強大支持。這種網絡主要應用于智能網卡的域中,并在實際應用中作為scale-out網絡發揮作用。"

三、為什么要區別這兩個網絡

本質上,Scale-out和Scale-up兩張網旨在實現GPU間內存數據的高效傳輸。然而,為何要采用雙網絡并制造如此大的騷動呢?

    這個主要是起源于兩點,一個是大模型的涌現現象,即對于ML來說,模型越大越好,夸張點說是上不封頂。另外一個就是在目前的大模型訓練的時候,大模型的數據量對于單臺GPU的服務器來說已經太大,必須通過各種的并行處理的方式,把數量的處理和存儲分散到多個GPU中去,這樣也就會帶來一系列的問題,包括各種并行之間的通信開銷,并行分割的開銷,編程的復雜程度等等。例如,Transformer模型的注意力機制前饋網絡都需要大量的內存和計算資源。更大的GPU內存可以容納整個模型,避免頻繁的分割和通信開銷。

    對于大模型訓練,最理想的方式就是一個超級大的supersupersuper chip的GPU,這樣的話,不可以節省并行切割的開銷。但是,現實肯定不現實的,為此,大家就想到了一個辦法,把大模型分解為兩大類,一個是需要在高頻度進行數據交互的,例如張量并行和專家并行。把這些并行處理放置到GPU之間通過超高帶寬,超低時延互連的網絡中進行處理,壓縮他們之間的通訊開銷成本。當然,這個網絡的成本是否非常昂貴的,這就是Scale-up網絡,或 Load-Store/內存語義網絡。這是一個追求極致性能的互連網絡

另一類方法是將數據分解為相對獨立的并行任務,如流水線并行和數據并行。這類技術被稱為消息語義網絡或scale-out網絡。利用現有的以太網技術體系,結合適度的改造,我們可以在保持較低成本的同時,更好地滿足性能需求。

在scale-out網絡中,RDMA(RoCE)發揮著關鍵作用。盡管它提供了類似內存的訪問模式,但在處理大量小容量內存讀寫時,如張量并行中的數據操作,效率相對較低。因此,我更傾向于不將其歸為內存語義網絡或Load-Store語義網絡。

    通過上面兩個網絡的劃分,實現了性能和成本的最優化。

四、時延是這個兩個網絡的本質區別

"現在,我們來探討這兩個網絡的本質差異。在大模型訓練中,它們都負責GPU間的數據傳輸,但存在不可忽視的區別。"

1、動態時延和靜態時延

網絡時延是指數據從發送端到接收端所需的時間。根據您的描述,網絡時延可以分為靜態時延和動態時延兩部分。靜態時延包括基本的互聯、轉發和交換時延,這些是網絡硬件和設計的固有特性,通常與網絡的物理布局和設備性能有關。動態時延與網絡的帶寬、吞吐量和利用率等相關,受網絡當前負載和流量管理策略的影響,因此會隨時間和網絡狀態變化。例如通過UEC對以太網進行優化,主要就是降低了網絡的動態時延。

2、scale-up需要納秒級的時延

"Scale-up網絡,也被稱為總線域網絡,是一種極致性能的網絡結構。在這個領域中,GPU能將其他GPU的存儲視為本地存儲區,實現直接讀寫。因此,時延控制變得極其重要。如果GPU主頻超過1GHz且時鐘周期小于1納秒,例如在內存訪問中,本地內存訪問的典型時延通常低于100納秒。為了匹配這種速度,我們在通過網絡進行內存訪問時,需要將時延控制在1微秒以下。"

為滿足特定業務需求,網絡設計需緊密耦合于業務,摒棄傳統網絡的傳輸層和網絡層。信用機制(Credit)和鏈路層的重傳機制確保可靠性,而非數據包式重傳。

    當前,基于PAM4調制和基于ADC和DSP架構的112Gbps和224Gbps SerDes電互聯技術對低時延的scale-up網絡都可視是一個負擔。DSP架構的112Gbps的SerDes的靜態時延約為20納秒,由于算法復雜度的提升,224Gbps SerDes技術的靜態時延可能會更高。當前接口采用的標準RS(544, 514) FEC,在100Gbps吞吐時引入的時延大約為100納秒,因此如果還是使用PAM4的方案的話,信道編碼方面也需要引入全新的FEC方案。

3、scale-out網絡的時延可達到ms級

在scale-out網絡中,傳統網絡通常采用分層架構,例如OSI模型,具有清晰定義的傳輸層和網絡層,以支持更加靈活的通訊和數據傳輸方式。這種分層架構也帶來了時延不可控的代價。

為了解決這個問題,一些新的網絡架構被提出來,例如SDN(軟件定義網絡)和NFV(網絡功能虛擬化)。這些架構可以提供更高的靈活性和可編程性,從而減少時延并提高性能。

傳統數據中心網絡的業務受限于帶寬,直接影響用戶體驗。如圖像、音頻質量,視頻清晰度,文件下載速度等皆與帶寬息息相關。更高的帶寬意味著更大的業務承載量和更優的用戶體驗。為確保用戶感受系統的即時響應,端到端網絡時延需控制在1至10毫秒內,整體時延不超過100毫秒。這是基于人感知能力設定的上限,超出此范圍可能導致用戶感覺系統反應遲緩或不響應。

面向AI/HPC的計算網絡與傳統數據中心網絡在業務特征上具有相似性,如單業務流帶寬遠低于接口或管道帶寬;流級負載均衡提高網絡利用率并避免亂序;異步和準同步通信方式適應業務流間關聯性較弱;聚合后的流量可能在長周期內呈現規律性;對低時延要求不高;端側傳輸層確保可靠性。

考慮到成本和技術親和性,scale-out網絡采用傳統網絡的產業鏈元素,如交換機和光模塊。在此基礎上進行性能升級,如UEC和GSE等,以降低網絡動態時延。盡管如此,基于傳統網絡設計的靜態時延仍需關注。

為了實現超大規模集群和提升技術能力,scale-out網絡通過多級交換機組成的網絡連接。這使得整個網絡的時延降至毫秒級,提高了性能。

Scale-up網絡和scale-out網絡的本質區別在于,scale-up網絡是直接提升機器的配置規格,是最直接的擴展手段,計算和存儲均可通過 Scale-up 的方式來進行擴展,但擴展空間有限,相對成本較高。而scale-out網絡則是通過增加更多的服務器來擴展系統,這樣可以更好地利用資源,提高系統的可擴展性和靈活性 。

     五、scale-out和scale-up,是否可以合成一張網呢?

Scale-out網絡與Scale-up網絡分別代表了數據中心網絡的兩種不同發展路徑,它們在設計理念和應用目標上有著顯著差異。Scale-out網絡沿襲了傳統的數據中心架構,而Scale-up網絡則著重于通過提升單一設備的性能來增強整個系統的能力。

傳統網絡技術側重于連接地理分散的節點,實現遠程通訊和信息交換,滿足長距離傳輸、異構設備互聯及多樣化業務的需求。而scale-up網絡則專注于在較小的物理范圍內集成更多資源至單個節點,從而提高系統整體性能并緊密耦合于業務。

為了滿足人工智能(AI)和通用人工智能(AGI)時代智算網絡的需求,僅依靠傳統數據中心網絡的load-store能力或從傳統load-store技術中提升網絡性能已不再足夠。這是因為傳統數據中心網絡技術的演進無法實現scale-up網絡所需的低時延和高可靠性,同時還可能帶來不必要的兼容性負擔。另一方面,基于load-store技術的擴展也無法滿足網絡規模的快速增長需求。這種局限性的根本原因在于兩者的發展目標和出發點存在本質差異。

在業務層面,scale-up/NVLink網絡以load-store語義為基礎,而scale-out/InfiniBand則采用消息語義。有趣的是,224G代際的NVSwitch和InfiniBand交換機規格相近,但這兩種網絡在未來將保持獨立發展,不會融合。

 

-對此,您有什么看法見解?-

-歡迎在評論區留言探討和分享。-

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/62698.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/62698.shtml
英文地址,請注明出處:http://en.pswp.cn/web/62698.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

HCIA筆記7--OSPF協議入門

文章目錄 0. 路由分類1. OSPF介紹1.1 概念1.2 報文類型 2. 鄰接關系的建立2.1 鄰居關系的建立2.2 鄰接關系的形成2.3 ospf狀態機 3. DR與BDR3.1 為什么要有DR和BDR?3.2 DR和BDR的選舉原則 4. ospf的配置4.1 內部優先級 5. 問題5.1 三層環路如何解決? Ref…

C05S06-Nginx的內置變量和代理

一、常見內置變量 內置變量說明$uri請求的URL,不包括主機和參數$request_uri請求的URL,包括主機和參數$host請求的主機名$http_user_agent客戶端信息,瀏覽器和操作系統$remote_addr客戶端IP地址$remote_port客戶端端口$server_addr服務端IP地…

mysql排序問題

mysql 建數據庫時,需要指定 字符集 和 排序規則 建表時,也可以指定 也可以指定具體的字段 安照下面的sql順序執行插入,它們的排序是什么樣的? INSERT into test_sort (uid,create_time) VALUE (d,now()) INSERT into test_sort (u…

JAVA 圖形界面編程 AWT篇(1)

前言 為了應對JAVA課設,小編走上了java的圖形界面編程的道路,通過博客分享自己的學習歷程,并進行筆記的記錄。 AWT(Abstract Window Toolkit)介紹 AWT(抽象窗口工具包)是 Java 最早的圖形用戶界…

vulhub復現CVE-2021-44228log4j漏洞

目錄 一:漏洞概述 二:漏洞原理 三:漏洞利用 lookup功能: JNDI解析器: ldap服務: RMI: 四:漏洞復現 4.1靶場 4.2dnslog測試 4.3部署jndi-injection-exploit 4.4打開監聽端口 4.5觸發請…

ip地址獲取失敗啥意思?ip地址獲取失敗怎么回事

在日常的網絡使用中,我們時常依賴于穩定的IP地址來確保數據的順暢傳輸和設備的正常識別。然而,有時我們會遇到“IP地址獲取失敗”的困擾,這不僅阻礙了我們的網絡訪問,還可能帶來一系列的網絡連接問題。那么,IP地址獲取…

如何在 Android 項目中實現跨庫傳值

背景介紹 在一個復雜的 Android 項目中,我們通常會有多個庫(lib),而主應用程序(app)依賴所有這些庫。目前遇到的問題是,在這些庫中,libAd 需要獲取 libVip 的 VIP 等級狀態&#xf…

非常規使用client-go踩坑記

0x01 背景 編程者總有想偷懶的傾向。至少我的初衷時,盡量復用現有的代碼。但有時也會變得弄巧成拙。 這不,最近需要在一個Go服務里添加一個CRD的緩存等待。熟悉k8s的同學都知道,向 kube-apiserver 提交一個更新,到同一個進程中的…

OpenGL ES詳解——多個紋理實現混疊顯示

目錄 一、獲取圖片紋理數據 二、著色器編寫 1. 頂點著色器 2. 片元著色器 三、綁定和繪制紋理 1. 綁定紋理 2. 繪制紋理 四、源碼下載 一、獲取圖片紋理數據 獲取圖片紋理數據代碼如下: //獲取圖片1紋理數據 mTextureId loadTexture(mContext, R.mipmap.…

java引用相關(四大引用類型,軟引用避免oom,弱引用表,虛引用和引用隊列,可達性分析算法)

1. 什么是引用? 問題:什么是引用?Java中的引用是如何工作的? 答案: 引用 是對象的句柄,用于訪問堆內存中的對象。在Java中,引用變量實際上存儲的是對象的地址,而不是對象本身。通…

十一、容器化 vs 虛擬化-Docker

文章目錄 前言一、Docker 介紹1. 簡介2. 應用場景3. 特點4. Docker和虛擬機之間的區別5. 解決痛點1. 解決依賴兼容2. 解決操作系統環境差異3. 小結 二、Docker 架構三、工作流程五、Docker 核心組件及其工作機制1. Docker 客戶端(Docker Client)2. Docke…

linux學習筆記01 基礎命令

目錄 創建 touch 創建文件 (創建但是不打開) vi / vim 創建文件 (創建一個文件并打開) mkdir 創建文件夾 切換目錄 cd 查看 pwd 查看當前目錄完整路徑 ls 查看目錄信息 dir 查看目錄信息 ll 表示查看目標目錄下的信息 ls -a 查看當前目錄下的…

【深度學習】深刻理解多模態模型CLIP

CLIP(Contrastive Language-Image Pretraining) 是由 OpenAI 提出的一個多模態模型,旨在學習視覺和語言的聯合表示,能夠通過圖像和文本之間的對比學習來實現圖像和文本之間的緊密聯系。CLIP 模型可以通過自然語言描述理解和處理圖…

android 聊天界面鍵盤、表情切換絲滑

1、我們在聊天頁面時候,往往會遇到,鍵盤、表情、其他選擇切換時候頁面會出現掉下來再彈起問題,這是因為,我們切換時候,鍵盤異步導致內容View高度變化,頁面掉下來后,又被其他內容頂起這種很差視覺…

Nginx 緩存系統 proxy_cache詳解

系列文章目錄 提示:這里可以添加系列文章的所有文章的目錄,目錄需要自己手動添加 例如:第一章 Python 機器學習入門之pandas的使用 提示:寫完文章后,目錄可以自動生成,如何生成可參考右邊的幫助文檔 文章目…

mysql時間戳格式化yyyy-mm-dd

格式化到 年月日 # 將時間換成列名就行;當前是秒級時間戳,如果是毫秒的 / 1000即可 # SELECT FROM_UNIXTIME(1602668106666.777888999 / 1000,%Y-%m-%d) AS a; # SELECT FROM_UNIXTIME(列名 / 1000,%Y-%m-%d) AS a; SELECT FROM_UNIXTIME(1602668106.666…

PDFMathTranslate,PDF多語言翻譯,批量處理,學術論文,雙語對照(WIN/MAC)

分享一個非常實用的PDF文檔翻譯項目——PDFMathTranslate。作為一個經常逛GitHub的開發者,我總喜歡翻看各種項目附帶的論文,雖然大多時候是瞎研究,但卻樂在其中。該項目能夠完美保留公式、圖表、目錄和注釋,對于需要閱讀外文文獻的…

網絡藥理學:(待更)Alphafold3和批量分子動力學模擬(Desmond、AutoMD)

批量動力學模擬 注意全都需要在類linux平臺上進行 安裝Desmond模塊: https://github.com/Wang-Lin-boop/Schrodinger-Script 安裝AutoMD模塊: Wang-Lin-boop/CADD-Scripts: Scripts for virtual screening, cross docking and protein relax using Sc…

爬蟲基礎之代理的基本原理

在做爬蟲的過程中經常會遇到一種情況,就是爬蟲最初是正常運行、正常抓取數據的,一切看起來都是那么美好,然而一杯茶的工夫就出現了錯誤,例如 403 Forbidden,這時打開網頁一看,可能會看到“您的IP訪問頻率太…

第十七屆山東省職業院校技能大賽 中職組“網絡安全”賽項資源任務書樣題③

第十七屆山東省職業院校技能大賽 中職組“網絡安全”賽項資源任務書樣題③ 模塊A 基礎設施設置與安全加固(200分)A-1 登錄安全加固(Windows, Linux)A-2 Nginx安全策略(Linux)A-3日志監控(Windows)A-4中間件…