利用 PCI-Express 交換機實現面向未來的推理服務器

在數據中心系統的歷史上,沒有比被 Nvidia 選為其 AI 系統的組件供應商更高的贊譽了。

這就是為什么新興的互連芯片制造商 Astera Labs 感到十分高興,因為該公司正在 PCI-Express 交換機、PCI-Express 重定時器和 CXL 內存控制器方面與 Broadcom 和 Marvell 等公司展開競爭。當 Nvidia 批準即將推出的服務器節點使用“Blackwell”GPU 加速器時,該公司感到十分高興,該加速器使用 PCI-Express 6.0 交換機和重定時器將 X86 GPU 連接到其 Blackwell GPU,在某些情況下還包括網絡接口卡和存儲。

MGX 是一套服務器參考設計,包括 Nvidia 自己的 AI 野獸的基本構建塊以及 OEM 和 ODM 創建的克隆,以便他們能夠分得一杯羹。

在上周舉行的 2025 年 GPU 技術大會上,Astera Labs 做了兩件事。首先,它展示了其“Scorpio”P 系列 PCI-Express 6.0 結構交換機和“Aries”PCI-Express 6.0 重定時器與 Nvidia 的“Hopper”H100 和 H200 GPU 以及 HGX 設置中使用的各種 Blackwell B100 和 B200 GPU 的互操作性(熟悉的 2 CPU 乘以 8 GPU 設計,現在稱為 Hoppers 的 HGX NVL8 和 Blackwells 的 DGX NVL16)。其次,Astera 展示了由 ODM 服務器制造商 Wistron 設計的基于 Hopper GPU 的推理服務器,并使用其交換機和重定時器將組件連接在一起。

目前還不清楚 Nvidia 本身在其系統中使用 Astera 芯片的情況,我們只是利用這次公告作為研究 Astera 提供的產品的機會,但 Nvidia 硬件工程副總裁 Andrew Bell 在一份聲明中表示,Scorpio 交換機與“基于 Blackwell 的 MGX 平臺”集成,所以你明白了。基于 DSP 的 Aries 重定時器沒有被提及,但如果您需要擴展 PCI-Express 5.0 或 6.0 鏈路以將組件空間稍微拉遠一些,您也需要這些東西。

從概念上來說,一切看起來是這樣的:

在上圖的中間,結構可以是任何 PCI-Express 交換機,但 Astera 無疑更希望它是自己的 Scorpio 交換機,它也顯示了這一點。使用來自兩個不同供應商的交換機和重定時器可能會帶來麻煩。

如您所見,您可以使用重定時器將 GPU 鏈接到網絡或存儲結構,以及用于將 GPU 直接綁定在一起的不同 PCI-Express 結構,就像 Nvidia 使用 NVLink 端口和 NVSwitch 交換機所做的那樣。目前,GPU 加速器還沒有跨此 PCI-Express 結構的內存尋址,但這正是由 AMD、Broadcom、思科系統、谷歌、惠普企業、英特爾、Meta Platforms 和微軟牽頭的超級加速器鏈接 (UALink) 工作的目的所在。

雖然 Scorpio P 系列交換機用于將 CPU 連接到 GPU、網絡接口和存儲,但 Scorpio 交換機還有另一種變體,稱為 X 系列,用于創建 GPU 網格,就像 Nvidia 的 NVSwitch 一樣 - 顯然帶寬要少得多。這款 X 系列芯片需要定制參與,正如您所預料的那樣,Astera 在 GTC 2025 上肯定沒有談論這款芯片。

P 系列和 X 系列交換機均向后兼容 PCI-Express 1.0 之前的設備。

以下是 Astera 就 PCI-Express 6.0 與 Nvidia 配合使用所進行的測試:

在這種情況下,它是一個 PCI-Express 6.0 x16 鏈路,它將 Aries 重定時器連接到 Blackwell GPU,以擴展 PCI-Express 鏈路的范圍。盒子中的 Scorpio P 系列交換機鏈接到 Intel Xeon 5.0 處理器和 Nvidia ConnectX-7 網絡接口,降級到 PCI-Express 5.0。Micron Technology 閃存驅動器使用以 PCI-Express 6.0 速度運行的單個 x1 通道進行存儲。Scorpio 交換機有 64 個 PCI-Express 6.0 信號通道,此設置使用其中的 49 個通道,其中 32 個以 PCI-Express 5.0 半速運行。

Scorpio P 系列交換機于 2024 年 9 月開始提供樣品,目前正在加速生產。

Astera 與 ODM 合作伙伴 Wistron 展示的機器是 Nvidia MGX H100/H200 NVL 推理服務器的實現。MGX模塊化機器系列于 2023 年 5 月推出,其理念是將 GPU 加速應用于具有適合用途的外形尺寸的不同類型的工作負載。

從概念上講,MGX 推理服務器如下所示:

這是一個 4U 機架式機箱,后面有一臺雙插槽 X86 服務器作為系統主機,配有 PCI-Express 交換機,用于連接到兩個 BlueField 3 DPU(前面右側)和八個 H100 或 H200 PCI-Express 5.0 GPU(前面占用了大部分空間)。沒有 NVSwitch 內存互連,但每個 GPU 卡上都有 NVLink 內存端口,可以使用橋接器將兩個或四個相鄰的 GPU 連接起來,形成共享內存配置,以共享內存并利用更大的內存進行計算。

該 MGX 參考架構的配置為每對 GPU 配備一個 BlueField 3 DPU 和四個 ConnectX-7 SmartNIC。

以下是每個 Scorpio 交換機有兩個 GPU 和一個 NIC 的 MGX 推理系統的示意圖:

每對 GPU 都通過 NVLink 橋連接,它們都擁有一個 ConnectX-7 NIC,它們與外界共享并通過 Scorpio P 系列交換機進行通信。我們推測,這對 GPU 還可以通過 Scorpio 交換機以 PCI-Express 6.0 速度進行通信,如果 GPU 可以使用 6.0,則 x16 通道的速度為 256 GB/秒,如果 GPU 只能使用 5.0,則速度僅為 128 GB/秒。

主機 CPU 和 GPU 之間需要多少帶寬,以及 NVLink NUMA 的級別(NVL2 或 NVL4)取決于您正在進行的 AI 類型。

關于這款 MGX 推理服務器設計的一個重要特點是它是模塊化的。(因此 MGX 名稱中帶有模塊化 GPU——我們不確定 X 代表什么,但它可能不是一個吻,也不是足球隊的防守隊員......)

后面的主機計算和內存板可以獨立于前面的 GPU/NIC/DPU 板進行升級。因此,例如,如果您在 GPU 計算板中使用 Scorpio P 系列 PCI-Express 6.0 交換機,那么您現在可以在 PCI-Express 5.0 模式下運行它,并立即鏈接到任何 X86 或 Arm 服務器節點,并在此類處理器上市時將其換成帶有 PCI-Express 6.0 插槽的新服務器卡。如果您現在有帶有 PCI-Express 5.0 x16 插槽的舊款 Hopper GPU,您可以在今天的 MGX 設計中使用它們,并在將來的某個時間換上新的 Blackwell PCI-Express 6.0 GPU。

以下是緯創公司實際的 xWing 推理服務器 GPU 系統板:

該設計每個 Scorpio 交換機有兩個 GPU,并且在主板左側有一個 NIC 插槽。

任何 MGX 推理服務器設計都無法對具有數萬億個參數的 GenAI 模型進行推理。但它們的大小適合大量 AI 推理工作負載。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/75110.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/75110.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/75110.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

智能交通預警桿:守護道路安全的科技先鋒

在城市化進程加速以及機動車保有量持續增長的背景下,道路交通安全與擁堵問題漸趨嚴峻。智能交通預警桿應時而生,其集成多種高科技功能,正逐步成為現代城市交通管理中至關重要的智能裝備,對于提升交通效率、保障出行安全發揮著關鍵…

flink 基站與服務器長連接,每次連接和斷開都會上報數據,統計過去一小時每個基站斷開次數和時長

模擬生成數據 CREATE TABLE ods_station_log (base_station_id int, -- 基站IDevent_type int, -- 事件類型: connect/disconnectevent_time TIMESTAMP_LTZ(3), -- 事件時間WATERMARK FOR event_time AS event_time - INTERVAL 5 SECOND -- 允許5秒亂序 ) WITH …

自定義一些C語言的字符串函數

一、代碼如下 (一)十六進制字符串轉十進制整數 #include<stdio.h> // 把一個十六進制字符轉成十進制整數 int hexToInt(char hexs[]){ int index; int k 0; for(k 0; ; k) { if(hexs[k] \0) { index k; break; …

核函數(機器學習深度學習)

一、核函數的基本概念 核函數&#xff08;Kernel Function&#xff09; 是機器學習中處理非線性問題的核心工具&#xff0c;通過隱式映射將數據從原始空間轉換到高維特征空間&#xff0c;從而在高維空間中實現線性可分或線性建模。其數學本質是計算兩個樣本在高維空間中的內積…

微服務架構中的精妙設計:服務注冊/服務發現-Eureka

一.使用注冊中心背景 1.1服務遠程調用問題 服務之間遠程調?時, 我們的URL是寫死的 String url "http://127.0.0.1:9090/product/" orderInfo.getProductId(); 缺點&#xff1a; 當更換機器, 或者新增機器時, 這個URL就需要跟著變更, 就需要去通知所有的相關服…

極速版:棧的內存/局部變量表/堆的內存細分

1. 棧的存儲 每個線程都有自己的棧&#xff0c;棧中數據以棧幀&#xff08;Stack Frame&#xff09;為基本單位 線程上正在執行的每個方法都各自對應一個棧楨&#xff08;Stack Frame&#xff09; 棧楨是一個內存區塊&#xff0c;是一個數據集&#xff0c;維系著方法執行過程…

【操作系統】內存泄漏 vs 內存碎片

【操作系統】內存泄漏 vs 內存碎片 內存泄漏&#xff08;Memory Leak&#xff09; vs 內存碎片&#xff08;Memory Fragmentation&#xff09;1. 內存泄漏&#xff08;Memory Leak&#xff09;2. 內存碎片&#xff08;Memory Fragmentation&#xff09;3. 內存泄漏 vs 內存碎片…

力扣HOT100之矩陣:73. 矩陣置零

這道題我沒有想到什么好的辦法&#xff0c;直接暴力AC了&#xff0c;直接遍歷兩次矩陣&#xff0c;第一次遍歷用兩個向量分別記錄出現0的行數和列數&#xff0c;第二次遍歷就判斷當前的元素的行數或者列數是否出現在之前的兩個向量中&#xff0c;若出現了就直接置零&#xff0c…

?Flink/Kafka在python中的用處

一、基礎概念 1. ?Apache Kafka 是什么&#xff1f; ?核心功能&#xff1a;Kafka 是一個分布式流處理平臺&#xff0c;主要用于構建實時數據管道和流式應用程序。?核心概念&#xff1a; ?生產者&#xff08;Producer&#xff09;?&#xff1a;向 Kafka 發送數據的程序。…

推薦系統(十八):優勢特征蒸餾(Privileged Features Distillation)在商品推薦中的應用

在商品推薦系統中&#xff0c;粗排和精排環節的知識蒸餾方法主要通過復雜模型&#xff08;Teacher&#xff09;指導簡單模型&#xff08;Student&#xff09;的訓練&#xff0c;以提升粗排效果及與精排的一致性。本文將以淘寶的一篇論文《Privileged Features Distillation at …

深度學習四大核心架構:神經網絡(NN)、卷積神經網絡(CNN)、循環神經網絡(RNN)與Transformer全概述

目錄 &#x1f4c2; 深度學習四大核心架構 &#x1f330; 知識點概述 &#x1f9e0; 核心區別對比表 ? 生活化案例理解 &#x1f511; 選型指南 &#x1f4c2; 深度學習四大核心架構 第一篇&#xff1a; 神經網絡基礎&#xff08;NN&#xff09; &#x1f330; 知識點概述…

R語言對偏態換數據進行轉換(對數、平方根、立方根)

我們進行研究的時候經常會遇見偏態數據&#xff0c;數據轉換是統計分析和數據預處理中的一項基本技術。使用 R 時&#xff0c;了解如何正確轉換數據有助于滿足統計假設、標準化分布并提高分析的準確性。在 R 中實現和可視化最常見的數據轉換&#xff1a;對數、平方根和立方根轉…

第十四屆藍橋杯省賽電子類單片機學習記錄(客觀題)

01.一個8位的DAC轉換器&#xff0c;供電電壓為3.3V&#xff0c;參考電壓2.4V&#xff0c;其ILSB產生的輸出電壓增量是&#xff08;D&#xff09;V。 A. 0.0129 B. 0.0047 C. 0.0064 D. 0.0094 解析&#xff1a; ILSB&#xff08;最低有效位&#xff09;的電壓增量計算公式…

HarmonyOSNext_API16_媒體查詢

媒體查詢條件詳解 媒體查詢是響應式設計的核心工具&#xff0c;通過判斷設備特征動態調整界面樣式。其完整規則由媒體類型、邏輯操作符和媒體特征三部分組成&#xff0c;具體解析如下&#xff1a; 一、媒體查詢語法結構 基本格式&#xff1a; [媒體類型] [邏輯操作符] (媒體特…

Python+拉普拉斯變換求解微分方程

引言 在數學和工程學中,微分方程廣泛應用于描述動態系統的行為,如電路、電氣控制系統、機械振動等。求解微分方程的一個常見方法是使用拉普拉斯變換,尤其是在涉及到初始條件時。今天,我們將通過 Python 演示如何使用拉普拉斯變換來求解微分方程,并幫助大家更好地理解這一…

【算法】手撕快速排序

快速排序的思想 任取一個元素作為樞軸&#xff0c;然后想辦法把這個區間劃分為兩部分&#xff0c;小于等于樞軸的放左邊&#xff0c;大于等于樞軸的放右邊 然后遞歸處理左右區間&#xff0c;直到空或只剩一個 具體動畫演示詳見 數據結構合集 - 快速排序(算法過程, 效率分析…

《八大排序算法》

相關概念 排序&#xff1a;使一串記錄&#xff0c;按照其中某個或某些關鍵字的大小&#xff0c;遞增或遞減的排列起來。穩定性&#xff1a;它描述了在排序過程中&#xff0c;相等元素的相對順序是否保持不變。假設在待排序的序列中&#xff0c;有兩個元素a和b&#xff0c;它們…

深度學習篇---paddleocr正則化提取

文章目錄 前言一、代碼總述&介紹1.1導入必要的庫1.1.1cv21.1.2re1.1.3paddleocr 1.2初始化PaddleOCR1.3打開攝像頭1.4使用 PaddleOCR 進行識別1.5定義正則表達式模式1.6打印提取結果1.7異常處理 二、正則表達式2.1簡介2.2常用正則表達式模式及原理2.2.1. 快遞單號模式2.2.2…

JavaScript DOM與元素操作

目錄 DOM 樹、DOM 對象、元素操作 一、DOM 樹與 DOM 對象 二、獲取 DOM 元素 1. 基礎方法 2. 現代方法&#xff08;ES6&#xff09; 三、修改元素內容 四、修改元素常見屬性 1. 標準屬性 2. 通用方法 五、通過 style 修改樣式 六、通過類名修改樣式 1. className 屬…

單元測試的編寫

Python 單元測試示例 在 Python 中&#xff0c;通常使用 unittest 模塊來編寫單元測試。以下是一個簡單的示例&#xff1a; 示例代碼&#xff1a;calculator.py # calculator.py def add(a, b):return a bdef subtract(a, b):return a - b 單元測試代碼&#xff1a;test_c…