利用 PCI-Express 交換機實現面向未來的推理服務器

在數據中心系統的歷史上，沒有比被 Nvidia 選為其 AI 系統的組件供應商更高的贊譽了。

這就是為什么新興的互連芯片制造商 Astera Labs 感到十分高興，因為該公司正在 PCI-Express 交換機、PCI-Express 重定時器和 CXL 內存控制器方面與 Broadcom 和 Marvell 等公司展開競爭。當 Nvidia 批準即將推出的服務器節點使用“Blackwell”GPU 加速器時，該公司感到十分高興，該加速器使用 PCI-Express 6.0 交換機和重定時器將 X86 GPU 連接到其 Blackwell GPU，在某些情況下還包括網絡接口卡和存儲。

MGX 是一套服務器參考設計，包括 Nvidia 自己的 AI 野獸的基本構建塊以及 OEM 和 ODM 創建的克隆，以便他們能夠分得一杯羹。

在上周舉行的 2025 年 GPU 技術大會上，Astera Labs 做了兩件事。首先，它展示了其“Scorpio”P 系列 PCI-Express 6.0 結構交換機和“Aries”PCI-Express 6.0 重定時器與 Nvidia 的“Hopper”H100 和 H200 GPU 以及 HGX 設置中使用的各種 Blackwell B100 和 B200 GPU 的互操作性（熟悉的 2 CPU 乘以 8 GPU 設計，現在稱為 Hoppers 的 HGX NVL8 和 Blackwells 的 DGX NVL16）。其次，Astera 展示了由 ODM 服務器制造商 Wistron 設計的基于 Hopper GPU 的推理服務器，并使用其交換機和重定時器將組件連接在一起。

目前還不清楚 Nvidia 本身在其系統中使用 Astera 芯片的情況，我們只是利用這次公告作為研究 Astera 提供的產品的機會，但 Nvidia 硬件工程副總裁 Andrew Bell 在一份聲明中表示，Scorpio 交換機與“基于 Blackwell 的 MGX 平臺”集成，所以你明白了。基于 DSP 的 Aries 重定時器沒有被提及，但如果您需要擴展 PCI-Express 5.0 或 6.0 鏈路以將組件空間稍微拉遠一些，您也需要這些東西。

從概念上來說，一切看起來是這樣的：

在上圖的中間，結構可以是任何 PCI-Express 交換機，但 Astera 無疑更希望它是自己的 Scorpio 交換機，它也顯示了這一點。使用來自兩個不同供應商的交換機和重定時器可能會帶來麻煩。

如您所見，您可以使用重定時器將 GPU 鏈接到網絡或存儲結構，以及用于將 GPU 直接綁定在一起的不同 PCI-Express 結構，就像 Nvidia 使用 NVLink 端口和 NVSwitch 交換機所做的那樣。目前，GPU 加速器還沒有跨此 PCI-Express 結構的內存尋址，但這正是由 AMD、Broadcom、思科系統、谷歌、惠普企業、英特爾、Meta Platforms 和微軟牽頭的超級加速器鏈接 (UALink) 工作的目的所在。

雖然 Scorpio P 系列交換機用于將 CPU 連接到 GPU、網絡接口和存儲，但 Scorpio 交換機還有另一種變體，稱為 X 系列，用于創建 GPU 網格，就像 Nvidia 的 NVSwitch 一樣 - 顯然帶寬要少得多。這款 X 系列芯片需要定制參與，正如您所預料的那樣，Astera 在 GTC 2025 上肯定沒有談論這款芯片。

P 系列和 X 系列交換機均向后兼容 PCI-Express 1.0 之前的設備。

以下是 Astera 就 PCI-Express 6.0 與 Nvidia 配合使用所進行的測試：

在這種情況下，它是一個 PCI-Express 6.0 x16 鏈路，它將 Aries 重定時器連接到 Blackwell GPU，以擴展 PCI-Express 鏈路的范圍。盒子中的 Scorpio P 系列交換機鏈接到 Intel Xeon 5.0 處理器和 Nvidia ConnectX-7 網絡接口，降級到 PCI-Express 5.0。Micron Technology 閃存驅動器使用以 PCI-Express 6.0 速度運行的單個 x1 通道進行存儲。Scorpio 交換機有 64 個 PCI-Express 6.0 信號通道，此設置使用其中的 49 個通道，其中 32 個以 PCI-Express 5.0 半速運行。

Scorpio P 系列交換機于 2024 年 9 月開始提供樣品，目前正在加速生產。

Astera 與 ODM 合作伙伴 Wistron 展示的機器是 Nvidia MGX H100/H200 NVL 推理服務器的實現。MGX模塊化機器系列于 2023 年 5 月推出，其理念是將 GPU 加速應用于具有適合用途的外形尺寸的不同類型的工作負載。

從概念上講，MGX 推理服務器如下所示：

這是一個 4U 機架式機箱，后面有一臺雙插槽 X86 服務器作為系統主機，配有 PCI-Express 交換機，用于連接到兩個 BlueField 3 DPU（前面右側）和八個 H100 或 H200 PCI-Express 5.0 GPU（前面占用了大部分空間）。沒有 NVSwitch 內存互連，但每個 GPU 卡上都有 NVLink 內存端口，可以使用橋接器將兩個或四個相鄰的 GPU 連接起來，形成共享內存配置，以共享內存并利用更大的內存進行計算。

該 MGX 參考架構的配置為每對 GPU 配備一個 BlueField 3 DPU 和四個 ConnectX-7 SmartNIC。

以下是每個 Scorpio 交換機有兩個 GPU 和一個 NIC 的 MGX 推理系統的示意圖：

每對 GPU 都通過 NVLink 橋連接，它們都擁有一個 ConnectX-7 NIC，它們與外界共享并通過 Scorpio P 系列交換機進行通信。我們推測，這對 GPU 還可以通過 Scorpio 交換機以 PCI-Express 6.0 速度進行通信，如果 GPU 可以使用 6.0，則 x16 通道的速度為 256 GB/秒，如果 GPU 只能使用 5.0，則速度僅為 128 GB/秒。

主機 CPU 和 GPU 之間需要多少帶寬，以及 NVLink NUMA 的級別（NVL2 或 NVL4）取決于您正在進行的 AI 類型。

關于這款 MGX 推理服務器設計的一個重要特點是它是模塊化的。（因此 MGX 名稱中帶有模塊化 GPU——我們不確定 X 代表什么，但它可能不是一個吻，也不是足球隊的防守隊員......）

后面的主機計算和內存板可以獨立于前面的 GPU/NIC/DPU 板進行升級。因此，例如，如果您在 GPU 計算板中使用 Scorpio P 系列 PCI-Express 6.0 交換機，那么您現在可以在 PCI-Express 5.0 模式下運行它，并立即鏈接到任何 X86 或 Arm 服務器節點，并在此類處理器上市時將其換成帶有 PCI-Express 6.0 插槽的新服務器卡。如果您現在有帶有 PCI-Express 5.0 x16 插槽的舊款 Hopper GPU，您可以在今天的 MGX 設計中使用它們，并在將來的某個時間換上新的 Blackwell PCI-Express 6.0 GPU。

以下是緯創公司實際的 xWing 推理服務器 GPU 系統板：

該設計每個 Scorpio 交換機有兩個 GPU，并且在主板左側有一個 NIC 插槽。

任何 MGX 推理服務器設計都無法對具有數萬億個參數的 GenAI 模型進行推理。但它們的大小適合大量 AI 推理工作負載。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/75110.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/75110.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/75110.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！