在數據中心系統的歷史上,沒有比被 Nvidia 選為其 AI 系統的組件供應商更高的贊譽了。
這就是為什么新興的互連芯片制造商 Astera Labs 感到十分高興,因為該公司正在 PCI-Express 交換機、PCI-Express 重定時器和 CXL 內存控制器方面與 Broadcom 和 Marvell 等公司展開競爭。當 Nvidia 批準即將推出的服務器節點使用“Blackwell”GPU 加速器時,該公司感到十分高興,該加速器使用 PCI-Express 6.0 交換機和重定時器將 X86 GPU 連接到其 Blackwell GPU,在某些情況下還包括網絡接口卡和存儲。
MGX 是一套服務器參考設計,包括 Nvidia 自己的 AI 野獸的基本構建塊以及 OEM 和 ODM 創建的克隆,以便他們能夠分得一杯羹。
在上周舉行的 2025 年 GPU 技術大會上,Astera Labs 做了兩件事。首先,它展示了其“Scorpio”P 系列 PCI-Express 6.0 結構交換機和“Aries”PCI-Express 6.0 重定時器與 Nvidia 的“Hopper”H100 和 H200 GPU 以及 HGX 設置中使用的各種 Blackwell B100 和 B200 GPU 的互操作性(熟悉的 2 CPU 乘以 8 GPU 設計,現在稱為 Hoppers 的 HGX NVL8 和 Blackwells 的 DGX NVL16)。其次,Astera 展示了由 ODM 服務器制造商 Wistron 設計的基于 Hopper GPU 的推理服務器,并使用其交換機和重定時器將組件連接在一起。
目前還不清楚 Nvidia 本身在其系統中使用 Astera 芯片的情況,我們只是利用這次公告作為研究 Astera 提供的產品的機會,但 Nvidia 硬件工程副總裁 Andrew Bell 在一份聲明中表示,Scorpio 交換機與“基于 Blackwell 的 MGX 平臺”集成,所以你明白了。基于 DSP 的 Aries 重定時器沒有被提及,但如果您需要擴展 PCI-Express 5.0 或 6.0 鏈路以將組件空間稍微拉遠一些,您也需要這些東西。
從概念上來說,一切看起來是這樣的:
在上圖的中間,結構可以是任何 PCI-Express 交換機,但 Astera 無疑更希望它是自己的 Scorpio 交換機,它也顯示了這一點。使用來自兩個不同供應商的交換機和重定時器可能會帶來麻煩。
如您所見,您可以使用重定時器將 GPU 鏈接到網絡或存儲結構,以及用于將 GPU 直接綁定在一起的不同 PCI-Express 結構,就像 Nvidia 使用 NVLink 端口和 NVSwitch 交換機所做的那樣。目前,GPU 加速器還沒有跨此 PCI-Express 結構的內存尋址,但這正是由 AMD、Broadcom、思科系統、谷歌、惠普企業、英特爾、Meta Platforms 和微軟牽頭的超級加速器鏈接 (UALink) 工作的目的所在。
雖然 Scorpio P 系列交換機用于將 CPU 連接到 GPU、網絡接口和存儲,但 Scorpio 交換機還有另一種變體,稱為 X 系列,用于創建 GPU 網格,就像 Nvidia 的 NVSwitch 一樣 - 顯然帶寬要少得多。這款 X 系列芯片需要定制參與,正如您所預料的那樣,Astera 在 GTC 2025 上肯定沒有談論這款芯片。
P 系列和 X 系列交換機均向后兼容 PCI-Express 1.0 之前的設備。
以下是 Astera 就 PCI-Express 6.0 與 Nvidia 配合使用所進行的測試:
在這種情況下,它是一個 PCI-Express 6.0 x16 鏈路,它將 Aries 重定時器連接到 Blackwell GPU,以擴展 PCI-Express 鏈路的范圍。盒子中的 Scorpio P 系列交換機鏈接到 Intel Xeon 5.0 處理器和 Nvidia ConnectX-7 網絡接口,降級到 PCI-Express 5.0。Micron Technology 閃存驅動器使用以 PCI-Express 6.0 速度運行的單個 x1 通道進行存儲。Scorpio 交換機有 64 個 PCI-Express 6.0 信號通道,此設置使用其中的 49 個通道,其中 32 個以 PCI-Express 5.0 半速運行。
Scorpio P 系列交換機于 2024 年 9 月開始提供樣品,目前正在加速生產。
Astera 與 ODM 合作伙伴 Wistron 展示的機器是 Nvidia MGX H100/H200 NVL 推理服務器的實現。MGX模塊化機器系列于 2023 年 5 月推出,其理念是將 GPU 加速應用于具有適合用途的外形尺寸的不同類型的工作負載。
從概念上講,MGX 推理服務器如下所示:
這是一個 4U 機架式機箱,后面有一臺雙插槽 X86 服務器作為系統主機,配有 PCI-Express 交換機,用于連接到兩個 BlueField 3 DPU(前面右側)和八個 H100 或 H200 PCI-Express 5.0 GPU(前面占用了大部分空間)。沒有 NVSwitch 內存互連,但每個 GPU 卡上都有 NVLink 內存端口,可以使用橋接器將兩個或四個相鄰的 GPU 連接起來,形成共享內存配置,以共享內存并利用更大的內存進行計算。
該 MGX 參考架構的配置為每對 GPU 配備一個 BlueField 3 DPU 和四個 ConnectX-7 SmartNIC。
以下是每個 Scorpio 交換機有兩個 GPU 和一個 NIC 的 MGX 推理系統的示意圖:
每對 GPU 都通過 NVLink 橋連接,它們都擁有一個 ConnectX-7 NIC,它們與外界共享并通過 Scorpio P 系列交換機進行通信。我們推測,這對 GPU 還可以通過 Scorpio 交換機以 PCI-Express 6.0 速度進行通信,如果 GPU 可以使用 6.0,則 x16 通道的速度為 256 GB/秒,如果 GPU 只能使用 5.0,則速度僅為 128 GB/秒。
主機 CPU 和 GPU 之間需要多少帶寬,以及 NVLink NUMA 的級別(NVL2 或 NVL4)取決于您正在進行的 AI 類型。
關于這款 MGX 推理服務器設計的一個重要特點是它是模塊化的。(因此 MGX 名稱中帶有模塊化 GPU——我們不確定 X 代表什么,但它可能不是一個吻,也不是足球隊的防守隊員......)
后面的主機計算和內存板可以獨立于前面的 GPU/NIC/DPU 板進行升級。因此,例如,如果您在 GPU 計算板中使用 Scorpio P 系列 PCI-Express 6.0 交換機,那么您現在可以在 PCI-Express 5.0 模式下運行它,并立即鏈接到任何 X86 或 Arm 服務器節點,并在此類處理器上市時將其換成帶有 PCI-Express 6.0 插槽的新服務器卡。如果您現在有帶有 PCI-Express 5.0 x16 插槽的舊款 Hopper GPU,您可以在今天的 MGX 設計中使用它們,并在將來的某個時間換上新的 Blackwell PCI-Express 6.0 GPU。
以下是緯創公司實際的 xWing 推理服務器 GPU 系統板:
該設計每個 Scorpio 交換機有兩個 GPU,并且在主板左側有一個 NIC 插槽。
任何 MGX 推理服務器設計都無法對具有數萬億個參數的 GenAI 模型進行推理。但它們的大小適合大量 AI 推理工作負載。