如今人工智能(AI)和大模型訓練的蓬勃發展,大規模AI算力集群(智算集群)已成為關鍵基礎設施。這類集群對網絡性能,特別是高吞吐、低延遲和無損特性有著嚴苛要求,RoCE因此被廣泛應用。然而,在支撐智算集群的主流Clos組網架構下,傳統的ECMP路由機制存在天然的局限性,容易引發哈希極化問題,成為制約集群整體性能的瓶頸。本文將探討哈希極化的成因、影響,并介紹一種通過主動路徑規劃(PPD)來優化網絡配置、提升性能的解決方案。
應對智算集群哈希極化:主動路徑規劃(PPD)配置方案
在支撐大規模AI算力(智算)集群的網絡架構中,Clos架構因其高擴展性和冗余性被廣泛采用。在此架構下,各交換節點基于常規的ECMP(等價多路徑)路由機制(分布式運行、自我決策轉發)運行時,往往難以充分感知全局網絡狀態。這一局限容易導致在多層組網中出現哈希(HASH)極化現象,即流量分布嚴重不均。這種不均衡會顯著拖慢智算集群的整體性能,成為規模化部署的痛點。
什么是哈希極化?
哈希極化(也稱哈希不均),其根本原因在于哈希算法的一致性與網絡拓撲結構及流量模式特性之間的復雜相互作用。
- 算法一致性: 網絡設備(交換機和路由器)通常使用相同或高度相似的哈希算法,并基于標準輸入參數(如五元組:源/目的IP、源/目的端口、協議)進行路徑選擇。
- 流量特征集中: 當網絡中大量數據流具有相似特征(例如,大量流共享相同的源IP或目的IP),而這些特征恰好是哈希算法的主要輸入時,這些相似的流就極有可能被哈希到相同的路徑上,而非均勻分布到所有等價路徑。
- 多層疊加效應: 在多層Clos架構(如Leaf-Spine)中,流量需要穿越多個ECMP層。例如,在Leaf層被初步“打散”的流量,經過Spine層轉發時,可能因相同的哈希邏輯再次被集中到更少量的下行鏈路上,加劇極化現象。
- 大流主導: 流量模式本身由少數大流量(Elephant Flows)主導時,也會顯著放大哈希極化的負面影響。
主動路徑規劃配置邏輯
在不引入復雜動態負載均衡技術的前提下,我們可以通過增加參與哈希計算的因子以及主動規劃流量路徑的策略,來有效應對AI算力集群規模化部署中的負載均衡和租戶隔離等挑戰。這種主動路徑規劃需要網絡工程師在RoCE交換機上配置以下轉發策略:
1. Leaf層上行流量策略路由:智算服務器每張網卡對應一個Leaf交換機下行接口,服務器產生的、需要跨Spine傳輸的上行流量,由Leaf交換機基于策略路由判定并轉發給指定的Spine交換機。端口映射規則:
- 1:1無收斂: Leaf交換機的每個下行端口綁定一個固定的上行端口(連接Spine)。
- n:1收斂: 下行端口與上行端口按倍數關系(向上取整)形成n:1的映射,確保流量按規劃路徑上行。
2. Spine層標準L3轉發:
- 跨Spine的上行流量在Spine層按照標準的三層路由邏輯進行轉發。
- 設計考量: 在典型的智算“軌道”(POD)組網中,大部分流量局限于軌道內部傳輸,跨軌道流量比例較小。因此,網絡方案可優先解決Leaf層極化問題,Spine層擁塞風險暫不作為主要考量。
3. Leaf層下行流量默認路由:跨Spine的下行流量到達Leaf交換機后,依據默認路由表進行轉發。3
然而,完全依賴手動命令行方式將上述復雜的配置邏輯下發到集群所有交換機上,不僅操作極其繁瑣耗時,還極易引入配置錯誤,增加運維風險和成本。
借助 EasyRoCE PPD 工具簡化配置
為加速智算場景下的路由優化配置,我們此前推出了 PPD工具(主動路徑規劃器,Proactive Path Definer) 的1.0版本。經過實踐驗證和持續優化,PPD現已升級至功能更強大、操作更便捷的2.0版本。作為EasyRoCE工具套件的核心組件之一,PPD 2.0可獨立運行于服務器,也能以代碼形式集成到第三方管理平臺中。其主要運行流程如下:
- 1. 讀取網絡配置: 自動從 AID工具(AI基礎設施藍圖規劃器,AI Infrastructure Descriptor) 中獲取網絡基礎配置信息。
- 2. 生成路由配置: 運行PPD工具,依據預設的主動路徑規劃邏輯,自動生成所需的交換機路由配置文件。
- 3. 審核與下發: 生成的配置文件自動呈現在 UG工具(統一監控面板,Unified Glancer) 中。管理員可在線核對配置詳情,確認無誤后一鍵批量下發至目標設備。
EasyRoCE Toolkit 簡介:
星融元EasyRoCE Toolkit基于開源、開放的網絡架構與技術,專為AI智算、超算等場景的RoCE網絡設計,提供一鍵配置RoCE、高精度流量監控、主動路徑規劃(PPD)等一系列實用特性與工具,顯著簡化高性能網絡部署與管理。所有功能對簽約客戶免費開放。
PPD 2.0 核心升級點
相較于前代,PPD 2.0 實現了顯著的功能與體驗提升:
- 無縫對接AID: 全面優化與AID工具的集成流程,實現網絡基礎信息(如GPU服務器網卡IP、交換機互聯關系及IP)的自動化填充,極大減少手動輸入。
- 增強可視化與可操作性: 優化圖形界面操作體驗,配置下發進度和結果實時可視化展示,管理員能快速定位并排查下發異常。
- 深度集成UG面板: 自動將生成的配置信息及狀態集成到統一監控面板(UG),與其他RDMA網絡配置信息集中展示和管理,提供一站式運維視圖。
使用演示
第一步:導入基礎網絡信息
- AID工具作為PPD的“數據源”,其專用工作表存儲了PPD所需的所有網絡基礎信息(GPU服務器網卡IP、交換機互聯IP等),支持一鍵自動填充。
- 工作表還預留了多租戶網絡配置相關字段(如InstanceID, Description),管理員可按需填寫,便于后續精細化管理。
第二步:運行PPD生成路由配置
- 將PPD工具包上傳至管理服務器并解壓。
- 運行 start_ppd.sh 命令啟動PPD工具。
第三步:審核與下發配置
- 所有主動路由規劃信息自動同步至UG面板。管理員登錄UG,進入PPD工具界面。
- 點擊左上角配置生成按鈕,查看PPD為各設備生成的配置文件(XXXX.cfg)。管理員可詳細檢查配置內容進行二次核對。
- 勾選目標設備和配置文件,點擊上方批量下發按鈕,工具將自動執行配置下發。
- 下發完成后,界面實時展示各設備配置結果(成功/失敗)。對于失敗設備,提供明確的報錯信息,管理員排障后可嘗試重新下發。
圖:EasyRoCE-PPD 工具界面概覽
【更多詳細內容,請訪問星融元官網 開放網絡的先行者和推動者- 星融元Asterfusion 官網】