傳統網絡架構的困境
在 AI 算力爆發的今天,數據中心網絡正經歷前所未有的流量形態變革。傳統 Clos 網絡架構依賴逐流 ECMP 均衡算法,其設計邏輯基于 “大量短流” 假設,通過五元組 HASH 實現負載分擔。然而 AI 訓練場景呈現出鮮明的流量特征:
- 大象流主導:少數長流占據 60% 以上帶寬(如圖 1),HASH 均衡導致流量集中于少數路徑
- 時延敏感性:參數同步的通信模式要求微秒級時延穩定性,傳統網絡丟包會引發模型訓練時間指數級增長
- 多租戶隔離需求:GPU 資源池化催生網絡切片需求,傳統 VRF 實現方式難以與動態負載均衡協同
這種結構性矛盾導致傳統網絡在 AI 場景下陷入 “高帶寬利用率與低轉發效率” 的悖論,亟需從架構層實現突破。
智能網絡架構的核心技術突破
動態智能選路技術構建了 “感知 - 決策 - 執行” 的閉環體系,通過三大創新重構網絡行為邏輯:
全維度路徑質量感知體系
1、硬件級實時測量
基于 ASIC 寄存器實現百毫秒級帶寬 / 隊列統計(如圖 2),通過 SAI 接口實時采集端口轉發計數,經加權平均算法(近時數據權重提升 30%)生成鏈路負載指數。
圖2
2、納秒級時延追蹤
轉發時延計算因子基于INT(In-band Network Telemetry)技術,精度可達納秒級。HDC(High Delay Capture)是一種能捕獲 ASIC 中經歷高延遲的數據包信息的 INT 技術。
通過使用 HDC,星融元交換機能夠捕獲任何超過用戶指定延遲閾值的數據包的延遲信息,并將原始數據包的前150字節連同元數據(包含出入端口、時延等關鍵信息)作為 HDC 數據包發送到收集器。
圖3
動態智能選路技術在星融元交換機上開啟 HDC 功能,并將 CPU 作為 HDC 的收集分析器,通過分析 HDC 報文實現高精度測量交換機轉發時延,并將時延信息作為路徑質量評價因子,提高路徑質量評價精度。
命令行配置 HDC 功能控制INT進程運行,之后通過 socket 連接進行收包循環,將收取到的報文進行解析并將關鍵信息(出入端口、轉發時延等)寫入數據庫。
動態智能決策引擎
1、BGP 協議深度擴展
定義 Path Bandwidth 擴展社區屬性(類型 0x0005),將路徑質量以 IEEE 浮點格式(GB/s)編碼于 BGP 報文中。在 Leaf-Spine 兩層架構中,通過三級權重計算(Leaf 下行口 ×Spine 口 ×Leaf 上行口)生成端到端路徑質量值(如圖 4)。
圖4
2、動態 WCMP 權重計算
突破傳統 ECMP 的等價分配模式,根據路徑質量動態生成權重比例。例如雙路徑質量值 38:80 時,自動計算 3:7 的流量分配比(如圖 5),并通過 BGP 實時同步全網,實現秒級負載均衡調整。
圖5
細粒度流量調度執行
1、Flowlet 級智能負載均衡
ALB 技術在 ASIC 層實現微流級調度,實時監測出端口負載與隊列時延(如圖 6)。當單鏈路負載超過閾值時,自動將后續 Flowlet 導向低負載路徑,配合端口 fail-over 機制實現零丟包故障切換。
圖6
2、多租戶隔離增強
通過 VRF 與 PRE ACL 聯動實現流量切片:源 IP 匹配 VRF 網段時自動打標(如圖 7),確保不同租戶流量在獨立路由表中轉發,同時支持跨 VRF 的動態質量感知,保障 GPU 資源池的隔離性與調度效率。
圖7
智算網絡的應用場景
動態WCMP如何化解流量洪峰
在 256×400G GPU 集群中,采用 1:1 收斂比的兩層 Clos 架構(如圖 8),傳統 ECMP 因無法感知路徑狀態,常導致單 Spine 節點擁塞率超 45%。動態智能選路技術通過全路徑質量計算,將擁塞率控制在 3% 以內,同時提升帶寬利用率 22%。
圖8
假設 Server1 的 GPU1 要與 Server17 的GPU1通信,按照傳統 ECMP 的邏輯,流量會選擇Spine中的一個然后到達 Leaf17,傳統 ECMP 不會感知路徑實時狀態,所以 AI 場景下的少量大象流極易被均衡到同一 Spine 上從而導致 Leaf1 上行端口擁塞甚至出現丟包。
如果交換機開啟了動態智能選路技術,當 Server17 將 GPU1 的路由信息通過 Leaf17 向整網通告時,首先 Leaf17 會將自身通往 Server17-GPU1 的路徑質量附帶在路由通告中發給所有 Spine,然后每個 Spine 將自身通往 Leaf17 的路徑質量累積在路由通告中發給 Leaf1,Leaf1 將自身通往 Leaf17 的路徑質量繼續累積在路由信息中,此時 Leaf1 上有到達 Server17-GPU1 的全路徑以及每條路徑對應的路徑質量,Leaf1 先去掉路徑質量異常的路徑(如質量較低路徑認為不適合進行流量轉發),再根據綜合路徑質量計算剩余路徑的權重,形成 WCMP,指導流量轉發。
Flowlet級負載均衡
以上述 256 個 400G 的 GPU 組網為例,如果使用了動態智能選路技術,但是不是每臺設備都適合使用動態 WCMP,則交換機會動態選擇基于 flowlet 的 ALB 進行流量的負載均衡。整網形成 ECMP 之后,ASIC的 ALB 功能會實時測量 ECMP 組中不同鏈路上負載和時延,將 flowlet 路由到負載更?或時延更低的鏈路上。
如圖所示,Leaf1 上的多個指向Spine的鏈路同時負載流量,當紅色接口負載流量較高,轉發時延過長,此時 ASIC 基于 flowlet 做 ECMP 時,會自動跳過紅色路徑對應的出口,直到該出口負載和轉發時延恢復正常值之后,ECMP 才會再選中該端口進行流量轉發。
更多詳細內容,請訪問星融元官網https://asterfusion.com/