動態WCMP+Flowlet ALB:雙引擎驅動智算網絡負載均衡

傳統網絡架構的困境

在 AI 算力爆發的今天,數據中心網絡正經歷前所未有的流量形態變革。傳統 Clos 網絡架構依賴逐流 ECMP 均衡算法,其設計邏輯基于 “大量短流” 假設,通過五元組 HASH 實現負載分擔。然而 AI 訓練場景呈現出鮮明的流量特征:

  • 大象流主導:少數長流占據 60% 以上帶寬(如圖 1),HASH 均衡導致流量集中于少數路徑
  • 時延敏感性:參數同步的通信模式要求微秒級時延穩定性,傳統網絡丟包會引發模型訓練時間指數級增長
  • 多租戶隔離需求:GPU 資源池化催生網絡切片需求,傳統 VRF 實現方式難以與動態負載均衡協同

這種結構性矛盾導致傳統網絡在 AI 場景下陷入 “高帶寬利用率與低轉發效率” 的悖論,亟需從架構層實現突破。

智能網絡架構的核心技術突破

動態智能選路技術構建了 “感知 - 決策 - 執行” 的閉環體系,通過三大創新重構網絡行為邏輯:

全維度路徑質量感知體系

1、硬件級實時測量

基于 ASIC 寄存器實現百毫秒級帶寬 / 隊列統計(如圖 2),通過 SAI 接口實時采集端口轉發計數,經加權平均算法(近時數據權重提升 30%)生成鏈路負載指數。

圖2

2、納秒級時延追蹤

轉發時延計算因子基于INT(In-band Network Telemetry)技術,精度可達納秒級。HDC(High Delay Capture)是一種能捕獲 ASIC 中經歷高延遲的數據包信息的 INT 技術。

通過使用 HDC,星融元交換機能夠捕獲任何超過用戶指定延遲閾值的數據包的延遲信息,并將原始數據包的前150字節連同元數據(包含出入端口、時延等關鍵信息)作為 HDC 數據包發送到收集器。

圖3

動態智能選路技術在星融元交換機上開啟 HDC 功能,并將 CPU 作為 HDC 的收集分析器,通過分析 HDC 報文實現高精度測量交換機轉發時延,并將時延信息作為路徑質量評價因子,提高路徑質量評價精度。

命令行配置 HDC 功能控制INT進程運行,之后通過 socket 連接進行收包循環,將收取到的報文進行解析并將關鍵信息(出入端口、轉發時延等)寫入數據庫。

動態智能決策引擎

1、BGP 協議深度擴展

定義 Path Bandwidth 擴展社區屬性(類型 0x0005),將路徑質量以 IEEE 浮點格式(GB/s)編碼于 BGP 報文中。在 Leaf-Spine 兩層架構中,通過三級權重計算(Leaf 下行口 ×Spine 口 ×Leaf 上行口)生成端到端路徑質量值(如圖 4)。

圖4

2、動態 WCMP 權重計算

突破傳統 ECMP 的等價分配模式,根據路徑質量動態生成權重比例。例如雙路徑質量值 38:80 時,自動計算 3:7 的流量分配比(如圖 5),并通過 BGP 實時同步全網,實現秒級負載均衡調整。

圖5

細粒度流量調度執行

1、Flowlet 級智能負載均衡

ALB 技術在 ASIC 層實現微流級調度,實時監測出端口負載與隊列時延(如圖 6)。當單鏈路負載超過閾值時,自動將后續 Flowlet 導向低負載路徑,配合端口 fail-over 機制實現零丟包故障切換。

圖6

2、多租戶隔離增強

通過 VRF 與 PRE ACL 聯動實現流量切片:源 IP 匹配 VRF 網段時自動打標(如圖 7),確保不同租戶流量在獨立路由表中轉發,同時支持跨 VRF 的動態質量感知,保障 GPU 資源池的隔離性與調度效率。

圖7

智算網絡的應用場景

動態WCMP如何化解流量洪峰

在 256×400G GPU 集群中,采用 1:1 收斂比的兩層 Clos 架構(如圖 8),傳統 ECMP 因無法感知路徑狀態,常導致單 Spine 節點擁塞率超 45%。動態智能選路技術通過全路徑質量計算,將擁塞率控制在 3% 以內,同時提升帶寬利用率 22%。

圖8

假設 Server1 的 GPU1 要與 Server17 的GPU1通信,按照傳統 ECMP 的邏輯,流量會選擇Spine中的一個然后到達 Leaf17,傳統 ECMP 不會感知路徑實時狀態,所以 AI 場景下的少量大象流極易被均衡到同一 Spine 上從而導致 Leaf1 上行端口擁塞甚至出現丟包。

如果交換機開啟了動態智能選路技術,當 Server17 將 GPU1 的路由信息通過 Leaf17 向整網通告時,首先 Leaf17 會將自身通往 Server17-GPU1 的路徑質量附帶在路由通告中發給所有 Spine,然后每個 Spine 將自身通往 Leaf17 的路徑質量累積在路由通告中發給 Leaf1,Leaf1 將自身通往 Leaf17 的路徑質量繼續累積在路由信息中,此時 Leaf1 上有到達 Server17-GPU1 的全路徑以及每條路徑對應的路徑質量,Leaf1 先去掉路徑質量異常的路徑(如質量較低路徑認為不適合進行流量轉發),再根據綜合路徑質量計算剩余路徑的權重,形成 WCMP,指導流量轉發。

Flowlet級負載均衡

以上述 256 個 400G 的 GPU 組網為例,如果使用了動態智能選路技術,但是不是每臺設備都適合使用動態 WCMP,則交換機會動態選擇基于 flowlet 的 ALB 進行流量的負載均衡。整網形成 ECMP 之后,ASIC的 ALB 功能會實時測量 ECMP 組中不同鏈路上負載和時延,將 flowlet 路由到負載更?或時延更低的鏈路上。

如圖所示,Leaf1 上的多個指向Spine的鏈路同時負載流量,當紅色接口負載流量較高,轉發時延過長,此時 ASIC 基于 flowlet 做 ECMP 時,會自動跳過紅色路徑對應的出口,直到該出口負載和轉發時延恢復正常值之后,ECMP 才會再選中該端口進行流量轉發。

更多詳細內容,請訪問星融元官網https://asterfusion.com/

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:
http://www.pswp.cn/pingmian/85497.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/85497.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/85497.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

軟件測試題

選擇題 1、導致軟件缺陷的原因有很多,①—④是可能的原因,其中最主要的原因包括( )。 ①軟件需求說明書編寫的不全面,不完整,不準確,而且經常更改 ②軟件設計說明書 ③軟件操作人員的水平 ④開發人員不能很好的…

微信小程序頁面容器彈出層

效果圖 .JS Page({data: {show: false,duration: 300,position: right,round: false,overlay: true,customStyle: ,overlayStyle: },popup(e) {const position e.currentTarget.dataset.positionlet customStyle let duration this.data.durationswitch(position) {case to…

Excel批量計算時間差

執行以下操作,將自定義格式代碼應用到單元格: 選擇相應的單元格。在"開始"選項卡上的"數字"組中,單擊"常規"框旁邊的箭頭,然后單擊"其他數字格式"。在"設置單元格格式"對話框…

shell腳本--變量

1.變量是什么 2.變量類型 3.動態,靜態,強弱類型 4.變量的命名 5.變量的定義和引用 5.1三種變量類型 普通變量 環境變量 局部變量 5.2單引號,雙引號,強弱引用 雙引號對變量賦值的影響01:59:給變量加雙引號&#x…

大模型Text2SQL之在CentOS上使用yum安裝與使用MySQL

前言 學習大模型的時候需要一個mysql,原因還是在公司使用電腦的時候不允許按照Docker-Desktop,我的宿主機其實是MAC,我習慣上還是在centsos上面安裝,就發現這件過去很簡單的事情居然搗鼓了我蠻久,記錄一下。 容器環境 我直接安…

機器人大腦的進化:Physical Intelligence如何用“知識隔離“破解VLA模型三大難題

目錄 引言:當GPT遇上機器人手臂 第一章:VLM 與 VLA的介紹 VLM (Vision-Language Model) - 視覺語言模型 VLA (Vision-Language Agent) - 視覺語言智能體 VLM和VLA的對比 第二章:VLA模型的進化史 - 從"口述指揮"到"精確控…

LeetCode 662. 二叉樹的最大寬度

文章目錄 LeetCode 662. 二叉樹的最大寬度題目描述思路Golang 代碼 LeetCode 662. 二叉樹的最大寬度 記錄一次刷題的感悟。這道題目是我人生第一次面試的時候的手撕題目,但臨場的時候面試官沒有為難我,他考察的問題是求二叉樹的最大寬度,但是…

【linux】bash腳本中括號問題

在 Bash 腳本里,中括號 [ ] 其實是 test 命令的同義詞,[ 是一個命令,] 是該命令的最后一個參數,所以中括號內外的空格會影響命令執行,下面詳細說明: 中括號內側空格 中括號內側與操作數之間必須有空格&…

Ruoyi(若依)整合websocket實現信息推送功能(消息鈴鐺)

實現消息推送功能 來了,來了,大家做系統應該是最關心這個功能。 【思路】 需求:對全系統【所有的業務操作】進行消息推送,有【群發】、【私發】功能、處理【消息狀態(未讀/已讀)】,websocket持…

小白的進階之路系列之十五----人工智能從初步到精通pytorch綜合運用的講解第八部分

torch.nn 究竟是什么? PyTorch 提供了設計精良的模塊和類,如 torch.nn、torch.optim、Dataset 和 DataLoader,幫助你創建和訓練神經網絡。為了充分利用它們的能力并根據你的問題進行定制,你需要真正理解它們到底在做什么。為了幫助你理解這一點,我們將首先在不使用這些模…

JavaScript 數據結構詳解

最近在復習JavaScript的基礎知識,和第一次學確實有了很不一樣的感受,第一次學的比較淺,但是回頭再進行學習的時候,發現有很多遺漏的東西,所以今天想分享一下新學到的知識,后面會一點一點補充更新 JavaScrip…

c++面試題(14)------順時針打印矩陣

操作系統:ubuntu22.04 IDE:Visual Studio Code 編程語言:C11 題目描述 輸入一個矩陣,按照從外向里以順時針的順序依次打印出每一個元素。 例如: 輸入矩陣: [[ 1, 2, 3 ],[ 4, 5, 6 ],[ 7, 8, 9 ] ]輸出&…

《Go語言圣經》defer

《Go語言圣經》defer 核心概念:defer語句的執行時機 defer是Go語言的一個關鍵字,它的作用是:延遲執行一個函數調用,該調用會在包圍它的函數返回前一刻執行。 關鍵點: defer語句會在函數即將返回時執行,…

WEB3 的 WebSocket Provider連接方式

1. 什么是 WebSocket Provider? WebSocket Provider 是 web3.js 中用于通過 WebSocket 協議 與以太坊節點(如 Infura、Geth、Parity)建立持久化連接的通信方式。它允許雙向實時數據傳輸,適用于需要實時監聽區塊鏈事件的場景。 核心特點 雙向通信:客戶端和服務器可以主動…

三國大模型:智能重構下的亂世文明圖譜

引言:當赤壁烽煙遇見深度學習 一件動態的《全本三國演義》正通過全息投影技術演繹群雄逐鹿的史詩。這個虛實交融的場景,恰似三國大模型技術的隱喻——以人工智能為紐帶,連接起漢末三國的烽火狼煙與數字時代的文明重構。作為人工智能與歷史學…

AWS數據庫遷移實戰:本地MySQL零停機上云方案

一、遷移場景 本地環境&#xff1a;自建MySQL 5.7&#xff08;數據量500GB&#xff09;&#xff0c;業務要求遷移停機時間<5分鐘 目標架構&#xff1a; 二、遷移四步法 步驟1&#xff1a;環境準備&#xff08;耗時30分鐘&#xff09; 1.1 創建Aurora MySQL # AWS CLI創…

uni-app 安卓 iOS 離線打包參考

App 離線打包 原生工程配置 安卓&#xff1a;【uniapp】uniapp 離線打包安卓應用或者云打包發布 app 步驟&問題記錄 iOS&#xff1a;uni-app實現XCode蘋果本地離線打包APP

mysql History List Length增長

HLL 持續增長導致問題 History List Length&#xff08;HLL&#xff09;是InnoDB存儲引擎中用于衡量未清理的undo日志記錄數量的指標。當HLL持續增長時&#xff0c;可能對數據庫性能和業務產生以下影響&#xff1a; 事務處理延遲增加 高HLL值意味著大量未清理的undo日志&…

VMware替代 | 南京地鐵采用ZStack ZSphere虛擬化承載核心業務

南京地鐵作為中國主要城市軌道交通系統之一&#xff0c;運營規模龐大&#xff0c;地鐵線路覆蓋全市主要區域。其核心業務系統&#xff08;包括列車調度、信號控制、乘客信息系統等&#xff09;原部署在VMware平臺上。然而&#xff0c;隨著VMware產品全面轉向訂閱制&#xff0c;…

Electron自動更新詳解—包教會版

★ 本人在公司項目中實現的Electron更新功能。 ★ 將實現更新過程的每一步都總結了出來&#xff0c;以及過程中我遇到了哪些問題&#xff0c;如何去解決的問題&#xff0c;有哪些注意事項。 ★ 使用貼合實際應用的HTTP服務器做為載體實現更新&#xff0c;而非github。 開始&…