破解哈希極化:基于主動路徑規劃的智算網絡負載均衡方案

如今人工智能(AI)和大模型訓練的蓬勃發展,大規模AI算力集群(智算集群)已成為關鍵基礎設施。這類集群對網絡性能,特別是高吞吐、低延遲和無損特性有著嚴苛要求,RoCE因此被廣泛應用。然而,在支撐智算集群的主流Clos組網架構下,傳統的ECMP路由機制存在天然的局限性,容易引發哈希極化問題,成為制約集群整體性能的瓶頸。本文將探討哈希極化的成因、影響,并介紹一種通過主動路徑規劃(PPD)來優化網絡配置、提升性能的解決方案。

應對智算集群哈希極化:主動路徑規劃(PPD)配置方案

在支撐大規模AI算力(智算)集群的網絡架構中,Clos架構因其高擴展性和冗余性被廣泛采用。在此架構下,各交換節點基于常規的ECMP(等價多路徑)路由機制(分布式運行、自我決策轉發)運行時,往往難以充分感知全局網絡狀態。這一局限容易導致在多層組網中出現哈希(HASH)極化現象,即流量分布嚴重不均。這種不均衡會顯著拖慢智算集群的整體性能,成為規模化部署的痛點。

什么是哈希極化?

哈希極化(也稱哈希不均),其根本原因在于哈希算法的一致性與網絡拓撲結構及流量模式特性之間的復雜相互作用。

  • 算法一致性: 網絡設備(交換機和路由器)通常使用相同或高度相似的哈希算法,并基于標準輸入參數(如五元組:源/目的IP、源/目的端口、協議)進行路徑選擇。
  • 流量特征集中: 當網絡中大量數據流具有相似特征(例如,大量流共享相同的源IP或目的IP),而這些特征恰好是哈希算法的主要輸入時,這些相似的流就極有可能被哈希到相同的路徑上,而非均勻分布到所有等價路徑。
  • 多層疊加效應: 在多層Clos架構(如Leaf-Spine)中,流量需要穿越多個ECMP層。例如,在Leaf層被初步“打散”的流量,經過Spine層轉發時,可能因相同的哈希邏輯再次被集中到更少量的下行鏈路上,加劇極化現象。
  • 大流主導: 流量模式本身由少數大流量(Elephant Flows)主導時,也會顯著放大哈希極化的負面影響。

主動路徑規劃配置邏輯

在不引入復雜動態負載均衡技術的前提下,我們可以通過增加參與哈希計算的因子以及主動規劃流量路徑的策略,來有效應對AI算力集群規模化部署中的負載均衡和租戶隔離等挑戰。這種主動路徑規劃需要網絡工程師在RoCE交換機上配置以下轉發策略:

1. Leaf層上行流量策略路由:智算服務器每張網卡對應一個Leaf交換機下行接口,服務器產生的、需要跨Spine傳輸的上行流量,由Leaf交換機基于策略路由判定并轉發給指定的Spine交換機。端口映射規則:

  • 1:1無收斂: Leaf交換機的每個下行端口綁定一個固定的上行端口(連接Spine)。
  • n:1收斂: 下行端口與上行端口按倍數關系(向上取整)形成n:1的映射,確保流量按規劃路徑上行。

2. Spine層標準L3轉發:

  • 跨Spine的上行流量在Spine層按照標準的三層路由邏輯進行轉發。
  • 設計考量: 在典型的智算“軌道”(POD)組網中,大部分流量局限于軌道內部傳輸,跨軌道流量比例較小。因此,網絡方案可優先解決Leaf層極化問題,Spine層擁塞風險暫不作為主要考量。

3. Leaf層下行流量默認路由:跨Spine的下行流量到達Leaf交換機后,依據默認路由表進行轉發。3

然而,完全依賴手動命令行方式將上述復雜的配置邏輯下發到集群所有交換機上,不僅操作極其繁瑣耗時,還極易引入配置錯誤,增加運維風險和成本。

借助 EasyRoCE PPD 工具簡化配置

為加速智算場景下的路由優化配置,我們此前推出了 PPD工具(主動路徑規劃器,Proactive Path Definer) 的1.0版本。經過實踐驗證和持續優化,PPD現已升級至功能更強大、操作更便捷的2.0版本。作為EasyRoCE工具套件的核心組件之一,PPD 2.0可獨立運行于服務器,也能以代碼形式集成到第三方管理平臺中。其主要運行流程如下:

  • 1. 讀取網絡配置: 自動從 AID工具(AI基礎設施藍圖規劃器,AI Infrastructure Descriptor) 中獲取網絡基礎配置信息。
  • 2. 生成路由配置: 運行PPD工具,依據預設的主動路徑規劃邏輯,自動生成所需的交換機路由配置文件。
  • 3. 審核與下發: 生成的配置文件自動呈現在 UG工具(統一監控面板,Unified Glancer) 中。管理員可在線核對配置詳情,確認無誤后一鍵批量下發至目標設備。

EasyRoCE Toolkit 簡介:

星融元EasyRoCE Toolkit基于開源、開放的網絡架構與技術,專為AI智算、超算等場景的RoCE網絡設計,提供一鍵配置RoCE、高精度流量監控、主動路徑規劃(PPD)等一系列實用特性與工具,顯著簡化高性能網絡部署與管理。所有功能對簽約客戶免費開放。

PPD 2.0 核心升級點

相較于前代,PPD 2.0 實現了顯著的功能與體驗提升:

  • 無縫對接AID: 全面優化與AID工具的集成流程,實現網絡基礎信息(如GPU服務器網卡IP、交換機互聯關系及IP)的自動化填充,極大減少手動輸入。
  • 增強可視化與可操作性: 優化圖形界面操作體驗,配置下發進度和結果實時可視化展示,管理員能快速定位并排查下發異常。
  • 深度集成UG面板: 自動將生成的配置信息及狀態集成到統一監控面板(UG),與其他RDMA網絡配置信息集中展示和管理,提供一站式運維視圖。

使用演示

第一步:導入基礎網絡信息

  • AID工具作為PPD的“數據源”,其專用工作表存儲了PPD所需的所有網絡基礎信息(GPU服務器網卡IP、交換機互聯IP等),支持一鍵自動填充。
  • 工作表還預留了多租戶網絡配置相關字段(如InstanceID, Description),管理員可按需填寫,便于后續精細化管理。

第二步:運行PPD生成路由配置

  • 將PPD工具包上傳至管理服務器并解壓。
  • 運行 start_ppd.sh 命令啟動PPD工具。

第三步:審核與下發配置

  • 所有主動路由規劃信息自動同步至UG面板。管理員登錄UG,進入PPD工具界面。
  • 點擊左上角配置生成按鈕,查看PPD為各設備生成的配置文件(XXXX.cfg)。管理員可詳細檢查配置內容進行二次核對。
  • 勾選目標設備和配置文件,點擊上方批量下發按鈕,工具將自動執行配置下發。
  • 下發完成后,界面實時展示各設備配置結果(成功/失敗)。對于失敗設備,提供明確的報錯信息,管理員排障后可嘗試重新下發。

圖:EasyRoCE-PPD 工具界面概覽

【更多詳細內容,請訪問星融元官網 開放網絡的先行者和推動者- 星融元Asterfusion 官網】

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/90332.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/90332.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/90332.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Vue工程化 ElementPlus

一、Vue工程化1、環境準備create-vue是Vue官方提供的最新的腳手架工具,用于快速生成一個工程化的Vue項目。提供了以下功能:統一的目錄結構本地調試熱部署單元測試集成打包上線依賴環境:Node JS 是一個免費、開源、跨平臺的JavaScript運行時環…

深入解析TCP:可靠傳輸的核心機制與實現邏輯

Linux 系列 文章目錄Linux 系列前言一、TCP協議的概念1.1 TCP協議的特點1.2 TCP又叫做傳輸控制協議二、TCP協議段格式2.1、TCP的流量控制----------窗口大小(16位)2.2 TCP的確認應答機制2.2.1 什么是確認應答機制2.2.2 確認應答機制的優化2.3 超時重傳機…

通縮浪潮中的 “測量防線”:新啟航如何用國產 3D 白光干涉儀筑牢半導體成本護城河?

一、通縮浪潮下半導體行業的成本困局在通縮浪潮沖擊下,半導體行業面臨市場需求疲軟、產品價格下滑的嚴峻挑戰。為維持競爭力,降低生產成本成為企業生存發展的關鍵。而 3D 白光干涉儀作為半導體晶圓檢測、制程監控的核心設備,傳統進口產品價格…

[網安工具] 自動化威脅檢測工具 —— D 盾 · 使用手冊

🌟想了解其它網安工具?看看這個:[網安工具] 網絡安全工具管理 —— 工具倉庫 管理手冊 D盾防火墻D盾,D盾_防火墻,D盾_IIS防火墻,D盾_web查殺,IIS防火墻,webshell查殺,https://www.d99net.net/ 0x01:D 盾 —— 工具簡介 D 盾防火…

Spring AI 系列之二十二 - ImageModel

之前做個幾個大模型的應用,都是使用Python語言,后來有一個項目使用了Java,并使用了Spring AI框架。隨著Spring AI不斷地完善,最近它發布了1.0正式版,意味著它已經能很好的作為企業級生產環境的使用。對于Java開發者來說…

Redis集群高可用與性能優化實戰指南

Redis集群高可用與性能優化實戰指南 一、業務場景描述 在大型分布式系統中,Redis不僅承擔緩存職責,還常用于限流、排行榜、會話管理等高并發場景。隨著訪問量的激增和集群規模的擴展,如何保證Redis服務的高可用性與高性能,成為后端…

基于SpringBoot+Vue的高校特長互助系統(WebSocket實時聊天、協同過濾算法、ECharts圖形化分析)

“ 🎈系統亮點:WebSocket實時聊天、協同過濾算法、ECharts圖形化分析”01系統開發工具與環境搭建前后端分離架構項目架構:B/S架構運行環境:win10/win11、jdk17前端:技術:框架Vue.js;UI庫&#x…

于縱橫交錯的矩陣間:二維數組與多維數據的默契和鳴

大家好啊,我是小象?(?ω?)? 我的博客:Xiao Xiangζ????? 很高興見到大家,希望能夠和大家一起交流學習,共同進步。* 接著上節課的內容,這一節我們來學習二維數組,學習二維數組的概念和創建,明白二維數組的初始化,學會不完全初始化,完全初始化,按照行初始化的…

SHA-3算法詳解

SHA-3(Secure Hash Algorithm 3)是美國國家標準與技術研究院(NIST)于 2015 年發布的新一代密碼哈希算法標準,其核心基于比利時密碼學家團隊設計的Keccak 算法。SHA-3 的誕生旨在應對 SHA-1 和 SHA-2 系列算法可能面臨的…

前端筆記:同源策略、跨域問題

只有前端才會有跨域問題后端不受限制 一、什么是“同源策略”(Same-Origin Policy) ? 定義: 瀏覽器的 同源策略 是一種 安全機制,限制一個源的 JavaScript 訪問另一個源的資源,以防止惡意網站竊取用戶敏感信息。 ? “…

java通過com進行pdf轉換docx丟失

使用,通過com調用,發現pdf轉換成docx后,沒有看到docx輸出到指定目錄。直接說解決方案:關閉的保護模式即可,打開工具,編輯->首選項 找到安全性(增強),關閉啟動時啟用保護模式關閉后,docx正常輸…

SQL基礎? | 視圖篇

0 序言 本文將系統講解數據庫中視圖的相關知識,包括視圖的定義、作用、創建(單表、多表、基于視圖創建)、查看、更新、修改與刪除操作,以及視圖的優缺點。 通過學習,你能夠掌握視圖的基本概念,理解何時及如…

移動云×華為昇騰:“大EP+PD分離”架構實現單卡吞吐量跨越式提升!

在面向下一代AI基礎設施的關鍵技術攻關中,移動云與華為昇騰計算團隊深度協同,實現了大模型推理引擎的架構級突破。雙方基于昇騰AI基礎軟硬件平臺,針對DeepSeek大模型完成了大規模專家并行(Expert Parallelism,簡稱“大…

配電自動化終端中電源模塊的設計

配電自動化終端中電源模塊的設計 引言 配電終端設備的可靠性和自動化程度,直接影響到整個配電自動化系統的可靠性和自動化水平。由于配電終端設備一般安裝于戶外或比較偏僻的地方,不可能有直流電源提供,因此,配電網終端設備的直流供電方式成為各配網自動化改造中必須要研究…

性能測試-groovy語言1

課程:B站大學 記錄軟件測試-性能測試學習歷程、掌握前端性能測試、后端性能測試、服務端性能測試的你才是一個專業的軟件測試工程師 Jmeter之Groovy語言Groovy簡介為何性能測試中選擇Groovywindows下載Groovy進入官網配置環境變量Groovy的數據類型groovy的保留字字符…

天邑TY1613_S905L3SB_安卓9-高安非-高安版-通刷-TTL線刷固件包

天邑TY1613_S905L3SB_安卓9-高安非-高安版-通刷-TTL線刷固件包刷機說明:本固件為TTL刷機方式,需要準備如下工具;電烙鐵TTL線刷機優盤TTL接觸點位于處理器左側,從上往下數第二腳GND、3TXD、4RXD跑碼工具-【工具大全】-putty跑碼工具…

【硬件-筆試面試題】硬件/電子工程師,筆試面試題-7,(知識點:晶體管放大倍數計算)

目錄 1、題目 2、解答 3、相關知識點 晶體管的電流分配關系 直流電流放大系數\(\overline{\beta}\) 交流電流放大系數\(\beta\) 晶體管的放大條件 總結 【硬件-筆試面試題】硬件/電子工程師,筆試面試題匯總版,持續更新學習,加油&…

力扣-152.乘積最大子數組

題目鏈接 152.乘積最大子數組 class Solution {public int maxProduct(int[] nums) {int[] dpMax new int[nums.length]; //包括nums[i]的乘積最大值int[] dpMin new int[nums.length]; //包括nums[i]的乘積最小值int res nums[0];dpMax[0] nums[0];dpMin[0] nums[0];fo…

HTTP/1.0、HTTP/1.1 和 HTTP/2.0 主要區別

一句話總結 HTTP/1.0: 短連接,每次請求都需要建立一個新的 TCP 連接,性能較差。HTTP/1.1: 長連接,默認開啟 Keep-Alive,連接可復用,解決了 1.0 的大部分問題,是目前使用最廣泛的版本。HTTP/2.0: 二進制、多…

Navicat 17.3 正式發布 | 現已支持達夢、金倉和 IvorySQL 數據庫

🚀🚀🚀 Navicat 很高興地宣布:Navicat 17.3 版本正式發布。此次更新包含多項突破性功能,包括新增對達夢、金倉和 IvorySQL 等數據庫的支持,全面強化 AI 功能并新增阿里通義千問等 AI 大模型,同…