華為交換機堆疊與集群技術深度解析附帶腳本

一、引言

在企業園區網、數據中心等網絡場景中，為了提升網絡的可靠性、擴展性和管理效率，華為交換機提供了堆疊（Stack）和集群（CSS，Cluster Switch System ）技術。這兩種技術能夠將多臺物理交換機邏輯上整合為單一的虛擬設備，簡化網絡運維，增強網絡性能。本文將深入解析華為堆疊與集群技術的優勢、核心概念，并結合實際配置示例，帶你掌握其部署要點，同時詳細探討堆疊的動態變化（成員退出、加入、合并、分裂）及相關保障機制（MAD 檢測），對比傳統 CSS 與 CSS2 技術差異。

二、堆疊與集群技術概述

（一）核心概念

堆疊（Stack）
- 定義：將多臺同型號交換機通過專用堆疊線纜或以太網業務口連接，邏輯上虛擬化為一臺 “交換機”。所有成員交換機共享統一的管理 IP、配置文件和轉發平面，對外呈現為單一網絡節點。
- 典型場景：接入層環形堆疊組網（如 3 臺交換機組成環形堆疊，提升冗余能力）。
集群（CSS）
- 定義：主要用于中高端框式交換機，通過集群卡或業務板卡的集群端口連接，將兩臺框式交換機虛擬為單一邏輯設備。相較于堆疊，集群支持更大的設備容量和更靈活的拓撲，常用于核心層、匯聚層高可靠性場景。
- 典型場景：雙機集群（2 臺交換機通過多對業務口連接，增強帶寬與冗余）。

（二）技術優勢

三、堆疊技術深度解析

（一）關鍵參數與概念

堆疊 ID（Stack ID）
- 每臺堆疊成員交換機的唯一標識（如 0、1、2 ），用于區分堆疊內的不同設備。
堆疊優先級（Stack Priority）
- 取值范圍 0 - 255（數值越大優先級越高），用于競爭堆疊主設備角色。
- 規則：優先級高的設備優先成為主交換機；優先級相同時，mac地址小的設備競爭勝出。
堆疊拓撲與連接方式
- 環形堆疊：成員交換機通過環形鏈路連接，具備鏈路冗余能力，某條堆疊鏈路故障時，自動切換為鏈形繼續工作。
- 鏈形堆疊：成員交換機按線性串聯，部署簡單，但冗余能力弱于環形（需依賴設備自身冗余）。

（二）堆疊系統建立過程

初始化階段：交換機啟動后，自動檢測堆疊線纜連接，識別鄰居設備。
過程角色選舉：① 運行狀態比較，已經運行的交換機比處于啟動狀態的交換機優先競爭為交換機。堆疊主交換機選舉超時時間為20s，堆疊成員交換機上電或重啟時，由于不同成員交換機所需的啟動時間可能差異較大，因此不是所有成員交換機都有機會參與主交換機的第一次選舉。② 堆疊優先級高的交換機優先競爭為主交換機。③堆疊優先級相同時，MAC地址小的交換機優先競爭為主交換機。
角色：
- 主交換機（Master）：負責管理整個堆疊系統，處理配置、協議協商等核心任務。
- 備交換機（Standby）：同步主交換機配置，主故障時自動升級為主，保障業務不中斷。
- 從交換機（Slave）：執行主交換機下發的轉發任務，無獨立控制平面。
統一配置：主交換機將配置同步給備、從交換機，整個堆疊系統對外呈現為單一設備。

（三）堆疊動態變化處理

1. 堆疊成員退出

場景：堆疊成員交換機因故障（如電源、主板故障）或手動移除（維護場景）退出堆疊。
處理機制：
- 若退出的是從交換機：主交換機自動重新分配資源，業務無明顯中斷（轉發平面快速收斂）。
- 若退出的是備交換機：原主交換機檢測到備故障后，會重新選舉新的備交換機（通常是優先級次高或 mac地址次小的成員），期間業務轉發不受影響，但配置同步可能有短暫延遲。
- 若退出的是主交換機：備交換機立即升級為主，接管整個堆疊系統，實現 “0” 業務中斷切換（依賴配置預同步機制）。

2. 堆疊成員加入

場景：新增交換機加入已有的堆疊系統（如網絡擴容、替換故障設備）。
處理機制：
1. 新成員啟動后，自動檢測堆疊線纜連接，向現有堆疊系統發送加入請求。
2. 主交換機驗證新成員的型號、軟件版本兼容性，若符合要求，將其納入堆疊，分配 Stack ID（通常是當前最大 ID + 1 ），并同步配置。
3. 新成員成為從交換機，參與業務轉發，整個過程對現有業務影響極小（僅需短暫的拓撲收斂時間）。

3. 堆疊合并

場景：兩個獨立的堆疊系統因物理連接（如堆疊線纜誤連）或人為操作（如網絡規劃調整）發生合并。
處理機制：
1. 兩個堆疊系統的主交換機通過堆疊鏈路交換信息，比較優先級→Stack ID，優先級高的主交換機保留主角色，另一堆疊系統的主交換機降級為備或從。
2. 合并后的堆疊系統重新統一配置、分配資源，需確保兩個原堆疊系統的配置兼容（若存在沖突，以保留主交換機的配置為準，或提前通過stack merge check命令檢測沖突）。

4. 堆疊分裂

場景：因堆疊鏈路故障（如線纜斷開、光模塊故障），原本單一的堆疊系統分裂為多個獨立的 “子堆疊”。若不加以控制，多個子堆疊可能因配置沖突導致網絡故障（如 IP 地址重復、MAC 地址沖突）。
解決機制：MAD 檢測（Multi - Active Detection ）
- 原理：通過額外的檢測鏈路（如管理網口、業務口）或協議（如 BFD、LACP ），檢測堆疊分裂事件，確保只有一個子堆疊保留 “激活” 狀態，其他子堆疊自動進入 “隔離” 狀態，避免網絡沖突。
- 技術細節：
  - 檢測方式：
    - BFD MAD：在堆疊成員間建立 BFD 會話，通過獨立鏈路（如管理 VLAN ）發送檢測報文。堆疊分裂后，BFD 會話中斷，觸發子堆疊競爭，優先級高的子堆疊保留激活，其他隔離。
    - LACP MAD：利用 LACP 協議，將堆疊系統的業務鏈路配置為 LACP 聚合組，堆疊分裂后，多個子堆疊會向對端設備發送 LACP 報文，對端設備根據配置（如最大活動端口數）選擇保留一個子堆疊的鏈路，其他子堆疊鏈路被置為 Down，實現隔離。
    - gratuitous ARP MAD：堆疊系統周期性發送 gratuitous ARP 報文，分裂后多個子堆疊發送的 ARP 報文會因沖突被檢測到，觸發激活 / 隔離邏輯。
  - 隔離機制：進入隔離狀態的子堆疊會關閉除檢測鏈路外的所有業務端口，避免發送沖突的網絡流量，同時保留管理端口用于故障排查。
  - 恢復流程：修復堆疊鏈路后，手動或自動（部分場景支持）將隔離的子堆疊重新加入原堆疊系統，主交換機同步配置，恢復正常業務。

（四）堆疊配置示例（環形堆疊場景）

場景說明

3 臺交換機（SW1、SW2、SW3 ）組成環形堆疊，角色為主（SW1，Stack ID 0 ，優先級 200 ）、備（SW2，Stack ID 1 ，優先級 100 ）、從（SW3，Stack ID 2 ，優先級 100 ），通過 GE 接口互聯。

配置腳本

SW1 配置：

[SW1] stack slot 0 priority 200  
[SW1] interface stack-port 0/1
[SW1-stack-port0/1] port interface gigabitethernet 0/0/23 enable
[SW1] interface stack-port 0/2
[SW1-stack-port0/2] port interface gigabitethernet 0/0/24 enable

SW2 配置：

[SW2] stack slot 0 renumber 1  
[SW2] interface stack-port 0/1
[SW2-stack-port0/1] port interface gigabitethernet 0/0/24 enable
[SW2] interface stack-port 0/2
[SW2-stack-port0/2] port interface gigabitethernet 0/0/23 enable

SW3 配置：

[SW3] stack slot 0 renumber 2  
[SW3] interface stack-port 0/1
[SW3-stack-port0/1] port interface gigabitethernet 0/0/22 enable
[SW3] interface stack-port 0/2
[SW3-stack-port0/2] port interface gigabitethernet 0/0/21 enable

驗證命令：

display stack  // 查看堆疊狀態，確認主、備、從角色及拓撲

四、集群技術深度解析

（一）關鍵參數與概念

集群 ID（CSS ID）
- 集群系統的唯一標識（如 1、2 ），用于區分不同集群。多集群部署時，需確保 ID 唯一。
集群優先級（CSS Priority）
- 取值范圍 0 - 255（數值越大優先級越高），決定主交換機競爭結果。
集群模式（CSS Mode）
- 如lpu模式（Line Processing Unit，業務板卡集群），指定集群連接依賴的硬件類型（業務板或集群卡）。

（二）集群系統建立過程

物理連接：通過業務板卡的集群端口（如 XGE 接口）連接多臺交換機，形成集群鏈路。
角色選舉：依據優先級→集群 ID競爭主、備角色（類似堆疊，但集群通常為雙機）。
使能集群：執行css enable激活集群功能，設備重啟后虛擬為單一邏輯設備。

（三）集群配置示例（雙機集群場景）

場景說明

2 臺交換機（SW1、SW2 ）通過業務板 XGE 接口組建集群，SW1 為 ID 1（優先級 100 ），SW2 為 ID 2（優先級 10 ），提升核心層帶寬與可靠性。

配置腳本

SW1 配置：

[SW1] set css mode lpu  // 集群模式為業務板卡
[SW1] set css id 1     
[SW1] set css priority 100  
[SW1] interface css-port 1
[SW1-css-port1] port interface xgigabitethernet 1/0/1 to xgigabitethernet 1/0/2 enable
[SW1-css-port1] quit
[SW1] interface css-port 2
[SW1-css-port2] port interface xgigabitethernet 2/0/1 to xgigabitethernet 2/0/2 enable
[SW1-css-port2] quit
[SW1] css enable 
Warning: The CSS configuration will take effect only after the system is rebooted. Reboot now? [Y/N]:y

SW2 配置：

[SW2] set css mode lpu  
[SW2] set css id 2      
[SW2] set css priority 10  
[SW2] css enable        
Warning: The CSS configuration will take effect only after the system is rebooted. Reboot now? [Y/N]:y

驗證命令：

display css status  // 查看集群狀態，確認主備角色、鏈路狀態

（四）傳統 CSS 與 CSS2 技術對比

對比維度	傳統 CSS	CSS2
適用設備	早期中高端交換機（如 S7700 老款）	新一代中高端交換機（如 S12700 系列）
集群規模	最大支持 2 臺設備	支持更多成員（部分場景可達 8 臺）
連接靈活性	依賴專用集群卡	支持業務板卡直連，減少硬件依賴
帶寬能力	單集群鏈路帶寬有限（如 40G ）	支持更高帶寬聚合（如 200G、400G ）
故障恢復速度	依賴傳統協議協商，收斂稍慢	優化快速收斂算法，故障切換更迅速
MAD 檢測集成度	需手動配置 BFD/LACP 等檢測	內置更智能的 MAD 檢測，支持自動識別

五、總結與實踐建議

華為堆疊與集群技術通過虛擬化為單一邏輯設備，解決了傳統多設備組網的管理復雜、帶寬受限、可靠性低等問題。實踐中建議：

接入層：采用環形堆疊，提升端口密度與冗余能力，簡化接入終端管理。利用 MAD 檢測機制，預防堆疊分裂導致的網絡故障。
核心層：部署雙機集群（CSS2 優先），結合 M - LAG 實現鏈路冗余，保障業務 7×24 小時運行。關注傳統 CSS 與 CSS2 的差異，按需選擇技術方案。
配置驗證：部署后通過display stack（堆疊）、display css status（集群）確認角色與鏈路狀態，通過display mad status查看 MAD 檢測狀態，確保虛擬系統正常運行。

掌握堆疊與集群技術，讓你的網絡架構更簡潔、更可靠、更高效！后續將分享更多華為數通技術實踐，歡迎持續關注～

注：實際部署中需嚴格匹配設備型號、軟件版本對堆疊 / 集群的支持，部分老款設備可能存在功能差異。配置前建議通過華為官方文檔或display support information確認兼容性。