問題概述
在華為S系列交換機(V100&V200版本)運行過程中,CPU占用率過高是一個常見問題,可能導致設備性能下降甚至業務中斷。根據華為官方維護寶典,導致CPU占用率高的主要原因可分為四大類:網絡攻擊、網絡震蕩、網絡環路和硬件故障。
網絡攻擊導致的CPU高問題
網絡攻擊的特征與類型
網絡攻擊是導致CPU占用率高的常見原因,主要表現為攻擊源產生大量非正常網絡交互請求,使交換機忙于處理這些請求而無法正常運行業務。常見的網絡攻擊類型包括:
ARP協議報文攻擊
- ARP和ARP-Miss泛洪攻擊
- ARP欺騙攻擊
DHCP協議報文攻擊
其他類型攻擊
-
ICMP攻擊
DDoS攻擊
廣播報文攻擊
TTL-expired報文攻擊
目的IP為設備IP的報文攻擊
SSH/FTP/Telnet等應用層協議報文攻擊
網絡攻擊的定位方法
1.查看設備基本信息
display version
display device
2.檢查上送CPU報文統計
display cpu-defend statistics
reset cpu-defend statistics # 清除統計信息
display cpu-defend statistics all # 隔幾秒后再次查看
示例輸出分析:
Statistics on slot 2:
如果觀察到某種協議報文異常增多,且現網不可能出現這么多報文,則可判斷為協議報文攻擊。
網絡攻擊的解決方案
1. 配置攻擊溯源功能
system-view
acl number 2000rule 5 permit source 10.1.1.1 0 # 10.1.1.1為網關IP地址quit
cpu-defend policy policy1auto-defend enable # 使能攻擊溯源功能undo auto-defend trace-type source-portvlan # 配置溯源模式undo auto-defend protocol 8021x dhcp icmp igmp tcp telnet ttl-expired udp # 刪除不需要的溯源協議auto-defend whitelist 1 acl 2000 # 將網關IP加入白名單quit
對于V200R009之后版本:
cpu-defend policy policy1auto-defend protocol arp # 只溯源ARP報文auto-defend whitelist 1 acl 2000quit
2. 應用防攻擊策略
框式交換機配置:
# 主控板應用策略
system-view
cpu-defend-policy policy1
quit# 所有接口板應用策略
system-view
cpu-defend-policy policy2 global# 指定接口板應用策略
system-view
slot 1
cpu-defend-policy policy2
盒式交換機配置:
# 非堆疊情況
system-view
cpu-defend-policy policy1 global# 堆疊情況
# 主設備應用策略
system-view
cpu-defend-policy policy1# 所有堆疊設備應用策略
system-view
cpu-defend-policy policy1 global
3. 查看攻擊源信息
display auto-defend attack-source
display auto-defend attack-source slot slot-id
4. 網絡攻擊處理建議
配置ARP安全功能:參考產品文檔"配置指南-安全配置-ARP安全配置"
啟用攻擊溯源懲罰功能:
cpu-defend policy policy1
auto-defend enable
auto-defend action deny timer 300 # 300秒內丟棄攻擊報文
配置黑名單:
acl number 2001
rule permit source 1.1.1.0 0.0.0.255
quit
cpu-defend policy policy1
blacklist 1 acl 2001
關閉攻擊源接口(謹慎使用):
cpu-defend policy policy1
auto-defend enable
auto-defend action error-down
網絡震蕩導致的CPU高問題
STP震蕩問題
定位方法
查看STP拓撲變化信息
display stp topology-change
觀察"Number of topology changes"是否有增長。
查看TC-BPDU統計
display stp tc-bpdu statistics
示例輸出:
MSTID Port TC(Send/Receive) TCN(Send/Receive) 0
GigabitEthernet2/0/6 21/4 0/1
處理建議
開啟TC保護告警
snmp-agent trap enable feature-name mstp
stp tc-protection
根據拓撲變化情況處理
接入側端口Up/Down:配置為邊緣端口并開啟BPDU保護
stp edged-port enable
stp bpdu-protection
根橋非預期變化:開啟根保護功能
stp root-protection
OSPF路由協議震蕩
定位方法
查看OSPF鄰居狀態
display ospf peer last-nbr-down
display logbuffer
檢查OSPF報文統計
display cpu-defend statistics packet-type ospf
處理建議
調整OSPF鄰居失效時間
ospf timer dead interval # 建議設置為20s以上
使能sham-hello功能
sham-hello enable
檢查OSPF認證配置
display ospf error如果"Bad authentication type"或"Bad authentication key"計數增長,需配置相同認證信息:ospf authentication-mode
網絡環路導致的CPU高問題
定位方法
網絡環路通常表現為:
- 設備CPU占用率超過80%
- VLAN接口指示燈頻繁閃爍
- 頻繁MAC漂移
- 管理操作延遲
- Ping測試嚴重丟包
- 接口收到大量廣播報文
處理建議
- 通過接口指示燈和流量情況確認存在廣播風暴的接口
- 根據鏈路拓撲逐跳排查環路設備
- 判斷并斷開產生環路的接口
硬件故障導致的CPU高問題
如果排除了網絡攻擊、震蕩和環路等因素,仍存在CPU占用率高的問題,可能是硬件故障導致。此時建議:
收集設備日志信息
display logbuffer
聯系華為技術支持或交換機經銷商進行進一步診斷和處理
總結
華為S系列交換機CPU占用率高問題的解決需要系統性地排查可能的原因,并采取針對性的解決方案。網絡管理員應熟練掌握相關診斷命令和處理方法,定期檢查設備運行狀態,及時防范和處理可能導致CPU高負載的各種情況,確保網絡穩定運行。