目錄
InfiniBand 網絡性能日志:
實際生產服務器 InfiniBand 網絡性能問題深度分析
一、核心問題定位:mlx5_1 設備性能異常
二、問題詳細分析
1. mlx5_1 設備異常原因推測
(1)硬件連接故障
(2)驅動或固件問題
(3)資源爭用或配置錯誤
2. CPU 頻率不一致問題
三、其他設備性能分析
1. 正常設備表現
2. 異常偏高設備:mlx5_10
四、系統性優化建議
1. 硬件層面
2. 軟件與配置層面
3. 測試方法改進
五、故障處理優先級建議
InfiniBand 網絡性能日志:
test@h3-1-gpu:~/nccl-tests$ nvidia-smi
Mon Jun 23 14:01:32 2025
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.01 Driver Version: 535.183.01 CUDA Version: 12.2 |
|-----------------------------------------+----------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp P