這張圖展示的是 NFS 重傳次數速率監控,具體解釋如下:
1. 指標含義
- 監控指標
node_nfs_rpc_retransmissions_total
統計 NFS(網絡文件系統)通信中 RPC(遠程過程調用)的重傳次數,rate(node_nfs_rpc_retransmissions_total[5m])
則計算過去 5 分鐘內重傳次數的平均速率。 - 重傳次數高:意味著 NFS 通信過程中因網絡波動、服務器負載高、連接不穩定等原因,數據傳輸失敗后需要重新發送,反映 NFS 存儲鏈路存在異常。
2. 圖中表現
- 從圖中可見,在
2025-03-29 10:52:01
左右,實例qfusion-node6
的重傳速率值達到6.36
,且該時間段內多條曲線(不同節點)出現明顯波動。這表明 NFS 存儲在該時段發生了頻繁的通信重傳,存儲鏈路穩定性差。
3. 問題關聯
- NFS 重傳頻繁會導致 IO 延遲升高、響應不穩定。結合此前 MSSQL 故障場景,這種 NFS 波動會引發存儲掛載點響應異常,導致 MSSQL 備份時因 IO 阻塞卡住,最終觸發實例崩潰切換。圖中的重傳高峰時段,恰好可作為 NFS 異常的關鍵證據,與數據庫故障因果關聯。