起初并沒人關注的小問題,正常不過的虛機存儲遷移操作,引起的延遲卻引發一連串的變化。
環境
vsphere 6.7 + 華為集中式存儲
開始
- 下午5:17
業務反饋,存在數據超時,頻繁在1秒鐘以內,正常在200ms。需運維排查虛機的狀態與IO情況等硬件使用情況。 - 下午5:30
隨手翻開zabbix 打開cpu idel 與avaliable memory ,均正常余量蠻大,這臺為數據庫cpu idel 最高不超過30%,排除cpu 內存問題。
同時數據庫組同事給予意見:
從awr分析上看瞬時的io大,寫入慢了假設后續硬件層面沒法提高的情況下,建議對相關表改成分區表,再把數據庫的幾個數據文件分割到多個新掛載磁盤卷去。如果存儲能提升來的會快一點。
以上在下班前算是給予一個比較好的解決方式,恰逢周五下班,無心排查期待后續沒有其余問題。 - 晚上 21:47
業務反饋延遲在這幾個小時內反反復復發生,告警一直反反復復。
此刻開始關注,調出vsphere 打開虛機IO延遲,查看在這段時間內IO正常,最大演出151。懷疑這個存儲不行,立馬決定熱更換存儲。 - 晚上 21:58
懷疑不是存儲的問題,立馬停止存儲遷移。打開存儲管理臺查看當前lun的狀態。并收集存儲日志交給廠商進行定量分析。 - 晚上 23:30
經過仔細排查與操作記錄回想,基本確認是在4:30-5:17進行的虛機整機遷移(包含存儲的更換)導致的延遲增加。
1:分析存儲性能數據,從16:35開始存儲上ID為17的LUN