?更多銀河麒麟操作系統產品及技術討論,歡迎加入銀河麒麟操作系統官方論壇
https://forum.kylinos.cn
了解更多銀河麒麟操作系統全新產品,請點擊訪問
麒麟軟件產品專區:https://product.kylinos.cn
開發者專區:https://developer.kylinos.cn
文檔中心:https://document.kylinos.cn
服務器環境以及配置
【內核版本】
4.19.90-25.25.v2101.ky10.x86_64
【OS鏡像版本】
銀河麒麟高級服務器操作系統 v10 sp2 0524
【第三方軟件】
Vastbase 數據庫 G100 V2.2.10 PSU6
現象描述
虛擬機部署v10sp2系統,宿主機為歐拉定制系統。虛擬機運行Vastbase數據庫軟件,在03:10:04數據庫執行了對表dwd_rq_jg_xjjl_all_delta_1824281295409119232(對應物理文件11747991)的刪除操作,08:00:17數據庫將數據寫入表t_yh(對應物理文件11749618),在次日08點,讀取表t_yh時異常。
經數據庫廠商排查發現,文件的11749618的第5619個數據塊中,存儲了已經刪除文件11747991的第8186個數據塊的數據。同時明確在08:00:17前,有pwrite和fsync相關系統調用,且沒有返回報錯。cp操作11749618文件,同樣也是包含了被刪除的文件數據,認為存在數據丟失導致數據庫應用異常的可能。
現象分析
日志分析
分析系統日志信息,在03:10:04執行刪除操作,排查系統日志信息,未發現文件系統異常日志信息,如下圖:
同時,排查08:00:17前后日志,均未發現文件系統異常日志信息,如下圖:
截止到30日08左右訪問該文件,期間均未發現文件系統異常日志信息,如下圖:
xfs日志分析
獲取了出現問題設備的xfs日志信息,最新的日志信息顯示是次月29日的,
將mtime時間轉化,0x67201014(16進制)= 1730154516(十進制)
使用在線時間轉換工具,轉換如下:
由于xfs文件系統日志區域是循環使用的,較早之前的日志均被覆蓋了,未發現有效日志信息。
異常文件分析
針對故障文件11749618,使用xfs_bmap文件獲取其在磁盤上的位置信息及inode信息如下:
以上,文件系統已經給文件11749618分配了磁盤空間,且inode對應元數據信息正常,crc校驗正確。同時使用xfs_reapir -n對文件系統進行檢查,沒有文件系統損壞的報錯。
其他信息排查
同時,重點排查了磁盤IO壓力信息,內存使用情況,及CPU使用信息,分別如下:
均未發現異常信息。
宿主機日志排查
針對收集到的宿主機系統日志進行排查,未發現有效日志信息。需要請云平臺廠商進一步分析排查是否存在數據丟失的問題。
分析結果
通過以上分析,在異常時間節點附近未發現異常日志信息,排除虛擬機操作系統存在異常導致丟數據的可能。同時由于虛擬機的數據存儲過程涉及到宿主機及網絡存儲,不排除數據庫存在故障,或云平臺存儲故障,導致數據丟失,還需數據庫廠商及云平臺廠商進一步排查。