[摘要]
??? 某數碼沖印網站,采用DELL POWEREDGE2850服務器,存儲部分由6塊300G硬盤組成RAID5,LINUX平臺,1.5T邏輯磁盤中只包含一個卷,文件系統為EXT3,存儲所有客戶數碼照片,服務器的故障導致整個公司無法開展工作。
之前網站正常工作中卷離線,管理員進入機房檢查時,發現兩塊硬盤報黃燈,ID為1號與4號。致電DELL公司,DELL技術人員提供的解決方案為:隨機選一塊強制上線。
????用戶選擇了4號盤,強制上線后,可MOUNT,但很多目錄打不開,某些目錄下近一周的文件丟失,用戶意識到了操作的錯誤,馬上關機,未做其他操作。尋求數據恢復公司幫助。
[分析]
??? 非常典型的,離線的1號與4號盤并非同時OFFLINE,按故障情況分析,應該是4號盤先前離線,之后1號盤離線導致整個RAID崩潰。客戶強制上線后,因數據不同步導致目錄打不開或目錄陳舊等現象。
??? MOUNT成功系統便會寫入一定量的數據,在寫入數據的這些條帶中,檢驗信息會重新生成,會導致部分檢驗信息陳舊。最直接的后果是無法直接通過還原RAID結構的方式進行數據恢復,只能依靠提取數據的方式進行恢復。
[解決方案]
1、? 分析原RAID 6塊盤的結構(RAID信息),去掉4號盤,加入1號盤,通過虛擬環境搭建RAID平臺。
2、? 對虛擬邏輯卷進行數據提取,將數據輸出到另外的存儲體上。
[解決過程]
1、? 順利分析出RAID結構后,成功搭建RAID。
2、? 通過自主軟件進行數據提取,發現1號盤有不規律的壞道。
3、? 通過專業設備將1號盤完整鏡像,90%以上的壞道成功讀取。
4、? 將鏡像加入虛擬RAID環境,再次提取數據。
5、? 恢復99%以上數據。
[給用戶的建議]
1、DELL的2850事實上可以查詢到RAID的日志,在兩塊以上盤離線的情況下,應該通過查詢日志等方式確定離線的過程,即使強制上線,也需要風險最小(數據重要,盡量少做這類操作)
2、可以通過增加DRAC或hotspare等方式減少此類事故的發生率。
3、如果數據重要,可先行咨詢數據恢復公司
??? 某數碼沖印網站,采用DELL POWEREDGE2850服務器,存儲部分由6塊300G硬盤組成RAID5,LINUX平臺,1.5T邏輯磁盤中只包含一個卷,文件系統為EXT3,存儲所有客戶數碼照片,服務器的故障導致整個公司無法開展工作。
之前網站正常工作中卷離線,管理員進入機房檢查時,發現兩塊硬盤報黃燈,ID為1號與4號。致電DELL公司,DELL技術人員提供的解決方案為:隨機選一塊強制上線。
????用戶選擇了4號盤,強制上線后,可MOUNT,但很多目錄打不開,某些目錄下近一周的文件丟失,用戶意識到了操作的錯誤,馬上關機,未做其他操作。尋求數據恢復公司幫助。
[分析]
??? 非常典型的,離線的1號與4號盤并非同時OFFLINE,按故障情況分析,應該是4號盤先前離線,之后1號盤離線導致整個RAID崩潰。客戶強制上線后,因數據不同步導致目錄打不開或目錄陳舊等現象。
??? MOUNT成功系統便會寫入一定量的數據,在寫入數據的這些條帶中,檢驗信息會重新生成,會導致部分檢驗信息陳舊。最直接的后果是無法直接通過還原RAID結構的方式進行數據恢復,只能依靠提取數據的方式進行恢復。
[解決方案]
1、? 分析原RAID 6塊盤的結構(RAID信息),去掉4號盤,加入1號盤,通過虛擬環境搭建RAID平臺。
2、? 對虛擬邏輯卷進行數據提取,將數據輸出到另外的存儲體上。
[解決過程]
1、? 順利分析出RAID結構后,成功搭建RAID。
2、? 通過自主軟件進行數據提取,發現1號盤有不規律的壞道。
3、? 通過專業設備將1號盤完整鏡像,90%以上的壞道成功讀取。
4、? 將鏡像加入虛擬RAID環境,再次提取數據。
5、? 恢復99%以上數據。
[給用戶的建議]
1、DELL的2850事實上可以查詢到RAID的日志,在兩塊以上盤離線的情況下,應該通過查詢日志等方式確定離線的過程,即使強制上線,也需要風險最小(數據重要,盡量少做這類操作)
2、可以通過增加DRAC或hotspare等方式減少此類事故的發生率。
3、如果數據重要,可先行咨詢數據恢復公司
本文轉自 張宇 51CTO博客,原文鏈接:http://blog.51cto.com/zhangyu/33741,如需轉載請自行聯系原作者