文章目錄
- 前言
- 調查原因
- 查找解決方案
- 硬盤問題
- 內存問題
- 總結
前言
月黑風高夜,服務宕機時。做服務端技術的,誰還沒半夜遇到個服務掛掉的情況,而像我這種半兼職網管的工作,遇到機器問題的概率也就更大了,本來周五晚上寫完總結準備撤離了,照例去我們那簡易的“機房”轉一圈,橙色的指示燈光芒閃的我有些睜不開眼,我知道這意味著我一時半會走不了了,又來活了。
調查原因
Dell PowerEdge R620
這款服務器,那個顯示屏雖然小點,但是好在能展現出錯誤信息,本來我想著錄個視頻,到工位上慢慢分析的,但是無奈亮度對比對太強,錄的視頻一片亮光,無法正常看出錯誤文字,我只得在手機上將看到的文本記錄下來,記性不太好,不得不從頭多看一遍,內容如下:
MEM0702 Correctable memory error rate exceeded for DIMM_B2. Reseat memory.
在回工位的路上,瞄了一眼旁邊的服務器,好家伙,又一臺閃著橙色光芒的,真是“禍不單行”啊,要知道這些機器從我去年安裝好還沒出過問題,今天第一次出問題還一次就出現兩臺,真是難以置信,還是一個一個字母的記錄了另一臺機器的報錯信息:
PDR1001 Fault detected on drive 0 in disk drive by bay 1. Check drive.
畢竟不是專業的,作為一個半吊子網管,初步判斷為內存問題和硬盤問題。
查找解決方案
這時候還是把ChatGPT請出來,當然Deepseek和豆包也都要發表一下對這些問題的看法,經過分析得出的結論就是內存和硬盤壞了,無法與主板正常連通提供服務,最可能得原因是插口松動了,關于內存我還不太擔心,那臺機器有8個條子,大不了把這個壞的取下來,剩余的也能接著用;不過硬盤這個比較棘手,畢竟里面有數據,搞不好我又得花時間同步、搭建、還原等等,所以先來看看硬盤問題。
硬盤問題
PDR1001 Fault detected on drive 0 in disk drive by bay 1. Check drive.
- PDR1001: 這是戴爾服務器關于物理磁盤(Physical Disk)的特定錯誤代碼。
- Fault detected on drive 0 in disk drive by bay 1: 這表示服務器在 1號硬盤托架(bay 1) 中的 第0號硬盤(drive 0) 上檢測到了故障。
- Check drive: 系統給出的建議是:檢查該硬盤。
我首先通過戴爾的遠程管理卡(iDRAC)在網頁上查看了硬盤信息,這臺機器的硬盤配置了RAID5(Redundant Array of Independent Disks, Level 5; 獨立磁盤冗余陣列,第5級),一共由4塊600G硬盤組成,其中一塊是熱備盤,另外3塊構成了RAID5,原來的硬盤狀態是0,1,2聯機狀態,3是就緒狀態。這次再打開,顯示1,2,3聯機狀態,0失敗狀態,也就是第一塊盤讀不到了。
因為之前就配置了RAID5,所以現在數據時完整的,熱備盤3已經替換了原來的0號盤組成新的陣列,數據不受影響,這款硬件卡支持熱插拔,通常的做法是買一塊新的硬盤把0號盤換下來就行了,我查了下價格還挺貴,600G原裝硬盤要1400塊,所以我還是司馬當活馬醫,測試下是不是插口松了。
PowerEdge R620 的硬盤比較好拆,點擊硬盤上的按鈕,彈出一個把手,一拽就出來了,因為故障的時間比較長了,我推測新的RAID5數據已經構建完成,所以我把擦拭好的硬盤又插了回去。
戴爾的遠程管理卡(iDRAC)在網頁上上的日志顯示 “Copyback started from Disk 3 on Integrated RAID Controller 1 to Disk 0 on Integrated RAID Controller 1.”,表明戴爾的PERC控制器做出了一種最智能、最安全的響應。控制器自動將當前RAID成員(Disk 3)上的所有數據,完整地復制回現在物理狀態良好的原盤(Disk 0) 上,當回拷完成后,Disk 0會重新成為RAID 5的正式成員,而Disk 3會自動解除成員身份,變回全局熱備盤的狀態,這是一個全自動的、完美的自我修復過程。
大約過了一個小時,日志顯示:
The physical disk drive Disk 3 in Backplane 1 ofIntegrated RAlD Controller 1 is assigned as a dedicated hot-spare.
這是一個非常理想的結局。 它證明了您最初“3盤RAID 5 + 1熱備”的配置是正確的,并且控制器的功能非常完善。
以后如果再次遇到硬盤故障報警(通過iDRAC郵件或管理界面),請先確認是哪塊盤,然后如果懷疑是連接問題,最安全的方法是先正常關機(Shutdown),再檢查線纜,最后開機。熱插拔操作應保留給確認已故障的磁盤的更換。
切不可在Raid5一塊硬盤掉線后,在數據沒有重新構建完就嘗試再插回去,如果確認硬盤壞了就買塊新盤換上,如果買了一塊二手盤,多數不能自動恢復,需要關機替換掉硬盤后,刪除新購二手盤Raid信息才行。
內存問題
MEM0702 Correctable memory error rate exceeded for DIMM_B2. Reseat memory.
- MEM0702: 這是戴爾服務器的特定錯誤代碼,指內存可糾正錯誤。
- Correctable memory error rate exceeded for DIMM_B2: 這表示服務器主板上的B2內存插槽中的內存條,發生了超過閾值數量的可糾正錯誤(CE)。
- Reseat memory: 這是系統給出的初步建議:重新插拔內存。
首先通過戴爾的遠程管理卡(iDRAC)在網頁上查看城內存信息,標記為DIMM B2的DDR3內存條狀態欄寫著,“已達可校正的內存錯誤日志上限”,重新插拔內存,這是錯誤信息直接建議的操作,有時可能只是因為金手指氧化接觸不良,所以我決定試一試,執行 shutdown -h now
關機,然后打開服務器頂蓋檢查。
定位DIMM_B2:找到主板上的內存插槽。每個插槽旁邊都有清晰的標簽,如 A1, A2, B1, B2, C1, C2…。找到標有 B2 的插槽。
取出內存:按下插槽兩端的卡扣,內存條會自動彈起,然后垂直將其拔出。
清潔金手指:使用一塊干凈的無絨布(如眼鏡布),或專用的電子元件清潔劑,輕輕擦拭內存條金色的接觸部分(金手指),不要用手直接觸摸金手指,我是沒找到眼鏡布,就用面巾紙擦了擦。
重新插入:將內存條對準插槽(注意防呆口),用均勻的力垂直向下按壓,直到兩端的卡扣自動扣回并發出“咔噠”聲。確保內存條已完全插入且沒有歪斜。
重啟服務器后,發現內存信息已經恢復正常,本來這活在常見的PC機上很普通,但是放到服務器上再亮哥橙色的警告燈,讓人很緊張。
總結
Dell PowerEdge R620
這款服務器,頂蓋上有個黑色的把手,扣開滑動即可,硬盤盒前面有個按鈕,按下可彈出拖拽硬盤的把手MEM0702
是戴爾服務器的特定錯誤代碼,指內存可糾正錯誤,建議重新插拔內存PDR1001
是戴爾服務器關于物理磁盤(Physical Disk)的特定錯誤代碼,需檢查硬盤,必要時替換出問題的硬盤,支持熱插拔
人生總是一個不斷交換的過程,拿你自己有的,去換自己想要的,不管這個過程是心甘情愿,還是被逼無奈,日子總要進行的。放大來看,又何止是人生啊,貓生、樹生,萬物生,哪些又是自己能完全掌控的呢?最近坍縮的方向過于明顯了,就必須反著來嗎?