Dell PowerEdge R620 服務器內存和硬盤罷工了

文章目錄

  • 前言
  • 調查原因
  • 查找解決方案
    • 硬盤問題
    • 內存問題
  • 總結

前言

月黑風高夜,服務宕機時。做服務端技術的,誰還沒半夜遇到個服務掛掉的情況,而像我這種半兼職網管的工作,遇到機器問題的概率也就更大了,本來周五晚上寫完總結準備撤離了,照例去我們那簡易的“機房”轉一圈,橙色的指示燈光芒閃的我有些睜不開眼,我知道這意味著我一時半會走不了了,又來活了。

調查原因

Dell PowerEdge R620 這款服務器,那個顯示屏雖然小點,但是好在能展現出錯誤信息,本來我想著錄個視頻,到工位上慢慢分析的,但是無奈亮度對比對太強,錄的視頻一片亮光,無法正常看出錯誤文字,我只得在手機上將看到的文本記錄下來,記性不太好,不得不從頭多看一遍,內容如下:

MEM0702 Correctable memory error rate exceeded for DIMM_B2. Reseat memory.

在回工位的路上,瞄了一眼旁邊的服務器,好家伙,又一臺閃著橙色光芒的,真是“禍不單行”啊,要知道這些機器從我去年安裝好還沒出過問題,今天第一次出問題還一次就出現兩臺,真是難以置信,還是一個一個字母的記錄了另一臺機器的報錯信息:

PDR1001 Fault detected on drive 0 in disk drive by bay 1. Check drive.

畢竟不是專業的,作為一個半吊子網管,初步判斷為內存問題和硬盤問題。

查找解決方案

這時候還是把ChatGPT請出來,當然Deepseek和豆包也都要發表一下對這些問題的看法,經過分析得出的結論就是內存和硬盤壞了,無法與主板正常連通提供服務,最可能得原因是插口松動了,關于內存我還不太擔心,那臺機器有8個條子,大不了把這個壞的取下來,剩余的也能接著用;不過硬盤這個比較棘手,畢竟里面有數據,搞不好我又得花時間同步、搭建、還原等等,所以先來看看硬盤問題。

硬盤問題

PDR1001 Fault detected on drive 0 in disk drive by bay 1. Check drive.

  • PDR1001: 這是戴爾服務器關于物理磁盤(Physical Disk)的特定錯誤代碼。
  • Fault detected on drive 0 in disk drive by bay 1: 這表示服務器在 1號硬盤托架(bay 1) 中的 第0號硬盤(drive 0) 上檢測到了故障。
  • Check drive: 系統給出的建議是:檢查該硬盤。

我首先通過戴爾的遠程管理卡(iDRAC)在網頁上查看了硬盤信息,這臺機器的硬盤配置了RAID5(Redundant Array of Independent Disks, Level 5; 獨立磁盤冗余陣列,第5級),一共由4塊600G硬盤組成,其中一塊是熱備盤,另外3塊構成了RAID5,原來的硬盤狀態是0,1,2聯機狀態,3是就緒狀態。這次再打開,顯示1,2,3聯機狀態,0失敗狀態,也就是第一塊盤讀不到了。

因為之前就配置了RAID5,所以現在數據時完整的,熱備盤3已經替換了原來的0號盤組成新的陣列,數據不受影響,這款硬件卡支持熱插拔,通常的做法是買一塊新的硬盤把0號盤換下來就行了,我查了下價格還挺貴,600G原裝硬盤要1400塊,所以我還是司馬當活馬醫,測試下是不是插口松了。

PowerEdge R620 的硬盤比較好拆,點擊硬盤上的按鈕,彈出一個把手,一拽就出來了,因為故障的時間比較長了,我推測新的RAID5數據已經構建完成,所以我把擦拭好的硬盤又插了回去。

戴爾的遠程管理卡(iDRAC)在網頁上上的日志顯示 “Copyback started from Disk 3 on Integrated RAID Controller 1 to Disk 0 on Integrated RAID Controller 1.”,表明戴爾的PERC控制器做出了一種最智能、最安全的響應。控制器自動將當前RAID成員(Disk 3)上的所有數據,完整地復制回現在物理狀態良好的原盤(Disk 0) 上,當回拷完成后,Disk 0會重新成為RAID 5的正式成員,而Disk 3會自動解除成員身份,變回全局熱備盤的狀態,這是一個全自動的、完美的自我修復過程。

大約過了一個小時,日志顯示:

The physical disk drive Disk 3 in Backplane 1 ofIntegrated RAlD Controller 1 is assigned as a dedicated hot-spare.

這是一個非常理想的結局。 它證明了您最初“3盤RAID 5 + 1熱備”的配置是正確的,并且控制器的功能非常完善。

以后如果再次遇到硬盤故障報警(通過iDRAC郵件或管理界面),請先確認是哪塊盤,然后如果懷疑是連接問題,最安全的方法是先正常關機(Shutdown),再檢查線纜,最后開機。熱插拔操作應保留給確認已故障的磁盤的更換。

切不可在Raid5一塊硬盤掉線后,在數據沒有重新構建完就嘗試再插回去,如果確認硬盤壞了就買塊新盤換上,如果買了一塊二手盤,多數不能自動恢復,需要關機替換掉硬盤后,刪除新購二手盤Raid信息才行。

內存問題

MEM0702 Correctable memory error rate exceeded for DIMM_B2. Reseat memory.

  • MEM0702: 這是戴爾服務器的特定錯誤代碼,指內存可糾正錯誤。
  • Correctable memory error rate exceeded for DIMM_B2: 這表示服務器主板上的B2內存插槽中的內存條,發生了超過閾值數量的可糾正錯誤(CE)
  • Reseat memory: 這是系統給出的初步建議:重新插拔內存。

首先通過戴爾的遠程管理卡(iDRAC)在網頁上查看城內存信息,標記為DIMM B2的DDR3內存條狀態欄寫著,“已達可校正的內存錯誤日志上限”,重新插拔內存,這是錯誤信息直接建議的操作,有時可能只是因為金手指氧化接觸不良,所以我決定試一試,執行 shutdown -h now 關機,然后打開服務器頂蓋檢查。

定位DIMM_B2:找到主板上的內存插槽。每個插槽旁邊都有清晰的標簽,如 A1, A2, B1, B2, C1, C2…。找到標有 B2 的插槽。

取出內存:按下插槽兩端的卡扣,內存條會自動彈起,然后垂直將其拔出。

清潔金手指:使用一塊干凈的無絨布(如眼鏡布),或專用的電子元件清潔劑,輕輕擦拭內存條金色的接觸部分(金手指),不要用手直接觸摸金手指,我是沒找到眼鏡布,就用面巾紙擦了擦。

重新插入:將內存條對準插槽(注意防呆口),用均勻的力垂直向下按壓,直到兩端的卡扣自動扣回并發出“咔噠”聲。確保內存條已完全插入且沒有歪斜。

重啟服務器后,發現內存信息已經恢復正常,本來這活在常見的PC機上很普通,但是放到服務器上再亮哥橙色的警告燈,讓人很緊張。

總結

  • Dell PowerEdge R620 這款服務器,頂蓋上有個黑色的把手,扣開滑動即可,硬盤盒前面有個按鈕,按下可彈出拖拽硬盤的把手
  • MEM0702 是戴爾服務器的特定錯誤代碼,指內存可糾正錯誤,建議重新插拔內存
  • PDR1001 是戴爾服務器關于物理磁盤(Physical Disk)的特定錯誤代碼,需檢查硬盤,必要時替換出問題的硬盤,支持熱插拔

==>> 反爬鏈接,請勿點擊,原地爆炸,概不負責!<<==

人生總是一個不斷交換的過程,拿你自己有的,去換自己想要的,不管這個過程是心甘情愿,還是被逼無奈,日子總要進行的。放大來看,又何止是人生啊,貓生、樹生,萬物生,哪些又是自己能完全掌控的呢?最近坍縮的方向過于明顯了,就必須反著來嗎?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/97819.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/97819.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/97819.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

2025:SourceTree 啟用/禁用Mercurial 或 Git,像素級細節

最近使用Git管理工具的時候&#xff0c;發現還是SourceTree好用些&#xff0c;但是使用SourceTree帶來一個問題&#xff1a;就是每次在重新打開SourceTree的時候&#xff0c;都會重新下載Mercurial.zip文件&#xff0c;查了一下&#xff0c;一般情況下我們是不需要使用Mercuria…

安卓 Google Maps 的使用和開發步驟

文章目錄1. main2. Android 谷歌地圖3. 源碼Reference1. main 在國內選擇的SDK可以是高德、百度、騰訊、xxxx等&#xff0c;但在國外&#xff0c;你首選是谷歌&#xff0c;因此要進行Google地圖的開發你首先要解決下面三個問題 VPN Google賬號 信用卡American Express&#x…

Linux -- 應用層協議Http

1.HTTP背景知識 HTTP協議&#xff1a;HTTP&#xff08;HyperText Transfer Protocol&#xff0c;超文本傳輸協議&#xff09;的本質是運行在 TCP/IP 協議族之上的 “應用層協議”&#xff0c;核心作用是定義客戶端&#xff08;如瀏覽器、APP&#xff09;與服務器之間的 “數據…

R 語言本身并不直接支持 Python 中 f“{series_matrix}.txt“ 這樣的字符串字面量格式化(f-string)語法 glue函數

R 語言本身并不直接支持 Python 中 f"{series_matrix}.txt" 這樣的字符串字面量格式化&#xff08;f-string&#xff09;語法。 在 R 中&#xff0c;要實現字符串拼接或格式化&#xff0c;你需要使用其他方法。下表對比了 Python f-string 和 R 中常見對應方法的主要…

【AI智能體】亮數據MCP Server × Dify:AI智能體獲取實時影音數據就是這么簡單

文章目錄一、引言&#xff1a;AI 應用與實時影音數據的融合價值1、傳統采集方式的痛點2、MCP Server 的創新價值二、亮數據 MCP Server 概覽1、什么是 MCP Server&#xff1f;2、支持的影音平臺和API接口3、產品特色亮點三、業務場景示例設計1、選定場景&#xff1a;競品分析與…

從《Attention Is All You Need》深入理解Transformer

2017年的《Attention Is All You Need》論文提出的Transformer架構&#xff0c;不僅徹底改變了自然語言處理的格局&#xff0c;更為現代人工智能的發展奠定了堅實基礎。本文將帶你深入解析這一劃時代模型的核心思想、技術細節及其深遠影響。&#x1f504; 一、背景與動機&#…

【08】AI輔助編程完整的安卓二次商業實戰-修改消息聊天框背景色-觸發聊天讓程序異常終止bug牽涉更多聊天消息發送優化處理-優雅草卓伊凡

【08】AI輔助編程完整的安卓二次商業實戰-修改消息聊天框背景色-觸發聊天讓程序異常終止bug牽涉更多聊天消息發送優化處理-優雅草卓伊凡引言本次二開布局沒有變&#xff0c;但是下一次整體布局會有變&#xff0c;不過本次開發發現朋友圈跳轉功能的流程步驟也做了一定的變化。原…

心理調適與情緒管理實訓室:支撐康養旅游人才心理能力培養

在康養休閑旅游服務專業的教學體系中&#xff0c;心理調適與情緒管理實訓室作為關鍵教學場所&#xff0c;承擔著培養學生心理服務能力、情緒疏導技能和人際溝通素養的重要任務。隨著社會對康養旅游服務質量要求的提升&#xff0c;具備心理調適與情緒管理能力的專業人才日益受到…

Oracle sql tuning guide 翻譯 Part 6 --- 優化器控制

第五部分優化器控制你可以用提示信息和初始化參數來影響優化器的判斷和運作方式。Influencing the Optimizer Optimizer defaults are adequate for most operations, but not all.In some cases you may have information unknown to the optimizer, or need to tune the opti…

pthread_mutex_lock函數深度解析

摘要 pthread_mutex_lock是POSIX線程庫中用于實現線程同步的核心函數&#xff0c;它通過對互斥鎖的加鎖操作來確保多個線程對共享資源的安全訪問。本文從互斥鎖的歷史背景和發展脈絡入手&#xff0c;詳細解析了pthread_mutex_lock函數的設計理念、實現機制和使用場景。通過生產…

qt QBoxSet詳解

1、概述QBoxSet 類代表箱形圖中的一個條目。箱形條目是范圍和由五個不同值構成的三個中值的圖形表示。這五個值分別是&#xff1a;下極值、下四分位數、中位數、上四分位數和上極值。QBoxSet 提供了多種方法來設置和獲取這些值&#xff0c;并且可以與 QBoxPlotSeries 和 QChart…

機器學習勢函數(MLPF)入門:用DeePMD-kit加速億級原子模擬

點擊 “AladdinEdu&#xff0c;同學們用得起的【H卡】算力平臺”&#xff0c;注冊即送-H卡級別算力&#xff0c;80G大顯存&#xff0c;按量計費&#xff0c;靈活彈性&#xff0c;頂級配置&#xff0c;學生更享專屬優惠。 引言&#xff1a;從傳統分子模擬到機器學習勢函數的革命…

制作uniapp需要的storyboard全屏ios啟動圖

//鎖定豎屏 plus.screen.lockOrientation("portrait-primary") // #endif首先準備啟動圖兩個dc_launchscreen_portrait_background2x.png(750*1624)dc_launchscreen_portrait_background3x.png(1125*2436)LaunchScreen.storyboard文件內容如下<?xml version"…

OpenCV:答題卡識別

目錄 一、項目原理 二、環境準備 三、核心代碼實現 1. 導入必要庫 2. 定義關鍵函數 坐標點排序函數 透視變換函數 輪廓排序函數 圖像顯示函數 3. 主程序實現 圖像預處理 輪廓檢測與答題卡定位 透視變換矯正 答案識別與評分 四、實現效果 本文將介紹如何使用 Ope…

機器寵物(以四足寵物為主)四肢與關節的系統化設計指南

1. 目標與約束先行 目標&#xff1a;自然步態&#xff08;走/小跑/小跳&#xff09;、安全親和、低噪、跌倒不致損&#xff1b;支持地毯/木地板/瓷磚等家庭地面。約束&#xff1a;體重 1–6 kg&#xff1b;單次續航 ≥ 30–60 min&#xff1b;整機成本與可維護性&#xff1b;室…

spark hive presto doris 對substr函數的差異

Spark、Hive、Presto&#xff08;現更名為 Trino&#xff09;和 Doris&#xff08;原百度 Palo&#xff09;的 substr 函數在功能上都是用于截取字符串的子串&#xff0c;但在起始索引規則和參數含義上存在差異&#xff0c;這是導致結果不同的主要原因。以下是它們的具體區別&a…

開題報告之基于AI Agent智能問答的旅游網站

課題題目&#xff1a; 基于AI Agent智能問答的旅游網站 學生姓名&#xff1a; 學 號&#xff1a; 學 院&#xff1a; 專業年級&#xff1a; 指導教師&#xff1a; 開題報告word版&#xff1a; 開題報告word版 一、課題的研究目的和意義&#xff08;本…

HTB打靶復個小盤

文章目錄jerrySauGoodGamesdevvotexpaper最近打了不少靶場&#xff0c;雖然難度都不算高&#xff0c;但也學到不少東西&#xff0c;中間去打了一周的實網滲透&#xff0c;打完后聯系了一家企業準備面試&#xff0c;感覺面試準備的差不多了&#xff0c;回來繼續打靶&#xff0c;…

云手機的技術架構可分為哪些

一、基礎設施層為其提供計算、存儲和網絡資源&#xff0c;高性能的服務器 CPU 是關鍵&#xff0c;它需具備多核多線程處理能力&#xff0c;以同時支持多個云手機實例的運行&#xff0c;比如英特爾至強系列處理器&#xff0c;能夠有效處理復雜的運算任務&#xff1b;通過虛擬化技…

[創業之路-585]:初創公司的保密安全與信息公開的效率提升

初創公司處于快速發展與資源有限的雙重約束下&#xff0c;平衡保密安全與信息公開效率是生存與發展的關鍵。保密安全可保護核心資產&#xff08;如技術、客戶數據、商業計劃&#xff09;&#xff0c;避免被競爭對手模仿或惡意攻擊&#xff1b;而信息公開的效率則直接影響團隊協…