服務器關機故障排查:大白話版筆記

注意:本文解釋文字僅供學習交流使用,不構成專業的技術指導或建議;只是理論實例解釋不代表實際運維場景操作,注意鑒別!

運維日常最頭疼的就是服務器 “突然躺平”

—— 要么沒操作就自己關機,要么想關還關不掉。

緊急檢查清單 (Cheat Sheet)
服務器突然宕機,重啟后第一件事:sudo journalctl -b -1 -p err..alert | tail -50sudo journalctl -b -1 | grep -i "thermal\|panic\|oom\|power" | tail -20登錄 iDRAC/iLO,查看 硬件日志 和 電源狀態。運行 sensors 和 smartctl -H /dev/sda。關機命令卡住時:Ctrl+Alt+F2 切換到其他 TTY。systemctl status --state=failedtop (按 P 按 CPU 排序,按 M 按內存排序)sudo kill -9 <最占資源的進程PID>如果無效,嘗試通過 ipmitool chassis power reset 或 iDRAC 界面硬重啟。

一、先搞懂:遇到的是哪種 “關機故障”?

   舉個例子:遠程連服務器傳文件,突然斷了,去機房看機器燈滅了 —— 這是 “意外關機”;執行poweroff,屏幕顯示 “等進程 1234 結束”,卡半小時 —— 這是 “關機失敗”。

故障類型 大白話現象 重點排查啥
意外關機 / 宕機 正干活呢突然斷連,屏幕黑了,電源燈可能閃紅 大概率是硬件 / 電源 / 溫度出問題
主動關機失敗 執行shutdown后卡住,半天沒反應 肯定是某個程序 / 服務 “賴著不走”

二、通用排查流程:從 “看日志” 到 “拆硬件”(按順序來,別瞎搞)

步驟 1:先看日志!90% 的問題都在日志里寫著呢

日志就是服務器的 “日記本”,關機前發生啥都會記下來。重點看 3 個地方,按優先級來:

1.1 用journalctl看 “完整日記”(推薦!)

這工具能看服務器 “上一次開機到關機” 的所有記錄,哪怕日志文件丟了也能找著。

# 1. # 查上一次開機的所有日志(比如服務器剛硬重啟,查宕機前的記錄)
sudo journalctl -b -1 # -b -1 = 上一次啟動,-b 0 = 現在的啟動# 偷懶技巧:直接搜“關機”關鍵詞
sudo journalctl -b -1 | grep -i 關機  # 或用英文 shutdown# 2. 在上次日志中過濾關鍵錯誤
sudo journalctl -b -1 -p err..alert # 查看錯誤及以上級別的日志
sudo journalctl -b -1 | grep -iE "error|panic|oom|thermal|shutdown|power"# 3. 查看內核日志
sudo journalctl -b -1 -k
  • 看到 “systemd-shutdown:給所有進程發停止信號”—— 說明是有人手動關的,或計劃任務觸發的;
  • 看到 “Kernel panic:致命錯誤”—— 內核崩了,大概率是硬件或驅動壞了;
  • 看到 “溫度超過閾值,CPU 降頻”——CPU 太熱了,服務器自我保護關機了。
1.2 看syslog:系統級 “流水賬”

記錄服務啟停、簡單硬件問題,比如誰執行了關機命令。

# 實時查看系統日志(用于觀察關機卡住時的動態)
sudo tail -f /var/log/syslog# 看最近100條日志,按Ctrl+C停
sudo tail -n 100 /var/log/syslog# 搜“關機/重啟”相關的
sudo grep -iE "關機|重啟|poweroff" /var/log/syslog
1.3 看kern.log:內核 “吐槽本”

專門記硬件相關的破事,比如硬盤壞了、內存出錯。

注意:云服務器的日志排查核心是 “利用云平臺工具”,而非執著于本地 kern.log—— 這和物理機完全不同

# 搜硬件錯誤關鍵詞:電源、溫度、錯誤、崩潰
sudo grep -iE "電源|溫度|error|panic" /var/log/kern.log
  • “ACPI: 電源按鈕被按了”—— 有人去機房按了電源鍵;
  • “sd 0:0:0:0: [sda] 錯誤”—— 硬盤 sda 壞了,讀寫出錯;
  • “內存檢測到不可修復錯誤”—— 內存條廢了,得換。

步驟 2:查硬件!日志說硬件壞了,就得驗證

       如果日志提示 “溫度高”“硬盤錯”,或者沒日志(突然斷電),就查硬件。

2.1 先查電源:最容易出問題的地方

服務器 “突然躺平”,80% 先看電源!

  • 物理檢查
    1. 去機房看看:電源線松沒松?插座有電沒?
    2. 機架服務器看電源模塊燈:綠燈常亮是好的,紅燈 / 閃就是壞了;
    3. 有 UPS 的話:看 UPS 燈,是不是電池沒電了(一般 UPS 沒電會叫)。
  • 遠程查(不用去機房)
    服務器帶 “遠程管理卡”(戴爾叫 iDRAC,華為叫 iBMC),登錄 Web 界面,找 “硬件日志”→“電源事件”,看有沒有 “電源掉電” 記錄。
    也能用命令查:

    bash

    # 查電源狀態(需裝ipmitool,提前在有網時裝)
    sudo ipmitool -H 遠程管理卡IP -U 用戶名 -P 密碼 chassis status
    # 正常會顯示“系統電源:開”,沒電源問題
    
2.2 查散熱:CPU “中暑” 也會關機

        服務器跟人一樣,太熱了就罷工!

  • 系統內查溫度
    # 先裝溫度工具(有網時裝)
    sudo apt install lm-sensors# 看CPU/硬盤溫度
    sudo sensors
    

    看結果里的 “crit”(臨界溫度),比如 CPU 臨界 100℃,現在 95℃—— 快中暑了,趕緊處理!
  • 物理檢查(斷電后!)
    1. 開機箱,看 CPU 風扇轉不轉?是不是積灰堵了(用吹風機吹干凈);
    2. 看 CPU 和散熱器之間的 “硅脂”—— 
2.3 查關鍵硬件:內存、硬盤、RAID 卡

    這仨壞了,服務器要么關機,要么數據丟!

舉個例子:查 RAID 卡電池,輸出 “Battery State: Failed”—— 電池壞了,得聯系廠商換。

硬件 怎么查 好的狀態 壞了的信號
內存 1. 開機時按提示進 BIOS,選 “內存檢測”;2. 系統里裝memtest86+,重啟后檢測 沒錯誤提示 檢測說 “不可修復錯誤”,日志里有 “內存錯誤”
硬盤 1. 裝smartctl,執行sudo smartctl -a /dev/sda;2. 查dmesg看有沒有硬盤錯誤 SMART 狀態 “通過”,沒 IO 錯誤 SMART 說 “預失敗”,dmesg有 “sd [a-z] error”
RAID 卡 1. 戴爾用perccli工具,執行sudo ./perccli /c0 show battery;2. 遠程管理卡看 RAID 狀態 RAID 正常,電池容量 > 50% RAID 顯示 “降級”,電池狀態 “失敗”

步驟 3:查軟件:不是硬件的鍋,就是軟件在 “搞事”

3.1 意外關機:是

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/94645.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/94645.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/94645.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

如何通過docker進行本地部署?

如何通過docker進行本地部署&#xff1f; 在做項目的過程中&#xff0c;想要上線項目的話肯定是不能在我們電腦上進行開發的&#xff0c;要部署到服務器上面&#xff0c;今天就總結一下操作步驟。 1、創建springboot項目 隨便創建一個springboot工程&#xff0c;確保control…

解鎖AI“黑匣”:監督、無監督與強化學習探秘

在當今數字化浪潮洶涌澎湃的時代&#xff0c;AI 決策已然成為推動各領域變革與發展的核心驅動力&#xff0c;從智能語音助手到自動駕駛汽車&#xff0c;從醫療診斷輔助到金融風險預測&#xff0c;AI 決策的身影無處不在&#xff0c;深刻地改變著人們的生活與工作方式。?AI 決策…

F008 vue+flask 音樂推薦評論和可視化系統+帶爬蟲前后端分離系統

文章結尾部分有CSDN官方提供的學長 聯系方式名片 文章結尾部分有CSDN官方提供的學長 聯系方式名片 關注B站&#xff0c;有好處&#xff01; F008 &#x1f3b6;vueflask 音樂推薦和可視化系統帶爬蟲前后端分離系統 編號&#xff1a;F008 B站視頻介紹&#xff1a; vueflask-云音…

海盜王64位dx9客戶端修改篇之二

目前全網&#xff0c;估計也就只有這個是海盜王客戶端3.0的原始版直接升級成64位dx9的了。客戶端非常簡潔&#xff0c;連64位lua都集成進去&#xff0c;除了新更換的64位SDL音樂播放庫dll沒辦法集成外&#xff0c;沒有任何多余的其他文件了。 之前有其他大佬將1.38的改成了dx9的…

點評項目(Redis中間件)第二部分Redis基礎

Redis的java客戶端spring整合了前三種我們只需要學習spring整合的就行了。不過還是有企業使用老一套的原生的jedis。jedis操作引入依賴<dependency><groupId>redis.clients</groupId><artifactId>jedis</artifactId><version>3.7.0</ve…

LeetCode-19day:貪心算法

貪心算法經典題目總結&#xff08;C實現&#xff09; 貪心算法是一種在每一步選擇中都采取當前狀態下最優&#xff08;即最有利&#xff09;的選擇&#xff0c;從而希望導致結果是全局最優的算法。本文總結了四道經典的貪心算法問題&#xff0c;幫助你更好地理解和掌握貪心算法…

Microsoft Edge WebView2 Runtime:為應用程序提供瀏覽器核心功能

在現代軟件開發中&#xff0c;嵌入網頁內容到應用程序界面是一個常見的需求。Microsoft Edge WebView2 Runtime&#xff08;WebView2運行庫&#xff09;作為微軟操作系統WebView2控件的運行環境&#xff0c;基于Chromium內核構建&#xff0c;為應用程序提供了瀏覽器核心功能&am…

PDF文件中的相鄰頁面合并成一頁,例如將第1頁和第2頁合并,第3頁和第4頁合并

PDF頁面合并工具 這個工具可以將PDF文件中的相鄰頁面合并成一頁&#xff0c;例如將第1頁和第2頁合并&#xff0c;第3頁和第4頁合并&#xff0c;以此類推。 功能 自動檢測PDF文件中的頁面數量將相鄰的頁面合并成一頁處理奇數頁數的PDF文件&#xff08;最后一頁單獨保留&#xff…

git hub初使用問題記錄

問題一、Connection closed by UNKNOWN port 65535設置config文件為Host github.com Hostname ssh.github.com Port 443 User git問題二、ERROR: Repository not found.fatal: Could not read from remote repository.Please make sure you have the correct access rightsand …

解讀 AUTOSAR AP R24-11 Manifest 規范 —— 從部署到安全的全流程支撐

今天我們來拆解 AUTOSAR AP R24-11 版本的《Requirements on Manifest Specification》Manifest 規范要求—— 這份文檔是 Adaptive 平臺軟件 “落地運行” 的核心指南,它解決了一個關鍵問題:如何讓 AP 軟件在車載 ECU 上安全、可靠地部署和通信? 自適應平臺(AP)是啥? 是…

Linux系統 -- 多線程的控制(互斥與同步)

在多線程編程中&#xff0c;多個線程可能同時訪問臨界資源&#xff08;如共享變量、文件、硬件設備等&#xff09;&#xff0c;若缺乏控制會導致數據混亂。互斥和同步是解決該問題的核心機制&#xff0c;其中互斥鎖保證臨界資源的排他訪問&#xff0c;信號量實現線程間的有序協…

一鍵搭建開發環境:制作bash shell腳本

完整腳本&#xff1a; 1.0 #!/bin/bash set -eecho " 開始安裝 AI 開發環境&#xff08;無人交互版&#xff09; "# 檢測是否以 sudo 運行 if [ "$EUID" -eq 0 ]; thenecho "?? 警告&#xff1a;請不要使用 sudo 運行此腳本&#xff01;"echo …

mac m4執行nvm install 14.19.1報錯,安裝低版本node報錯解決

原因 由于node14使用的變異工具鏈太舊&#xff0c;無法適配最新的macOS SDK頭文件導致_studio.h報錯 解決辦法 方法1 更新nvm到最新版本 brew update nvmnvm install 14.19.1 --binary 方法2 啟用Rosetta安裝&#xff08;Intel仿真&#xff09; 1.arch -x86_64 zsh 2.nvm insta…

Codeforces Round 1043 (Div. 3) F. Rada and the Chamomile Valley

F.拉達和甘菊谷 每次測試的時間限制&#xff1a;3 秒 每次測試的內存限制512 兆字節 輸入&#xff1a;標準輸入 輸出&#xff1a;標準輸出 昨天&#xff0c;拉達發現了一個傳送門&#xff0c;可以把她傳送到洋甘菊谷&#xff0c;然后再傳送回來。拉達的快樂無以言表&#xff0c…

STM32 入門實錄:從 0 到 3 色 LED 呼吸式閃爍

一、需求 & 最終效果 硬件&#xff1a;Blue-Pill&#xff08;STM32F103C8T6&#xff09; 3 只 LED&#xff08;紅 PA0、黃 PA1、綠 PA2&#xff09;現象&#xff1a;上電后紅→黃→綠→黃→全滅&#xff0c;每步 100 ms&#xff0c;循環往復。 二、硬件連接LED 端連接說明陰…

Playwright與PyTest結合指南

Playwright與PyTest的結合&#xff0c;為Web自動化測試帶來了強大的動力。它讓你既能利用Playwright現代、跨瀏覽器的自動化能力&#xff0c;又能借助PyTest成熟測試框架的結構化、可擴展性來高效管理和組織測試用例。我會帶你了解如何將這兩者結合使用。 為了讓你快速上手&am…

plantsimulation知識點 一條軌道上多臺RGV如何引用

最近做項目有如下需求&#xff1a;軌道1上初始化生成三臺RGV&#xff0c;然后通過另一條軌道2上的傳感器代碼控制軌道1上的三臺RGV&#xff0c;之前如果另一條軌道只有一臺RGV&#xff0c;我是通過軌道2.cont來引用這臺RGV的。但是現在軌道上有了多臺RGV&#xff0c;此代碼就不…

【Canvas與盾牌】“靡不有初,鮮克有終”黃豎條盾牌

【成圖】【代碼】<!DOCTYPE html> <html lang"utf-8"> <meta http-equiv"Content-Type" content"text/html; charsetutf-8"/> <head><title>黃豎條盾牌 Draft1</title><style type"text/css"&…

使用linux+javascript+html+mysql+nodejs+npm+express等構建信息資料采集系統

一、適用場景 1、人才信息庫、檔案管理&#xff0c;構建企業或單位內部人才庫。 2、公務員/事業單位招聘&#xff0c;網上報名填寫資料、上傳證書等。 3、科研項目申報&#xff0c;課題負責人信息、成果附件、審查材料上傳。 4、志愿者招募&#xff1a;在線填寫報名信息&#…

低空經濟產業白皮書:音視頻鏈路在智能飛行體系中的核心地位

引言 低空經濟正在成為繼數字經濟、新能源產業之后的又一戰略制高點。它不僅意味著無人機物流、空中通勤、應急救援、文旅體驗等新業態的興起&#xff0c;更代表著 城市治理、智能制造、公共服務全面進入空域數字化時代。從政策引導到產業投資&#xff0c;從技術突破到應用創新…