SRE命令行兵器譜之一:精通top/htop - 從性能“體檢”到瓶頸“解剖”
SRE的“戰場”:真實故障場景
下午三點,監控系統告警:“核心API服務響應時間(P99)飆升至5秒”。用戶已經開始在群里抱怨接口超時。這是一個典型的線上性能問題,每一秒的延遲都在影響用戶體驗和公司收入。
作為負責的SRE,你登錄到服務器,敲下的第一個命令,幾乎必定是 top
。你的大腦已經準備好回答幾個核心問題:
- 系統是否過載?
- 瓶頸是CPU計算能力,還是其他地方?
- 如果是CPU,是哪個進程在“燃燒”它?
- 如果不是CPU,是什么在“拖慢”整個系統?
top
就是能幫你快速完成性能“體檢”,并指明瓶頸“解剖”方向的首席診斷工具。
top
輸出的深度解剖與SRE思維
運行 top
命令后,你看到的是一個信息密集區。不要慌,SRE會像外科醫生一樣,采用“兩步法”來精準解讀:先看全局摘要,再看進程列表。
top - 15:30:01 up 10 days, 4:15, 1 user, load average: 1.10, 1.50, 1.25
Tasks: 250 total, 1 running, 249 sleeping, 0 stopped, 0 zombie
%Cpu(s): 12.5 us, 2.5 sy, 0.0 ni, 45.0 id, 40.0 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem : 8192000 total, 4192000 free, 2000000 used, 2000000 buff/cache
KiB S