Linux中查看負載

行車過橋

一只單核的處理器可以形象得比喻成一條單車道。設想下，你現在需要收取這條道路的過橋費 — 忙于處理那些將要過橋的車輛。你首先當然需要了解些信息，例如車輛的載重、以及還有多少車輛正在等待過橋。如果前面沒有車輛在等待，那么你可以告訴后面的司機通過。如果車輛眾多，那么需要告知他們可能需要稍等一會。

因此，需要些特定的代號表示目前的車流情況，例如：

0.00 表示目前橋面上沒有任何的車流。實際上這種情況與 0.00 和 1.00 之間是相同的，總而言之很通暢，過往的車輛可以絲毫不用等待的通過。

1.00 表示剛好是在這座橋的承受范圍內。這種情況不算糟糕，只是車流會有些堵，不過這種情況可能會造成交通越來越慢。

超過 1.00，那么說明這座橋已經超出負荷，交通嚴重的擁堵。那么情況有多糟糕？例如 2.00 的情況說明車流已經超出了橋所能承受的一倍，那么將有多余過橋一倍的車輛正在焦急的等待。3.00 的話情況就更不妙了，說明這座橋基本上已經快承受不了，還有超出橋負載兩倍多的車輛正在等待。

上面的情況和處理器的負載情況非常相似。一輛汽車的過橋時間就好比是處理器處理某線程的實際時間。Unix 系統定義的進程運行時長為所有處理器內核的處理時間加上線程在隊列中等待的時間。

和收過橋費的管理員一樣，你當然希望你的汽車（操作）不會被焦急的等待。所以，理想狀態下，都希望負載平均值小于 1.00 。當然不排除部分峰值會超過 1.00，但長此以往保持這個狀態，就說明會有問題，這時候你應該會很焦急。

“所以你說的理想負荷為 1.00 ？”

嗯，這種情況其實并不完全正確。負荷 1.00 說明系統已經沒有剩余的資源了。在實際情況中，有經驗的系統管理員都會將這條線劃在 0.70：

“需要進行調查法則”：如果長期你的系統負載在 0.70 上下，那么你需要在事情變得更糟糕之前，花些時間了解其原因。

“現在就要修復法則”：1.00 。如果你的服務器系統負載長期徘徊于 1.00，那么就應該馬上解決這個問題。否則，你將半夜接到你上司的電話，這可不是件令人愉快的事情。

“凌晨三點半鍛煉身體法則”：5.00。如果你的服務器負載超過了 5.00 這個數字，那么你將失去你的睡眠，還得在會議中說明這情況發生的原因，總之千萬不要讓它發生。

那么多個處理器呢？我的均值是 3.00，但是系統運行正常！

哇喔，你有四個處理器的主機？那么它的負載均值在 3.00 是很正常的。

在多處理器系統中，負載均值是基于內核的數量決定的。以 100% 負載計算，1.00 表示單個處理器，而 2.00 則說明有兩個雙處理器，那么 4.00 就說明主機具有四個處理器。

回到我們上面有關車輛過橋的比喻。1.00 我說過是“一條單車道的道路”。那么在單車道 1.00 情況中，說明這橋梁已經被車塞滿了。而在雙處理器系統中，這意味著多出了一倍的負載，也就是說還有 50% 的剩余系統資源 — 因為還有另外條車道可以通行。

所以，單處理器已經在負載的情況下，雙處理器的負載滿額的情況是 2.00，它還有一倍的資源可以利用。

多核與多處理器

先脫離下主題，我們來討論下多核心處理器與多處理器的區別。從性能的角度上理解，一臺主機擁有多核心的處理器與另臺擁有同樣數目的處理性能基本上可以認為是相差無幾。當然實際情況會復雜得多，不同數量的緩存、處理器的頻率等因素都可能造成性能的差異。

但即便這些因素造成的實際性能稍有不同，其實系統還是以處理器的核心數量計算負載均值。這使我們有了兩個新的法則：

“有多少核心即為有多少負荷”法則：在多核處理中，你的系統均值不應該高于處理器核心的總數量。

“核心的核心”法則：核心分布在分別幾個單個物理處理中并不重要，其實兩顆四核的處理器等于四個雙核處理器等于八個單處理器。所以，它應該有八個處理器內核。

讓我們再來看看 uptime 的輸出

~ $ uptime

23:05 up 14 days, 6:08, 7 users, load averages: 0.65 0.42 0.36

這是個雙核處理器，從結果也說明有很多的空閑資源。實際情況是即便它的峰值會到 1.7，我也從來沒有考慮過它的負載問題。

那么，怎么會有三個數字的確讓人困擾。我們知道，0.65、0.42、0.36 分別說明上一分鐘、最后五分鐘以及最后十五分鐘的系統負載均值。那么這又帶來了一個問題：

我們以哪個數字為準？一分鐘？五分鐘？還是十五分鐘？

其實對于這些數字我們已經談論了很多，我認為你應該著眼于五分鐘或者十五分鐘的平均數值。坦白講，如果前一分鐘的負載情況是 1.00，那么仍可以說明認定服務器情況還是正常的。但是如果十五分鐘的數值仍然保持在 1.00，那么就值得注意了（根據我的經驗，這時候你應該增加的處理器數量了）。

那么我如何得知我的系統裝備了多少核心的處理器？

在 Linux 下，可以使用

cat /proc/cpuinfo

獲取你系統上的每個處理器的信息。如果你只想得到數字，那么就使用下面的命令：

grep 'model name' /proc/cpuinfo | wc -l

Popularity: 11% [?]

1、cat /proc/loadavg

0.27 0.36 0.37 4/83 4828/

參數含義

1.平均負載：0.54, 0.40, 0.20

最近1分鐘、5分鐘、15分鐘系統的負載

2.進程數：4/83

分子是正在運行的進程數，分母是進程總數

3.進程號：4828

最近運行的進程ID號

2、uptime
名稱： uptime
使用權限：所有使用者
使用方式： uptime [-V]
說明： uptime 提供使用者下面的資訊，不需其他參數：
現在的時間系統開機運轉到現在經過的時間連線的使用者數量最近一分鐘，五分鐘和十五分鐘的系統負載
參數： -V 顯示版本資訊。
范例： uptime
其結果為：
10:41am up 5 days, 10 min, 1 users, load average: 0.00, 0.00, 1.99

參數含義

1.當前時間??04:03:58

2.系統已運行的時間?10 days, 13:19

3.前在線用戶??1 user

4.平均負載：0.54, 0.40, 0.20

最近1分鐘、5分鐘、15分鐘系統的負載

/proc/uptime文件里包含兩個數字，如：

[root@localhost ~]# cat /proc/uptime
1232468.44 1111331.67

第一個數值代表系統總的啟動時間，第二個數值則代表系統空閑的時間，都是用秒來表示的。如果系統里第二個數字比第一個數字還要大，則說明你的cpu是多核的，cpu0上閑了一秒, cpu1上閑了兩秒，加起就是三秒。

3、w
功能說明：顯示目前登入系統的用戶信息。
語　　法：w [-fhlsuV][用戶名稱]
補充說明：執行這項指令可得知目前登入系統的用戶有那些人，以及他們正在執行的程序。單獨執行w
指令會顯示所有的用戶，您也可指定用戶名稱，僅顯示某位用戶的相關信息。
參　　數：
-f 　開啟或關閉顯示用戶從何處登入系統。
-h 　不顯示各欄位的標題信息列。
-l 　使用詳細格式列表，此為預設值。
-s 　使用簡潔格式列表，不顯示用戶登入時間，終端機階段作業和程序所耗費的CPU時間。
-u 　忽略執行程序的名稱，以及該程序耗費CPU時間的信息。
-V 　顯示版本信息。
4、top
功能說明：顯示，管理執行中的程序。
語　　法：top [bciqsS][d <間隔秒數>][n <執行次數>]
補充說明：執行top指令可顯示目前正在系統中執行的程序，并通過它所提供的互動式界面，用熱鍵加以管理。
參　　數：
　b 　使用批處理模式。
　c 　列出程序時，顯示每個程序的完整指令，包括指令名稱，路徑和參數等相關信息。
　d<間隔秒數> 　設置top監控程序執行狀況的間隔時間，單位以秒計算。
　i 　執行top指令時，忽略閑置或是已成為Zombie的程序。
　n<執行次數> 　設置監控信息的更新次數。
　q 　持續監控程序執行的狀況。
　s 　使用保密模式，消除互動模式下的潛在危機。
　S 　使用累計模式，其效果類似ps指令的"-S"參數。

5、tload
功能說明：顯示系統負載狀況。
語　　法：tload [-V][-d <間隔秒數>][-s <刻度大小>][終端機編號]
補充說明：tload指令使用ASCII字符簡單地以文字模式顯示系統負載狀態。假設不給予終端機編號，則會在執行tload指令的終端機顯示負載情形。
參　　數：
　-d<間隔秒數> 　設置tload檢測系統負載的間隔時間，單位以秒計算。
　-s<刻度大小> 　設置圖表的垂直刻度大小，單位以列計算。

　-V 　顯示版本信息。