linux系統編程之進程概念（操作系統---管理，進程創建，進程狀態，進程優先級，環境變量，程序地址空間，進程O（1）調度方法）

系統編程：

	進程概念->進程控制->基礎IO->進程間通信->進程信號->多線程

進程概念

馮諾依曼體系結構----現代計算機硬件體系結構

在這里插入圖片描述
馮諾依曼體系結構----現代計算機硬件體系結構

	計算機五大硬件單元：輸入設備：鍵盤輸出設備：顯示器存儲器：內存-外存---固態接口類型SATA   SATA3  PCI-E（目前最好）運算器：CPU—主頻2.5GHz，主頻越大代表時鐘震蕩周期越高，代表1s中處理的指令也就越多控制器：CPU所有設備都是圍繞存儲器工作的

關于馮諾依曼，必須強調幾點：

這里的存儲器指的是內存不考慮緩存情況，
這里的CPU能且只能對內存進行讀寫，
不能訪問外設(輸入或輸出設備) 外設(輸入或輸出設備)要輸入或者輸出數據，也只能寫入內存或者從內存中讀取。
一句話，所有設備都只能直接和內存打交道。

對馮諾依曼的理解，不能停留在概念上，要深入到對軟件數據流理解上，請解釋，從你登錄上qq開始和某位朋友聊天開始，數據的流動過程。從你打開窗口，開始給他發消息，到他的到消息之后的數據流動過程。如果是在qq上發送文件呢？

硬件決定了軟件的行為

操作系統—管理

在這里插入圖片描述
操作系統：

一個軟件安裝在計算機硬件上

目的：

為了讓計算機更加好用—功能：合理統籌管理計算機上邊的軟硬件資源

管理：

先描述使用pcb描述進程，使用雙向鏈表將pcb串起來進行管理，再組織。

庫函數與系統調用接口的關系：

封裝關系：庫函數封裝了系統調用接口，是上下級的調用關系

進程概念----進程是什么

進行中的程序
linux是一個多任務操作系統，表示有大量的程序需要被cpu調度運行，這時候cpu使用了分時技術，分別輪詢處理每一個進程，在進程程序切換調度時，需要記錄運行信息，因此操作系統在調度進程在cpu上運行時，使用pcb對運行中的程序進行描述，通過調度pcb完成對進程的調度，因此進程是pcb。
pcb對運行中程序進行描述
每一個運行的程序都是pcb

在操作系統角度，操作系統通過pcb來控制一個進程的運行，這個pcb也叫進程描述符，描述了一個運行中的程序
Linux操作系統下的PCB是task_struct結構體(用雙向鏈表進行組織的)

什么時task_struct結構體

參考鏈接

task_struct結構體中的內容

標示符: 描述本進程的唯一標示符，用來區別其他進程。
狀態: 任務狀態，退出代碼，退出信號等。
優先級: 相對于其他進程的優先級。
程序計數器: 程序中即將被執行的下一條指令的地址。
內存指針: 包括程序代碼和進程相關數據的指針，還有和其他進程共享的內存塊的指針
上下文數據: 進程執行時處理器的寄存器中的數據[休學例子，要加圖CPU，寄存器]。
I／O狀態信息: 包括顯示的I/O請求,分配給進程的I／O設備和被進程使用的文件列表。
記賬信息: 可能包括處理器時間總和，使用的時鐘數總和，時間限制，記賬號等。
其他信息

內存指針

pcb中有一個指針指向了當前要運行的程序
cpu通過pcb內存指針知道代碼在什么位置，然后加載到內存上面

cpu分時機制

不會體會到卡頓的原因，調度進程時，不會一直在一個進程上面運行，輪詢調度pcb 。
每個都執行一段時間，切換速度很快。
每個進程只運行很短的一段時間（時間片）

程序計數器

即將執行的指令的地址

上下文數據

cpu正在處理的數據是什么

標識符PID

每一個進程都有一個ID

進程狀態

當前進程處于什么狀態

優先級

前臺進程（交互式進程）優先級更高
批處理（后臺進程）

IO狀態信息

每一個進程里面都會打開很多的文件，打開文件就要進行管理
記錄描述文件，所以需要保存下來這些信息

記賬信息

一個進程大致在cpu上運行了多長時間

進程查看

ps

-ef 
-aux		查看系統所有進程信息

/proc 保存系統中正在運行的程序信息
pid_t getpid() 獲取調用進程的pid
根目錄下的proc/目錄存放的就是當前操作系統上面正在運行中的程序的運行信息

例如

#include <stdio.h>    
#include <sys/types.h>    
#include <unistd.h>    
int main()    
{    while(1){    sleep(1);        }    return 0;       
}

在這里插入圖片描述

通過系統調用獲取進程標示符

#include <stdio.h>    
#include <sys/types.h>    
#include <unistd.h>    
int main()    
{    printf("pid: %d\n", getpid());    printf("ppid: %d\n", getppid());    return 0;    
}

在這里插入圖片描述

進程創建

創建進程就是創建pcb
在這里插入圖片描述
用fork創建進程
fork()—通過復制調用進程（父進程）創建一個新的進程（子進程）
子進程與父進程完全相同

head line 打印了一次
tail line 打印了兩次

復制了父進程的pcb（意味著和父進程擁有一樣的內存指針，程序計數器，上下文數據）：
和父進程運行相同的代碼，相同的運行位置，
處理一樣的數據

父子進程代碼共享，數據獨有。
同一個內存區域，打印的值相同

子進程創建成功都是從下一步指令開始運行

如何分辨父子進程：通過返回值
在這里插入圖片描述
父子進程不一定誰先運行，要看cpu調哪個pcb
父進程：

	返回子進程的pid，pid>0

子進程：

返回0

失敗：

返回-1

為什么要創建子進程？意義何在？

分攤壓力，cpu資源足夠的情況父子進程同時處理數據，效率高
希望子進程完成其他的任務

進程狀態

普遍的系統的三種狀態

就緒，運行，阻塞

在這里插入圖片描述
Linux進程狀態：

運行態（R）
可中斷睡眠態（S）
不可中斷睡眠態（D）
停止態（T）
僵死態（Z）
死亡態（X）
追蹤態（t）

在這里插入圖片描述
加號代表前臺進程

cpu使用率非常高，什么原因？

死循環。

殺死進程

kill  進程ID

普通殺死進程殺不死停止態進程
在這里插入圖片描述
要用強殺

kill -9 進程ID

在這里插入圖片描述
僵尸進程：
處于僵死態的進程----進程退出后，資源沒有完全釋放（沒有完全退出）
強殺都殺不死
如何產生？

子進程先于父進程退出，將自己退出原因保存在pcb中，操作系統檢測到子進程退出，因為父進程有可能關注退出原因，所以不敢隨意釋放所有資源，通知父進程子進程的退出，但是這時父進程可能正在打麻將，沒有關注到這個通知，導致子進程退出了
但是資源一直沒有釋放，處于僵尸進程，處于僵死狀態，成為僵尸進程。

危害：資源泄露，一個用戶能夠創建的進程是有限的，導致新進程創建失敗
處理：干掉父進程
如何避免：

進程等待

孤兒進程：

父進程先于子進程退出，子進程成為孤兒進程，運行在操作系統后臺，父進程成為1號進程（被領養）

孤兒進程的使命就是不斷奮斗最后成為守護進程
守護進程/精靈進程

特殊的孤兒進程     一個特殊的孤兒進程（脫離終端，脫離登會話的孤兒進程）

進程優先級

通過一個評級來決定一個進程的cpu資源優先分配權
為了讓計算機運行的更加合理
（因為進程的性質各有不同—批處理/交互式）
查看：

ps  -l

修改：優先級無法直接修改，但是可以通過修改NI的值，來調整PRI的值
PRI=PRI+NI
renice程序運行后修改（nice的范圍（-20~19））

	Renic  -n ni_val  -p  pid

nice程序運行時指定

	nice  -n  ni_val  ./main

優先級調整更多的是針對cpu密集型程序（對cpu資源要求比較高）
磁盤密集型程序因為本事呢對cpu資源要求不是很高，因此大多數情況下，沒必要調整

在這里插入圖片描述
我們很容易注意到其中的幾個重要信息，有下：

UID : 代表執行者的身份 
PID : 代表這個進程的代號PPID ：代表這個進程是由哪個進程發展衍生而來的，亦即父進程的代號PRI ：代表這個進程可被執行的優先級，其值越小越早被執行 NI ：代表這個進程的nice值

PRI and NI

PRI也還是比較好理解的，即進程的優先級，或者通俗點說就是程序被CPU執行的先后順序，此值越小 進程的優先級別越高那NI呢?就是我們所要說的nice值了，其表示進程可被執行的優先級的修正數值 PRI值越小越快被執行，那么加入nice值后，將會使得PRI變為：PRI(new)=PRI(old)+nice這樣，當nice值為負值的時候，那么該程序將會優先級值將變小，即其優先級會變高，則其越快被執行 所以，調整進程優先級，在Linux下，就是調整進程nice值 nice其取值范圍是-20至19，一共40個級別需要強調一點的是，進程的nice值不是進程的優先級，他們不是一個概念，但是進程nice值會影響到進 程的優先級變化。可以理解nice值是進程優先級的修正修正數據

用top命令更改已存在進程的nice

top 進入top后按“r”–>輸入進程PID–>輸入nice的值

競爭性:
系統進程數目眾多，而CPU資源只有少量，甚至1個，所以進程之間是具有競爭屬性的。為了高效完成任務，更合理競爭相關資源，便具有了優先級
獨立性:
多進程運行，需要獨享各種資源，多進程運行期間互不干擾
并行:
多個進程在多個CPU下分別，同時進行運行，這稱之為并行
并發:
多個進程在一個CPU下采用進程切換的方式，在一段時間之內，讓多個進程都得以推進，稱之為并發

環境變量

環境變量(environment variables)一般是指在操作系統中用來指定操作系統運行環境的一些參數 如：我們在編寫C/C++代碼的時候，在鏈接的時候，從來不知道我們的所鏈接的動態靜態庫在哪里，但 是照樣可以鏈接成功，生成可執行程序，原因就是有相關環境變量幫助編譯器進行查找。 環境變量通常具有某些特殊用途，還有在系統當中通常具有全局特性

就是內存解釋
和環境變量相關的命令

echo: 顯示某個環境變量值
export: 設置一個新的環境變量
env: 顯示所有環境變量
unset: 清除環境變量
set: 顯示本地定義的shell變量和環境變量

環境變量的組織方式
在這里插入圖片描述
每個程序都會收到一張環境表，環境表是一個字符指針數組，每個指針指向一個以’\0’結尾的環境字符串
常見環境變量：HOME SHLL PATH

通過第三方變量environ獲取
**int argc 參數個數
char argv[] 字符串指針數組放的是參數
char env[] 這個字符串指針數組所保存的就是環境變量

#include <stdio.h>int main(int argc, char *argv[], char *env[]){    int i = 0;   for(; env[i]; i++){        printf("%s\n", env[i]);    }    return 0; }

通過系統調用獲取或設置環境變量

#include <stdio.h> #include <stdlib.h>int main() 
{    printf("%s\n", getenv("PATH"));    
return 0; }

環境變量通常是具有全局屬性的
環境變量通常具有全局屬性，可以被子進程繼承下去

#include <stdio.h> #include <stdlib.h>

int main() 
{  char * env = getenv("MYENV"); if(env){       printf("%s\n", env);  }    return 0;}

直接查看，發現沒有結果，說明該環境變量根本不存在
導出環境變量 export MYENV=“hello world”
再次運行程序，發現結果有了！說明：環境變量是可以被子進程繼承下去的！想想為什么？

子進程崩潰了，對shell本身沒有影響

程序地址空間

為什么要用虛擬地址空間+頁表：保持進程獨立性+充分利用內存+內存訪問控制
段頁式內存管理：段號+段內地址+頁內偏移
段式內存管理：段號+段內地址
頁式內存管理：頁號+頁內偏移
在這里插入圖片描述
#include <stdio.h> #include <unistd.h> #include <stdlib.h>

int g_val = 0;

int main(){    pid_t id = fork();    if(id < 0){        perror("fork");      return 0;   }else if(id == 0){ //childprintf("child[%d]: %d : %p\n", getpid(), g_val, &g_val);   }else{ //parent       printf("parent[%d]: %d : %p\n", getpid(), g_val, &g_val);   }  sleep(1);  return 0; }

在這里插入圖片描述
我們發現，輸出出來的變量值和地址是一模一樣的，很好理解呀，因為子進程按照父進程為模版，父子并沒有對變量進行進行任何修改。可是將代碼稍加改動:

#include <stdio.h>#include <unistd.h>#include <stdlib.h>int g_val = 0;int main() 
{    
pid_t id = fork(); if(id < 0){        perror("fork");      return 0;    }    else if(id == 0){ //child,子進程肯定先跑完，也就是子進程先修改，完成之后，父進程再讀取       g_val=100;       printf("child[%d]: %d : %p\n", getpid(), g_val, &g_val);   }else{ //parent       sleep(3);        printf("parent[%d]: %d : %p\n", getpid(), g_val, &g_val);   }    sleep(1);   return 0; }

在這里插入圖片描述
我們發現，父子進程，輸出地址是一致的，但是變量內容不一樣！能得出如下結論

變量內容不一樣,所以父子進程輸出的變量絕對不是同一個變量
但地址值是一樣的，說明，該地址絕對不是物理地址！在Linux地址下，這種地址叫做 虛擬地址 我們在用C/C++語言所看到的地址，全部都是虛擬地址！物理地址，用戶一概看不到，由OS統一管理

OS必須負責將虛擬地址轉化成物理地址。
地址：內存區域的編號
-----進程的虛擬地址空間—內存描述符----mm_struct

操作系統通過mm_struct這個結構體給進程描述了一個虛擬的地址
如何描述：
mm_struct{
ulong size;
ulong code_start;
ulong code_end;
ulong data_start;
ulong data_end;
}
在這里插入圖片描述
為什么要使用虛擬地址空間虛擬地址空間+頁表
通過頁表進行映射，頁表可以進行標記，當前地址是可讀還是可寫
提高內存利用率
對內存訪問進行控制
保證進程獨立性

虛擬內存的方式
寫時拷貝技術：提高子進程創建效率

父進程創建了子進程，但是并沒有直接給子進程開辟內存，拷貝數據，
而是跟父進程映射到同一位置，
但是如果內存中數據發生的改變，那么對于改變的這塊內存，
需要重新給子進程開辟內存，并且更新頁表信息。

進程O（1）調度方法

一個CPU擁有一個runqueue

普通優先級：100～139（我們都是普通的優先級，想想nice值的取值范圍，可與之對應！實時優先級：0～99（不關心）

活動隊列
時間片還沒有結束的所有進程都按照優先級放在該隊列 nr_active: 總共有多少個運行狀態的進程

queue[140]: 一個元素就是一個進程隊列，相同優先級的進程按照FIFO規則進行排隊調度,所以，數組下標就是優先級！
從該結構中，選擇一個最合適的進程，過程是怎么的呢？

從0下表開始遍歷queue[140]
找到第一個非空隊列，該隊列必定為優先級最高的隊列
拿到選中隊列的第一個進程，開始運行，調度完成！
遍歷queue[140]時間復雜度是常數！但還是太低效了！
bitmap[5]:一共140個優先級，一共140個進程隊列，為了提高查找非空隊列的效率，就可以用5*32個比特位表示隊列是否為空，這樣，便可以大大提高查找效率
過期隊列

過期隊列和活動隊列結構一模一樣過期隊列上放置的進程，都是時間片耗盡的進程 當活動隊列上的進程都被處理完畢之后，對過期隊列的進程進行時間片重新計算

active指針和expired指針

active指針永遠指向活動隊列
expired指針永遠指向過期隊列
可是活動隊列上的進程會越來越少，過期隊列上的進程會越來越多，因為進程時間片到期時一直都存在的。
沒關系，在合適的時候，只要能夠交換active指針和expired指針的內容，就相當于有具有了一批新的活動進程！

在系統當中查找一個最合適調度的進程的時間復雜度是一個常數，不隨著進程增多而導致時間成本增加，我們稱之為進程調度O(1)算法