在測試基于 DirectFB+Gstreamer 的視頻聯播系統的一個 Demo 的時候,其中大量使用 system 調用的語句,例如在 menu 代碼中的 system("./play") ,而且多次執行,這種情況下,在 ps -ef 列表中出現了大量的 defunct 進程,對程序的運行時有害的。按說system的源碼中應該已經包含了wait,但也不能排除開發板上這個版本的system中可能沒有wait,總之,開發板上在調用system后添加wait之后,defunct進程不復存在了。
下面談談 defunct 進程,中文翻譯叫僵尸進程。下文整理于網絡以及APUE一書。
一、什么是僵尸進程
在UNIX 系統中,一個進程結束了,但是他的父進程沒有等待(調用wait / waitpid)他,那么他將變成一個僵尸進程。當用ps命令觀察進程的執行狀態時,看到這些進程的狀態欄為defunct。僵尸進程是一個早已死亡的進程,但在進程表(processs table)中仍占了一個位置(slot)。
但是如果該進程的父進程已經先結束了,那么該進程就不會變成僵尸進程。因為每個進程結束的時候,系統都會掃描當前系統中所運行的所有進程,看看有沒有哪個進程是剛剛結束的這個進程的子進程,如果是的話,就由Init進程來接管他,成為他的父進程,從而保證每個進程都會有一個父進程。而Init進程會自動wait其子進程,因此被Init接管的所有進程都不會變成僵尸進程。
二、UNIX下進程的運作方式
每個Unix進程在進程表里都有一個進入點(entry),核心進程執行該進程時使用到的一切信息都存儲在進入點。當用 ps 命令察看系統中的進程信息時,看到的就是進程表中的相關數據。當以fork()系統調用建立一個新的進程后,核心進程就會在進程表中給這個新進程分配一個進入點,然后將相關信息存儲在該進入點所對應的進程表內。這些信息中有一項是其父進程的識別碼。
子進程的結束和父進程的運行是一個異步過程,即父進程永遠無法預測子進程到底什么時候結束。那么會不會因為父進程太忙來不及 wait 子進程,或者說不知道子進程什么時候結束,而丟失子進程結束時的狀態信息呢?
不會。因為UNIX提供了一種機制可以保證,只要父進程想知道子進程結束時的狀態信息,就可以得到。這種機制就是:當子進程走完了自己的生命周期后,它會執行exit()系統調用,內核釋放該進程所有的資源,包括打開的文件,占用的內存等。但是仍然為其保留一定的信息(包括進程號the process ID,退出碼exit code,退出狀態the terminationstatus of the process,運行時間the amount of CPU time taken by the process等),這些數據會一直保留到系統將它傳遞給它的父進程為止,直到父進程通過wait / waitpid來取時才釋放。
也就是說,當一個進程死亡時,它并不是完全的消失了。進程終止,它不再運行,但是還有一些殘留的數據等待父進程收回。當父進程 fork() 一個子進程后,它必須用 wait() (或者 waitpid())等待子進程退出。正是這個 wait() 動作來讓子進程的殘留數據消失。
三、僵尸進程的危害
如果父進程不調用wait / waitpid的話,那么保留的那段信息就不會釋放,其進程號就會一直被占用,但是系統的進程表容量是有限的,所能使用的進程號也是有限的,如果大量的產生僵尸進程,將因為沒有可用的進程號而導致系統不能產生新的進程。
所以,defunct進程不僅占用系統的內存資源,影響系統的性能,而且如果其數目太多,還會導致系統癱瘓。而且,由于調度程序無法選中Defunct 進程,所以不能用kill命令刪除Defunct 進程,惟一的方法只有重啟系統。
四、僵尸進程的產生
如果子進程死亡時父進程沒有 wait(),通常用 ps 可以看到它被顯示為“<defunct>”,這樣就產生了僵尸進程。它將永遠保持這樣直到父進程 wait()。
- #include?<stdio.h>??
- ??
- #include<sys/types.h>??
- ??
- main()??
- {??
- ??
- ????if(!fork())??
- ????{??
- ??
- ????????printf(“child?pid=%d\n”,?getpid());??
- ??
- ????????exit(0);??
- ??
- ????}??
- ??
- ????sleep(20);??
- ??
- ????printf(“parent?pid=%d?\n”,?getpid());??
- ??
- ????exit(0);??
- ??
- }??
當上述程序以后臺的方式執行時,第17行強迫程序睡眠20秒,讓用戶有時間輸入ps -e指令,觀察進程的狀態,我們看到進程表中出現了defunct進程。當父進程執行終止后,再用ps -e命令觀察時,我們會發現defunct進程也隨之消失。這是因為父進程終止后,init 進程會接管父進程留下的這些“孤兒進程”(orphan process),而這些“孤兒進程”執行完后,它在進程表中的進入點將被刪除。如果一個程序設計上有缺陷,就可能導致某個進程的父進程一直處于睡眠狀態或是陷入死循環,父進程沒有wait子進程,也沒有終止以使Init接管,該子進程執行結束后就變成了defunct進程,這個defunct 進程可能會一直留在系統中直到系統重新啟動。
?
?
在看一個產生僵尸進程的例子。
子進程要執行的程序test_prog
?
?
- //test.c??
- #include?<stdio.h>??
- int?main()??
- {??
- ????????int?i?=?0;??
- ????????for?(i?=?0?;?i?<?10;?i++)??
- ????????{??
- ????????????????printf?("child?time?%d\n",?i+1);??
- ????????????????sleep?(1);??
- ????????}??
- ????????return?0;??
- }??
?
?
父進程father的代碼father.c
?
?
- #include?<stdio.h>??
- #include?<unistd.h>??
- #include?<sys/types.h>??
- #include?<sys/wait.h>??
- int?main()??
- {??
- ????????int?pid?=?fork?();??
- ????????if?(pid?==?0)??
- ????????{??
- ????????????????system?("./test_prog");??
- ????????????????_exit?(0);??
- ????????}else??
- ????????{??
- ????????????????int?i?=?0;??
- ????????????????/*?
- ????????????????????????????????int?status?=?0;?
- ????????????????while?(!waitpid(pid,?&status,?WNOHANG))?
- ????????????????{?
- ????????????????????????printf?("father?waiting%d\n",?++i);?
- ????????????????????????sleep?(1);?
- ????????????????}*/??
- ????????????????while?(1)??
- ????????????????{??
- ????????????????????????printf?("father?waiting?over%d\n",?++i);??
- ????????????????????????sleep?(1);??
- ????????????????}??
- ????????????????return?0;??
- ????????}??
- ??
- }??
?
?
執行./father,當子進程退出后,由于父進程沒有對它的退出進行關注,會出現僵尸進程
?
?
- 20786?pts/0????00:00:00?father??
- 20787?pts/0????00:00:00?father?<defunct>??
?
?? ?總結:子進程成為 defunct 直到父進程 wait(),除非父進程忽略了 SIGCLD 。更進一步,父進程沒有 wait() 就消亡(仍假設父進程沒有忽略 SIGCLD )的子進程(活動的或者 defunct)成為 init 的子進程,init 著手處理它們。
五、如何避免僵尸進程
?
1、父進程通過wait和waitpid等函數等待子進程結束,這會導致父進程掛起。
?
在上個例子中,如果我們略作修改,在第8行sleep()系統調用前執行wait()或waitpid()系統調用,則子進程在終止后會立即把它在進程表中的數據返回給父進程,此時系統會立即刪除該進入點。在這種情形下就不會產生defunct進程。
2. 如果父進程很忙,那么可以用signal函數為SIGCHLD安裝handler。在子進程結束后,父進程會收到該信號,可以在handler中調用wait回收。
?
3. 如果父進程不關心子進程什么時候結束,那么可以用signal(SIGCLD, SIG_IGN)或signal(SIGCHLD, SIG_IGN)通知內核,自己對子進程的結束不感興趣,那么子進程結束后,內核會回收,并不再給父進程發送信號?
4. fork兩次,父進程fork一個子進程,然后繼續工作,子進程fork一個孫進程后退出,那么孫進程被init接管,孫進程結束后,init會回收。不過子進程的回收還要自己做。 下面就是Stevens給的采用兩次folk避免僵尸進程的示例:
?
?
- #include?"apue.h"??
- #include?<sys/wait.h>??
- ??
- int??
- main(void)??
- ...{??
- ?????pid_t????pid;??
- ??
- ????if?((pid?=?fork())?<?0)?...{??
- ?????????err_sys("fork?error");??
- ?????}?else?if?(pid?==?0)?...{?????/**//*?first?child?*/??
- ????????if?((pid?=?fork())?<?0)??
- ?????????????err_sys("fork?error");??
- ????????else?if?(pid?>?0)??
- ?????????????exit(0);????/**//*?parent?from?second?fork?==?first?child?*/??
- ????????/**//*?
- ??????????*?We're?the?second?child;?our?parent?becomes?init?as?soon?
- ??????????*?as?our?real?parent?calls?exit()?in?the?statement?above.?
- ??????????*?Here's?where?we'd?continue?executing,?knowing?that?when?
- ??????????*?we're?done,?init?will?reap?our?status.?
- ?????????*/??
- ?????????sleep(2);??
- ?????????printf("second?child,?parent?pid?=?%d?",?getppid());??
- ?????????exit(0);??
- ?????}??
- ??????
- ????if?(waitpid(pid,?NULL,?0)?!=?pid)??/**//*?wait?for?first?child?*/??
- ?????????err_sys("waitpid?error");??
- ??
- ????/**//*?
- ??????*?We're?the?parent?(the?original?process);?we?continue?executing,?
- ??????*?knowing?that?we're?not?the?parent?of?the?second?child.?
- ?????*/??
- ?????exit(0);??
- } ?