
同學們總是抱怨每次見到一道面試題都很難把它轉化為程序源代碼。然而不幸的是,即使是程序源代碼對于計算機來說也還是太高級了。要想讓計算機執行一段程序,我們必須把它翻譯成最底層的機器指令才行。這其中要經歷很多步驟。幸運的是有很多現成的工具可以幫助我們完成這個過程。今天我們就以 C 語言為例給大家做個簡單介紹。(Java 還要更復雜一些,涉及到字節碼和虛擬機,今天就不講了。)
預處理(Preprocessing)
翻譯一段 C 語言程序的第一步是預處理。這一步主要處理所有以“#”號開頭的行。比如當我們遇到 #include "header.h"
的時候,就直接把 header.h
文件里的所有內容插入到這兒。由此可見,一段 C 語言程序經過預處理之后還是一段 C 語言程序。
編譯(Compilation)
第二步是編譯,也就是將一段 C 語言程序翻譯為一段匯編語言程序。匯編語言比 C 語言要底層多了,基本上就是機器指令的文字版,每一行匯編語言對應著一條機器指令。往往 C 語言程序里的一行要被翻譯成好幾行匯編語言程序才行。不同的高級語言(如 C、Fortran、Pascal 等等)有不同的預處理器和編譯器,但它們在經過編譯之后都變成了同一種匯編語言,于是后面的步驟和工具大家都是通用的了。
匯編(Assembly)
第三步是匯編,即把文字版的匯編語言程序真正翻譯成由 0 和 1 組成的機器指令,并把它們打包輸出成一個 relocatable object program(下文簡稱目標文件)。如果說匯編語言程序人類還勉強能看懂,經過這一步之后得到的目標文件就真的是一堆二進制亂碼了。
鏈接(Linking)
第四步是鏈接,用來把多個目標文件合并成一個可執行文件。比如說我們寫了一個 hello world 程序,其中調用了 C 語言標準庫里的 printf() 函數來打印。我們的 hello world 的主函數和 printf() 函數存放在兩個不同的目標文件里,經過這一步之后它們就被合并到一起了。(這里講的是靜態鏈接。如果是動態鏈接的話,printf() 在這一步暫時不合并進來,而是在下一步程序運行的時候才被加載。)
加載(Loading)
上一步所生成的可執行文件終于可以被操作系統加載運行了。操作系統會將這個可執行文件中的代碼和數據從磁盤復制到內存中,并跳轉到該程序的第一條指令處(也叫做入口點,entry point)開始執行。
最后用一張圖給大家總結一下全過程:

(本文在寫作過程中參考了 Randal E. Bryant 和 David R. O'Hallaron 所著的 Computer Systems: A Programmer's Perspective 第三版。)
更多北美CS求職信息請至:http://www.laioffer.com