HTML4基本編譯原理,Stanford公開課《編譯原理》學習筆記(1~4課)

課程里涉及到的內容講的還是很清楚的，但個別地方有點脫節，任何看不懂卡住的地方，請自行查閱經典著作《Compilers——priciples, Techniques and Tools》(也就是大名鼎鼎的龍書)的對應章節。

一. 編譯的基本流程

完整的編譯的5個基本步驟包括lexcical anlysis,parse,sematic,optimize,code generate。課程中并沒有使用復雜的編程語言，而是一種用于課堂教學的自發明語言COOL，很明顯老師為它寫好了編譯器程序。

二. Lexical Analysis(詞法分析階段)

任務：將字符串分解成為[Type, (Value)]元組的形式的詞法單元。

“龍書”里的示例更為直觀，例如表達式語句 E = M * C ** 2進行詞法分析后會得到如下的類似結果：

[id,指向符號表中E的條目的指針]

[assign_op]

[id,指向符號表中M的條目的指針]

[mult_op]

[id,指向符號表中C的條目的指針]

[exp_op]

[number,整數值2]

詞法分析基本需要經歷如下幾個階段：

Lexical Specification——>Regular expressions——>NFA——>DFA——>Table-driven Implementation of DFA

2.1 Lexical Specification(分詞原則)

COOL中的基本Type包括如下幾個類別：

Indentifier標識符-指以字母開頭后續為若干個字母或數字的字符組

Integer-指一組非空的數字字符

Keyword- 指語言中的關鍵詞，例如if，else等

Whitespace- 指一組非空的空格字符或換行符或制表符

很多程序設計語言中的分詞原則基本都會覆蓋關鍵字，運算符，標識符，常量，標點符號，他們也會在后面的實現中被作為終止符集合，課程板書中也提供了COOL分詞原則的類正則形式。

分詞時類型的正則匹配默認為貪婪模式，即匹配更多的字符。詞法單元也具備一定的優先級次序(通常也是代碼邏輯的實現順序)，例如if從正則上來判斷既符合Keywords也符合Identifier，此時該單元的類型就應該標記為Keywords。這個階段就完成了從Lecical Specification——>Regular expressions的部分。

2.2 Finite Automata (典型分詞算法-有窮自動機)

FA是一個可以自動識別詞法單元的機器，它是一個狀態轉換圖，“有限”是指它包含的狀態是有限的，一個狀態讀入一個字符后，后繼的狀態可能為：

后繼狀態為自身

后繼狀態只有一個

后繼狀態有多個

如果每次轉換后的后繼狀態都是唯一的，則稱為DFA(確定有限自動機)，如果后繼狀態可能有多個則稱為NFA(不確定有限狀態機)。由于DFA的狀態轉移路徑是唯一的，所以作為狀態查詢圖時，無論成功或者失敗只需要運行一次，但NFA就可能需要運行多次。

正則表達式是可以轉換為NFA形式的，或許你已經在一些可視化正則表達式的網站上[https://regexper.com ]見過類似的形式。下圖比較清晰地展示了從正則表達式到NFA狀態圖的轉換規則(Regular expressions——>NFA)：

如果一個DFA和一個NFA能夠識別的字符集是一致的，則稱它們為等價的，對于任意NFA，一定存在一個DFA與其等價，由NFA構建DFA的過程被稱為DFA的確定化，也就是NFA——>DFA的過程。這個過程是圍繞ε -closure狀態集合的概念展開的，大致的過程就是從起點開始，每次將當前狀態和通過若干次ε轉換(它是一個特殊的狀態轉移函數，表示轉換后的狀態還是當前狀態)作為一個新的ε -closure狀態集合，使用矩陣記錄每個ε -closure集合轉換前后的集合，最后對整個狀態轉移矩陣進行標記重命名，就可以得到一個DFA，事實上轉化后的DFA中的每一個狀態，就是NFA中的一個ε -closure集合，你可以將它理解成一個通過分組來簡化表達方式的過程，相關的過程可以參考下面這個文章西北農林科技大學編譯原理課程PPT【詞法分析】，里面圖比較多，能夠輔助理解，本文不再贅述。

三. 手動實現分詞器

至此1-4課就結束了，估計看視頻課程的人也是一臉懵逼，因為課程并沒有講解如何利用DFA得到最終期望的形式——Token元組，那么最后我們就自己手動來實現一下。

3.1 基本定義

假設我們需要對下面這段代碼進行分詞解析：

let snippet = `

var b3 = 2;

a = 1 + ( b3 + 4);

return a;

那么先來進行一些基本類型集合定義：

//解析結束標記

const EOF = undefined;

//Token Type 可識別的Token類型，

const TT = {

num: 'num',

id: 'id',

keywords: 'keywords', //var | return

lparen: 'lparen',// (

rparen: 'rparen',// )

semicolon: 'semicolon', //;

whitespace: 'whitespace', // \n | \t | \s (空格，制表符，換行符)

plus: 'plus', // +

assign: 'assign',// =

}

// 狀態集類型，除開始和結束外，其他可以與Token支持的類型相對應，每次分詞從start狀態開始，接收一個字符后改變狀態，直到在done狀態結束時，可以得到一個token

const S = {

start: 'start',

done: 'done',

...TT

}

進行工具函數定義：

//判斷是否為關鍵詞(為簡化流程，僅檢測上面示例中包含的關鍵詞)

const isKeywords = (token) => ['function', 'return', 'if', 'var'].includes(token);

//判斷是否為數字

const isDigit = c => /\d/.test(c);

//判斷是否為合法的標識符字符

const isValidId = c => /[A-Za-z0-9]/.test(c);

//判斷是否為空格

const isBlank = c => /(\s|\t|\n)/.test(c);

3.2 構建DFA

以上面定義的狀態集合和token類別為依據構建DFA:

3.3 開始分詞

分詞的邏輯實際上就是，每次先將狀態置為start,然后讀入一個字符，根據該字符判斷下一個狀態，只要沒有到達完成狀態done就繼續讀入字符，每次到達done狀態時，就可以得到一個token，將其記錄下來，然后重新將狀態置為start，開始尋找下一個token直到分析完整個代碼段。也就是說DFA狀態機每運行一輪，就得到一個token。參考代碼如下：

/**

* 詞法分析

function tokenize(code) {

let state = S.start;

let currentToken;//標記當前尋找到的token

let index = 0;//起始指針,每次分析指向start狀態

let lookup = 0;//前探指針,每次分析最終指向done狀態，start->done之間的字符即為token

while (code[lookup] !== EOF) { //如果還有字符

while (state !== S.done) { //開始拆分token

//獲取下一個字符

let c = code[lookup++];

//根據當前狀態和下一個字符判斷DFA如何跳轉

switch (state) {

case S.start: //開始為空集,實現DFA中各個狀態轉移分支

if (isDigit(c)) {

state = S.num;

} else if (isValidId(c)) {

state = S.id;

} else if (isBlank(c)) {

state = S.done;

} else if (c === '=') {

currentToken = [TT.assign, '=']

state = S.done;

} else if (c === '+') {

currentToken = [TT.plus, '+']

state = S.done;

} else if (c === ';') {

currentToken = [TT.semicolon, ';']

state = S.done;

};

break;

case S.num: //如果是整數

if (isDigit(c)) {

state = S.num;

} else {

currentToken = [TT.num, code.slice(index,lookup - 1)];

lookup -= 1; //從數字狀態跳出后，最后一位需要參與下一輪分詞，故回退一位

state = S.done;

}

break;

case S.id: //如果是標識符狀態

if (isValidId(c)) {

state = S.id;

} else {

let tempToken = code.slice(index,lookup - 1);

lookup -= 1; //從標識符狀態跳出后，最后一位需要參與下一輪分詞，故回退一位

if (isKeywords(tempToken)) {

currentToken = [TT.keywords, tempToken];

}else{

currentToken = [TT.id, tempToken];

}

state = S.done;

}

break;

}

//state = S.done時跳出

currentToken && console.log(currentToken);

currentToken = undefined;

//起指針跟上末指針

index = lookup;

//開始下一輪分詞

state = S.start;

}

3.4 查看分詞結果

運行上述代碼即可看到目標程序片段的分詞結果：

四. 小結

至此，我們就得到了元組形式的分詞結果，完成了編譯中第一步lexical analysis的部分，筆者同時提供了一份包含token所在行列信息的版本，你可以從附件或【我的github倉庫】中拿到示例代碼，如果覺得對你有幫助，可以在github上為我加個星星哦~

關于找一找教程網

本站文章僅代表作者觀點，不代表本站立場，所有文章非營利性免費分享。

本站提供了軟件編程、網站開發技術、服務器運維、人工智能等等IT技術文章，希望廣大程序員努力學習，讓我們用科技改變世界。

[Stanford公開課《編譯原理》學習筆記(1~4課)]http://www.zyiz.net/tech/detail-91416.html

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/534081.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/534081.shtml
英文地址，請注明出處：http://en.pswp.cn/news/534081.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！