HTML4基本編譯原理,Stanford公開課《編譯原理》學習筆記(1~4課)

課程里涉及到的內容講的還是很清楚的,但個別地方有點脫節,任何看不懂卡住的地方,請自行查閱經典著作《Compilers——priciples, Techniques and Tools》(也就是大名鼎鼎的龍書)的對應章節。

一. 編譯的基本流程

完整的編譯的5個基本步驟包括lexcical anlysis,parse,sematic,optimize,code generate。課程中并沒有使用復雜的編程語言,而是一種用于課堂教學的自發明語言COOL,很明顯老師為它寫好了編譯器程序。

二. Lexical Analysis(詞法分析階段)

任務:將字符串分解成為[Type, (Value)]元組的形式的詞法單元。

“龍書”里的示例更為直觀,例如表達式語句 E = M * C ** 2進行詞法分析后會得到如下的類似結果:

[id,指向符號表中E的條目的指針]

[assign_op]

[id,指向符號表中M的條目的指針]

[mult_op]

[id,指向符號表中C的條目的指針]

[exp_op]

[number,整數值2]

詞法分析基本需要經歷如下幾個階段:

Lexical Specification——>Regular expressions——>NFA——>DFA——>Table-driven Implementation of DFA

2.1 Lexical Specification(分詞原則)

COOL中的基本Type包括如下幾個類別:

Indentifier標識符-指以字母開頭后續為若干個字母或數字的字符組

Integer-指一組非空的數字字符

Keyword- 指語言中的關鍵詞,例如if,else等

Whitespace- 指一組非空的空格字符或換行符或制表符

很多程序設計語言中的分詞原則基本都會覆蓋關鍵字,運算符,標識符,常量,標點符號,他們也會在后面的實現中被作為終止符集合,課程板書中也提供了COOL分詞原則的類正則形式。

73cc0d00af08a2702c5c66e1261d2d4a.png

分詞時類型的正則匹配默認為貪婪模式,即匹配更多的字符。詞法單元也具備一定的優先級次序(通常也是代碼邏輯的實現順序),例如if從正則上來判斷既符合Keywords也符合Identifier,此時該單元的類型就應該標記為Keywords。這個階段就完成了從Lecical Specification——>Regular expressions的部分。

2.2 Finite Automata (典型分詞算法-有窮自動機)

FA是一個可以自動識別詞法單元的機器,它是一個狀態轉換圖,“有限”是指它包含的狀態是有限的,一個狀態讀入一個字符后,后繼的狀態可能為:

后繼狀態為自身

后繼狀態只有一個

后繼狀態有多個

如果每次轉換后的后繼狀態都是唯一的,則稱為DFA(確定有限自動機),如果后繼狀態可能有多個則稱為NFA(不確定有限狀態機)。由于DFA的狀態轉移路徑是唯一的,所以作為狀態查詢圖時,無論成功或者失敗只需要運行一次,但NFA就可能需要運行多次。

正則表達式是可以轉換為NFA形式的,或許你已經在一些可視化正則表達式的網站上[https://regexper.com ]見過類似的形式。下圖比較清晰地展示了從正則表達式到NFA狀態圖的轉換規則(Regular expressions——>NFA):

d830065823377c0e1ae72433d97d7442.png

如果一個DFA和一個NFA能夠識別的字符集是一致的,則稱它們為等價的,對于任意NFA,一定存在一個DFA與其等價,由NFA構建DFA的過程被稱為DFA的確定化,也就是NFA——>DFA的過程。這個過程是圍繞ε -closure狀態集合的概念展開的,大致的過程就是從起點開始,每次將當前狀態和通過若干次ε轉換(它是一個特殊的狀態轉移函數,表示轉換后的狀態還是當前狀態)作為一個新的ε -closure狀態集合 ,使用矩陣記錄每個ε -closure集合轉換前后的集合,最后對整個狀態轉移矩陣進行標記重命名,就可以得到一個DFA,事實上轉化后的DFA中的每一個狀態,就是NFA中的一個ε -closure集合,你可以將它理解成一個通過分組來簡化表達方式的過程,相關的過程可以參考下面這個文章西北農林科技大學編譯原理課程PPT【詞法分析】,里面圖比較多,能夠輔助理解,本文不再贅述。

三. 手動實現分詞器

至此1-4課就結束了,估計看視頻課程的人也是一臉懵逼,因為課程并沒有講解如何利用DFA得到最終期望的形式——Token元組,那么最后我們就自己手動來實現一下。

3.1 基本定義

假設我們需要對下面這段代碼進行分詞解析:

let snippet = `

var b3 = 2;

a = 1 + ( b3 + 4);

return a;

`;

那么先來進行一些基本類型集合定義:

//解析結束標記

const EOF = undefined;

//Token Type 可識別的Token類型,

const TT = {

num: 'num',

id: 'id',

keywords: 'keywords', //var | return

lparen: 'lparen',// (

rparen: 'rparen',// )

semicolon: 'semicolon', //;

whitespace: 'whitespace', // \n | \t | \s (空格,制表符,換行符)

plus: 'plus', // +

assign: 'assign',// =

}

// 狀態集類型,除開始和結束外,其他可以與Token支持的類型相對應,每次分詞從start狀態開始,接收一個字符后改變狀態,直到在done狀態結束時,可以得到一個token

const S = {

start: 'start',

done: 'done',

...TT

}

進行工具函數定義:

//判斷是否為關鍵詞(為簡化流程,僅檢測上面示例中包含的關鍵詞)

const isKeywords = (token) => ['function', 'return', 'if', 'var'].includes(token);

//判斷是否為數字

const isDigit = c => /\d/.test(c);

//判斷是否為合法的標識符字符

const isValidId = c => /[A-Za-z0-9]/.test(c);

//判斷是否為空格

const isBlank = c => /(\s|\t|\n)/.test(c);

3.2 構建DFA

以上面定義的狀態集合和token類別為依據構建DFA:

d8115736ea1817ba458cba1f478a812b.png

3.3 開始分詞

分詞的邏輯實際上就是,每次先將狀態置為start,然后讀入一個字符,根據該字符判斷下一個狀態,只要沒有到達完成狀態done就繼續讀入字符,每次到達done狀態時,就可以得到一個token,將其記錄下來,然后重新將狀態置為start,開始尋找下一個token直到分析完整個代碼段。也就是說DFA狀態機每運行一輪,就得到一個token。參考代碼如下:

/**

* 詞法分析

*/

function tokenize(code) {

let state = S.start;

let currentToken;//標記當前尋找到的token

let index = 0;//起始指針,每次分析指向start狀態

let lookup = 0;//前探指針,每次分析最終指向done狀態,start->done之間的字符即為token

while (code[lookup] !== EOF) { //如果還有字符

while (state !== S.done) { //開始拆分token

//獲取下一個字符

let c = code[lookup++];

//根據當前狀態和下一個字符判斷DFA如何跳轉

switch (state) {

case S.start: //開始為空集,實現DFA中各個狀態轉移分支

if (isDigit(c)) {

state = S.num;

} else if (isValidId(c)) {

state = S.id;

} else if (isBlank(c)) {

state = S.done;

} else if (c === '=') {

currentToken = [TT.assign, '=']

state = S.done;

} else if (c === '+') {

currentToken = [TT.plus, '+']

state = S.done;

} else if (c === ';') {

currentToken = [TT.semicolon, ';']

state = S.done;

};

break;

case S.num: //如果是整數

if (isDigit(c)) {

state = S.num;

} else {

currentToken = [TT.num, code.slice(index,lookup - 1)];

lookup -= 1; //從數字狀態跳出后,最后一位需要參與下一輪分詞,故回退一位

state = S.done;

}

break;

case S.id: //如果是標識符狀態

if (isValidId(c)) {

state = S.id;

} else {

let tempToken = code.slice(index,lookup - 1);

lookup -= 1; //從標識符狀態跳出后,最后一位需要參與下一輪分詞,故回退一位

if (isKeywords(tempToken)) {

currentToken = [TT.keywords, tempToken];

}else{

currentToken = [TT.id, tempToken];

}

state = S.done;

}

break;

}

}

//state = S.done時跳出

currentToken && console.log(currentToken);

currentToken = undefined;

//起指針跟上末指針

index = lookup;

//開始下一輪分詞

state = S.start;

}

}

3.4 查看分詞結果

運行上述代碼即可看到目標程序片段的分詞結果:

79d7faa223718c3180f2e9083e51908f.png

四. 小結

至此,我們就得到了元組形式的分詞結果,完成了編譯中第一步lexical analysis的部分,筆者同時提供了一份包含token所在行列信息的版本,你可以從附件或【我的github倉庫】中拿到示例代碼,如果覺得對你有幫助,可以在github上為我加個星星哦~

b739ec46bb5c46d9c0aa4ce35ba1ea56.png

關于找一找教程網

本站文章僅代表作者觀點,不代表本站立場,所有文章非營利性免費分享。

本站提供了軟件編程、網站開發技術、服務器運維、人工智能等等IT技術文章,希望廣大程序員努力學習,讓我們用科技改變世界。

[Stanford公開課《編譯原理》學習筆記(1~4課)]http://www.zyiz.net/tech/detail-91416.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/534081.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/534081.shtml
英文地址,請注明出處:http://en.pswp.cn/news/534081.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

rocketmq 消息指定_SpringBoot 整合 RocketMQ 如何實現消息生產消費?

有時候我們在使用消息隊列的時候,往往需要能夠保證消息的順序消費,而RocketMQ是可以支持消息的順序消費的。RocketMQ在發送消息的時候,是將消息發送到不同的隊列中,然后消費端從多個隊列中讀取消息進行消費,很明顯&…

mysql怎么看實例名_南方“中看不中吃”的前4名水果,蓮霧只是墊底,你怎么看?...

水果很多人都喜歡吃,南方人可以說是最幸福的,因為南方的水果種類有很多種,而且水果的價格也很便宜,一年四季都能吃到便宜又好吃的水果,南方的很多水果,北方人可能都沒有吃過,雖然南方的水果種類…

html頁面怎么加向下滾動,如何使用jQuery向上或向下滾動頁面到錨點?

如何使用jQuery向上或向下滾動頁面到錨點?我正在尋找一種方法來包含幻燈片效果,當您單擊頁面上或下的本地錨點鏈接時。我想要一個你有這樣一個鏈接的東西:link text, img etc.也許添加了一個類,所以你知道你希望這個鏈接是一個滑動…

vuex中的值變化 頁面重新渲染_淺談瀏覽器的渲染過程,重繪與回流

瀏覽器的渲染過程 首先,我們先來了解一下瀏覽器的渲染過程是什么樣的,也就是說瀏覽器把一堆代碼呈現到頁面上的過程是什么樣子的,瀏覽器采用流式布局模型(Flow Bsaed Layout),根據下圖,我們可以總結出瀏覽器的渲染步驟…

vc 將已有項目打包成dll 并應用于其他項目_.NET混淆器 Dotfuscator使用教程:保護你的應用之存檔報告文件...

Dotfuscator是一款.NET混淆器和壓縮器,防止你的應用程序被反編譯。本篇文章將繼續上一篇文章與大家分享保護應用程序的后續三個部分:存檔報告文件、加強保護和替代方法。存檔報告文件作為構建的一部分,Dotfuscator會生成報告文件(在Dotfuscat…

html文件內容搜索,html讀出文本文件內容

html讀出文本文件內容更新時間:2007年01月22日 00:00:00 作者:Function bytes2BSTR(vIn)strReturn ""For i 1 To LenB(vIn)ThisCharCode AscB(MidB(vIn,i,1))If ThisCharCode strReturn strReturn & Chr(ThisCharCode)ElseNextCharC…

python 定義變量_python-003-變量

1.變量的定義python中,在程序運行時,可以隨著程序的運行更改的量成為變量.簡單理解: 變量就是用來臨時存儲數據的容器.可以認為好比是 逛超市 買面條 使用購物車 裝面條變量 -> 購物車數據 -> 面條2.變量的使用# 第一次輸入一個10 num1 10 # 第二次輸入一個20 num2 20 …

蘋果11是高通基帶嗎_最強對抗!小米11對抗三星、蘋果華為等最高旗艦|喜歡小米嗎?...

哈嘍,您好!我是原呵呵,點點關注吧,更多精彩內容等著您小米很快就會展示了2021年的手機,該公司通常會在2月份推出該季節的首個旗艦,但新的小米米11已向前推進了幾個月,并成為了首個采用驍龍888處…

html 圖片墻效果,基于html5實現的圖片墻效果

溫馨提示:本信息由【金聰采編】搜集整理發布,版權歸原作者及發布者所有,您如有異議請 舉報 或者 版權申訴。本文實例講述了基于html5實現的圖片墻效果,分享給大家供大家參考。具體實現方法如下:這里有一組數據需要用圖…

python split函數 空格_python上手--10行代碼讀懂紅樓夢

取名10行代碼看懂紅樓夢,是將介紹使用python代碼來讀紅樓夢獲取其主要人物。這里的思想就是詞頻統計,通過分析紅樓夢小說文字中出現最多的詞語,來概括說明紅樓夢的核心人物和事情。實際上如果你能跟著往下看,就開始進入了自然語言…

計算機主機溫度,計算機的理想工作溫度和濕度分別是多少

電腦理想的工作溫度在10~35度,相對濕度為30%~80%。說明一點:這個溫濕度是沒有嚴格界定的。日常可以這樣理解:只要人待在那里感覺舒服,電腦也會覺得合適的。電腦對電源也有要求&#…

k8s 安裝nfs_K8s--06 K8s數據持久化

K8s數據持久化數據持久化 Volume介紹Volume介紹:Volume是Pad中能夠被多個容器訪問的共享目錄Kubernetes中的Volume不Pad生命周期相同,但不容器的生命周期丌相關Kubernetes支持多種類型的Volume,并且一個Pod可以同時使用任意多個VolumeVolume類…

matlab為自定義后綴文件設置圖標_【V3.0更新】| 這可能是全網最好用的文件管理神器了......

?點擊關注Excel表哥公眾號使用Excel制作自帶超鏈接的文件目錄索引確實可以很好地幫忙大家管理電腦里的文件。在此分享幾個各行各業朋友們的使用截圖:▲一個硬件工程師朋友的使用截圖▲一個醫院工作人員的數據統計文件管理▲學生朋友用來管理論文文獻▲VBA編程愛好者…

html dom透明度,HTML DOM Style overflow 屬性

Style overflow 屬性Style 對象定義和用法overflow 屬性設置或返回如何處理呈現在元素框外面的內容。語法設置 overflow 屬性:Object.style.overflow"visible|hidden|scroll|auto|inherit"返回 overflow 屬性:Object.style.overflow值描述visi…

#中隊列的數據結構_數據結構與算法拓展(一)

棧與隊列申明:由于篇幅限制,文章可能有些簡略,如果大家想要詳細了解,請一定要百度一下,并閱讀例題,完成習題緒言:計算機科學在過去的數十年內發展飛速,各種新穎的技術紛至沓來&#…

display屬性_Numpy知識點(1)講解實操安裝/屬性/數組創建/運算

# 1、安裝包# pip install numpy #原生python安裝# conda install numpy #Anaconda的安裝# 使用Numpyimport numpy as np a np.arange(15) #生成0-14的一維數組display(a)display( )和print( )都是打印,在大多數編程軟件上都使用print,jupyter notebook中我們可以使用d…

計算機英語短文互譯,中英文互譯的英語短文

在英語學習中,閱讀能力是學習者發展其它語言能力(聽、說、寫、譯)的基礎。閱讀能力的高低,不僅決定了學習者獲取知識和信息的水平,而且在一定程度上也反映出學習者綜合運用英語的能力。小編精心收集了中英文互譯的英語短文,供大家欣賞學習!中英文互譯的英語短文&…

springboot怎么設置多個路徑全部跳轉首頁_SpringBoot(四)—Web開發(二)

這篇文章準備來記錄一下一個restful風格小項目的流程,上篇文章為它做了一個基礎,如果有什么錯誤希望大家能夠指出。目錄首頁國際化登錄攔截器CRUD一、首頁在訪問localhost:8080/的時候,默認訪問首頁在自己配置的SpringMVC的配置類中Configura…

計算機英語六級,英語六級作文范文:計算機

英語六級考試時間越來越近了,所以在備考的時候就更要掌握技巧,勤加練習。在備考英語六級寫作時,學習一篇好的范文,會給復習帶來事半功倍的效果。Using a computer every day can have more negative than positive effects on you…

python軟件_Python自制照片美顏軟件~

下午被一個騙子惡心到了,本來聽公開課聽得好好的,搞得心情極差,于是就中斷了網課,聽聽音樂,寫一下文章吧!前期準備①Python編譯環境以及Python代碼編輯器Pycharm的安裝:請在【微信公眾后臺】找到…