NLP復習資料
- 1.第六章 馬爾科夫模型與條件隨機場
- 2.第七章 詞法分析與詞性標注
國科大,宗老師《自然語言處理》課程復習筆記,個人整理,僅供參考。
1.第六章 馬爾科夫模型與條件隨機場
1.馬爾科夫模型:P6系統每一時刻的狀態只與前一個時刻的狀態相關,狀態轉移獨立于時間
2.隱馬爾科夫模型:P13狀態與觀測的雙重隨機過程
3.HMM的三個問題:(理不理解都行,重要的是后面的應用實例要理解)
給定觀測序列計算相應的概率:前向算法
計算模型的參數:(1)監督學習:有P55(2)無監督學習:期望最大法Baum-welch算法
給定觀測序列計算最有可能的狀態序列:(1)P40近似計算:每個時刻最有可能的狀態組成的序列(2)viterbi算法P46:從第一層開始找到每個節點的最優路徑,直至最后一層,然后回溯
4.HMM應用實例:P67
漢語自動分詞:(觀測:漢語分詞結果。)計算最合適的觀測序列使得其概率最大
詞性標注問題:(觀測:漢語分詞結果,狀態詞性標注序列:)求解最優的狀態。使得觀測序列的概率最大。
觀測序粗切分,切出所有可能的結果。然后漢語分詞的話,依據HMM前向算法計算最大概率的切分P81。詞性標注的話,依據HMMviterbi算法計算最優可能的狀態序列。
5.條件隨機場(一樣不用太理解它講的什么,本來就講的不清楚)掌握由字構詞法:P95每個字構成詞語那么它可能的詞位:開頭、中間、結尾、獨自成詞。漢語分詞問題轉換成字分類問題。P103解碼模型看清楚就差不多了。
2.第七章 詞法分析與詞性標注
1.漢語自動分詞的主要問題:規范性問題P20、歧義切分字段問題P25組合型歧義,交集型歧義、未登入詞識別P26
2.漢語自動分詞的基本原則(記住兩條要吧)P29語義無法切分不能切,詞性無法切分不能切,有明顯分隔符的要切,使用頻率高的詞不能切,過于冗長要切
3.分詞與詞性標注結果評價:(很重要的兩個概念)正確率:正確結果與輸出結果的關系。召回率:正確結果和標準答案的關系。P40
4.自動分詞的基本算法:
4.1最大匹配法:要詞典P48正向:一個字依次向其后擴展至最長可能成詞的,就切開,再往后找最長成詞切分
4.2最少分詞發:要字典P51,有向無環圖構建,找最短路徑
4.3語言模型,n-gram第五章 生成式模型
4.4 HMM,最大概率觀測序列 第六章
4.5由字構詞,分類方法,第六章 判別式模型
4.6 生成式模型與判別式模型相結合:兩種結合方式:
P67(c,t)+語言模型
P71插值的方法
5.未登入詞的識別
人名P81:概率估計、姓名閾值、評價函數、修飾規則
地名:P88建庫,沒說方法
機構名:P90中心語找做左邊界
雙語實體自動識別欲對齊聯合模型P98:英文邊界確定中文,中文邊界消歧英文
6.詞性標注
原則:P113標準性、兼容性、可擴充性
方法:手工編寫規則法p119(依據不同的上下文確定不同的詞性)、P123錯誤驅動的機器學習方法(理念比較重要)、基于HMM詞性標注(找最優的狀態序列使得觀測序列概率最大第六章)、統計和規則形結合(都沒有例子,估計不用記)
7.分詞與詞性標注的技術水平:老師說到現在都沒有解決好這兩個問題。
8.分詞與詞性標注的發展方向:遷移學習P144,消歧方法繼續研究P148