1.第六章馬爾科夫模型與條件隨機場

1.馬爾科夫模型：P6系統每一時刻的狀態只與前一個時刻的狀態相關，狀態轉移獨立于時間

2.隱馬爾科夫模型：P13狀態與觀測的雙重隨機過程

3.HMM的三個問題：（理不理解都行，重要的是后面的應用實例要理解）
給定觀測序列計算相應的概率：前向算法
計算模型的參數：（1）監督學習：有P55（2）無監督學習：期望最大法Baum-welch算法
給定觀測序列計算最有可能的狀態序列：（1）P40近似計算：每個時刻最有可能的狀態組成的序列（2）viterbi算法P46：從第一層開始找到每個節點的最優路徑，直至最后一層，然后回溯

4.HMM應用實例：P67
漢語自動分詞：（觀測：漢語分詞結果。）計算最合適的觀測序列使得其概率最大
詞性標注問題：（觀測：漢語分詞結果，狀態詞性標注序列：）求解最優的狀態。使得觀測序列的概率最大。
觀測序粗切分，切出所有可能的結果。然后漢語分詞的話，依據HMM前向算法計算最大概率的切分P81。詞性標注的話，依據HMMviterbi算法計算最優可能的狀態序列。

5.條件隨機場（一樣不用太理解它講的什么，本來就講的不清楚）掌握由字構詞法：P95每個字構成詞語那么它可能的詞位：開頭、中間、結尾、獨自成詞。漢語分詞問題轉換成字分類問題。P103解碼模型看清楚就差不多了。

2.第七章詞法分析與詞性標注

1.漢語自動分詞的主要問題：規范性問題P20、歧義切分字段問題P25組合型歧義，交集型歧義、未登入詞識別P26

2.漢語自動分詞的基本原則（記住兩條要吧）P29語義無法切分不能切，詞性無法切分不能切，有明顯分隔符的要切，使用頻率高的詞不能切，過于冗長要切

3.分詞與詞性標注結果評價：（很重要的兩個概念）正確率：正確結果與輸出結果的關系。召回率：正確結果和標準答案的關系。P40

4.自動分詞的基本算法：
4.1最大匹配法：要詞典P48正向：一個字依次向其后擴展至最長可能成詞的，就切開，再往后找最長成詞切分
4.2最少分詞發：要字典P51，有向無環圖構建，找最短路徑
4.3語言模型，n-gram第五章生成式模型
4.4 HMM，最大概率觀測序列第六章
4.5由字構詞，分類方法，第六章判別式模型
4.6 生成式模型與判別式模型相結合：兩種結合方式：
P67（c,t）+語言模型
P71插值的方法

5.未登入詞的識別
人名P81：概率估計、姓名閾值、評價函數、修飾規則
地名：P88建庫，沒說方法
機構名：P90中心語找做左邊界
雙語實體自動識別欲對齊聯合模型P98：英文邊界確定中文，中文邊界消歧英文

6.詞性標注
原則：P113標準性、兼容性、可擴充性
方法：手工編寫規則法p119（依據不同的上下文確定不同的詞性）、P123錯誤驅動的機器學習方法（理念比較重要）、基于HMM詞性標注（找最優的狀態序列使得觀測序列概率最大第六章）、統計和規則形結合（都沒有例子，估計不用記）

7.分詞與詞性標注的技術水平：老師說到現在都沒有解決好這兩個問題。

8.分詞與詞性標注的發展方向：遷移學習P144，消歧方法繼續研究P148

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/445161.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/445161.shtml
英文地址，請注明出處：http://en.pswp.cn/news/445161.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！