NLP復習資料-第九章
- 1.短語結構分析
- 2.短語結構分析方法的評估指標
- 3依存句法分析器設計P13
- 4依存句法分析器性能評價
- 5短語結構與依存結構能夠相互轉換
- 6漢英句法結構對比
- 7漢語長句的層次化句法分析
國科大,宗老師《自然語言處理》課程復習筆記,個人整理,僅供參考。
1.短語結構分析
(1)基于CFG規則的分析:沒法解決歧義問題。
(2)基于PCFG的分析:能夠解決歧義問題,但是概率計算條件過于苛刻)
(1.1)基于CFG規則的兩種方法:線圖分析法、CYK方法
線圖分析法: P20例子掌握了就差不多了。詞性序列作為線圖的邊,依據規則不斷構成新的弧,弧的標記為規則的左邊,弧連接的詞性串為規則的右邊。最后將弧轉換成節點,節點轉換成邊,就能得到句法分析樹。P30(時間復雜度為Kn3Kn^3Kn3)
CYK方法: P49的例子,(識別矩陣上的操作)識別矩陣的主對角線上是詞語,次對角線上是對應的詞性標注,再次對角線上是依據規則約規的規則左端標記,直至,最有上角的位置標記為S,由識別矩陣就可以構造句法分析樹。
(1.2)基于PCFG的分析:概率上下文無關文法
在上下文無關文法的基礎上,每一條文法都有一定的出現概率,那么利用這些規則轉換而成的句法分析樹每個節點周圍都會帶有概率標記,通過概率規則,計算整棵樹的概率(實際上是所有概率連乘),概率最大的樹為最有可能的分析樹。由于最大概率的挑選準則,使得PCFG可以克服歧義問題,但是概率模型太依靠于語料庫。P64句法分析樹概率計算
PCFG的三個問題(和HMM模型有的一拼)P73:
->快速計算P(W|G):內向算法:遞歸的算法(不會考算法吧)
->選擇最佳句法結構樹:viterbi算法:viterbi變量對應的最大概率,
->調整G使得P(W|G)最大:巴拉巴拉,我覺的不用記吧
基于PCFG的語法分析實例:
在CYK的基礎上多了每個小格子多了概率標記,最后可以計算句法分析樹的概率P103
2.短語結構分析方法的評估指標
P125精度、召回率、f-measure、P127交叉括號數(最好記一下)
P132 頁的交叉括號數為0,交叉括號的的準確率為100% (不甚理解)
3依存句法分析器設計P13
2.1依存句法結構描述—有向圖、依存樹
2.2 分析算法:
生成式分析方法:score(x,y|參數)找打打分最高的結果作為分析結果
判別式分析方法:最大生成樹模型,加權和分值最高的邊的組合
決策式分析方法:移進-約歸算法,arc-eager算法:左弧、右弧、移動、約歸、P33實現一個句法分析器:在每個狀態下依據特征決定下一步該采取的行動。通過標記數據集合得到特征集合,構造動作分析器,就是記錄一系列上下文轉換情況,在應用時,查找轉換規則即可。
4依存句法分析器性能評價
無標記正確率(支配關系寫對就行,分母是輸出句子的分詞數目)
帶標記正確率(支配關系和支配類型都得對,分母是輸出句子的分詞數目)
依存正確率(不帶根節點的正確率,分母是輸出句子的分詞數目-根的數目)
根正確率(正確根數/句子數)
完全匹配率(正確根的句子/總句子)
5短語結構與依存結構能夠相互轉換
短語->依存P52(中心詞抽取規則,產生中心此表-)每個節點中心詞抽取->非中心節點依存到中心節點上)
6漢英句法結構對比
P59至少記住兩個吧
漢語功能詞少;
漢語右部為中心,英語左部為中心;
漢語中省略主語的請款經常存在(他認為()是正確的)
7漢語長句的層次化句法分析
(p66分割句子-子句句法分析-分析子句之間的關系-最終得到整個句子的最大概率分析樹)