目錄
一、句法概述
1、成分語法理論概述
(1)分析過程? ? ? ?
(2)缺點? ? ? ??
2、依存語法理論概述
(1)依存關系、配價模式
(2)分類
(3)優勢:
二、成分句法分析
1、基于上下文無關文法(CFG)的成分句法分析
(1)經典分析算法:
(2)核心挑戰
2、基于概率上下文無關文法(PCFG)的成分句法分析
(1)經典算法
(2) PCFG的模型參數學習過程
3、成分句法分析評價標準
三、依存句法分析
1、基于圖
(1) 基本思想
(2)經典算法
非投射性依存句法分析:朱-劉/埃德蒙茲算法
投射性依存句法分析--基于動態規劃的算法
2、基于神經網絡的圖依存句法分析
3、基于轉移
4、基于神經網絡的轉移依存句法分析
5、依存句法分析評價方法
四、句法分析語料庫
????????句法分析是指對輸入的單詞序列(一般為句子)判斷其構成是否合乎給定的語法,分析合乎語法的句子的句法結構。
????????句法分析句法分析是句子結構和語義之間的橋梁,具有非常重要的作用,很多自然語言處理算法需要依賴句法分析結果,因此句法分析效果也直接影響到很多自然語言處理應用。句法分析是自然語言處理中長期關注的核心問題之一。
????????本章中,句法分析任務限定在得到完整的句法分析樹,重點介紹了基于有監督機器學習算法的句法分析方法。對成分句法分析和依存句法分析分別介紹了各類型的評價方法。
一、句法概述
????????句法(Syntax)就是研究自然語言中不同成分組成句子的方式以及支配句子結構并決定句子是否成立的規則。
1、成分語法理論概述
????????成分(Constituent)又稱短語結構,是指一個句子內部的結構成分,成分可以獨立存在,或者可以用代詞替代,又或者可以在句子中的不同位置移動。
????????根據不同成分之間是否可以進行相互替代而不會影響句子語法正確性可以進一步地將成分進行分類,某一類短語就屬于一個句法范疇:比如“一本小說”“”一所大學”等都屬于一個句法范疇:名詞短語(None Phrase,NP)
(1)分析過程? ? ? ?
?????????成分語法就是由句法范疇以及短語結構規則定義的語法。由于短語結構規則具有遞歸性,可以使短語和句子無限循環組合。
(2)缺點? ? ? ??
由于成分語法局限于表層結構分析,不能徹底解決句法和語義問題,因比存在非連續成分、結構歧義等問題。如:
2、依存語法理論概述
?????在依存語法理論中,“依存”就是指詞與詞之間支配與被支配的關系,這種關系不是對等的,而是有方向的。處于支配地位的成分稱為支配者(governol,regent,head),而處于被支配地位的成分
稱為從屬者(modifier,subordinate,dependency)。
(1)依存關系、配價模式
(2)分類
????????在圖 3.7 “Something about this book is unusual” 中,句子里詞語之間的依存關系在平面上不會出現交叉 ,就像從根節點向其他節點投射射線一樣,各射線互不干擾,所以符合投射性原則。圖 3.8 “Something is unusual about this book” 里,從依存關系來看,成分之間的依存連線在平面上會出現交叉 ,導致依存連線在圖中出現了交叉的情況,不再是有序的投射狀,所以違反了投射性原則。
(3)優勢:
- 簡單,直接按照詞語之間的依存關系工作,是天然
- 詞匯化的;不過多強調句子中的固定詞序,對自由語序的語言分析更有優勢;
- 受深層語義結構的驅動,詞匯的依存本質是語義的:
- 形式化程度較短語結構語法淺,對句法結構的表述更為靈活。
二、成分句法分析
因句法結構歧義,句法分析需消除歧義,成分語法里結構歧義主要有兩種。
- 附著歧義(Attachment ambiguity):示例為句子 “The boy saw the man with the telescope” ,即短語等成分在句法結構中 “附著” 位置不確定產生的歧義 。
- 并列連接歧義(Coordination ambiguity):示例是 “重要政策和措施” ,因并列成分的連接關系、范圍等不確定,導致句法結構理解有歧義 ,比如 “(重要政策)和(措施)” 與 “重要(政策和措施)” 兩種可能理解。
1、基于上下文無關文法(CFG)的成分句法分析
核心是通過 CFG 規則解析句子的層次化成分結構(如短語、子句等),最終生成句法樹(短語結構樹)來表示句子的句法組織方式。
- 成分(Constituent):指句子中具有獨立句法功能的子序列(如 “名詞短語 NP”“動詞短語 VP”),例如 “一只黑貓” 是 NP,“在樹上跳” 是 VP。
- 短語結構樹:以樹狀結構直觀展示成分的層次關系,樹根為起始符號 S,葉節點為句子中的詞語(終結符),中間節點為非終結符(句法范疇)
(1)經典分析算法:
示例:【自頂向下】
????????把所有的字符都吃進來的時候。這個時候就完成最終的句法的結構的生成
CYK算法【自底向上】
(2)核心挑戰
基于 CFG 的成分分析面臨的最大問題是句法歧義:同一個句子可能對應多個符合 CFG 規則的句法樹。例如,句子 “咬死了獵人的狗” 存在兩種歧義:
- (咬死了)(獵人的狗)——“狗” 是 “咬死了” 的賓語;
- (咬死了獵人的)狗 ——“狗” 是主語,“咬死了獵人的” 修飾 “狗”。
2、基于概率上下文無關文法(PCFG)的成分句法分析
????????CFG的擴展?,為 CFG 的產生式添加概率(如 P (A→α) 表示規則 A→α 的使用概率),通過計算句法樹的總概率,選擇概率最高的樹【Viterbi 樹】作為最優解,解決了 CFG 中句法歧義問題
(1)經典算法
(2) PCFG的模型參數學習過程
3、成分句法分析評價標準
衡量句法分析結果與標準句法樹(參考樹)的契合程度
三、依存句法分析
????????依存句法分析(Dependency Parsing)任務目標是依據依存語法理論分析輸入句子得到其依存句法結構樹。
1、基于圖
??基于圖的依存句法分析主要包含邊評分模型和旬法樹生成算法兩個部分組成。其中邊評分模型對于分析效果具有決定性的影響。核心是構造評分函數,為 “詞與詞之間的依存關系” 打分,最終選擇分數最高的合法依存樹。
? ?(1) 基本思想
????????將句子中的每個詞視為圖的節點,詞與詞之間的可能依存關系視為有向邊(邊的方向從依存詞指向中心詞),通過定義 “邊的打分函數” 計算每個可能依存關系的權重,最終從所有可能的依存樹中選擇總權重最高的樹。
(2)經典算法
??????
????????利用最大生成樹算法得到的依存句法樹不具備投射性。
????????針對具有投射性要求的依存句法樹,可以利用其與上下文無關語法之間的強相關性,利用基于CYK 算法等上下文無關語法分析算法進行依存句法樹分析。
非投射性依存句法分析:朱-劉/埃德蒙茲算法
? ? ? ? 一種帶權有向圖的最小/大生成樹尋找算法。
投射性依存句法分析--基于動態規劃的算法
2、基于神經網絡的圖依存句法分析
????????將句子視為一個 “詞節點構成的完全圖”,用神經網絡預測 “詞與詞之間的依存弧概率”,再通過圖論算法(如最大生成樹算法)從全圖中選出最優依存樹(滿足無環、單根等句法約束)
3、基于轉移
????????模擬人類 “逐步構建依存樹” 的過程,通過有限狀態轉移(如Shift/Reduce/Arc
操作)增量式生成依存樹。
4、基于神經網絡的轉移依存句法分析
????????用神經網絡替代轉移系統中的 “手工特征 + 分類器”,學習狀態到動作的映射。
5、依存句法分析評價方法
(1)無標簽依存準確率
(2)有標簽依存準確率