NLP復習資料-第十章
- 1語義理論簡介
- 2格語法
- 4語義網絡
- 5詞義消歧
- 5語義角色標注
- 6詞向量表示
- 7篇章分析
國科大,宗老師《自然語言處理》課程復習筆記,個人整理,僅供參考。
語義分析:P3解釋句子或篇章的含義,主要困難(歧義現象,不同人的理解不同,模型方法不成熟)
1語義理論簡介
就是說不同的學者對于詞的含義有不同的理解(至少記住兩個吧)
1.詞的指稱(詞與現實世界事物對應,復雜問題無法定義)
2.心理圖像(不是所有詞義都有清晰的心理圖像)
3說話者意圖(希望聽者理解,做出反應)
4.過程語義(編程語言的含義,缺乏獨立性)
5.詞匯分解學派(詞的意義基于語義基元,語義基元標準難定)
6.條件真理模型(不能很好描述時間場景)
7.情景語義學、模態邏輯
2格語法
格語法-語言學家搞的一套東西,老師快速地過了一遍。句子的表層表現與底層含義。
三條基本規則:P22句子由情態和命題構成,命題可以向下分
用格語法分析語義:基礎有一本動詞格框架和名詞語義信息的詞典
步驟P31,識別動詞,找格框架->填充必備格->填充可選格->判斷句子情態
格語法描述漢語的局限性:一個句子(動詞)一個框架,漢語的無動句、流水句子、連動句很難用一個框架描述
4語義網絡
語義網絡:P38 概念 和 關系 組成的有向圖,用來表示語義與知識。
P42事件的語義網絡節點之間的關系可以使用格關系來表示
P45基于語義網絡的推理:根據已知知識構建局部網絡->用變量代表待求客體進行推理
P46知識圖譜:描述實體與實之間的關系。關鍵技術:實體識別與消歧,關系識別
5詞義消歧
詞義消歧:多義詞詞義確定的過程
基本方法:
1.有監督詞義消歧:互信息消歧P51:平行語料庫,語義指示器的分類問題,互信息最大的方法來確定語義指示器的分類
2.貝葉斯消歧:第二章內容P55基于上下文的貝葉斯分類器的消歧方法
3.基于最大熵的消歧方法:第二章
4.基于詞典的消歧:
->詞典語義定義消歧
->上下文語義項
->雙語詞典:短語-翻譯-譯文中的共現次數多的組合詞義作為原語言中的意義
->Yarowsky:P62一個多義詞項出現一次后,該詞項出現的可能性會比較大
5語義角色標注
分析句子謂語與其他成分詞之間的關系
方法:
->基于短語結構分析的SRL(候選論元剪枝:P74,論元識別與標注P76)
->基于依存關系SRL(P80只有候選論元的剪除:因為它本來就是以動詞為中心的)
->基于語塊分析的SRL方法P84:語義角色標注問題變成序列標注問題
6詞向量表示
兩個主要問題:詞匯如何轉換成向量,向量如何語義組合。
基于文本的詞匯語義表示:共現矩陣P94、神經網絡P95
基于圖像學習的詞匯語義表示:P97圖像->特征向量
基于聲音學習的詞匯語義特征:P98
多模態融合
下面就是老師們的一些工作,都是一些思想,不細說大致了解一下。
(1) 關聯詞匯作為弱監督信號得到詞向量表示
(2) 多模態的詞匯表示的可解釋性研究:不同模態的向量,側重詞義特征不同,或具體,或抽象
(3) 融合詞匯內部結構的中文句子表示模型
(4) 借鑒人類注意力分配機制的語義表示模型
(5) 研究不同類型句子在人腦的語義解碼(句子->腦圖像->特征提取)
7篇章分析
宗老師講的最后一點內容:篇章分析
1.如何表示一個篇章:
詞匯鏈:P3幾個關鍵詞串在一起,構成一篇文章的描述
事件鏈:P5實體抽取->詞匯鏈上每個詞最近的論元,構成事件鏈->判斷相鄰事件之間的關系
話題鏈:P6一系列回指構成的話題鏈
2.淺層篇章關系分析:P10分析兩個篇章單元之間的關系,三個主要任務:關聯詞識別、arg抽取、兩個arg之間功能類型判斷。老師的基本框架:p12
(1)錨點識別:P13包括顯示的關聯詞,和隱式的標點符號
(2) Argment提取:P16一些啟發式的規則
(2)Argment 擴展,以同一個句子、前后兩個句子為種子,向前后擴展
(3)Argment再標記:他們的位置是相對的p28
3.主要問題:關聯詞識別錯誤P31、句子邊界識別錯誤P33、