NLP復習資料
- 第16講—知識圖譜
- 第17講-信息抽取(知識圖譜生命周期中信息獲取的關鍵技術)
國科大,宗老師《自然語言處理》課程復習筆記,個人整理,僅供參考。
第16講—知識圖譜
- 知識圖譜=經典知識表示理論+語義網資源描述框架
- 經典知識表示理論:一階謂詞邏輯,語義網絡(有向圖描述知識系統),框架(框架名,槽,側面,和值),腳本(與框架類似,由槽組成,用于描述過程)
- 語義網是一組描述規范:XML,RDF(用web標示符URI來表示事物),RDF schema(提供了一套建模原語,有利于組織RDF),owl(RDF的擴展)
- 狹義知識圖譜:具有圖結構的三元組知識庫
- 知識圖譜建立的生命周期:
(1) 知識建模:建立一個本體對目標進行描述,本體可以理解為知識框架
1.1人工構建知識體系:羅列要素、確定分類體系、定義屬性和關系、定義約束
1.2體系復用:利用已有的知識框架進行改造,經典復用體系:DPpedia,freebase
1.3從半結構化的數據中抽取本體:信息塊定位,抽取模板學習,屬性名、值抽取,屬性名與類別
(2)知識獲取:從海量文本中抽取知識,獲取信息,NELL知識獲取的一個項目
(3)知識融合:不同語言,來源,結構的知識進行融合,補充更新去重已有的知識圖譜
3.1難點:實體、結構、多語言差異
3.2關鍵技術:本體匹配,實體對齊
(4)知識存儲和查詢
4.1數據模型:RDF圖模型(三元組),屬性圖模型(五元組)
4.3數據存儲:表結構存儲(MySQL,兩個圖模型都可以用表來存儲),圖結構存儲(Neo4j)
4.3數據查詢,聲明式(RDF圖查詢:SPARQL,屬性圖查詢:Cypher),過程式
(5)知識推理:
5.1邏輯規則推理:符號推理
5.2表示學習推理:數值推理,向量矩陣計算
(6)知識應用:語義搜索,推薦系統,關系搜索,智能問答
6.深度學習,做有智慧的AI,知識圖譜,做有知識的AI
第17講-信息抽取(知識圖譜生命周期中信息獲取的關鍵技術)
- p6從文本中抽取信息,形成結構化數據輸出的技術,下文圍繞信息抽取的四大主要任務展開。
- 實體識別與抽取:(7類命名實體P13)
2.1實體識別的兩個子任務:邊界識別和實體類別
2.1主要方法:CRF實體識別轉換成序列標注問題,p17
LSTM+CRF序列標注問題,與純種CRF的區別:采用LSTM提取的次序列特征,而不是采用人工設計的特征。 - 實體消歧:將實體指稱項對應到多個真實世界實體中。兩個方法:聚類和鏈接P27
3.1聚類:指向同一個實體的指稱項聚為一類。詞袋模型 建模 指稱項特征,計算特征向量之間的相似度進行聚類。P29
3.2P40實體鏈接:給定文本找中的實體鏈接到知識庫中對應的實體上。兩個步驟實現:知識庫中候選實體發現(網頁超鏈接獲取P43)+候選實體鏈接(相似度最高的連在一起p45;協同實體鏈接,多個詞放在一起更有更有可能是指向某一個實體P48)
4.實體關系抽取:兩種任務
4.1關系分類:p65已知兩個實體,判斷實體之間的關系->分類問題,基于CNN的關系分類方法P71(卷積神經網絡抽取句子特征,計算特征,進行分類)
4.2實體關系聯合抽取p78:給句子,識別實體以及實體之間的關系->序列標注問題(依據目標設定不同的序列,就能解決不同的問題)
4.3遠程監督的關系抽取(遠程監督就是沒有認人為標定數據利用知識庫對文本自動進行回標來獲取標簽數據)主要講如何獲取遠程標注數據集合。介紹其中的:多示例單標簽問題,p95利用分段卷積神經網絡確定包的關系標簽。
5.事件抽取:p107要抽取事件以及和事件相關的信息(如觸發詞,事件元素)P116算法和流程步驟,
幾個事件關系:同指、因果、時序、上下位關系。