NLP復習資料(5)-第九章 句法分析

NLP復習資料-第九章

  • 1.短語結構分析
  • 2.短語結構分析方法的評估指標
  • 3依存句法分析器設計P13
  • 4依存句法分析器性能評價
  • 5短語結構與依存結構能夠相互轉換
  • 6漢英句法結構對比
  • 7漢語長句的層次化句法分析

國科大,宗老師《自然語言處理》課程復習筆記,個人整理,僅供參考。

1.短語結構分析

(1)基于CFG規則的分析:沒法解決歧義問題。

(2)基于PCFG的分析:能夠解決歧義問題,但是概率計算條件過于苛刻)

(1.1)基于CFG規則的兩種方法:線圖分析法、CYK方法

線圖分析法: P20例子掌握了就差不多了。詞性序列作為線圖的邊,依據規則不斷構成新的弧,弧的標記為規則的左邊,弧連接的詞性串為規則的右邊。最后將弧轉換成節點,節點轉換成邊,就能得到句法分析樹。P30(時間復雜度為Kn3Kn^3Kn3

CYK方法: P49的例子,(識別矩陣上的操作)識別矩陣的主對角線上是詞語,次對角線上是對應的詞性標注,再次對角線上是依據規則約規的規則左端標記,直至,最有上角的位置標記為S,由識別矩陣就可以構造句法分析樹。

(1.2)基于PCFG的分析:概率上下文無關文法

在上下文無關文法的基礎上,每一條文法都有一定的出現概率,那么利用這些規則轉換而成的句法分析樹每個節點周圍都會帶有概率標記,通過概率規則,計算整棵樹的概率(實際上是所有概率連乘),概率最大的樹為最有可能的分析樹。由于最大概率的挑選準則,使得PCFG可以克服歧義問題,但是概率模型太依靠于語料庫。P64句法分析樹概率計算

PCFG的三個問題(和HMM模型有的一拼)P73:
->快速計算P(W|G):內向算法:遞歸的算法(不會考算法吧)
->選擇最佳句法結構樹:viterbi算法:viterbi變量對應的最大概率,
->調整G使得P(W|G)最大:巴拉巴拉,我覺的不用記吧

基于PCFG的語法分析實例:
在CYK的基礎上多了每個小格子多了概率標記,最后可以計算句法分析樹的概率P103

2.短語結構分析方法的評估指標

P125精度、召回率、f-measure、P127交叉括號數(最好記一下)

P132 頁的交叉括號數為0,交叉括號的的準確率為100% (不甚理解

3依存句法分析器設計P13

2.1依存句法結構描述—有向圖、依存樹

2.2 分析算法:
生成式分析方法:score(x,y|參數)找打打分最高的結果作為分析結果
判別式分析方法:最大生成樹模型,加權和分值最高的邊的組合
決策式分析方法:移進-約歸算法,arc-eager算法:左弧、右弧、移動、約歸、P33實現一個句法分析器:在每個狀態下依據特征決定下一步該采取的行動。通過標記數據集合得到特征集合,構造動作分析器,就是記錄一系列上下文轉換情況,在應用時,查找轉換規則即可。

4依存句法分析器性能評價

無標記正確率(支配關系寫對就行,分母是輸出句子的分詞數目)

帶標記正確率(支配關系和支配類型都得對,分母是輸出句子的分詞數目)

依存正確率(不帶根節點的正確率,分母是輸出句子的分詞數目-根的數目)

根正確率(正確根數/句子數)

完全匹配率(正確根的句子/總句子)

5短語結構與依存結構能夠相互轉換

短語->依存P52(中心詞抽取規則,產生中心此表-)每個節點中心詞抽取->非中心節點依存到中心節點上)

6漢英句法結構對比

P59至少記住兩個吧

漢語功能詞少;
漢語右部為中心,英語左部為中心;
漢語中省略主語的請款經常存在(他認為()是正確的)

7漢語長句的層次化句法分析

(p66分割句子-子句句法分析-分析子句之間的關系-最終得到整個句子的最大概率分析樹)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/445154.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/445154.shtml
英文地址,請注明出處:http://en.pswp.cn/news/445154.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

神經網絡中的優化算法總結

在調整模型更新權重和偏差參數的方式時,你是否考慮過哪種優化算法能使模型產生更好且更快的效果?應該用梯度下降,隨機梯度下降,還是Adam方法? 這篇文章介紹了不同優化算法之間的主要區別,以及如何選擇最佳的…

OS --written test1

241.在提供虛擬存儲的系統中,用戶的邏輯地址空間主要受( )的限制。A.內存空閑塊的大小 B.外存的大小 C.計算機編址范圍 D.頁表大小答案:C242.在分時系統中,時間片一定,( …

Java開發需要知道的HTML知識

概述 HTML(HyperText Markup Language) 不是一門編程語言,而是一種用來告知瀏覽器如何組織頁面的標記語言。 HTML 可復雜、可簡單,一切取決于開發者。它由一系列的元素組成,這些元素可以用來包圍不同部分的內容,使其以某種方式呈…

OS-written test2

操作系統各大公司筆試題匯總 1、在段頁式存儲管理中,其虛擬地址空間是() A、一維 B、二維 C、三維 D、層次 答案:B 2、采用( )不會產…

Ubuntu18.04上安裝RTX 2080Ti顯卡驅動

文章目錄1.安裝Linux系統1.1下載Linux鏡像文件1.2 制作系統盤1.3 安裝Linux系統1.4 配置linux系統2.安裝英偉達顯卡驅動2.1 預備工作2.2 安裝顯卡驅動3.安裝cuda4.安裝cudnn1.安裝Linux系統 1.1下載Linux鏡像文件 根據電腦配置和自己的愛好,選擇合適的Linux鏡像文…

OS

操作系統筆試題及答案一 1.在下列系統中,( )是實時系統。 A.計算機激光照排系統 B.航空定票系統 C.辦公自動化系統 D.計算機輔助設計系統 答案:B 2.操作系統是一種( )。 A.應用軟件 B.系統軟件 C&#xff…

NLP復習資料(6)-第十章 語義分析

NLP復習資料-第十章1語義理論簡介2格語法4語義網絡5詞義消歧5語義角色標注6詞向量表示7篇章分析國科大,宗老師《自然語言處理》課程復習筆記,個人整理,僅供參考。語義分析:P3解釋句子或篇章的含義,主要困難&#xff08…

處理機調度與死鎖

處理機調度與死鎖 處理機調度的層次 高級調度 高級調度又稱為作業調度或長程調度,其主要功能是根據某種算法,把外存上處于后備隊列中的那些作業調入內存,也就是說,它的調度對象是作業。 1.作業和作業步 作業:一個比程…

各種卷積

從最開始的卷積層,發展至今,卷積已不再是當初的卷積,而是一個研究方向。在反卷積這篇博客中,介紹了一些常見的卷積的關系,本篇博客就是要梳理這些有趣的卷積結構。 閱讀本篇博客之前,建議將這篇博客結合在一…

springboot——kaptcha

導入包&#xff1a; <dependency><groupId>com.github.penggle</groupId><artifactId>kaptcha</artifactId><version>2.3.2</version></dependency> 配置類&#xff1a; package com.now.community.community.config;import…

NLP復習資料(7)-機器翻譯、文本分類、情感分析

NLP復習資料國科大&#xff0c;宗老師《自然語言處理》課程復習筆記&#xff0c;個人整理&#xff0c;僅供參考。此部分為手稿&#xff0c;高清圖下載見鏈接&#xff1a;https://download.csdn.net/download/sinat_40624829/11662412

XMl文件解析讀取

DOM方式&#xff1a; http://www.w3schools.com/dom/dom_parser.asp

redis——對項目的一些優化方案

這是我們之前項目的業務流程&#xff0c;做一下簡單介紹。 登錄&#xff1a; 用戶輸入賬號、密碼、驗證碼。我們先判斷用戶輸入的驗證碼是不是我們session存的驗證碼&#xff0c;然后去查賬號密碼是否正確。 如果登錄成功&#xff0c;發送給用戶一張憑證&#xff08;ticket&a…

const的思考

const的思考 1、什么是const?常類型是指使用類型修飾符const說明的類型&#xff0c;常類型的變量或對象的值是不能被更新的。&#xff08;當然&#xff0c;我們可以偷梁換柱進行更新&#xff1a;&#xff09;2、為什么引入const&#xff1f;const 推出的初始目的&#xff0c;正…

深度模型壓縮論文(02)- BlockSwap: Fisher-guided Block Substitution for Network Compression

文章目錄1.摘要和背景1.1 摘要1.2 背景2.方法和貢獻2.1 方法2.2 貢獻3.實驗和結果3.1 實驗3.2 結果4.總結和展望4.1 總結4.2 展望本系列是在閱讀深度神經網絡模型小型化方面論文時的筆記&#xff01;內容大部分從論文中摘取&#xff0c;也會有部分自己理解&#xff0c;有錯誤的…

NLP復習資料(8)-知識圖譜、信息抽取

NLP復習資料第16講—知識圖譜第17講-信息抽取&#xff08;知識圖譜生命周期中信息獲取的關鍵技術&#xff09;國科大&#xff0c;宗老師《自然語言處理》課程復習筆記&#xff0c;個人整理&#xff0c;僅供參考。第16講—知識圖譜 知識圖譜經典知識表示理論語義網資源描述框架…

Collection源碼閱讀

package java.util;import java.util.function.Predicate; import java.util.stream.Stream; import java.util.stream.StreamSupport;/*** 集合層次結構的根接口&#xff0c;一個集合表示一組對象&#xff0c;稱為元素* JDK不提供任何該接口的直接實現&#xff0c;JDK提供實現…

socket阻塞和非阻塞的區別

讀操作 對于阻塞的socket,當socket的接收緩沖區中沒有數據時,read調用會一直阻塞住,直到有數據到來才返 回。當socket緩沖區中的數據量小于期望讀取的數據量時,返回實際讀取的字節數。當sockt的接收緩沖 區中的數據大于期望讀取的字節數時,讀取期望讀取的字節數,返回實際讀…

深度模型壓縮論文(01)- Meta Filter Pruning to Accelerate Deep Convolutional Neural Networks

文章目錄1.摘要和介紹1.1摘要部分2.背景和方法2.1 背景2.2 貢獻2.3 方法3.實驗和結果3.1 實驗3.2 結果4.總結和展望4.1 總結4.2 展望本系列是在閱讀深度神經網絡模型小型化方面論文時的筆記&#xff01;內容大部分從論文中摘取&#xff0c;也會有部分自己理解&#xff0c;有錯誤…

架構分享--微博架構

先來分享下大神Tim Yang的關于微博的架構設計&#xff1a; 這里主要從 存儲和接口角度來講 對于大流量系統的架構設計&#xff0c;對于寫入方面是特別需要注意的&#xff0c;基本上現在遇到的系統都是對于主數據庫的寫入&#xff0c;然后對于從數據庫實現流量的分發。 對于存…