NLP復習資料(3)-六~七章:馬爾科夫模型與條件隨機場、詞法分析與詞性標注

NLP復習資料

  • 1.第六章 馬爾科夫模型與條件隨機場
  • 2.第七章 詞法分析與詞性標注

國科大,宗老師《自然語言處理》課程復習筆記,個人整理,僅供參考。

1.第六章 馬爾科夫模型與條件隨機場

1.馬爾科夫模型:P6系統每一時刻的狀態只與前一個時刻的狀態相關,狀態轉移獨立于時間

2.隱馬爾科夫模型:P13狀態與觀測的雙重隨機過程

3.HMM的三個問題:(理不理解都行,重要的是后面的應用實例要理解)
給定觀測序列計算相應的概率:前向算法
計算模型的參數:(1)監督學習:有P55(2)無監督學習:期望最大法Baum-welch算法
給定觀測序列計算最有可能的狀態序列:(1)P40近似計算:每個時刻最有可能的狀態組成的序列(2)viterbi算法P46:從第一層開始找到每個節點的最優路徑,直至最后一層,然后回溯

4.HMM應用實例:P67
漢語自動分詞:(觀測:漢語分詞結果。)計算最合適的觀測序列使得其概率最大
詞性標注問題:(觀測:漢語分詞結果,狀態詞性標注序列:)求解最優的狀態。使得觀測序列的概率最大。
觀測序粗切分,切出所有可能的結果。然后漢語分詞的話,依據HMM前向算法計算最大概率的切分P81。詞性標注的話,依據HMMviterbi算法計算最優可能的狀態序列。

5.條件隨機場(一樣不用太理解它講的什么,本來就講的不清楚)掌握由字構詞法:P95每個字構成詞語那么它可能的詞位:開頭、中間、結尾、獨自成詞。漢語分詞問題轉換成字分類問題。P103解碼模型看清楚就差不多了。

2.第七章 詞法分析與詞性標注

1.漢語自動分詞的主要問題:規范性問題P20、歧義切分字段問題P25組合型歧義,交集型歧義、未登入詞識別P26

2.漢語自動分詞的基本原則(記住兩條要吧)P29語義無法切分不能切,詞性無法切分不能切,有明顯分隔符的要切,使用頻率高的詞不能切,過于冗長要切

3.分詞與詞性標注結果評價:(很重要的兩個概念)正確率:正確結果與輸出結果的關系。召回率:正確結果和標準答案的關系。P40

4.自動分詞的基本算法:
4.1最大匹配法:要詞典P48正向:一個字依次向其后擴展至最長可能成詞的,就切開,再往后找最長成詞切分
4.2最少分詞發:要字典P51,有向無環圖構建,找最短路徑
4.3語言模型,n-gram第五章 生成式模型
4.4 HMM,最大概率觀測序列 第六章
4.5由字構詞,分類方法,第六章 判別式模型
4.6 生成式模型與判別式模型相結合:兩種結合方式:
P67(c,t)+語言模型
P71插值的方法

5.未登入詞的識別
人名P81:概率估計、姓名閾值、評價函數、修飾規則
地名:P88建庫,沒說方法
機構名:P90中心語找做左邊界
雙語實體自動識別欲對齊聯合模型P98:英文邊界確定中文,中文邊界消歧英文

6.詞性標注
原則:P113標準性、兼容性、可擴充性
方法:手工編寫規則法p119(依據不同的上下文確定不同的詞性)、P123錯誤驅動的機器學習方法(理念比較重要)、基于HMM詞性標注(找最優的狀態序列使得觀測序列概率最大第六章)、統計和規則形結合(都沒有例子,估計不用記)

7.分詞與詞性標注的技術水平:老師說到現在都沒有解決好這兩個問題。

8.分詞與詞性標注的發展方向:遷移學習P144,消歧方法繼續研究P148

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/445161.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/445161.shtml
英文地址,請注明出處:http://en.pswp.cn/news/445161.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

redis——實戰點贊

點贊功能隨處可見,我們都知道點贊是一個非常高頻的操作,redis就非常適合做這種工作。 實現效果: 分析:三種類型:給帖子點贊,給評論點贊,給回復點贊 我們只實現查看點贊數量的話,只…

network

1.網絡結構 在OSI參考模型中,物理層的作用是透明的傳輸比特流。對等實體在一次交互作用中傳送的信息單位稱為協議數據單元,它包括控制信息和用戶數據兩部分。上下層實體之間的接口稱為服務訪問點(SAP),網絡層的服務訪問點也稱為網絡地址&…

NLP復習資料(4)-第八章 句法分析

NLP復習資料-第八章國科大,宗老師《自然語言處理》課程復習筆記,個人整理,僅供參考。第八章:語法理論(第三章的后續) 1.出發點chomsky的四類文法過于泛化,生成能力太強了,會生成沒有…

大數據學習(10)--流計算

文章目錄目錄1.流計算的概述1.1 什么是流數據?1.2 批量計算和實時計算1.3 流計算的概念1.4 流計算和Hadoop1.5 流計算框架2.流計算的處理流程2.1 流計算處理基本概念2.2 數數據的實時獲取2.3 數據的實時計算2.4 實時查詢任務3.流計算的應用和開源框架Strom3.1 流計算…

network---written test

1、OSI(Open System Interconnect):開放系統互聯,是一個七層的計算機網絡模型,分別為:物理層、數據鏈路層、網絡層、傳輸層、會話層、表示層和應用層。 TCP/IP(Transmission Control Protocol/…

redis——實戰關注

效果: 思路:很好想,把自己的粉絲和自己關注的人都存起來(set即可),做增刪改查。 package com.now.community.community.service;import com.now.community.community.entity.User; import com.now.commun…

NLP復習資料(5)-第九章 句法分析

NLP復習資料-第九章1.短語結構分析2.短語結構分析方法的評估指標3依存句法分析器設計P134依存句法分析器性能評價5短語結構與依存結構能夠相互轉換6漢英句法結構對比7漢語長句的層次化句法分析國科大,宗老師《自然語言處理》課程復習筆記,個人整理&#…

神經網絡中的優化算法總結

在調整模型更新權重和偏差參數的方式時,你是否考慮過哪種優化算法能使模型產生更好且更快的效果?應該用梯度下降,隨機梯度下降,還是Adam方法? 這篇文章介紹了不同優化算法之間的主要區別,以及如何選擇最佳的…

OS --written test1

241.在提供虛擬存儲的系統中,用戶的邏輯地址空間主要受( )的限制。A.內存空閑塊的大小 B.外存的大小 C.計算機編址范圍 D.頁表大小答案:C242.在分時系統中,時間片一定,( …

Java開發需要知道的HTML知識

概述 HTML(HyperText Markup Language) 不是一門編程語言,而是一種用來告知瀏覽器如何組織頁面的標記語言。 HTML 可復雜、可簡單,一切取決于開發者。它由一系列的元素組成,這些元素可以用來包圍不同部分的內容,使其以某種方式呈…

OS-written test2

操作系統各大公司筆試題匯總 1、在段頁式存儲管理中,其虛擬地址空間是() A、一維 B、二維 C、三維 D、層次 答案:B 2、采用( )不會產…

Ubuntu18.04上安裝RTX 2080Ti顯卡驅動

文章目錄1.安裝Linux系統1.1下載Linux鏡像文件1.2 制作系統盤1.3 安裝Linux系統1.4 配置linux系統2.安裝英偉達顯卡驅動2.1 預備工作2.2 安裝顯卡驅動3.安裝cuda4.安裝cudnn1.安裝Linux系統 1.1下載Linux鏡像文件 根據電腦配置和自己的愛好,選擇合適的Linux鏡像文…

OS

操作系統筆試題及答案一 1.在下列系統中,( )是實時系統。 A.計算機激光照排系統 B.航空定票系統 C.辦公自動化系統 D.計算機輔助設計系統 答案:B 2.操作系統是一種( )。 A.應用軟件 B.系統軟件 C&#xff…

NLP復習資料(6)-第十章 語義分析

NLP復習資料-第十章1語義理論簡介2格語法4語義網絡5詞義消歧5語義角色標注6詞向量表示7篇章分析國科大,宗老師《自然語言處理》課程復習筆記,個人整理,僅供參考。語義分析:P3解釋句子或篇章的含義,主要困難&#xff08…

處理機調度與死鎖

處理機調度與死鎖 處理機調度的層次 高級調度 高級調度又稱為作業調度或長程調度,其主要功能是根據某種算法,把外存上處于后備隊列中的那些作業調入內存,也就是說,它的調度對象是作業。 1.作業和作業步 作業:一個比程…

各種卷積

從最開始的卷積層,發展至今,卷積已不再是當初的卷積,而是一個研究方向。在反卷積這篇博客中,介紹了一些常見的卷積的關系,本篇博客就是要梳理這些有趣的卷積結構。 閱讀本篇博客之前,建議將這篇博客結合在一…

springboot——kaptcha

導入包&#xff1a; <dependency><groupId>com.github.penggle</groupId><artifactId>kaptcha</artifactId><version>2.3.2</version></dependency> 配置類&#xff1a; package com.now.community.community.config;import…

NLP復習資料(7)-機器翻譯、文本分類、情感分析

NLP復習資料國科大&#xff0c;宗老師《自然語言處理》課程復習筆記&#xff0c;個人整理&#xff0c;僅供參考。此部分為手稿&#xff0c;高清圖下載見鏈接&#xff1a;https://download.csdn.net/download/sinat_40624829/11662412

XMl文件解析讀取

DOM方式&#xff1a; http://www.w3schools.com/dom/dom_parser.asp

redis——對項目的一些優化方案

這是我們之前項目的業務流程&#xff0c;做一下簡單介紹。 登錄&#xff1a; 用戶輸入賬號、密碼、驗證碼。我們先判斷用戶輸入的驗證碼是不是我們session存的驗證碼&#xff0c;然后去查賬號密碼是否正確。 如果登錄成功&#xff0c;發送給用戶一張憑證&#xff08;ticket&a…