開源自然語言處理工具包hanlp中CRF分詞實現詳解

開源自然語言處理工具包hanlp中CRF分詞實現詳解

news/2025/7/28 2:21:47/文章來源:https://blog.csdn.net/weixin_33730836/article/details/89549001

?CRF簡介

CRF是序列標注場景中常用的模型，比HMM能利用更多的特征，比MEMM更能抵抗標記偏置的問題。

[gerative-discriminative.png]?

CRF訓練

這類耗時的任務，還是交給了用C++實現的CRF++。關于CRF++輸出的CRF模型，請參考《CRF++模型格式說明》。?

CRF解碼

解碼采用維特比算法實現。并且稍有改進，用中文偽碼與白話描述如下：

首先任何字的標簽不僅取決于它自己的參數，還取決于前一個字的標簽。但是第一個字前面并沒有字，何來標簽？所以第一個字的處理稍有不同，假設第0個字的標簽為X，遍歷X計算第一個字的標簽，取分數最大的那一個。

如何計算一個字的某個標簽的分數呢？某個字根據CRF模型提供的模板生成了一系列特征函數，這些函數的輸出值乘以該函數的權值最后求和得出了一個分數。該分數只是“點函數”的得分，還需加上“邊函數”的得分。邊函數在本分詞模型中簡化為f(s’,s)，其中s’為前一個字的標簽，s為當前字的標簽。于是該邊函數就可以用一個4*4的矩陣描述，相當于HMM中的轉移概率。

實現了評分函數后，從第二字開始即可運用維特比后向解碼，為所有字打上BEMS標簽。?

實例

還是取經典的“商品和服務”為例，首先HanLP的CRFSegment分詞器將其拆分為一張表：

?

? 1088cd91b908bd246812442ce245e201dc94410b

null表示分詞器還沒有對該字標注。

代碼

上面說了這么多，其實我的實現非常簡練：

93ad379f5b89a281995ea97833a9b70ab698af0b ?

9709491694b9b15cf705b5502f5dd89339919e40 ?

2034a6a2fff22c293e50617d42bfba8cacb39d32 ?

標注結果

標注后將table打印出來：

1889d10113a2ad6c50452b640ee79addd7a87f17 ?

最終處理

?

將BEMS該合并的合并，得到：

[商品/null, 和/null, 服務/null]

然后將詞語送到詞典中查詢一下，沒查到的暫時當作nx，并記下位置（因為這是個新詞，為了表示它的特殊性，最后詞性設為null），再次使用維特比標注詞性：

[商品/n, 和/cc, 服務/vn]

新詞識別

?

CRF對新詞有很好的識別能力，比如：

CRFSegment segment = new CRFSegment();

segment.enablePartOfSpeechTagging(true);

System.out.println(segment.seg("你看過穆赫蘭道嗎"));

輸出：

?

CRF標注結果

你 ??S ??

看 ??S ??

過 ??S ??

穆 ??B ??

赫 ??M ??

蘭 ??M ??

道 ??E ??

嗎 ??S ??

[你/rr, 看/v, 過/uguo, 穆赫蘭道/null, 嗎/y]

?

null表示新詞。

?

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/275742.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/275742.shtml
英文地址，請注明出處：http://en.pswp.cn/news/275742.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

java 素數歐拉篩選_[C++]歐拉素數篩的理解與實現

java 素數歐拉篩選_[C++]歐拉素數篩的理解與實現

在傳統的素數篩法中，我們使用了對于每一個數n，在 1~(√n) 范圍內進行取模檢查，這樣逐一判斷的復雜度為n(√n)。但如果我們需要更快的篩法時怎么辦？于是著名的歐拉篩誕生了。它能將復雜度降為**O(n)**級別。1.關鍵理解：…

閱讀更多...

交互規則_您必須永不中斷的10條交互設計規則

交互規則_您必須永不中斷的10條交互設計規則

交互規則重點 (Top highlight)In life, there are certain rules you must never break. If you do there will be hell to pay. In User Interface design there are also rules to live by. They are called “heuristics” or general principles that improve usability in…

閱讀更多...

一個幫助我100%拿offer的面試學習法

一個幫助我100%拿offer的面試學習法

大家好，我是若川。今天周日，再分享一篇相對輕松的文章。文中說的面試學習法有一定的借鑒意義。另外我也推薦大家每隔一段時間不為跳槽的更新自己簡歷，也是對自己一階段的梳理總結，畢竟功在平時。哈嘍大家好，我是大圣&a…

閱讀更多...

2010年終總結

2010年終總結

還有兩天2010就要結束了，寫下自己的年終總結吧，以總結自己，展望明年。2010對我來說是怎樣的一年呢？忙碌的一年，鴨梨更大的一年，折騰的一年，復雜的一年，夢游的一年，痛并快…

閱讀更多...

java獲取apk啟動activity_兼容 Android 10 啟動 APK 實現方案

java獲取apk啟動activity_兼容 Android 10 啟動 APK 實現方案

背景我們想啟動 APK 程序，有很多種方法，可以使用 Intent，也可以使用 adb shell 命令來啟動，還有通過反射來啟動 APk 程序。我們這里主要討論通過反射的方式來啟動 apk 程序。Android10 之前，我們通過反射來啟動 APK&am…

閱讀更多...

Android Studio中解決jar包重復依賴導致的代碼編譯錯誤

Android Studio中解決jar包重復依賴導致的代碼編譯錯誤

在原本的代碼中已經使用了OKHTTP和rxjava，然后今天依賴retrofit的時候一直報錯 Program type already present: okhttp3.internal.ws.RealWebSocket$1.class 說是我重復添加了OKHTTP的包，但其實我直接把OKHTTP的依賴注釋掉都沒用，只要依賴ret…

閱讀更多...

面試被問項目經驗不用慌，按這個步驟回答絕對驚艷

面試被問項目經驗不用慌，按這個步驟回答絕對驚艷

大家好，我是若川。常有小伙伴問，面試時項目經驗怎么回答，經常會分享這篇文章給TA。本文經授權轉載。面試、學習源碼系列、年度總結、JS基礎系列前言本篇文章的作者是來自阿里淘系用戶增長前端團隊的“亦遜”，18年作為雙非本科生通…

閱讀更多...

使用概念模型和心智模型的_為什么要使用模型？

使用概念模型和心智模型的_為什么要使用模型？

使用概念模型和心智模型的In a former life, I studied critical feminist theory. This included the field of Semiotics — the study of signs and the production of meaning, as well as Deconstruction —the unpacking of meaning to question assumptions.在過去的生…

閱讀更多...

長效密鑰與臨時密鑰JAVA判斷_MSBuild無法使用臨時密鑰簽署ClickOnce清單（錯誤MSB3326和MSB3321）...

長效密鑰與臨時密鑰JAVA判斷_MSBuild無法使用臨時密鑰簽署ClickOnce清單（錯誤MSB3326和MSB3321）...

我正在嘗試在Windows Server計算機上構建ClickOnce Windows Forms項目(.NET 3.5 / Visual Studio 2010) . (為了使用Hudson CI自動化構建過程 . )為了對ClickOnce清單進行簽名，我在Visual Studio中創建了一個臨時密鑰 temp.pfx . 我可以在我的工作站上從Visual Stud…

閱讀更多...

URL some

URL some

** 路由系統:URL配置(URLconf)就像Django所支撐網站的目錄. 本質是URL與該URL要調用的函數的映射表基本格式 : from django.conf.urls import url urlpatterns [url(正則表達式,views視圖,參數,別名) ] 參數 -- 傳給函數視圖的默認參數 (字典形式) 別名 -- 一個可選的name參…

閱讀更多...

什么？在 VSCode 里也能用 Postman了？

什么？在 VSCode 里也能用 Postman了？

大家好，我是若川。VSCode中有很多好用的插件，今天推薦 Postcode。面試、學習源碼系列、年度總結、JS基礎系列以前一直在用postman做API測試，如果你同時在使用vscode開發時，每次切出去可能比較煩，其實就是太懶了。。。作…

閱讀更多...

根據窗口名稱查找關鍵字彈性域用到的表，列等信息

根據窗口名稱查找關鍵字彈性域用到的表，列等信息

/*根據窗口名稱查找關鍵字彈性域用到的表，列等信息*/--selectc.id_flex_name, a.id_flex_structure_name, b.form_left_prompt, c.application_table_name, b.application_column_name, b.flex_value_set_id fromfnd_id_flex_struct…

閱讀更多...

英語動畫教學字母_字母形式在閱讀教學中的作用

英語動畫教學字母_字母形式在閱讀教學中的作用

英語動畫教學字母Note: this essay may also be found on Design Observer.注意：這篇文章也可以在 Design Observer 上找到。 My first-grade reading tutor gave the best stickers. Puffy, smelly, sparkly — she even had a few that were fuzzy. At that …

閱讀更多...

java中自定義表單和流程_讓馳騁工作流程引擎 ccbpm使用自定義表單來實現自己的業務邏輯....

java中自定義表單和流程_讓馳騁工作流程引擎 ccbpm使用自定義表單來實現自己的業務邏輯....

1.1.1.1: SDK表單概要說明：我們把流程引擎與表單引擎統稱為ccbpm，但是有一些用戶并不想使用表單引擎，而是用自己的表單，僅僅使用流程引擎，這樣的方式就要采用ccbpm的sdk表單開發模式。關于ccbpm的SDK:ccbpm的sdk就是cc…

閱讀更多...

乘風破浪的前端小姐姐，是如何一步步走向成功的？

乘風破浪的前端小姐姐，是如何一步步走向成功的？

大家好，我是若川。名校畢業的被刪大佬也經歷了社會的毒打，但她沒有放棄。面試、學習源碼系列、年度總結、JS基礎系列王貝珊，騰訊高級工程師，騰訊 AlloyTeam 成員，現騰訊文檔網絡層技術負責人。畢業于中山大學。工作 6 …

閱讀更多...

【譯】為什么我更喜歡對象而不是switch語句

【譯】為什么我更喜歡對象而不是switch語句

原文自工程師Enmanuel Durn博客，傳送門最近（或者不是最近，這完全取決于您什么時候閱讀這邊文章），我正在跟我的團隊伙伴討論如何去處理這種需要根據不同的值去處理不同的情況的方法，通常對于這種情況下&…

閱讀更多...

摩托羅拉周二將正式分拆為兩經營實體

摩托羅拉周二將正式分拆為兩經營實體

據華爾街中文網消息稱，摩托羅拉公司周二將正式分拆為兩個經營實體——摩托羅拉移動控股(MMI)和摩托羅拉解決方案公司(MSI)。前者由主要面向消費者的智能手機和機機頂盒業務組成，后者則專注于公共安全無線電和手持掃描儀業務。上述兩家公司的股票均已于…

閱讀更多...

如何創建和諧的色彩系統

如何創建和諧的色彩系統

擁有和諧的色彩系統的好處 (The benefits of having a harmonious color system) Consistent branding express across all platform 在所有平臺上表達一致的品牌 The consistent interface creates a better user experience 一致的界面創建了更好的用戶體驗 More productive …

閱讀更多...

java restful接口測試_詳解SpringBoot restful api的單元測試

java restful接口測試_詳解SpringBoot restful api的單元測試

現在我們來利用Spring Boot來構建一個RestFul API，具體如下：1.添加Springboot測試注解RunWith(SpringRunner.class)SpringBootTestpublic class UserControllerTest {}2.偽造mvc環境// 注入Spring 工廠Autowiredprivate WebApplicationContext wac;//偽造…

閱讀更多...

老姚淺談：怎么學JavaScript？

老姚淺談：怎么學JavaScript？

大家好，我是若川。當初我就是看本文深受啟發，開始看書讀源碼。所以現在聯系了作者老姚授權轉載分享給大家。我按照文中的做法敲完了《JavaScript語言精粹修訂版》，在2017年7月23日寫出了我的第一篇文章《讀書筆記》。看完了《JavaScript面向…

閱讀更多...

最新文章