nlp-詞匯分析

目錄

一、語言中的詞匯

1、詞的形態學

2、詞的詞性

二、詞語規范化

1、詞語切分

2、詞形還原

3、詞干提取

三、中文分詞

1、概述

2、基于最大匹配的中文分詞

3、基于線性鏈條件隨機場的中文分詞

4、基于感知器的中文分詞

詞序列預測

模型參數學習

特征定義

5、基于雙向長短期記憶網絡的中文分詞

6、中文分詞評價方法

7、中文分詞語料庫

四、詞性標注

1、基于規則的詞性標注

2、基于隱馬爾可夫模型的詞性標注

3、基于卷積神經網絡的詞性標注

4、詞性標注評價方法

5、詞性標注語料庫?


????????自然語言處理算法中詞通常也是基本單元,詞的處理也是自然語言處理中重要的底層任務,是句法分析、文本分類、語言型等任務的基礎。

一、語言中的詞匯

?????????詞(word)是形式和意義相結合的單位,也是語言中能夠獨立運用的最小單位掌握一個詞匯意味著知道其讀音和語義。

1、詞的形態學

·? ? ? ?詞的形式具有服從于某種規則的內在結構。研究單詞的內部結構和其構成方式的學科稱為形態學(Morphology),又稱構詞學。

2、詞的詞性

二、詞語規范化

????????詞語規范化(Word Normalization)任務是將單詞或詞形轉化為標準形式,針對有多種形式的單詞使用一種單一的形式進行表示。

????????詞語切分是前提,為詞形還原和詞干提取提供處理對象;詞形還原和詞干提取則是詞語規范化的核心手段,目的都是將同一單詞的不同形式統一為更簡潔的表示

1、詞語切分

????????將連續的文本序列按照一定規則分割成有意義的詞語單元。例如:中文句子 “我愛自然語言處理” 經切分后為 “我 / 愛 / 自然 / 語言 / 處理”

????????word 是語言自然存在的表意單位,而 token 是為了計算需求對文本進行切分后的最小單元。token 可以是一個完整的 word,也可以是 word 的一部分(如子詞、字符序列)

2、詞形還原

????????將單詞的各種變形形式(如時態、語態、單復數、詞性變化等)還原為其基本形式(即 “詞根” 或 “原型”),且還原后的形式需是語言中實際存在的合法單詞。

  • 動詞 “running”“ran” 還原為原型 “run”;
  • 名詞 “mice” 還原為原型 “mouse”;
  • 形容詞 “better” 還原為原型 “good”。

3、詞干提取

????????指通過去除單詞的詞綴(如前綴、后綴)等方式,提取出單詞的核心部分(即 “詞干”),但詞干可能并非語言中實際存在的完整單詞。最簡單的詞干提取算法可以通過查詢詞表的方法獲得
另外一種方法是后綴剝離(Suffix-stripping),通過定義一組規則,將特定的后綴從詞形中刪除

  • “running”“runner” 去除后綴 “-ing”“-er” 后,詞干為 “run”;
  • “happiness” 去除后綴 “-ness” 后,詞干為 “happi”(非完整單詞

三、中文分詞

1、概述

????????中文分詞(Chinese Word Segmentation,CWS)是指將連續字序列轉換為對應的詞序列的過程,也可以看做在輸入的序列中添加空格或其他邊界標記的過程。

? ?主要困難來自以下三個方面:分詞規范、歧義切分和未登錄詞【生詞】識別。

2、基于最大匹配的中文分詞

????????最大匹配(Maximum Matching)分詞算法,核心思想是 “從詞典中找出最長的詞來匹配當前文本片段”,通過貪心策略確定詞邊界。主要包含前向最大匹配、后向最大匹配以及雙向最大匹配等三類。

3、基于線性鏈條件隨機場的中文分詞

  • 先給每個字貼標簽,再按標簽切分

????????將分詞過程轉換為對字的分類問題,對于輸入句子中的每一個字c;,根據它在分詞結果中的位置賦予不同的標簽。

怎么讓機器準確地給每個字貼 B/I/E/S 標簽?線性鏈條件隨機場(CRF)就是干這個的 “聰明工具”。給每個字貼標簽時,不會只看單個字,而是會看這個字本身的特點、看上下文的關系、遵守標簽之間的 “規矩”

  • 如何學習的呢?
  1. 用 BIES 標簽將分詞轉化為序列標注;
  2. 設計轉移特征(約束標簽合法性)和狀態特征(捕捉漢字與標簽的關聯);
  3. 通過訓練學習特征權重,使模型符合語言規律;
  4. 用 Viterbi 算法快速找到最優標簽序列,實現分詞。

4、基于感知器的中文分詞


  • 詞序列預測

  • 模型參數學習

  • 特征定義

5、基于雙向長短期記憶網絡的中文分詞

????????核心是利用神經網絡自動學習漢字的上下文特征,將分詞轉化為序列標注任務

????????BiLSTM 是 LSTM(長短期記憶網絡)的雙向擴展,能同時捕捉文本的 “左→右” 和 “右→左” 上下文信息

6、中文分詞評價方法

????????中文分詞的評價核心是衡量 “系統切分結果” 與 “人工標注的標準答案(gold standard)” 的一致性,常用指標包括準確率、召回率、F1 值,輔以其他輔助指標。

7、中文分詞語料庫

分詞語料庫是人工標注了正確詞邊界的中文文本集合,是訓練和評價分詞模型的基礎.

公開語料庫:PKU、MSR 等可通過學術平臺(如 LDC、SIGHAN 官網)免費獲取

四、詞性標注

????????詞性是詞語的基本屬性,根據其在句子中所扮演的語法角色以及與周圍詞的關系進
行分類
。詞性標注(Part-of-speech Tagging,POs Tagging)是指在給定的語境中確定句子中各詞的詞性。

????????詞性標注的主要難點在于歧義性,即一個詞可能在不同的上下文中具有不同的詞性。也沒有一個被廣泛認可的統一詞性劃分標準。

1、基于規則的詞性標注

利用詞典和搭配規則針對詞語和上下文進行分析,從而得到句子中每個詞語詞性。

例如:補丁規則“NN VB? ?PREV-TAG TO”表示,如果一個單詞被標注為了NN(名詞并且它前面的單詞標注為了TO(不定式“to”),那么將這個單詞的詞性轉換為VB(動詞)

2、基于隱馬爾可夫模型的詞性標注

3、基于卷積神經網絡的詞性標注

?輸入層:詞嵌入(Word Embedding)

卷積層:提取局部上下文特征?

池化層:聚合局部特征?

全連接層與輸出層:預測詞性標簽

4、詞性標注評價方法

5、詞性標注語料庫

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/92038.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/92038.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/92038.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Kafka ISR機制和Raft區別:副本數優化的秘密

Kafka的ISR機制和像Raft這樣的傳統基于Quorum(法定人數)的協議之間的區別確實很微妙,但也非常重要。讓我們來分析一下為什么ISR可以減少所需的副本數量。在采用ISR模型和(f1)個副本數的配置下,一個Kafka分區…

新手向:GitCode疑難問題診療

Git疑難問題診療引言在軟件開發過程中,版本控制系統(VCS)是不可或缺的工具,而Git以其分布式架構、強大的分支管理能力和高效的性能成為行業標準。然而,隨著項目復雜度的提升,Git的使用也可能遇到各種疑難問…

電子電氣架構 ---如何煥新升級為 48V 電氣架構

我是穿拖鞋的漢子,魔都中堅持長期主義的汽車電子工程師。 老規矩,分享一段喜歡的文字,避免自己成為高知識低文化的工程師: 做到欲望極簡,了解自己的真實欲望,不受外在潮流的影響,不盲從,不跟風。把自己的精力全部用在自己。一是去掉多余,凡事找規律,基礎是誠信;二是…

JavaScript判斷數字方法

在JavaScript中,判斷一個值是否為數字有多種場景,以下是常見方法及適用情況:1. 嚴格判斷數字類型(排除NaN)使用 typeof 結合 !isNaN(),確保值是 number 類型且非 NaN:javascriptfunction isNumb…

C++編程之旅-- -- --始探門庭的求知漫溯(二)

目錄引用內聯函數(C11)auto關鍵字基于范圍的for循環指針空值---nullptr引用 引用:指將變量以另一個名稱來展現的。它并非是一個新變量而是一個別名,它們同指一塊內存空間。就如古時那些有字的人,亦或者是周樹人,你說魯迅是不是周樹人呢&…

wordpress網站的“管理員郵箱地址”有什么用?

在WordPress網站的“設置”-“常規”中設置的“管理員郵箱地址”有多種用途,以下是詳細介紹: 一、用戶注冊相關 密碼找回功能 當網站用戶忘記密碼時,他們會通過點擊登錄頁面上的“忘記密碼”鏈接來重置密碼。WordPress系統會向管理員郵箱地…

202506 電子學會青少年等級考試機器人六級實際操作真題

更多內容和歷年真題請查看網站:【試卷中心 -----> 電子學會 ----> 機器人技術 ----> 六級】 網站鏈接 青少年軟件編程歷年真題模擬題實時更新 202506 青少年等級考試機器人實操真題六級 一、實際操作 1. 主題:姿態傳感器交互步進電機左右…

Centos 安裝 redis

1.下載redis,這個自己去網上找吧。2.上傳文件,redis-7.4.1.tar.gz3.解壓:執行 tar -xf redis-7.4.1.tar.gz在進行安裝之前,檢查一下有沒有make、gcc、python3、沒有的話全部 yum install。安裝完之后,如果報一下錯誤&a…

算法訓練營DAY55 第十一章:圖論part05

并查集理論基礎 背景 當我們需要判斷兩個元素是否在同一個集合里的時候,我們就要想到用并查集。 并查集主要有兩個功能: 將兩個元素添加到一個集合中。判斷兩個元素在不在同一個集合 原理講解 從代碼層面,我們如何將兩個元素添加到同一個…

docker相關操作記錄

1.docker清理服務器上面沒有用到的鏡像#刪除本地鏡像 docker rmi $(docker images -q) #強制刪除本地鏡像 docker rmi $(docker images -q) -f2.docker查看日志docker logs c36c56e4cfa3 (容器id)3.所有運行或沒有運行的鏡像 docker ps -a4、停止container,這樣才…

LInux基礎學習筆記七

/dev/zero和/dev/null 是什么/dev/zero:一個零設備文件,讀取時會不斷返回\0字節(零值字節),常用于創建空文件或格式化/dev/null:一個空設備文件,寫入它的內容會被丟棄,相當于“黑洞”…

軟件架構:系統結構的頂層設計與戰略約束

軟件架構:系統結構的頂層設計與戰略約束軟件架構是軟件系統的“骨架”與“憲法”,它定義了系統的根本性組織結構,包括構成系統的關鍵構件、它們之間的組織關系、交互機制、約束原則以及指導性決策。它決定了系統在性能、可擴展性、可靠性、可…

基于spring boot的個人博客系統

2 開發技術 3 2.1 VUE框架 3 2.2 Mysql數據庫 3 2.3 Spring Boot框架 3 2.4 layui介紹 4 本程序在設計結構選擇上首選B/S,也是為了滿足程序今后升級便利,以及程序低維護成本的要求。本程序的網絡拓撲設計也會在下圖展示,通過圖形的方式來描述…

Excel制作尖刀圖,直觀展示業績漲跌

Excel制作尖刀圖,直觀展示業績漲跌效果展示下圖是一個常見的兩年業績同比表,也是尖刀圖很常見的數據源類型,但是這個數據格式是無法直接制作的,需要對數據進行加工。1.對數據進行逆透視使用excel進行逆透視,最常見的方…

兩種路由模式(React-Router 8)

倆種路由模式 各個主流框架的路由常用的路由模式有倆種,history模式和hash模式,ReactRouter分別由createBrowerRouter和createHashRouter函數負責創建附帶代碼:import Login from "../page/Login"; import Article from "../page/Article"; imp…

【01】OpenCV C++實戰篇——基于多項式插值的亞像素邊緣定位算法

文章目錄一. 背景二. 你的經歷三. 代碼實現(龜速版——單線程)3.1 梯度幅值3.1.1 生成 8 個方向模板3.1.2 計算梯度3.1.3 顯示梯度圖像3.1.4 程序運行演示3.2 梯度方向 (梯度最大幅度值和方向)3.3 單像素邊緣3.4 梯度單像素邊緣提取 運行測試四 、亞像素…

400V降24V,200mA,應用領域:從生活到工業的 “全能電源管家”WD5208

WD5208 電源芯片:小身材蘊藏大能量的電源控制新星在電源芯片的技術星河中,WD5208 憑借獨特性能與廣泛適用性嶄露頭角,成為眾多電子設備電源方案的優選。本文將全面解析這款芯片的核心優勢、應用場景與技術細節,展現其 “小身材&am…

C++ 引用 和 指針 的區別

特性引用指針初始化不能為 null,必須綁定到有效的對象可以為 null,不指向任何對象重新綁定不能重新綁定,一旦初始化后始終引用同一個對象可以重新指向其他對象內存占用不占用額外內存,編譯器通常將其優化為所引用的對象占用額外內…

Claude Code實戰體驗:AI智能編程助手如何重塑開發工作流?

一、背景介紹 AI大模型的爆發,讓各種智能編碼工具如雨后春筍般涌現。Claude Code就是其中非常有代表性的一款——它不僅能補全代碼、查找Bug,還能理解復雜需求,甚至幫你寫文檔、生成測試用例。作為一名全棧開發者,我和團隊最近幾個…

centos7 個人網站搭建之gitlab私有化部署實現線上發布

文章目錄 效果展示架構設計申請免費阿里云服務器嘗試連接遠程服務 開放端口申請域名 綁定云服務器組網網關服務器配置轉發代理網關服務器配置ssl 證書問題排查證書申請時報錯:Set the \server_name\ directive ti use the Nginx installer. gitlab私有化部署搭建git…