自然語言處理——文本分類

文本分類

  • 傳統機器學習方法
    • 文本表示
      • 向量空間模型
    • 特征選擇
      • 文檔頻率
      • 互信息
      • 信息增益(IG)
    • 分類器設計
      • 貝葉斯理論:
      • 線性判別函數
  • 文本分類性能評估
      • P-R曲線
      • ROC曲線

將文本文檔或句子分類為預定義的類或類別, 有單標簽多類別文本分類和多標簽多類別文本分類。
在這里插入圖片描述

傳統機器學習方法

在這里插入圖片描述

文本表示

計算機進行文本理解,必須知道文本長什么樣,文本的形式化表示是反映文本內容和區分不同文本的有效途徑。

向量空間模型

向量空間模型(vector space model, VSM)由G. Salton 等人于1960s末期在信息檢索領域提出,核心是將文本視為特征項的集合。特征項是VSM中最小的語言單元,可以是字、詞、短語等。文本則表示為特征項的集合 ( 𝑡 1 , 𝑡 2 , … , 𝑡 𝑛 ) (𝑡_1,𝑡_2,…,𝑡_𝑛) (t1?,t2?,,tn?)

詞語(詞組或短語):若詞語作為特征項,那么特征項的集合可視為一個詞表。詞表可從語料中統計獲得,可看作一個詞袋,向量空間模型被稱為詞袋模型(bag-of-words, BOW)

在這里插入圖片描述
特征項權重:每個特征項在文本中的重要性不盡相同,用𝑤表示特征項𝑡的權重,相應地,文本可以表示為 ( 𝑡 1 : 𝑤 1 , 𝑡 2 : 𝑤 2 , … , 𝑡 𝑛 : 𝑤 𝑛 ) (𝑡_1:𝑤_1,𝑡_2:𝑤_2,…,𝑡_𝑛:𝑤_𝑛) (t1?:w1?,t2?:w2?,,tn?:wn?) ( 𝑤 1 , 𝑤 2 , … , 𝑤 𝑛 ) (𝑤_1,𝑤_2,…,𝑤_𝑛) (w1?,w2?,,wn?)

如何計算特征項的權重?

  1. 布爾變量(是否出現)在這里插入圖片描述
  2. 詞頻在這里插入圖片描述
    基于詞頻方法會有一個問題,如上圖所示,像the這樣子的詞特征權重會比較大,但是實際上這些詞在句子分析是效果甚微。
  3. 逆文檔頻率:定義為總的文檔數/單詞頻率,讓the這樣子的詞特征權重降為0.在這里插入圖片描述
  4. TF-IDF=tfi * idfi,tfi是詞頻,idfi是逆文檔頻率,這是目前最好的一個方法。

特征選擇

文檔頻率

一個特征的文檔頻率是指在文檔集中含有該特征的文檔數目,假設 DF值低于某個域值的詞條是低頻詞,它們不含或含有較少的類別信息, 將這樣的詞條從原始特征空間中除去,不但能夠降低特征空間的維數,而且還有可能提高分類的精度。因此出現文檔數多的特征詞被保留的可能性大。在這里插入圖片描述
下面的兩個條件概率表示在有了ti這個特征之后屬于cj類別的概率,+1和+C是防止為0的變換(C表示類別的數量),即進行平滑處理

互信息

互信息是關于兩個隨機變量互相依賴程度的一種度量
在這里插入圖片描述

信息增益(IG)

IG衡量特征能夠為分類系統帶來多少信息
特征 𝑇 𝑖 𝑇_𝑖 Ti?對訓練數據集C的信息增益定義為集合C的經驗熵H?與特征 𝑇 𝑖 𝑇_𝑖 Ti?給定條件下C的經驗條件熵 H ( C ∣ 𝑇 𝑖 ) H(C|𝑇_𝑖) H(CTi?)之差,即 I G ( C , T i ) = H ( C ) ? H ( C ∣ T i ) IG(C,T_i)=H(C)-H(C|T_i) IG(C,Ti?)=H(C)?H(CTi?)

在這里插入圖片描述
在這里插入圖片描述

分類器設計

監督學習:訓練數據是人工標注的,用參數進行建模(構建目標函數),常見的監督學習模型有樸素貝葉斯、線性判別函數、支持向量機等等。

貝葉斯理論:

在這里插入圖片描述
在這里插入圖片描述
樸素貝葉斯假設:假設所有特征在給定類別的情況下是相互獨立的,這意味著每個特征對分類結果的影響是獨立的,與其他特征無關。
在這里插入圖片描述
樸素貝葉斯分類模型中的參數估計:采用最大似然估計

在這里插入圖片描述

線性判別函數

在這里插入圖片描述
線性判別函數需要考慮兩個方面:一個是考慮哪個分類面更優,一個是考慮選擇哪個學習準則。常見的線性判別函數的學習準則有感知器準則、最小均方差、交叉熵等。

文本分類性能評估

假設一個文本分類任務共有M個類別,類別名稱分別為 𝐶 1 , … , 𝐶 𝑀 𝐶_1,…,𝐶_𝑀 C1?,,CM?
在完成分類任務以后,對于每一類都可以統計出真正例、真負例、假正例和假負例四種情形的樣本數目。

  • 真正例 (True Positive, TP):模型正確預測為正例(即模型預測屬于該類,真實標簽屬于該類)。
  • 真負例 (True Negative, TN): 模型正確預測為負例(即模型預測不屬該類,真實標簽不屬該類)。
  • 假正例 (False Positive, FP):模型錯誤預測為正例(即模型預測屬于該類,真實標簽不屬該類)。
  • 假負例 (False Negative, FN):模型錯誤預測為負例(即模型預測不屬該類,真實標簽屬于該類)。

在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
其中需要稍微解釋一下的是圖中宏平均和微平均的計算方法,宏平均是先計算每個類別的指標(如Recall、Precision、F1 Score),然后對這些指標求算術平均值。它平等對待每個類別,不考慮類別樣本數量的差異,所以宏平均只需要將正類和負類的各自指標值做一個平均即可。

但是微平均考慮了樣本數量的差異性,匯總所有類別的TP、FP、FN,然后用這些總和來計算整體的指標。它更關注樣本數量多的類別,因為樣本多的類別對總的TP、FP、FN貢獻更大。

注意:在二分類問題中,準確率 (Accuracy) 等于微平均 Recall、微平均 Precision 和微平均 F1 Score

P-R曲線

通過調整分類器的閾值,將按輸出排序的樣本序列分割為兩部分,大于閾值的預測為正類,小于閾值的預測為負類,從而得到不同的召回率和精確率。如設置閾值為0時,召回率為1;設置閾值為1時,則召回率為0。以召回率作為橫軸、精確率作為縱軸,可以繪制出精確率-召回率(precision-recall, PR)曲線。
在這里插入圖片描述

ROC曲線

以假正率(false positive rate)作為橫坐標,以真正率(true positive rate)(即召回率)作為縱坐標,繪制出的曲線稱為ROC(receiver operating characteristic)曲線。ROC曲線下的面積稱為AUC(area under ROC curve),AUC曲線越靠近左上方越好。AUC值越大,說明分類器性能越好。
在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/84093.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/84093.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/84093.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

任務調度器-關于中心化調度 vs 去中心化調度的核心區別

1. 定義與架構模型 維度中心化調度去中心化調度核心角色存在一個中央調度器(如XXL-JOB的調度中心),統一管理任務分配、狀態監控和故障處理。無中心節點,調度邏輯分散在多個節點,通過共識算法(如選舉機制&a…

[論文閱讀] 人工智能+軟件工程 | 結對編程中的知識轉移新圖景

當AI成為編程搭檔:結對編程中的知識轉移新圖景 論文信息 論文標題:From Developer Pairs to AI Copilots: A Comparative Study on Knowledge Transfer(從開發者結對到AI副駕駛:知識轉移的對比研究) 作者及機構&#…

CAD多面體密堆積3D插件

插件介紹 CAD多面體密堆積3D插件可在AutoCAD內建立三維隨機多面體密堆積模型。 插件內置物理動力學模擬算法,通過模擬重力、碰撞等現象,使多面體在虛擬環境中發生自然堆積,進而實現真實的堆積效果。多面體堆積模擬中存在的局部穿模問題可通…

VSCode CUDA C++進行Linux遠程開發

環境準備 確保在本地和遠程Linux服務器上安裝了以下軟件: Visual Studio Code(簡稱VS Code)Remote Development extension pack for VS CodeCUDA Toolkit,推薦版本為11.0或更高GCC編譯器,用于C代碼的編譯 此外&…

Python爬蟲(一):爬蟲偽裝

一、網站防爬機制概述 在當今互聯網環境中,具有一定規模或盈利性質的網站幾乎都實施了各種防爬措施。這些措施主要分為兩大類: 身份驗證機制:直接將未經授權的爬蟲阻擋在外反爬技術體系:通過各種技術手段增加爬蟲獲取數據的難度…

快速使用 Flutter Card 組件指南

目錄 一、引言 二、Card 的基本用法 三、主要屬性 3.1 elevation (陰影高度) 3.2 shape (形狀) 3.3 color (顏色) 3.4 margin (外邊距) 3.5 完整示例 四、結合 ListTile 組件使用 五、帶圖片的 Card 示例 六、注意事項 相關推薦 一、引言 Card 是 Flutter 提供的一個…

C語言內存管理和編譯優化實戰

參考: C語言內存管理“玄學”:從崩潰到精通的避坑指南C語言編譯優化實戰:從入門到進階的高效代碼優化技巧

【產品業務設計】支付業務設計規范細節記錄,含訂單記錄、支付業務記錄、支付流水記錄、退款業務記錄

【產品業務設計】支付業務設計規范細節記錄,含訂單記錄、支付業務記錄、支付流水記錄 前言 我為什么要寫這個篇文章 總結設計經驗生成設計模板方便后期快速搭建 一個幾張表 一共5張表; 分別是: 訂單主表:jjy_orderMain訂單產…

CppCon 2015 學習:Live Lock-Free or Deadlock

這段內容是介紹一場關于**“實用無鎖編程(Practical Lock-Free Programming)”**的講座提綱,重點在C中的并發編程。下面是詳細的中文理解和分析: 講座大綱和內容理解 主題概覽 適當的“guru崇拜”和“祈求” → 開場調侃&#…

centos7編譯安裝LNMP架構

一、LNMP概念 LNMP架構是一種常見的網站服務器架構,由Linux操作系統、Nginx Web服務器、MySQL數據庫和PHP后端腳本語言組成。 1 用戶請求:用戶通過瀏覽器輸入網址,請求發送到Nginx Web服務器。 2 Nginx處理:Nginx接收請求后&…

Spark 寫文件

Repartition Spark 輸出文件數量 假設每個 Task 的輸出數據都包含了全部 8 個分區值,那么最終的文件生成情況如下: 總文件數 = Task 數量 分區組合數 假設: ?Task 數量?:200 ?分區組合數?:8 個 (from_cluster 和 ds 的組合) 則: ?總文件數?:200 8 = ?1600 …

自定義protoc-gen-go生成Go結構體,統一字段命名與JSON標簽風格

背景 在日常的 Go 微服務開發中,Protocol Buffers(protobuf) 是廣泛使用的數據交換格式。其配套工具 protoc-gen-go 會根據 .proto 文件生成 Go 結構體代碼,但默認生成的字段名、JSON tag 命名風格往往不能滿足所有團隊或項目的代…

LabVIEW的MathScript Node 繪圖功能

該VI 借助 LabVIEW 的 MathScript Node,結合事件監聽機制,實現基于 MathScript 的繪圖功能,并支持通過交互控件自定義繪圖屬性。利用 MathScript 編寫腳本完成圖形初始化,再通過LabVIEW 事件結構響應用戶操作,動態修改…

GD圖像處理與SESSiON

SESSION: 原理: session與瀏覽器無關,但是與cookie有關 1.PHP碰到session_start()時開啟session會話,會自動檢測sessionID a. 如果cookie中存在,使用現成的 b. 如果cookie中不存在,創建一個sessionID,并通過響應頭以cookie形式保存到瀏覽…

【Web應用】若依框架:基礎篇14 源碼閱讀-后端代碼分析-課程管理模塊前后端代碼分析

文章目錄 一、課程管理模塊前端代碼截圖二、前端代碼及分析index.vuecourse.js 三、前端執行流程1. 組件初始化2. 查詢操作3. 列表操作4. 對話框操作5. API 請求6. 執行流程總結關鍵點 四、課程管理模塊后端代碼截圖五、后端代碼塊CourseControllerICourseServiceCourseMapperC…

深入理解系統:UML類圖

UML類圖 類圖(class diagram) 描述系統中的對象類型,以及存在于它們之間的各種靜態關系。 正向工程(forward engineering)在編寫代碼之前畫UML圖。 逆向工程(reverse engineering)從已有代碼建…

DeepSeek12-Open WebUI 知識庫配置詳細步驟

📚 Open WebUI 知識庫配置詳細步驟(中英文對照) 🌐 界面語言切換 # 首次登錄后切換語言: 1. 點擊左下角用戶頭像 → Settings 2. 在 "General" 選項卡找到 "Language" 3. 選擇 中文(簡體)/Engli…

Python網絡設備批量配置腳本解析

目錄 腳本概述 代碼解析 導入模塊 日志配置 核心函數config_device 主程序邏輯 使用說明 腳本優化建議 完整代碼 腳本概述 這是一個使用Python編寫的網絡設備批量配置腳本,主要功能是通過SSH協議批量登錄多臺網絡設備(如路由器、交換機等&…

Z-FOLD: A Frustratingly Easy Post-Training Quantization Scheme for LLMs

文章目錄 摘要1 引言2 相關工作2.1 量化2.2 大型語言模型的量化 3 Z-FOLD3.1 新引入的參數 ζ3.2 參數整合(ζ 折疊)3.3 使用校準集的微調 4 實驗4.1 實驗設置4.2 與其他方法的比較4.3 Z-FOLD 的泛化能力4.4 Z-FOLD 的可移植性4.5 消融研究 5 結論6 限制…

交流電機深度解析:從基礎到實戰的全面指南

簡介 交流電機作為現代工業中不可或缺的動力設備,廣泛應用于各個領域。本文將帶你深入了解交流電機,從最基礎的概念和工作原理開始,逐步介紹其類型、結構、關鍵參數等基礎知識。同時,我們會探討交流電機在企業級開發研發中的技術實戰,包括控制技術、調速方法、建模與仿真…