從情感分析到樸素貝葉斯法:基于樸素貝葉斯的情感分析如何讓DeepSeek賦能你的工作?

文章目錄

    • 1.概率論基礎
      • 1.1 單事件概率
      • 1.2 多事件概率
      • 1.3 條件概率
        • 1.3.1 多事件概率與條件概率的區別
      • 1.4 貝葉斯定理
      • 傳統思維誤區
      • 貝葉斯定理計算
    • 2. 樸素貝葉斯法
      • 2.1 基本概念
      • 2.2 模型
      • 2.3 學習策略
      • 2.4 優化算法
      • 2.5 優化技巧
        • 拉普拉斯平滑
        • 對數似然
    • 3. 情感分析實戰
      • 3.1 流程
      • 3.2 模型評價
      • 3.3 應用場景
      • 3.4 局限性
      • 3.4 局限性

1.概率論基礎

1.1 單事件概率

定義一個事件發生的可能性
例子:假設事件A表示“一個文本是正向的”,則P(A) = 正向文本數 / 總文本數。
解釋:比如有20個文本,其中13個是正向的,那么P(A) = 13/20 = 0.65。

image-20250405222006965

1.2 多事件概率

定義:多個事件同時發生的概率。
例子:事件A(文本是正向的)和事件B(文本包含單詞“happy”)同時發生的概率P(A,B) = P(A∩B) = 3/20。

image-20250405222252829

舉個例子:假設某餐廳統計發現:

  • 30%的訂單點了漢堡(事件A)
  • 20%的訂單同時點了漢堡和薯條(事件A∩B)

那么:

  • 多事件概率:P(漢堡且薯條) = 20%
    直接表示同時點這兩樣的概率

1.3 條件概率

定義:在已知事件B發生的情況下,事件A發生的概率,記作P(A|B)。
公式:P(A|B) = P(A∩B) / P(B)。
作用:縮小計算范圍。例如,已知文本包含“happy”,計算它是正向的概率時,只需關注包含“happy”的文本。

延續剛剛的例子:已知某餐廳統計發現:

  • 薯條訂單占全店40%(事件B)
  • 漢堡和薯條同時點占20%(事件A∩B)

則:

  • 條件概率:P(漢堡|已點薯條) = 20%/40% = 50% 【兩者同時的概率 / 單單薯條的概率】
    (在已經點薯條的訂單中,有50%會加購漢堡)

image-20250405223544164

1.3.1 多事件概率與條件概率的區別
維度多事件概率條件概率
計算范圍全局樣本空間限定在條件事件發生的子空間
信息量反映單純共存概率揭示事件間的關聯強度
應用場景分析事件組合頻率研究因果關系/預測

典型誤區分辨

  • ?錯誤理解:“今天下雨且堵車”(多事件概率) vs “下雨導致堵車”(條件概率)
  • ?正確區分:
    • 多事件概率:全市范圍內同時下雨和堵車的概率(比如10%)
    • 條件概率:在下雨的日子里發生堵車的概率(可能高達70%)

NLP應用實例(情感分析)

假設分析1,000條商品評論:

  • 200條出現"價格"(事件A)
  • 50條同時出現"價格"和"昂貴"(事件A∩B)
  • "昂貴"出現總次數100次(事件B)

多事件概率
P(“價格"且"昂貴”) = 50/1000 = 5%
(所有評論中同時包含這兩個詞的概率)

條件概率
P(“昂貴”|出現"價格") = 50/200 = 25%
(在提到價格的評論中,"昂貴"出現的概率)【兩者同時的概率 / 單單價格的概率】

1.4 貝葉斯定理

定義:通過已知事件Y反推事件X的概率。貝葉斯定理是"用結果反推原因"的概率計算方法。就像偵探破案:已知犯罪現場有某種證據(結果),計算某個嫌疑人作案(原因)的概率。
公式:P(X|Y) = P(Y|X) * P(X) / P(Y)。
用途:在分類問題中,通過觀測數據反推類別概率。

舉個例子(疾病檢測)
假設:

  • 某疾病在人群中的患病率是1%(先驗概率)
  • 檢測準確率:
    • 有病的人,99%能測出性(真陽性率)
    • 病的人,2%會誤測為性(假陽性率)

問題:如果一個人檢測呈陽性,他實際患病的概率是多少?

傳統思維誤區

很多人會直接認為概率是99%,忽略了基礎患病率。

貝葉斯定理計算

P(患病|陽性) = P(陽性|患病) * P(患病) / P(陽性) P(陽性) = [P(陽性|患病) * P(患病) + P(陽性|正常) * P(正常)
= (99% * 1%) / (99% * 1% + 2% * 99%) 這里的P(正常)更多的是:1-P(患病) = 99%
≈ 33%

【“患病”是因,“陽性”是果 ,先乘因,再除果

即使檢測呈陽性,實際患病概率只有33%!

接下來我將對公式進行拆解:

P(原因|結果) = [P(結果|原因) × P(原因)] / P(結果)

  • P(原因)先驗概率(已知的客觀事實)
  • P(結果|原因):似然度(原因導致結果的可能性)
  • P(原因|結果)后驗概率(我們想求的答案)

NLP應用實例(垃圾郵件過濾)

已知:

  • 郵件中出現**“折扣”**這個詞:
    • 垃圾郵件中出現的概率是80%(P(折扣|垃圾))
    • 正常郵件中出現的概率是10%(P(折扣|正常))
  • 整體郵件中垃圾郵件占比20%(P(垃圾))

計算

P(垃圾|折扣) = [P(折扣|垃圾) * P(垃圾)] / [P(折扣|垃圾) * P(垃圾) + P(折扣|正常) * P(正常)]
= (80% * 20%) / (80% * 20% + 10% * 80%) 這里的P(正常)更多的是:1-P(垃圾) = 80%
= 66.7%

雖然"折扣"在垃圾郵件中出現概率高,但綜合考量后,含這個詞的郵件是垃圾郵件的概率是66.7%。

那么為什么叫"定理"?

因為可以通過條件概率公式嚴格推導:

  1. 根據條件概率定義:P(A|B)=P(A∩B)/P(B)
  2. 同理:P(B|A)=P(A∩B)/P(A)
  3. 聯立兩式消去P(A∩B)即得貝葉斯定理

2. 樸素貝葉斯法

2.1 基本概念

概述:基于貝葉斯定理的分類方法,假設特征之間相互獨立(稱為“樸素”)。
優點:簡單高效,適合文本分類等任務。
缺點:特征獨立性假設可能影響準確性。

條件獨立假設

  • 假設所有特征在類別確定時彼此獨立
  • 雖然簡化計算,但現實中特征可能相關。

2.2 模型

目標:對輸入數據x,預測最可能的類別y。
核心公式
y = argmax P(y) * Π P(x_i|y),即選擇使后驗概率最大的類別。

2.3 學習策略

極大似然估計(MLE)

  • 估計先驗概率P(y)和條件概率P(x_i|y)。
  • 先驗概率:P(y) = 類別y的樣本數 / 總樣本數。
  • 條件概率:P(x_i|y) = 類別y中特征x_i出現的次數 / 類別y的總樣本數。

2.4 優化算法

后驗概率最大化

  • 選擇使后驗概率最大的類別,等價于最小化分類錯誤。

2.5 優化技巧

拉普拉斯平滑

問題:某些特征未出現時概率為0,導致整體概率為0。
解決:分子加1,分母加特征總數V,避免零概率。

對數似然

問題:連乘小數可能導致數值下溢(結果過小無法表示)。
解決:對概率取對數,將連乘轉為連加。

  • 概率比值:ratio(w_i) = P(w_i|正向) / P(w_i|負向)。
  • 對數似然:λ(w_i) = log(ratio(w_i))。
  • 最終決策:若對數先驗 + Σλ(w_i) > 0,則為正向;否則為負向。

3. 情感分析實戰

3.1 流程

  1. 數據預處理:清洗文本(如去標點、分詞)。
  2. 構建詞頻表:統計單詞在正向/負向文本中的出現次數。
  3. 計算概率
    • 條件概率:P(w_i|正向)和P(w_i|負向)。
    • 對數似然:λ(w_i) = log(P(w_i|正向)/P(w_i|負向))。
  4. 預測:根據對數先驗 + Σλ(w_i)的符號判斷情感傾向。

3.2 模型評價

準確度:正確預測的文本數 / 總文本數。

3.3 應用場景

  • 垃圾郵件分類
  • 新聞分類
  • 情感分析

3.4 局限性

  1. 條件獨立假設:忽略單詞間的關聯(如“not happy”)。
  2. 數據不平衡:正向/負向樣本數量差異大時影響效果。
  3. 文本復雜性
    • 標點可能攜帶情感(如“好!” vs “好?”)。
    • 停用詞(如“的”)有時也有情感意義。
    • 反諷或夸張難以捕捉。
  • 新聞分類
  • 情感分析

3.4 局限性

  1. 條件獨立假設:忽略單詞間的關聯(如“not happy”)。
  2. 數據不平衡:正向/負向樣本數量差異大時影響效果。
  3. 文本復雜性
    • 標點可能攜帶情感(如“好!” vs “好?”)。
    • 停用詞(如“的”)有時也有情感意義。
    • 反諷或夸張難以捕捉。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/75680.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/75680.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/75680.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

獲取inode的完整路徑包含掛載的路徑

一、背景 在之前的博客 缺頁異常導致的iowait打印出相關文件的絕對路徑-CSDN博客 里的 2.2.3 一節和 關于inode,dentry結合軟鏈接及硬鏈接的實驗-CSDN博客 里,我們講到了在內核里通過inode獲取inode對應的絕對路徑的方法。對于根目錄下的文件而言&#…

【51單片機】2-6【I/O口】【電動車簡易防盜報警器實現】

1.硬件 51最小系統繼電器模塊震動傳感器模塊433M無線收發模塊 2.軟件 #include "reg52.h" #include<intrins.h> #define J_ON 1 #define J_OFF 0sbit switcher P1^0;//繼電器 sbit D0_ON P1^1;//433M無線收發模塊 sbit D1_OFF P1^2; sbit vibrate …

leetcode二叉樹刷題調試不方便的解決辦法

1. 二叉樹不易構建 在leetcode中刷題時&#xff0c;如果沒有會員就需要將代碼拷貝到本地的編譯器進行調試。但是leetcode中有一類題可謂是毒瘤&#xff0c;那就是二叉樹的題。 要調試二叉樹有關的題需要根據測試用例給出的前序遍歷&#xff0c;自己構建一個二叉樹&#xff0c;…

藍橋杯嵌入式客觀題二

十四屆模擬一 1. 2.串口通信是一種傳輸線按位數據順序傳輸方式 3.USART_SR是屬于STM32微控制器USART的狀態寄存器。 4.STM32G431RBT6是32位的ARM微控制器 ARM處理器是英國ARM公司設計的一種低功耗RISC微處理器 5.中斷配置?EXTI->FTSR&#xff08;下降沿觸發選擇寄存器…

OrangePi入門教程(待更新)

快速上手指南 https://www.hiascend.com/developer/techArticles/20240301-1?envFlag1 教學課程(含開發板配置和推理應用開發) https://www.hiascend.com/developer/devboard 開發推理應用 https://www.hiascend.com/developer/techArticles/20240326-1?envFlag1

王者榮耀的游戲匹配機制

王者榮耀的匹配機制主要基于ELO評分系統&#xff08;隱藏分機制&#xff09;和段位匹配&#xff0c;旨在平衡對局雙方實力&#xff0c;同時通過多種策略控制玩家勝率趨近50%。 一、匹配機制核心 1. ELO評分&#xff08;隱藏分&#xff09; - 系統根據玩家的勝負、KDA、傷害量、…

PPTAgent:一款開源免費生成和評估幻燈片的項目

這篇文章介紹一下PPTAgent&#xff0c;一個從文檔自動生成演示文稿的創新系統。該系統從人類的展示創作方法中汲取靈感&#xff0c;采用兩步流程來確保卓越的整體質量。此外&#xff0c;本文還介紹了PPTEval&#xff0c;這是一個綜合評估框架&#xff0c;可以跨多個維度評估演示…

谷歌開源單個 GPU 可運行的Gemma 3 模型,27B 超越 671B 參數的 DeepSeek

自從 DeepSeek 把訓練成本打下來之后&#xff0c;各個模型廠家現在不再堆參數進行模型的能力對比。而是轉向了訓練成本優化方面&#xff0c;且還要保證模型能力不減反增的效果。包括使用較少的模型參數&#xff0c;降低 GPU 使用數量&#xff0c;降低模型內存占用等等技術手段。…

回歸預測 | Matlab實現NRBO-Transformer-LSTM多輸入單輸出回歸預測

回歸預測 | Matlab實現NRBO-Transformer-LSTM多輸入單輸出回歸預測 目錄 回歸預測 | Matlab實現NRBO-Transformer-LSTM多輸入單輸出回歸預測預測效果基本介紹程序設計參考資料 預測效果 基本介紹 1.【JCR一區級】Matlab實現NRBO-Transformer-LSTM多輸入單輸出回歸預測&#xf…

Photoshop 2025 Mac中文Ps圖像編輯

Photoshop 2025 Mac中文Ps圖像編輯 文章目錄 Photoshop 2025 Mac中文Ps圖像編輯一、介紹二、效果三、下載 一、介紹 Adobe Photoshop 2025 Mac版集成了多種強大的圖像編輯、處理和創作功能。①強化了Adobe Sensei AI的應用&#xff0c;通過智能摳圖、自動修復、圖像生成等功能…

7. 記憶(Memory)機制:讓AI擁有“短期記憶”與“長期記憶”

引言&#xff1a;當AI學會"記住你" 2025年某銀行智能客服因無法記住用戶身份&#xff0c;每次對話都要求重復驗證&#xff0c;引發大量投訴。引入LangChain 記憶系統后&#xff0c;客戶滿意度提升62%。本文將基于MemorySaver與FAISS本地存儲&#xff0c;教你構建符合…

【Python使用】嘿馬云課堂web完整實戰項目第3篇:增加數據,修改數據【附代碼文檔】

教程總體簡介&#xff1a;項目概述 項目背景 項目的功能構架 項目的技術架構 CMS 什么是CMS CMS需求分析與工程搭建 靜態門戶工程搭建 SSI服務端包含技術 頁面預覽開發 4 添加“頁面預覽”鏈接 頁面發布 需求分析 技術方案 測試 環境搭建 數據字典 服務端 前端 數據模型 頁面原…

論文筆記(七十五)Auto-Encoding Variational Bayes

Auto-Encoding Variational Bayes 文章概括摘要1 引言2 方法2.1 問題場景2.2 變分下界2.3 SGVB估計器與AEVB算法2.4 重參數化技巧 3 示例&#xff1a;變分自編碼器&#xff08;Variational Auto-Encoder&#xff09;4 相關工作5 實驗6 結論7 未來工作 文章概括 引用&#xff1…

Python3 學習筆記

Python3 簡介 | 菜鳥教程 一 Python3 簡介 Python 是一個高層次的結合了解釋性、編譯性、互動性和面向對象的腳本語言。 Python 的設計具有很強的可讀性&#xff0c;相比其他語言經常使用英文關鍵字&#xff0c;其他語言的一些標點符號&#xff0c;它具有比其他語言更有特色…

Java實現N皇后問題的雙路徑探索:遞歸回溯與迭代回溯算法詳解

N皇后問題要求在NN的棋盤上放置N個皇后&#xff0c;使得她們無法互相攻擊。本文提供遞歸和循環迭代兩種解法&#xff0c;并通過圖示解釋核心邏輯。 一、算法核心思想 使用回溯法逐行放置皇后&#xff0c;通過沖突檢測保證每行、每列、對角線上只有一個皇后。發現無效路徑時回退…

前端判斷值相等的方法和區別

1. (寬松相等) 在比較之前會進行類型轉換 可能導致一些意外的結果 0 // true 0 0 // true false 0 // true null undefined // true [1,2,3]1,2,3 // true2. (嚴格相等) 不進行類型轉換 類型和值都必須相同 0 // false 0 0 // false false 0 /…

Socket編程UDP

Socket編程UDP 1、V1版本——EchoServer2、網絡命令2.1、ping2.2、netstat2.3、pidof 3、驗證UDP——Windows作為client訪問Linux4、V2版本——DictServer5、V3版本——簡單聊天室 1、V1版本——EchoServer 首先給出EchoServer目錄結構&#xff1a;服務器的類我們實現在UdpServ…

輔助查詢是根據查詢到的文檔片段再去生成新的查詢問題

&#x1f4a1; 輔助查詢是怎么來的&#xff1f; 它是基于你當前查詢&#xff08;query&#xff09;檢索到的某個文檔片段&#xff08;chunk_result&#xff09;&#xff0c;再去“反推”出新的相關問題&#xff08;utility queries&#xff09;&#xff0c;這些問題的作用是&a…

2025 年 4 月補丁星期二預測:微軟將推出更多 AI 安全功能

微軟正在繼續構建其 AI 網絡安全戰略&#xff0c;并于本月宣布在 Microsoft Security Copilot 中引入新代理。 他們引入了用于網絡釣魚分類的代理、用于數據丟失預防和內部風險管理的警報分類、條件訪問優化、漏洞修復和威脅情報簡報。 這些代理的目標是不斷從這些不同學科中…

【LLM系列】1.大模型簡介

1. 基礎 1.1 如何權衡模型的復雜度和性能&#xff1f; ├── a. 模型架構選擇 │ ├── 簡化架構 │ │ └── 選擇較小的網絡層數和寬度&#xff0c;降低復雜度&#xff1b; │ │ 可使用高性能基礎模型如 Transformers 作為起點&#xff0c;根據需求縮放模型。 │ └──…