機器學習之LDA主題模型算法

文章目錄

  • 1、知道LDA的特點和應用方向
    • 1.1、特點
    • 1.2、應用方向
  • 2、知道Beta分布和Dirichlet分布數學含義
  • 3、了解共軛先驗分布
  • 4、知道先驗概率和后驗概率
  • 5、知道參數α值的大小對應的含義
  • 6、掌握LDA主題模型的生成過程
  • 7、知道超參數α等值的參考值
  • 8、LDA總結

1、知道LDA的特點和應用方向

1.1、特點

知道LDA說的降維代表什么含義:將一篇分詞后的文章降維為一個主題分布(即如20個特征向量主題)。
根據對應的特征向量中的相關主題概率(20個主題的概率相加為1即為主題分布)得到對應的文檔主題,屬于無監督學習(你沒有給每個數據打標簽)

1.2、應用方向

信息提取與搜索(語義分析),文檔的分、聚類,文章摘要,計算機視覺,生物信息等方向(只要包含隱變量都可考慮使用)

PS:知道樸素貝葉斯在文本分析的劣勢:無法識別一詞多義和多詞一意。

2、知道Beta分布和Dirichlet分布數學含義

Beta分布概率密度表達式是一條曲線,系數B的表達式是曲線下的面積。
在這里插入圖片描述
知道二項分布的共軛先驗分布是Beta分布,多項分布的共軛先驗分布是Dirichlet分布。
在這里插入圖片描述
知道Dirichlet分布的概率密度函數的數學含義:當K=3時,密度函數數學含義也就是一個曲面
在這里插入圖片描述

3、了解共軛先驗分布

含義:找個一個先驗分布和后驗分布都滿足于同一種分布的概率分布。這樣你知道其中的一個分布就代表知道了另外一個分布。
在這里插入圖片描述

4、知道先驗概率和后驗概率

**先驗概率:**是指根據以往經驗和分析得到的概率.
**后驗概率:**事情已經發生,要求這件事情發生的原因是由某個因素引起的可能性的大小

5、知道參數α值的大小對應的含義

當α小于1的時候代表取某一個值的概率很高(即某一主題的概率很高即主題鮮明),=1的時候代表概率為均勻分布,大于1的時候代表k個p相同的概率增大。
對應的z軸就代表這個點對應的概率
在這里插入圖片描述
在這里插入圖片描述

6、掌握LDA主題模型的生成過程

總結一句話:主題概率模型生成一個主題分布再生成一個主題,詞概率模型生成主題的詞分布再生成一個詞;最終得到一個主題對應這個詞。(連接的條件主題的標號)
在這里插入圖片描述
在這里插入圖片描述
掌握整個過程:
θ代表的一個主題分布,即K維的主題向量。

  1. 從α控制的Dirichlet分布的概率密度函數中采取一個對應的K維的主題分布即θm(第m篇文檔的主題)
  2. 從β控制的Dirichlet分布的概率密度函數中生成K個對應的V維的詞分布即φk
  3. Zm,n即代表第m個文檔的第n個主題。當n=2時即代表采到第m篇文檔的第二個主題,就到對應的β生成的第二個主題的詞分布即φk(對應的第幾個主題的詞分布)
  4. 從φk中隨機挑選一個詞作為Wm,n的值(即第m篇文檔第n個主題對應的詞)
  5. 循環執行上述步驟得到每個主題對應的詞
    在這里插入圖片描述
    PS:各個參數的含義
    θm代表第m篇文檔的主題分布(m為文檔總數)
    φk表示第k個主題的詞分布(k為主題的個數)
    Zm,n代表第m篇文檔中的第n個主題
    Wm,n代表第m篇文檔中的第n個單詞

7、知道超參數α等值的參考值

在這里插入圖片描述

8、LDA總結

  • 由于在詞和文檔之間加入的主題的概念,可以較好的解決一詞多義和多詞一義的問題。
  • 在實踐中發現,LDA用于短文檔往往效果不明顯一這是可以解釋的:因為一個詞被分配給某個主題的次數和一個主題包括的詞數目尚未斂。往往需要通過其他方親“連接”成長文檔。
  • 用戶評論/Twitter/微博囗LDA可以和其他算法相結合。首先使用LDA將長度Ni的文檔降維到K維(主題的數目),同時給出每個主題的概率(主題分布),從而可以使用if-idf繼續分析或者直接作為文檔的特征進入聚類或者標簽傳播算法用于社區發現等問題。
  • 知道LDA是一個生成模型,由y得到對應的x(y代表的是主題,x代表的詞)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/456427.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/456427.shtml
英文地址,請注明出處:http://en.pswp.cn/news/456427.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

分別寫出引入CSS的3種方式, 特點, 優先級

第一&#xff1a;css的三種引入方式 1.行內樣式 最直接最簡單的一種&#xff0c;直接對HTML標簽使用style""&#xff0c;例如&#xff1a; <p style"color:#F00; "></p> 缺點&#xff1a;HTML頁面不純凈&#xff0c;文件體積大&#xff0c…

[Go] Template 使用簡介

Golang 提供了兩個標準庫用來處理模板 text/template 和 html/template。我們使用 html/template 格式化 html 字符。 模板引擎 模板引擎很多&#xff0c;Python 的 jinja&#xff0c;nodejs 的 jade 等都很好。所謂模板引擎&#xff0c;則將模板和數據進行渲染的輸出格式化后的…

內存泄露監測

2019獨角獸企業重金招聘Python工程師標準>>> iOS 內存泄露監測 144 作者 謝謝生活 已關注 2017.05.19 17:38* 字數 4235 閱讀 209評論 0喜歡 6 iOS可能存在的內存泄露&#xff1a;block 循環引用。當一個對象有一個block屬性&#xff0c;而block屬性又引用這個對象…

玩Azkaban跳過的坑

文章目錄一號坑&#xff1a;啟動Azkaban報錯&#xff1a;User xml file conf/azkaban-users.xml doesnt exist.二號坑&#xff1a;報錯&#xff1a;failed SslSocketConnector0.0.0.0:8443: java.io.FileNotFoundException: /home/hadoop/app/azkaban/azkaban-web-2.5.0/bin/ke…

兩種解除禁止右鍵、選中、復制的方法

我在網上找的 兩種解除禁止右鍵、選中、復制的方法 1、直接存到書簽點擊即可 javascript:(function(){var docdocument;var bddoc.body;bd.onselectstartbd.oncopybd.onpastebd.onkeydownbd.oncontextmenubd.onmousemovebd.onselectstartbd.ondragstartdoc.onselectstartdoc.o…

刪除節點removeChild()

http://www.imooc.com/code/1700 刪除節點removeChild() removeChild() 方法從子節點列表中刪除某個節點。如刪除成功&#xff0c;此方法可返回被刪除的節點&#xff0c;如失敗&#xff0c;則返回 NULL。 語法: nodeObject.removeChild(node) 參數: node &#xff1a;必需&…

機器學習自主解決安全威脅離我們還有多遠?

曾經聽見不止一次這樣的問題&#xff1a; “機器學習會替代基于人工經驗規則的安全解決方案么&#xff1f;”把這個問題放在去年來看&#xff0c;我們已經得到了非常多的討論甚至是一些已經實際應用的解決方案&#xff0c;對于人工智能在安全以及其它各種對數據進行價值挖掘的場…

Linux執行定時任務(crontab)遇到的坑

文章目錄前言&#xff1a;1、建立定時任務的兩種方式1.1、crontab -e1.2、vi /etc/ crontab2、兩種方法的區別2.1、用戶級2.2、系統級3、解決辦法前言&#xff1a; 之前第一次要在生產環境部署定時任務&#xff0c;無奈的是&#xff0c;博主對定時任務這塊還是個小白&#xff…

Vue:解決[Vue warn]: Failed to resolve directive: modle (found in Anonymous)

解決問題 [Vue warn]: Failed to resolve directive: modle (found in <ComponentA>) console.error(("[Vue warn]: " msg trace)); 原因是 我把model 寫成了 modle 這類錯誤一般是單詞寫錯了 (found in <Anonymous>) 解決思路

Oracle樹查詢及相關函數

Oracle樹查詢的最重要的就是select...start with... connect by ...prior 語法了。依托于該語法&#xff0c;我們可以將一個表形結構的中以樹的順序列出來。在下面列述了Oracle中樹型查詢的常用查詢方式以及經常使用的與樹查詢相關的Oracle特性函數等&#xff0c;在這里只涉及到…

Mysql常用函數總結

文章目錄前言&#xff1a;1、日期相關函數1.1、mysql獲取未來、現在、過去的時間&#xff1a;DATE_SUB&#xff08;&#xff09;、DATE_ADD()1.2、格式化日期&#xff1a;date_format&#xff08;&#xff09;1.3、MySQL 日期、時間相減函數&#xff1a;datediff(date1,date2),…

一行Python代碼制作動態二維碼

目錄 1、普通二維碼 2、藝術二維碼 3、動態二維碼 在GitHub上發現了一個比較有意思的項目&#xff0c;只需要一行Python代碼就可以快捷方便生成普通二維碼、藝術二維碼(黑白/彩色)和動態GIF二維碼。 GitHub網站參加&#xff1a;https://github.com/sylnsfar/qrcode 用法比…

Vue常用經典開源項目匯總參考-海量

Vue常用經典開源項目匯總參考-海量 Vue是什么&#xff1f; Vue.js&#xff08;讀音 /vju?/, 類似于 view&#xff09; 是一套構建用戶界面的 漸進式框架。與其他重量級框架不同的是&#xff0c;Vue 采用自底向上增量開發的設計。Vue 的核心庫只關注視圖層&#xff0c;并且非常…

鼠標移入視頻播放,鼠標移出播放停止,恢復到原來狀態

<!doctype html> <html lang"en"> <head><meta charset"UTF-8"><title>鼠標移入視頻播放&#xff0c;鼠標移出播放停止&#xff0c;恢復到原來狀態</title><link rel"shortcut icon" href"http://f…

Pycharm常用高效技巧總結

文章目錄1、PyCharm如何自動生成函數注釋2、pycharm運行程序時在Python console窗口中運行3、Pycharm在創建py文件時,如何自動添加文件頭注釋4、Pycharm配置遠程調試5、pycharm同一目錄下無法import明明已經存在的.py文件1、PyCharm如何自動生成函數注釋 一般在函數def()行下敲…

EntityFramework中常用的數據刪除方式

最近在學EF&#xff0c;目前了解到刪除操作有三種方式&#xff0c; 第一&#xff0c;官方推薦的先查詢數據&#xff0c;再根據查詢的對象&#xff0c;刪除對象。 這是第一種&#xff0c;官方推薦 第二&#xff0c;自己創建一個對象&#xff0c;然后附加&#xff0c;然后刪除。 …

Elasticsearch的前后臺運行與停止(tar包方式)

備注&#xff1a;在生產環境中&#xff0c;往往一般用后臺來運行。jps查看。 1、ES的前臺運行 [hadoopdjt002 elasticsearch-2.4.3]$ pwd/usr/local/elasticsearch/elasticsearch-2.4.3[hadoopdjt002 elasticsearch-2.4.3]$ bin/elasticsearch 2、ES的后臺運行 [hadoopdjt002 e…

解決pycharm運行Flask指定ip、端口更改無效

后來查了一下官網文檔&#xff0c;原來Flask 1.0 版本不再支持之前的FLASK_ENV 環境變量了。 Prior to Flask 1.0 the FLASK_ENV environment variable was not supported and you needed to enable debug mode by exporting FLASK_DEBUG1. This can still be used to control…

Freeswitch總結大全

文章目錄1、Freeswitch安裝2、Freeswitch中文文檔3、Freeswitch的event socket event list的中文簡介4、freeswitch之sip協議的注冊、呼叫、掛斷流程5、Freeswitch之mod_cdr_csv6、一款第三方收費的mod_vad&#xff08;看介紹挺不錯的&#xff0c;有做語音交互的童鞋可以看下&a…

Android中SimpleAdapter的使用—自定義列表

本人初學Android&#xff0c;今天研究到Adapter這塊感覺挺有意思的&#xff0c;寫了個自定義列表進行測試 首先我們新建一個layout列表布局文件&#xff0c;具體布局可以自己設定。 下面貼上我的自定義布局文件代碼 1 <?xml version"1.0" encoding"utf-8&qu…