機器學習之樸素貝葉斯法

  轉載請注明出處:http://www.cnblogs.com/Peyton-Li/

  樸素貝葉斯法是機器學習模型中一個比較簡單的模型,實現簡單,比較常用。

  是定義在輸入空間上的隨機向量,是定義在輸出空間上的隨機變量。的聯合概率分布。訓練數據集獨立同分布產生。

  樸素貝葉斯法通過訓練數據集學習聯合概率分布。具體地,學習一下先驗概率分布及條件概率分布。

  先驗概率分布,條件概率分布,于是學習到聯合概率分布

  條件概率分布有指數級數量的參數,其估計實際是不可行的。事實上,假設可取值有個,可取值有個,那么參數個數為

  樸素貝葉斯法對條件概率分布作了條件獨立性的假設。由于這是一個較強的假設,樸素貝葉斯法也由此得名。具體的,條件獨立性假設是

    

                    (4.3)

  樸素貝葉斯法實際上學習到生成數據的機制,所以屬于生成模型。條件獨立假設等于是說用于分類的特征在類確定的條件下都是條件獨立的。這一假設使樸素貝葉斯法變得簡單,但有時會犧牲一定的分類準確率。

  樸素貝葉斯法分類時,對給定的輸入,通過學習得到的模型計算后驗概率分布,將后驗概率最大的類作為的類輸出。后驗概率計算根據貝葉斯定理進行:

        (4.4)

將式(4.3)帶入(4.4)有

        (4.5)

這是樸素貝葉斯法分類的基本公式。于是,樸素貝葉斯分類器可表示為

        (4.6)

注意到,在式(4.6)中分母對所有都是相同的,所以,

        (4.7)

  樸素貝葉斯法將實例分到后驗概率最大的類中。這等價于期望風險最小化。假設選擇0-1損失函數:

    

式中是分類決策函數。這時,期望風險函數為

    

期望是對聯合分布取的。由此取條件期望

    

為了使期望風險最小化,只需對逐個極小化,由此得到:

    

      

      

      

這樣一來,根據期望風險最小化準則就得到了后驗概率最大化準則:

          (4.8)

即樸素貝葉斯法所采用的原理。(注意將4.7式和4.8式對比)

?

  在樸素貝葉斯法中,學習意味著估計。可以應用極大似然估計法估計相應的概率。先驗概率的極大似然估計是

      

?

設第個特征可能取值的集合為,條件概率的極大似然估計是

      

      

式中,是第個樣本的第個特征;是第個特征可能取的第個值;為指示函數。

對于給定的實例,計算

    

確定實例的類

    

?

用極大似然估計可能會出現所要估計的概率值為0的情況。這是會影響到后驗概率的計算結果,使分類產生偏差。解決這一問題的方法是采用貝葉斯估計。具體地,條件概率的貝葉斯估計是

          (4.10)

式中。等價于在隨機變量各個取值的頻數上賦予一個正數。當時就是極大似然估計。常取,這是稱為拉普拉斯平滑(Laplace smoothing)。顯然,對任何,有

    

    

表明式(4.10)確為一種概率分布。同樣,先驗概率的貝葉斯估計是

    

  樸素貝葉斯分類有一個限制條件,就是特征屬性必須有條件獨立或基本獨立(實際上在現實應用中幾乎不可能做到完全獨立)。

  優點

    1、樸素貝葉斯模型發源于古典數學理論,有穩定的分類效率。

    2、對小規模的數據表現很好,能個處理多分類任務,適合增量式訓練,尤其是數據量超出內存時,我們可以一批批的去增量訓練。

    3、對缺失數據不太敏感,算法也比較簡單,常用于文本分類。

  缺點

    1、理論上,樸素貝葉斯模型與其他分類方法相比具有最小的誤差率。但是實際上并非總是如此,這是因為樸素貝葉斯模型假設屬性之間相互獨立,這個假設在實際應用中往往是不成立的,在屬性個數比較多或者屬性之間相關性較大時,分類效果不好。而在屬性相關性較小時,樸素貝葉斯性能最為良好。對于這一點,有半樸素貝葉斯之類的算法通過考慮部分關聯性適度改進。

    2、需要知道先驗概率,且先驗概率很多時候取決于假設,假設的模型可以有很多種,因此在某些時候會由于假設的先驗模型的原因導致預測效果不佳。

    3、由于我們是通過先驗和數據來決定后驗的概率從而決定分類,所以分類決策存在一定的錯誤率。對輸入數據的表達形式很敏感。

?

轉載于:https://www.cnblogs.com/Peyton-Li/p/7538221.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/455028.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/455028.shtml
英文地址,請注明出處:http://en.pswp.cn/news/455028.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

如何讓梯形變成平行四邊形_開放的課堂 創新的天地——平行四邊形的面積教學片段與反思...

一、 課題的確定學生在三年級學過長方形、正方形的面積計算,經歷過從數方格的辦法得出面積計算公式的過程。因此,學生對于面積計算公式的推導有一定的經驗和知識基礎。基于上述考慮,我想完全放手讓學生去研究如何計算平行四邊形的面積。這對學…

bzoj1670【Usaco2006 Oct】Building the Moat 護城河的挖掘

1670: [Usaco2006 Oct]Building the Moat護城河的挖掘 Time Limit: 3 Sec Memory Limit: 64 MBSubmit: 387 Solved: 288[Submit][Status][Discuss]Description 為了防止口渴的食蟻獸進入他的農場,Farmer John決定在他的農場周圍挖一條護城河。農場里一共同擁有N(8…

音視頻編解碼的一些源代碼

音視頻編解碼的一些源代碼 (轉)資料名稱:音視頻編解碼的一些源代碼 資料成文時間:不詳 語言:英文 頁數:很多 何人所著(來源): 文件格式:原代碼 開發工具:vc 說…

Vue之組件之間的數據傳遞

Vue的組件作用域都是孤立的,不允許在子組件的模板內直接引用父組件的數據,必須使用特定的方法才能實現組件之間的數據傳遞。 下列為在vue-cli創建項目中的操作 一父組件向子組件傳遞數據 在Vue中,用props向子組件傳遞數據。 子組件部分&#…

偶然發現一個大佬寫的 React 腳手架,叫Moderate, 用起來很方便

發現一個大佬寫的 React 腳手架,叫Moderate, 用起來很方便 Moderate,意思為適中的,適度的,用這個作為代號,主要取決于他的本名“中用”,其一以貫之的想法就是中庸,秉承著以人為本的態度&#xf…

案例 自動辦公_1300張辦公系列前臺參考圖,請您查收!

設計情報局室內設計師的靈感聚集地關注一個有格調的空間必定有一處高顏值的前臺漂亮的前臺很重要...是空間給人的第一印象一個獨一無二的前臺設計還可以提升整個空間的氣質與逼格連個漂亮的前臺都沒有作為顏控界扛把子的設計師們還怎么混?SO今天小編給大家帶來一份《…

iframe里面的元素觸發父窗口元素事件的jquery代碼 轉

例如父窗口定義了一個事件。 top: $(dom1).bind(topEvent, function(){}); 那么iframe里面的元素怎樣觸發父窗口dom1的事件呢?這樣嗎? $(dom1, parent.document).trigger(topEvent); 看似正確,實則誤導人。 因為父窗口的jquery對象與iframe里…

mplayer 所支持的音視頻編解碼

這里我把mplayer 所支持的音視頻編解碼都羅列出來,方便大家查閱;-----------------------------------------------------------------------------------------------Video codecs:Working video codecscodec namefourcccodecfileoutcommentsFFmpeg Zip…

使用ifconfig取出網卡eth0的ip地址

方法1:sed命令12[rootoldboyedu ~]# ifconfig eth0 |sed -n 2p |seds#^.*addr:##g|sed s# B.*$##g10.0.0.50方法2:cut12[rootoldboyedu ~]# ifconfig eth0|grep inetaddr|cut -d ":" -f2|cut -d " " -f110.0.0.50方法3:…

目標檢測_目標檢測 | Anchor free的目標檢測進階版本

今天說的是《Soft Anchor-Point Object Detection》,其也是最近關于anchor free的目標檢測的論文,作者來自于CMU,一作同樣也是FSAF(2019 CVPR)的作者。該論文的出發點還是在樣本選擇和FPN特征選擇層面。背景Anchor free是目標檢測領域的一個研…

Colly實現豆瓣電影Top250爬取

使用 Colly 實現 豆瓣電影Top250爬取 package mainimport ("encoding/csv""github.com/PuerkitoBio/goquery""github.com/gocolly/colly""log""os""strings""time" )type Movie struct {idx string…

homework1

一.什么是RUP?二.什么是XP?三.什么是敏捷過程? 一。什么是RUP?RUP是一種完整而且完美的軟件過程 1。最佳實踐 (1)迭代式開發 (2)管理需求 (3)使用基于構件軟件的體系結構 (4&…

編程:休息片刻的好處

原文作者 Axel Rauschmayer 是一位居住在德國慕尼黑的自由軟件工程師。他在這篇博文列舉了在編程期間休息片刻的一些好處。 你會更精明而不是更賣力地工作。我曾經為了一個功能的實現而賣力工作過。每天12小時,整整工作了兩個星期。我付出了很多努力。那兩個星期之…

五個溫度帶的分界線_女神建筑師在拿破侖故鄉打造的海景別墅,超美!超有溫度!【環球設計2225期】...

生活的溫度 法國建筑師阿米莉亞塔維拉(Amelia Tavella)一直對設計充滿熱情,她出生在阿雅克肖市,在巴黎的建筑學院學習建筑專業,如今她居住普羅旺斯地區的艾克斯。她說:“設計讓我涉足很多有趣的領域并能充分發揮我的想象力。這是一…

1118. Birds in Forest (25)

并查集。。。要用路徑壓縮&#xff0c;不然會超時&#xff0c; #include<iostream> #include<string> #include<map> #include<vector> #include<algorithm> #include<queue> #include<set> #include<stack> using namespace …

Java線程池有哪些作用

線程池 線程池的作用 核心點:復用機制提前創建好固定的線程一直在運行狀態實現復用限制線程創建數量。 1.降低資源消耗:通過池化技術重復利用已創建的線程&#xff0c;降低線程創建和銷毀造成的損耗。 2.提高響應速度:任務到達時&#xff0c;無需等待線程創建即可立即執行。…

中國重名的市轄區

中國重名的市轄區 截止2016年7月31日 新華區(3) 河北省石家莊市新華區 河北省滄州市新華區 河南省平頂山市新華區 橋西區(3) 河北省石家莊市橋西區 河北省邢臺市橋西區 河北省張家口市橋西區 海州區(2) 遼寧省阜新市海州區 江蘇省連云港市海州區 郊區(4) 山西省陽泉市郊區 山西…

安卓關于圖片壓縮的那些事兒,希望給每個安卓開發人員一些幫助

從事安卓開發也有幾年了,本人喜歡開門見山,此篇文章是處理以java語言下的安卓開發過程中圖片壓縮問題。 圖片加載在我們的開發過程中都是一個內存大戶,以至于我們加載每一個圖片bitmap對象的時候都應該進行回收以減少內存的占用&#xff0c;而如果單張圖片的大小加載在內存都會…

銀行it現狀調研_中央銀行系統行業現狀調研分析及發展趨勢預測報告(2019年版)...

QYResearch預測&#xff1a;2019-2025全球與中國中央銀行系統市場現狀及未來發展趨勢【紙版價格】&#xff1a;RMB 15000【電子版(PDF)價格】&#xff1a;RMB 15000【報告篇幅】&#xff1a;112【報告圖表數】&#xff1a;158【報告出版時間】&#xff1a;2019年11月報告摘要本…

視頻編解碼技術小結

1、什么是H.261編碼協議 答&#xff1a;H.261是最早出現的視頻編碼建議&#xff0c;它采用的算法結合了可減少時間冗余的幀間預測和可減少空間冗余的DCT變換的混合編碼方法&#xff0c;其輸出碼率是p64kbit/s。p取值較小時&#xff0c;只能傳清晰度不太高的圖像&#…