樸素貝葉斯 概述
貝葉斯分類是一類分類算法的總稱,這類算法均以貝葉斯定理為基礎,故統稱為貝葉斯分類。本章首先介紹貝葉斯分類算法的基礎——貝葉斯定理。最后,我們通過實例來討論貝葉斯分類的中最簡單的一種: 樸素貝葉斯分類。
貝葉斯理論 & 條件概率
貝葉斯理論
我們現在有一個數據集,它由兩類數據組成,數據分布如下圖所示:
我們現在用 p1(x,y) 表示數據點 (x,y) 屬于類別 1(圖中用圓點表示的類別)的概率,用 p2(x,y) 表示數據點 (x,y) 屬于類別 2(圖中三角形表示的類別)的概率,那么對于一個新數據點 (x,y),可以用下面的規則來判斷它的類別:
- 如果 p1(x,y) > p2(x,y) ,那么類別為1
- 如果 p2(x,y) > p1(x,y) ,那么類別為2
也就是說,我們會選擇高概率對應的類別。這就是貝葉斯決策理論的核心思想,即選擇具有最高概率的決策。
條件概率
如果你對 p(x,y|c1)