文章目錄
- 1、知道先驗概率和后驗概率
- 2、了解高斯混合模型GMM
- 3、通過最大似然估計推導EM算法的過程的實例
- 4、EM算法
- 5、知道pLSA模型
1、知道先驗概率和后驗概率
先驗概率(prior probability)是指根據以往經驗和分析得到的概率(理解為自定義概率)。而后驗概率是在考慮了一個事實之后的條件概率。
2、了解高斯混合模型GMM
EM是K-means的推廣
以下的兩個問題都是屬于無監督學習(對于不知道樣本數的問題,采用EM算法)
高斯混合模型GMM:隨機變量x由k個高斯分布混合而成。
GMM參數估計的理解(相當于由變量x的一部分樣本進而去估計對應的x發生的概率以及均值μ和方差 )
3、通過最大似然估計推導EM算法的過程的實例
首先知道最大似然估計:多個事件同事發生的概率。
由身高體重推測男女的例子(參考下圖理解)
1、先對給定的一組數據Xi假設初始自定義的均值μ和方差σ,以及對應的分類概率(即使男性、女性的概率是多大)
2、代入對應的高斯密度函數得到對應的概率密度值
3、由對應的概率密度值以及對應的分類概率求的條件概率(即如1.88是男性的概率是多少)
4、重復以上步驟求其他組對應的條件概率的值。(高斯混合分布)
5、將所有組得到的數據做條件概率的值乘以數據的操作(如1.88乘以0.67)得到整個樣本對應的均值μ和方差σ(注意計算均值時對應的除數N代表的是條件概率0.67等的加和)
6、將計算得到的均值和方差不斷的迭代,直到穩定為止。
不斷迭代最終直到μ和σ達到穩定值
下圖中所說的概率的加和代表的是0.67+0.4+…即對應身高是男性的概率得到最終的N男
掌握每個組份的參數公式對應的含義
4、EM算法
x對應的是數據,z代表的是隱變量如類別(男、女性)。
θ代表未知變量如π、μ、σ
除了想估計x還想估計z(這個z代表的是隱隨機變量,p代表估計1.88是男性的概率;x代表的是1.88,男性代表的z)
整個過程其實就由求f(θ)轉化為求r函數(下界函數)的極值(減小了參數個數),直到r函數極值等于f函數的值。
當θ0處兩個函數相等,這時候求r函數的極值處θ1,這時候若r函數小,則再固定z選取一條新的函數r1函數在θ1處等于p函數,接著再求r1函數的極值…以此類推。(固定θ找z,再固定z找θ依次類推直到找到穩定的值)
E步驟:Q對應于實例已知θ求1.88條件下是男性的條件概率的值。
M步驟:θ代表的加權后求得的均值μ和方差σ。
整個過程就相當于固定θ(初始給定的值)求Q(Q代表對應的1.88條件下是男性的概率),固定Q(知道這組數據對應的條件概率的值)求θ(求的對應的μ和σ2)…不斷重復直到結果穩定(Q可以看做是對應的下界函數)
5、知道pLSA模型