機器學習：最大似然估計與最大后驗概率估計

在機器學習領域，概率估計是經常用到的一種模型，而概率估計中，我們經常會看到兩種估計模型，一種是最大似然估計，即 Maximum likelihood，另外一種就是最大后驗概率估計，即 Maximum posterior ，兩種模型可以由貝葉斯定理演化而來。

在介紹這兩種模型之前，我們先來看一下貝葉斯定理:

p (w | D) = p ( D | w ) p ( w ) p ( D )

這里，D 表示觀察到的數據，而 w 表示我們要求的變量或者參數。我們來看看貝葉斯定理中，每一項所表示的含義：
p(D) 表示數據的概率分布
p(w) 表示參數w 的概率分布，一般稱為先驗概率分布，因為我們本意是要求 w 的，所以理論上來說，我們無法事先確切地知道 w 的概率分布，但是我們可以給出一個大概的經驗估計，所以稱為先驗分布 prior distribution。
p(D|w) 表示似然函數 likelihood function。
p(w|D) 表示后驗概率分布 posterior distribution。

p(D|w) 表示了一種 “似然率”, 對于不同的參數w, 我們觀測到數據D 的概率是不同的, 最大似然估計, 就是找到 w, 使得我們觀測到數據D 的概率最大。所以最大似然估計可以表示為:

max w p (D | w)

p(w|D) 表示后驗概率，如果給定了觀測數據, 我們可以推測參數w 的概率分布, 根據貝葉斯定理，我們可以看出：

p o s t e r i o r \propto l i k e l i h o o d \times p r i o r

即：

p (w | D) \propto p (D | w) \times p (w)

而貝葉斯定理中的分母 p(D) 是一個歸一化變量, 可以看出

p (D) = \int p (D | w) p (w) d w

換句話說，后驗概率與似然函數和先驗概率之積是成比例的。

我們可以看到，無論是最大似然估計還是最大后驗概率估計，似然函數都發揮著重要作用。但這兩種估計，反應了兩種觀點。最大似然估計是古典統計學派的觀點，古典統計學派認為，參數w 是固定的，可以通過觀測到的數據直接求出來。而最大后驗概率估計是貝葉斯學派的觀點，貝葉斯學派認為，只有數據是可見的，參數w 也是不固定的，而是滿足一定概率分布 p(w|D) 的。

這兩種模型，孰優孰劣，一直以來都是莫衷一是，未有定論。最大似然估計被人詬病之處是估計存在bias，在某些極端情況下，是違反經驗與直覺的。最大后驗概率估計可以有效地減弱這種bias，但是最大后驗概率需要引入先驗概率分布 p(w), 所以最大后驗概率估計的效果，也取決于先驗概率的設定，一個糟糕的先驗概率將會導致一個糟糕的后驗概率估計。

>
Andrew Ng, “Machine Learning”, Stanford University.
C.M.Bishop, “Pattern Recognition and Machine Learning”.

轉載于:https://www.cnblogs.com/mtcnn/p/9412495.html

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/457874.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/457874.shtml
英文地址，請注明出處：http://en.pswp.cn/news/457874.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！