在機器學習領域,概率估計是經常用到的一種模型,而概率估計中,我們經常會看到兩種估計模型,一種是最大似然估計,即 Maximum likelihood, 另外一種就是最大后驗概率估計,即 Maximum posterior , 兩種模型可以由貝葉斯定理演化而來。
在介紹這兩種模型之前,我們先來看一下貝葉斯定理:
這里,D 表示觀察到的數據,而 w 表示我們要求的變量或者參數。我們來看看貝葉斯定理中,每一項所表示的含義:
p(D) 表示數據的概率分布
p(w) 表示參數w 的概率分布,一般稱為先驗概率分布,因為我們本意是要求 w 的,所以理論上來說,我們無法事先確切地知道 w 的概率分布,但是我們可以給出一個大概的經驗估計,所以稱為先驗分布 prior distribution。
p(D|w) 表示似然函數 likelihood function。
p(w|D) 表示后驗概率分布 posterior distribution。
p(D|w) 表示了一種 “似然率”, 對于不同的參數w, 我們觀測到數據D 的概率是不同的, 最大似然估計, 就是找到 w, 使得我們觀測到數據D 的概率最大。所以最大似然估計可以表示為:
p(w|D) 表示后驗概率,如果給定了觀測數據, 我們可以推測參數w 的概率分布, 根據貝葉斯定理,我們可以看出:
即:
而貝葉斯定理中的分母 p(D) 是一個歸一化變量, 可以看出
換句話說,后驗概率與似然函數和先驗概率之積是成比例的。
我們可以看到,無論是最大似然估計還是最大后驗概率估計,似然函數都發揮著重要作用。但這兩種估計,反應了兩種觀點。最大似然估計是古典統計學派的觀點,古典統計學派認為,參數w 是固定的,可以通過觀測到的數據直接求出來。而最大后驗概率估計是貝葉斯學派的觀點,貝葉斯學派認為,只有數據是可見的,參數w 也是不固定的,而是滿足一定概率分布 p(w|D) 的。
這兩種模型,孰優孰劣,一直以來都是莫衷一是,未有定論。最大似然估計被人詬病之處是估計存在bias,在某些極端情況下,是違反經驗與直覺的。最大后驗概率估計可以有效地減弱這種bias,但是最大后驗概率需要引入先驗概率分布 p(w), 所以最大后驗概率估計的效果,也取決于先驗概率的設定,一個糟糕的先驗概率將會導致一個糟糕的后驗概率估計。
>
Andrew Ng, “Machine Learning”, Stanford University.
C.M.Bishop, “Pattern Recognition and Machine Learning”.