詳解最大似然估計（MLE）、最大后驗概率估計（MAP），以及貝葉斯公式的理解

聲明：本文為原創文章，發表于nebulaf91的csdn博客。歡迎轉載，但請務必保留本信息，注明文章出處。
本文作者: nebulaf91
本文原始地址：http://blog.csdn.net/u011508640/article/details/72815981

最大似然估計（Maximum likelihood estimation, 簡稱MLE）和最大后驗概率估計（Maximum a posteriori estimation, 簡稱MAP）是很常用的兩種參數估計方法，如果不理解這兩種方法的思路，很容易弄混它們。下文將詳細說明MLE和MAP的思路與區別。

但別急，我們先從概率和統計的區別講起。

概率和統計是一個東西嗎？

概率（probabilty）和統計（statistics）看似兩個相近的概念，其實研究的問題剛好相反。

概率研究的問題是，已知一個模型和參數，怎么去預測這個模型產生的結果的特性（例如均值，方差，協方差等等）。舉個例子，我想研究怎么養豬（模型是豬），我選好了想養的品種、喂養方式、豬棚的設計等等（選擇參數），我想知道我養出來的豬大概能有多肥，肉質怎么樣（預測結果）。

統計研究的問題則相反。統計是，有一堆數據，要利用這堆數據去預測模型和參數。仍以豬為例。現在我買到了一堆肉，通過觀察和判斷，我確定這是豬肉（這就確定了模型。在實際研究中，也是通過觀察數據推測模型是／像高斯分布的、指數分布的、拉普拉斯分布的等等），然后，可以進一步研究，判定這豬的品種、這是圈養豬還是跑山豬還是網易豬，等等（推測模型參數）。

一句話總結：概率是已知模型和參數，推數據。統計是已知數據，推模型和參數。

顯然，本文解釋的MLE和MAP都是統計領域的問題。它們都是用來推測參數的方法。為什么會存在著兩種不同方法呢？這需要理解貝葉斯思想。我們來看看貝葉斯公式。

貝葉斯公式到底在說什么？

學習機器學習和模式識別的人一定都聽過貝葉斯公式(Bayes’ Theorem)：
$P(A∣B)=P(B∣A)P(A)P(B)【式1】P(A|B)=\frac{P(B|A)P(A)}{P(B)}\ \ \ \ \ \ \ \ \ 【式1】$
貝葉斯公式看起來很簡單，無非是倒了倒條件概率和聯合概率的公式。

把B展開，可以寫成：

$P(A∣B)=P(B∣A)P(A)P(B∣A)P(A)+P(B∣Aˉ)P(Aˉ)【式2】P(A|B)=\frac{P(B|A)P(A)}{P(B|A)P(A)+P(B|\bar{A})P(\bar{A})}\ \ \ \ \ \ \ \ 【式2】$
其中 $Aˉ\bar{A}$ 表示：非 $A$ 。

這個式子就很有意思了。

想想這個情況。一輛汽車（或者電瓶車）的警報響了，你通常是什么反應？有小偷？撞車了？不。。你通常什么反應都沒有。因為汽車警報響一響實在是太正常了！每天都要發生好多次。本來，汽車警報設置的功能是，出現了異常情況，需要人關注。然而，由于虛警實在是太多，人們漸漸不相信警報的功能了。

貝葉斯公式就是在描述，你有多大把握能相信一件證據？（how much you can trust the evidence）

我們假設響警報的目的就是想說汽車被砸了。把A計作“汽車被砸了”，B計作“警報響了”，帶進貝葉斯公式里看。我們想求等式左邊 $A ∣ B$ 發生的概率，這是在說警報響了，汽車也確實被砸了。汽車被砸引起（trigger） 警報響，即 $B ∣ A$ 。但是，也有可能是汽車被小孩子皮球踢了一下、被行人碰了一下等其他原因（統統計作 $Aˉ\bar{A}$ ），其他原因引起汽車警報響了，即 $B∣AˉB|\bar{A}$ 。那么，現在突然聽見警報響了，這時汽車已經被砸了的概率是多少呢（這即是說，警報響這個證據有了，多大把握能相信它確實是在報警說汽車被砸了？）想一想，應當這樣來計算。用警報響起、汽車也被砸了這事件的數量，除以響警報事件的數量（這即【式1】）。進一步展開，即警報響起、汽車也被砸了的事件的數量，除以警報響起、汽車被砸了的事件數量加上警報響起、汽車沒被砸的事件數量（這即【式2】）。

可能有點繞，請稍稍想一想。

再思考【式2】。想讓 $P (A ∣ B) = 1$ ，即警報響了，汽車一定被砸了，該怎么做呢？讓 $P(B∣Aˉ)P(Aˉ)=0P(B|\bar{A})P(\bar{A}) = 0$ 即可。很容易想清楚，假若讓 $P(Aˉ)=0P(\bar{A}) = 0$ ，即杜絕了汽車被球踢、被行人碰到等等其他所有情況，那自然，警報響了，只剩下一種可能——汽車被砸了。這即是提高了響警報這個證據的說服力。

從這個角度總結貝葉斯公式：做判斷的時候，要考慮所有的因素。 老板罵你，不一定是你把什么工作搞砸了，可能只是他今天出門前和太太吵了一架。

再思考【式2】。觀察【式2】右邊的分子， $P (B ∣ A)$ 為汽車被砸后響警報的概率。姑且仍為這是1吧。但是，若 $P (A)$ 很小，即汽車被砸的概率本身就很小，則 $P (B ∣ A) P (A)$ 仍然很小，即【式2】右邊分子仍然很小， $P (A ∣ B)$ 還是大不起來。這里， $P (A)$ 即是常說的先驗概率，如果 $A$ 的先驗概率很小，就算 $P (B ∣ A)$ 較大，可能 $A$ 的后驗概率 $P (A ∣ B)$ 還是不會大（假設 $P(B∣Aˉ)P(Aˉ)P(B|\bar{A})P(\bar{A})$ 不變的情況下）。

從這個角度思考貝葉斯公式：一個本來就難以發生的事情，就算出現某個證據和他強烈相關，也要謹慎。證據很可能來自別的雖然不是很相關，但發生概率較高的事情。發現剛才寫的代碼編譯報錯，可是我今天狀態特別好，這語言我也很熟悉，犯錯的概率很低。因此覺得是編譯器出錯了。 ————別，還是先再檢查下自己的代碼吧。

好了好了，說了這么多，下面言歸正傳，說一說MLE。——————不行，還得先說似然函數（likelihood function）。

似然函數

似然（likelihood）這個詞其實和概率（probability）是差不多的意思，Colins字典這么解釋：The likelihood of something happening is how likely it is to happen. 你把likelihood換成probability，這解釋也讀得通。但是在統計里面，似然函數和概率函數卻是兩個不同的概念（其實也很相近就是了）。

對于這個函數：

$P(X∣θ)P(X|\theta)$
輸入有兩個： $X$ 表示某一個具體的數據； $θ\theta$ 表示模型的參數。

如果 $θ\theta$ 是已知確定的， $X$ 是變量，這個函數叫做概率函數(probability function)，它描述對于不同的樣本點 $X$ ，其出現概率是多少。

如果 $X$ 是已知確定的， $θ\theta$ 是變量，這個函數叫做似然函數(likelihood function), 它描述對于不同的模型參數，出現 $X$ 這個樣本點的概率是多少。

這有點像“一菜兩吃”的意思。其實這樣的形式我們以前也不是沒遇到過。例如， $f(x, y) = x^y$ , 即 , 即 $x$ 的 $y$ 次方。如果 $x$ 是已知確定的（例如 $x = 2$ ），那這就是 $f(y)=2^y$ ，是指數函數；如果 $y$ 是已知確定的（例如 $y = 2$ ），那就是 $f(x)=x^2$ ，是二次函數。同一個數學形式，從不同的變量角度觀察，可以有不同的名字。

這么說應該清楚了吧？如果還沒講清楚，別急，下文會有具體例子。

現在真要先講講MLE了。。

最大似然估計（MLE）

假設有一個造幣廠生產某種硬幣，現在我們拿到了一枚這種硬幣，想試試這硬幣是不是均勻的。即想知道拋這枚硬幣，正反面出現的概率（記為 $θ\theta$ ）各是多少？

這是一個統計問題，回想一下，解決統計問題需要什么？數據！

于是我們拿這枚硬幣拋了10次，得到的數據 $x_0$ 是：反正正正正反正正正反。我們想求的正面概率 $θ\theta$ 是模型參數，而拋硬幣模型我們可以假設是二項分布。

那么，出現實驗結果 $x_0$ （即反正正正正反正正正反）的似然函數是多少呢？

$f(x0,θ)=(1?θ)×θ×θ×θ×θ×(1?θ)×θ×θ×θ×(1?θ)=θ7(1?θ)3=f(θ)\begin{align} f(x_0,\theta)&=(1-\theta)\times\theta\times\theta\times\theta\times\theta\times(1-\theta)\times\theta\times\theta\times\theta\times(1-\theta)\\ &=\theta^7(1-\theta)^3\\ &=f(\theta) \end{align}$
注意，這是個只關于 $θ\theta$ 的函數。而最大似然估計，顧名思義，就是要最大化這個函數。我們可以畫出 $f(θ)f(\theta)$ 的圖像：

在這里插入圖片描述

可以看出，在 $θ=0.7\theta=0.7$ 時，似然函數取得最大值。

這樣，我們已經完成了對 $θ\theta$ 的最大似然估計。即，拋10次硬幣，發現7次硬幣正面向上，最大似然估計認為正面向上的概率是0.7。ummm…這非常直觀合理，對吧？

且慢，一些人可能會說，硬幣一般都是均勻的啊！就算你做實驗發現結果是“反正正正正反正正正反”，我也不信 $θ=0.7\theta=0.7$ 。

這里就包含了貝葉斯學派的思想了——要考慮先驗概率。為此，引入了最大后驗概率估計。

最大后驗概率估計（MAP）

最大似然估計是求參數 $θ\theta$ ，使似然函數 $P(x0∣θ)P(x_0|\theta)$ 最大。而最大后驗概率估計則是想求 $θ\theta$ 使得 $P(x0∣θ)P(θ)P(x_0|\theta)P(\theta)$ 最大。求得的 $θ\theta$ 不單單讓似然最大，而且 $θ\theta$ 自己的先驗也得大。這有點像正則化里加懲罰項的思想，不過正則化里是利用加法，而MAP里是利用乘法。

MAP其實是在最大化 $P(θ∣x0)=P(x0∣θ)P(θ)P(x0)P(\theta|x_0)=\frac{P(x_0|\theta)P(\theta)}{P(x_0)}$ ，不過因為觀測數據 $x_0$ 是確定的，即投出的“反正正正正反正正正反”。所以 $P(x_0)$ 是一個已知值，所以最終的形式去掉了分母 $P(x_0)$ 。比如假設 “投10次硬幣記為一次實驗”，實驗做了 1000 次，出現 “反正正正正反正正正反” 的次數為 $n$ ，則 $P(x0)=n1000P(x_0)=\frac{n}{1000}$ 。總之，這是由觀測數據所確定的值。最大化 $(\theta ∣ x_0 )$ 的意義也很明確， $x_0$ 已經出現了，要求 $θ\theta$ 取什么值使 $P(θ∣x0)P(\theta|x_0)$ 最大。順帶一提， $P(θ∣x0)P(\theta|x_0)$ 就是后驗概率，這就是最大后驗概率估計名稱的由來。