https://metaso.cn/s/r4kq4Ni 什么是最大似然估計(MLE)最大后驗估計(MAP)?深度學習中如何應用,舉例說明。
好的,我現在需要回答關于最大似然估計(MLE)和最大后驗估計(MAP)的問題,同時說明它們在深度學習中的應用并舉例。首先,我得理解這兩個概念的基本定義以及它們的區別和聯系,然后結合我搜索到的資料來組織答案。
首先,根據MLE屬于頻率學派的方法,認為參數是固定的未知常數,通過最大化似然函數來估計參數。而MAP屬于貝葉斯學派,將參數視為隨機變量,結合先驗分布和似然函數來最大化后驗概率。例如,提到MLE不考慮先驗,而MAP利用貝葉斯定理結合先驗和似然。和也強調了這一點,同時指出MAP可以看作是MLE的正則化版本,因為加入先驗項類似于在損失函數中添加正則化項。
接下來,需要解釋它們在深度學習中的應用。和提到在深度學習中,MLE通常對應交叉熵損失或均方誤差(MSE),比如分類任務中使用交叉熵,回歸任務中使用MSE。例如,訓練神經網絡時,最小化交叉熵損失等價于最大化似然函數。而MAP則通過引入先驗(如權重的高斯先驗),對應為損失函數中加入L2正則化(權重衰減),例如嶺回歸的情況。明確指出,使用高斯先驗的MAP對應于在MLE的基礎上添加L2正則化項,這有助于防止過擬合。也提到嶺回歸和LASSO作為例子,展示如何通過不同先驗分布實現不同的正則化效果。
另外,提到的Adam優化算法雖然主要講優化方法,但可以結合MLE和MAP的目標函數進行參數更新,例如在訓練中結合正則化項(如權重衰減)時,實際是在進行MAP估計。例如,深度學習中使用Adam優化器訓練帶有L2正則化的模型,就是在應用MAP框架,因為L2正則化等價于高斯先驗的假設。
需要確認證據之間是否有矛盾。例如,提到MLE在高維問題中的局限性,如參數估計可能有偏,而MAP同樣可能因后驗峰值不典型存在問題。但多數證據(如9、11、17)指出MAP通過引入先驗可以改善小數據下的估計,但若先驗不準確可能適得其反,這也需要注意。
最后,舉例部分應具體。比如,在圖像分類中使用交叉熵損失(MLE),或者在神經網絡訓練中,使用L2正則化對應MAP的高斯先驗。中的例子非常直接,說明MSE對應于MLE,添加L2正則化則是MAP的應用。
總結結構:定義MLE和MAP,區別與聯系(頻率vs貝葉斯,先驗的作用),在深度學習中的應用(損失函數對應MLE,正則化對應MAP),具體例子(交叉熵/MSE,L2正則化)。
最大似然估計(MLE)和最大后驗估計(MAP)是統計學中兩種重要的參數估計方法,在深度學習中具有廣泛應用。以下從定義、區別、聯系及應用實例進行詳細說明:
1. 最大似然估計(MLE)
-
定義:MLE是頻率學派的方法,認為參數是固定但未知的常量,通過最大化觀測數據的似然函數來估計參數。其數學表達式為:
θ ^ MLE = arg ? max ? θ P ( X ∣ θ ) \hat{\theta}_{\text{MLE}} = \arg\max_{\theta} P(X \mid \theta) θ^MLE?=argθmax?P(X∣θ)其中, X X X是觀測數據,似然函數 P ( X ∣ θ ) P(X \mid \theta) P(X∣θ)表示參數 θ \theta θ下數據出現的概率。
-
特點:
- 僅依賴數據:不引入參數的先驗知識。
- 計算高效:常通過對數似然函數(Negative Log Likelihood, NLL)轉換為優化問題求解。
- 局限性:在小樣本或高維問題中可能產生有偏估計(如高斯分布方差估計偏差)。
2. 最大后驗估計(MAP)
-
定義:MAP是貝葉斯學派的方法,將參數視為隨機變量,結合先驗分布 P ( θ ) P(\theta) P(θ)和似然函數,通過最大化后驗分布來估計參數:
θ ^ MAP = arg ? max ? θ P ( θ ∣ X ) = arg ? max ? θ P ( X ∣ θ ) P ( θ ) \hat{\theta}_{\text{MAP}} = \arg\max_{\theta} P(\theta \mid X) = \arg\max_{\theta} P(X \mid \theta)P(\theta) θ^MAP?=argθmax?P(θ∣X)=argθmax?P(X∣θ)P(θ)后驗分布由貝葉斯定理導出,忽略常數項 P ( X ) P(X) P(X)后簡化為似然與先驗的乘積。
-
特點:
- 引入先驗知識:例如假設參數服從高斯分布(對應L2正則化)或拉普拉斯分布(對應L1正則化)。
- 正則化作用:先驗項可防止過擬合,尤其在數據不足時提升估計穩定性。
- 依賴性:估計結果依賴于參數表示方式(如參數變換可能導致結果變化)。
3. MLE與MAP的區別與聯系
-
區別:
MLE MAP 頻率學派,參數為常量 貝葉斯學派,參數為隨機變量 僅最大化似然函數 最大化后驗(似然×先驗) 無正則化 通過先驗實現正則化 -
聯系:
- 當先驗分布為均勻分布時,MAP退化為MLE。
- 隨著數據量增大,先驗的影響減弱,MAP趨近于MLE。
4. 深度學習中的應用
(1)MLE的應用
-
損失函數設計:
- 分類任務:交叉熵損失(Cross-Entropy Loss)等價于最大化對數似然。例如,圖像分類中,Softmax輸出的對數概率與真實標簽的交叉熵即為NLL。
- 回歸任務:均方誤差(MSE)對應高斯噪聲假設下的MLE。例如,預測房價時,假設目標值服從高斯分布,MSE最小化即最大化似然。
-
實例:
訓練神經網絡時,最小化交叉熵損失等價于最大化標簽的似然概率。
(2)MAP的應用
- 正則化技術:
- L2正則化(權重衰減) :等價于假設權重服從高斯先驗 P ( w ) ~ N ( 0 , σ 2 ) P(w) \sim \mathcal{N}(0, \sigma^2) P(w)~N(0,σ2)。優化目標為:
arg ? min ? w ( NLL + λ ∥ w ∥ 2 2 ) \arg\min_w \left( \text{NLL} + \lambda \|w\|_2^2 \right) argwmin?(NLL+λ∥w∥22?)
- L2正則化(權重衰減) :等價于假設權重服從高斯先驗 P ( w ) ~ N ( 0 , σ 2 ) P(w) \sim \mathcal{N}(0, \sigma^2) P(w)~N(0,σ2)。優化目標為:
例如,在ResNet訓練中,權重衰減項即為MAP框架下的高斯先驗。
-
L1正則化:對應拉普拉斯先驗,促進稀疏權重,用于特征選擇。
-
實例:
嶺回歸(Ridge Regression)是線性回歸的MAP版本,通過L2正則化控制模型復雜度。
5. 總結
- MLE:核心是數據驅動,適用于數據充分且無強先驗假設的場景。
- MAP:通過先驗引入領域知識,提升小數據下的魯棒性,與正則化技術緊密相關。
- 深度學習中的典型應用:
- MLE對應標準損失函數(如交叉熵、MSE)。
- MAP對應帶有正則化的損失函數(如L2/L1正則化)。
兩者的選擇需結合實際問題的數據量、先驗知識的可靠性及模型復雜度需求。
最大似然估計(MLE)和最大后驗估計(MAP)是兩種參數估計方法,廣泛應用于統計學和機器學習中。它們在深度學習中的具體應用如下:
deepseek.com:什么是最大似然估計(MLE)最大后驗估計(MAP)?深度學習中如何應用,舉例說明。
1. 最大似然估計(MLE)
定義
MLE 的核心思想是找到一組參數 θ \theta θ,使得觀測數據 D D D 出現的概率(似然函數)最大:
θ MLE = arg ? max ? θ P ( D ∣ θ ) \theta_{\text{MLE}} = \arg\max_\theta P(D | \theta) θMLE?=argθmax?P(D∣θ)
即選擇使得數據似然性最高的參數。
特點
- 頻率學派方法:認為參數是固定但未知的,數據是隨機的。
- 無先驗假設:僅依賴觀測數據,不引入參數的先驗知識。
2. 最大后驗估計(MAP)
定義
MAP 在貝葉斯框架下,結合參數的先驗分布 P ( θ ) P(\theta) P(θ),最大化后驗概率:
θ MAP = arg ? max ? θ P ( θ ∣ D ) = arg ? max ? θ P ( D ∣ θ ) P ( θ ) \theta_{\text{MAP}} = \arg\max_\theta P(\theta | D) = \arg\max_\theta P(D | \theta) P(\theta) θMAP?=argθmax?P(θ∣D)=argθmax?P(D∣θ)P(θ)
即同時考慮數據似然性和參數先驗。
特點
- 貝葉斯學派方法:認為參數是隨機變量,有先驗分布。
- 正則化作用:先驗分布可看作對參數的約束,防止過擬合。
MLE vs MAP 的區別
特性 | MLE | MAP |
---|---|---|
目標 | 最大化似然函數 $P(D | \theta)$ |
先驗信息 | 不包含先驗 | 包含先驗 P ( θ ) P(\theta) P(θ) |
數據量影響 | 數據量越大越準確 | 小數據時先驗影響顯著 |
深度學習中的應用
(1)MLE 的應用
在深度學習中,負對數似然(Negative Log-Likelihood, NLL) 常被用作損失函數,最小化 NLL 等價于最大化似然函數。
示例:
- 分類任務:交叉熵損失(Cross-Entropy Loss)是 MLE 的直接體現。假設標簽服從多項式分布,模型輸出概率為 p ( y ∣ x ; θ ) p(y|x;\theta) p(y∣x;θ),則損失函數為:
L ( θ ) = ? ∑ i = 1 N log ? p ( y i ∣ x i ; θ ) \mathcal{L}(\theta) = -\sum_{i=1}^N \log p(y_i | x_i; \theta) L(θ)=?i=1∑N?logp(yi?∣xi?;θ) - 回歸任務:均方誤差(MSE)對應高斯分布的 MLE。假設目標值服從高斯分布 y ~ N ( f θ ( x ) , σ 2 ) y \sim \mathcal{N}(f_\theta(x), \sigma^2) y~N(fθ?(x),σ2),則損失函數為:
L ( θ ) = 1 2 σ 2 ∑ i = 1 N ( y i ? f θ ( x i ) ) 2 \mathcal{L}(\theta) = \frac{1}{2\sigma^2} \sum_{i=1}^N (y_i - f_\theta(x_i))^2 L(θ)=2σ21?i=1∑N?(yi??fθ?(xi?))2
(2)MAP 的應用
在損失函數中引入正則化項,對應參數的先驗分布:
- L2 正則化(權重衰減):等價于假設參數服從高斯先驗 θ ~ N ( 0 , σ 2 ) \theta \sim \mathcal{N}(0, \sigma^2) θ~N(0,σ2)。
- L1 正則化:等價于假設參數服從拉普拉斯先驗 θ ~ Laplace ( 0 , b ) \theta \sim \text{Laplace}(0, b) θ~Laplace(0,b)。
示例:
-
帶權重衰減的線性回歸:
損失函數為 MSE 加上 L2 正則項:
L ( θ ) = ∑ i = 1 N ( y i ? θ T x i ) 2 + λ ∥ θ ∥ 2 2 \mathcal{L}(\theta) = \sum_{i=1}^N (y_i - \theta^T x_i)^2 + \lambda \|\theta\|_2^2 L(θ)=i=1∑N?(yi??θTxi?)2+λ∥θ∥22?
這等價于最大化后驗概率 P ( θ ∣ D ) ∝ P ( D ∣ θ ) P ( θ ) P(\theta|D) \propto P(D|\theta)P(\theta) P(θ∣D)∝P(D∣θ)P(θ),其中 P ( θ ) P(\theta) P(θ) 是高斯分布。 -
貝葉斯神經網絡:
在參數優化時,通過引入先驗分布(如高斯先驗),并使用 MAP 估計參數,結合變分推斷或 MCMC 方法近似后驗。
具體案例
-
圖像分類(MLE):
- 使用交叉熵損失訓練 ResNet,直接最大化標簽的似然概率。
-
語言模型(MAP):
- 在 Transformer 模型中,通過 L2 正則化(權重衰減)約束參數,避免過擬合。
總結
- MLE:追求模型輸出與數據分布最匹配,常用于定義損失函數。
- MAP:通過引入先驗(正則化)提升泛化能力,尤其在數據量少時有效。
兩者的選擇取決于問題背景:MLE 更純粹依賴數據,MAP 結合領域知識(先驗)進行約束。
https://metaso.cn/s/6YFhhav
機器學習概率論之MLE, MAP的實例和計算過程
嗯,用戶問的是機器學習中的MLE和MAP的實例和計算過程。我需要先理清楚這兩個概念的基本定義和區別,然后找到證據中的相關例子和計算步驟。
首先,根據和,MLE是頻率學派的方法,目標是最大化似然函數P(X|θ),而MAP是貝葉斯學派的方法,最大化后驗概率P(θ|X),即考慮了先驗P(θ)。提到當先驗是均勻分布時,MAP就退化成MLE。另外,和都舉了拋硬幣的例子,這應該可以作為實例。
再看計算過程。例如,詳細描述了拋硬幣的MLE計算:假設獨立同分布,似然函數是p的乘積,取對數后求導,得到p的估計值是正面次數除以總次數。這個例子很典型,應該用上。
關于MAP的例子,提到單變量高斯分布均值的估計,假設先驗也是高斯分布,結果是一個加權平均,結合了MLE的樣本均值和先驗均值。也提到高斯分布的MAP推導,給出具體公式。還有提到用Beta分布作為先驗,修正MLE的結果,比如當拋硬幣出現極端情況時,MAP可以引入先驗知識調整結果。
另外,指出,當參數服從高斯先驗時,MAP對應的損失函數相當于L2正則化,而拉普拉斯先驗對應L1。這可以作為一個應用實例,比如在正則化中如何體現MAP的思想。
現在需要將這些例子整理出來,分步驟說明計算過程。比如MLE在拋硬幣中的步驟:寫出似然函數,取對數,求導,解方程得到p的估計。而MAP則是在此基礎上加入先驗,比如Beta分布,然后同樣最大化后驗,得到調整后的估計值。
還要注意引用對應的證據來源。比如拋硬幣的MLE例子在,MAP的高斯例子在,正則化對應MAP在。
可能的混淆點在于不同分布下的計算,比如二項分布和高斯分布的例子需要分別說明。此外,要強調MLE和MAP的聯系,比如當先驗均勻時,MAP等于MLE,如所述。
總結一下,回答的結構應該是先分別介紹MLE和MAP的定義,然后各舉一個具體實例(如拋硬幣的MLE,高斯分布均值的MAP),詳細寫出計算步驟,最后說明它們的聯系和區別,比如正則化與先驗的關系,以及均勻先驗下的特例。
在機器學習中,最大似然估計(MLE)和最大后驗估計(MAP)是兩種核心的參數估計方法,分別對應頻率學派和貝葉斯學派的觀點。以下是具體實例和計算過程的詳細說明:
1. 最大似然估計(MLE)
定義
MLE的目標是找到參數θ,使得觀測數據X的似然函數$ P(X|\theta) $最大化,即:
θ ^ M L E = arg ? max ? θ P ( X ∣ θ ) \hat{\theta}_{MLE} = \arg\max_{\theta} P(X|\theta) θ^MLE?=argθmax?P(X∣θ)
假設數據獨立同分布(i.i.d.),似然函數通常表示為各樣本概率的乘積。為簡化計算,常對似然函數取對數(對數似然函數),將乘法轉換為加法。
實例:拋硬幣估計正面概率
問題:拋硬幣10次,7次正面,估計正面概率p。
步驟:
-
假設模型:硬幣服從伯努利分布,正面概率為p,反面為1-p。
-
似然函數:
P ( X ∣ p ) = p 7 ( 1 ? p ) 3 P(X|p) = p^7(1-p)^3 P(X∣p)=p7(1?p)3 -
對數似然:
log ? P ( X ∣ p ) = 7 log ? p + 3 log ? ( 1 ? p ) \log P(X|p) = 7\log p + 3\log(1-p) logP(X∣p)=7logp+3log(1?p) -
求導并解方程:
對p求導并令導數為0:
7 p ? 3 1 ? p = 0 ? p = 7 10 \frac{7}{p} - \frac{3}{1-p} = 0 \Rightarrow p = \frac{7}{10} p7??1?p3?=0?p=107?
結果:MLE估計正面概率為0.7。
2. 最大后驗估計(MAP)
定義
MAP在貝葉斯框架下引入先驗分布$ P(\theta) , 目 標 是 最 大 化 后 驗 概 率 ,目標是最大化后驗概率 ,目標是最大化后驗概率 P(\theta|X) $,即:
θ ^ M A P = arg ? max ? θ P ( θ ∣ X ) = arg ? max ? θ P ( X ∣ θ ) P ( θ ) \hat{\theta}_{MAP} = \arg\max_{\theta} P(\theta|X) = \arg\max_{\theta} P(X|\theta)P(\theta) θ^MAP?=argθmax?P(θ∣X)=argθmax?P(X∣θ)P(θ)
實例1:高斯分布均值的MAP估計
問題:觀測數據$ X = {x_1, x_2, …, x_n} 服 從 高 斯 分 布 服從高斯分布 服從高斯分布 \mathcal{N}(\mu, \sigma^2) , 假 設 μ 的 先 驗 分 布 為 ,假設μ的先驗分布為 ,假設μ的先驗分布為 \mathcal{N}(\mu_0, \beta^2) $,估計μ。
步驟:
-
似然函數:
P ( X ∣ μ ) ∝ exp ? ( ? 1 2 σ 2 ∑ i = 1 n ( x i ? μ ) 2 ) P(X|\mu) \propto \exp\left(-\frac{1}{2\sigma^2}\sum_{i=1}^n (x_i - \mu)^2\right) P(X∣μ)∝exp(?2σ21?i=1∑n?(xi??μ)2) -
先驗分布:
P ( μ ) ∝ exp ? ( ? 1 2 β 2 ( μ ? μ 0 ) 2 ) P(\mu) \propto \exp\left(-\frac{1}{2\beta^2}(\mu - \mu_0)^2\right) P(μ)∝exp(?2β21?(μ?μ0?)2) -
后驗概率(忽略常數項):
P ( μ ∣ X ) ∝ exp ? ( ? 1 2 σ 2 ∑ ( x i ? μ ) 2 ? 1 2 β 2 ( μ ? μ 0 ) 2 ) P(\mu|X) \propto \exp\left(-\frac{1}{2\sigma^2}\sum (x_i - \mu)^2 - \frac{1}{2\beta^2}(\mu - \mu_0)^2\right) P(μ∣X)∝exp(?2σ21?∑(xi??μ)2?2β21?(μ?μ0?)2) -
對數后驗:對μ求導并令導數為0,得到:
μ M A P = σ 2 μ 0 + n β 2 x ˉ σ 2 + n β 2 \mu_{MAP} = \frac{\sigma^2 \mu_0 + n\beta^2 \bar{x}}{\sigma^2 + n\beta^2} μMAP?=σ2+nβ2σ2μ0?+nβ2xˉ?其中,$ \bar{x} = \frac{1}{n}\sum x_i $為樣本均值(MLE結果)。
結果:MAP估計是樣本均值和先驗均值的加權平均,權重由樣本數量和先驗方差決定。
實例2:拋硬幣的MAP估計(Beta先驗)
問題:拋硬幣10次,7次正面,假設p的先驗為Beta分布$ \text{Beta}(\alpha, \beta) $,估計p。
步驟:
-
似然函數:同MLE例子,$ P(X|p) = p7(1-p)3 $。
-
先驗分布:
P ( p ) ∝ p α ? 1 ( 1 ? p ) β ? 1 P(p) \propto p^{\alpha-1}(1-p)^{\beta-1} P(p)∝pα?1(1?p)β?1 -
后驗分布(Beta分布共軛性):
P ( p ∣ X ) ∝ p 7 + α ? 1 ( 1 ? p ) 3 + β ? 1 P(p|X) \propto p^{7+\alpha-1}(1-p)^{3+\beta-1} P(p∣X)∝p7+α?1(1?p)3+β?1 -
最大化后驗:后驗分布的眾數為:
p M A P = 7 + α ? 1 10 + α + β ? 2 p_{MAP} = \frac{7+\alpha-1}{10+\alpha+\beta-2} pMAP?=10+α+β?27+α?1?
結果:若選$ \alpha=4, \beta=4 , 則 ,則 ,則 p_{MAP} = \frac{10}{16} = 0.625 $,比MLE的0.7更接近均勻先驗假設。
3. MLE與MAP的聯系
-
先驗的影響:
- 當先驗為均勻分布時(如$ \alpha=1, \beta=1 $的Beta分布),MAP退化為MLE。
- 當數據量趨于無窮大時,MAP與MLE趨近一致,先驗影響可忽略。
-
正則化與先驗的關系:
- 高斯先驗等價于L2正則化(如嶺回歸),拉普拉斯先驗等價于L1正則化(如LASSO)。
總結
- MLE:適用于數據量充足、無需引入先驗的場景,計算簡單但可能過擬合。
- MAP:通過先驗修正估計結果,提升小樣本下的魯棒性,且與正則化技術緊密關聯。
兩者在參數估計中各有優劣,需根據實際問題選擇合適方法。
好的,用戶問的是拋硬幣的后驗分布是怎么得出的。我需要回顧一下之前講的MAP例子,特別是Beta先驗的情況。用戶可能是在學習貝葉斯統計,對如何從先驗和似然推導后驗不太清楚。他們可能已經知道MLE和MAP的基本概念,但具體到硬幣例子的推導過程還需要更詳細的解釋。
首先,我需要確定用戶的問題點在哪里。后驗分布的推導涉及到貝葉斯定理,所以應該從貝葉斯公式出發,結合似然和先驗分布。在之前的回答中,提到了Beta先驗和伯努利試驗的似然函數,后驗分布是Beta分布,這是因為Beta分布是伯努利分布的共軛先驗。所以用戶可能對共軛先驗的概念還不熟悉,或者想知道具體的計算步驟。
接下來,我需要詳細列出推導過程。首先是貝葉斯定理的應用,寫出后驗正比于似然乘先驗。然后,具體到硬幣的例子,似然函數是p7(1-p)3,先驗是Beta(α,β),即p{α-1}(1-p){β-1}。兩者相乘之后,得到p{7+α-1}(1-p){3+β-1},也就是Beta(7+α, 3+β)。這時候需要解釋為什么乘積就是Beta分布的形式,強調共軛先驗的作用,這樣后驗和先驗屬于同一分布族,計算方便。
然后,可能需要說明歸一化常數的問題,因為貝葉斯定理中的分母是邊緣似然,這里可以忽略,因為只需要知道后驗分布的形狀,最后歸一化由Beta分布的系數完成。所以后驗分布的參數更新為α’ = α + 7,β’ = β + 3,或者更準確地說,α’ = α + k(成功次數),β’ = β + (n - k)(失敗次數)。
用戶可能還會疑惑如何從乘積得到后驗的具體形式,所以需要用數學步驟展示,比如將似然和先驗的表達式相乘,合并同類項,得到新的參數。同時,要指出后驗分布的眾數(mode)就是MAP估計值,即(p^ (α’ -1) (1-p)^(β’ -1))的極值點,通過求導得到結果。
另外,可能需要提醒用戶,當先驗是均勻分布時(比如α=1,β=1),后驗就變成了Beta(8,4),這時候MAP估計和MLE的結果不同,因為有先驗的影響。而如果數據量很大,先驗的影響會被稀釋,后驗趨近于MLE的結果。
還要注意用戶是否理解為什么選擇Beta分布作為先驗,這時候需要簡要解釋共軛先驗的好處,即數學上的便利性,使得后驗分布容易計算。可能還需要提到其他可能的先驗選擇,但Beta在這里最方便。
最后,檢查是否有步驟跳過了關鍵解釋,比如對數轉換、求導過程,或者是否應該詳細展開這些數學推導。根據用戶的問題,他們可能更關心整體的推導流程,而不是每一步的詳細計算,但適當的數學步驟可以增強理解。
總結回答的結構應該是:貝葉斯定理 -> 似然函數 -> 先驗分布 -> 后驗正比于乘積 -> 合并參數得到Beta分布 -> 解釋參數更新 -> 舉例說明。這樣用戶就能一步步看到后驗是如何得出的。
在拋硬幣問題中,后驗分布的推導基于貝葉斯定理,結合觀測數據(似然函數)和先驗分布。以下是具體推導過程:
1. 貝葉斯定理框架
后驗分布 $ P(p|X) $ 的公式為:
P ( p ∣ X ) = P ( X ∣ p ) P ( p ) P ( X ) P(p|X) = \frac{P(X|p)P(p)}{P(X)} P(p∣X)=P(X)P(X∣p)P(p)?
其中:
- $ P(X|p) $ 是似然函數(給定參數 $ p $ 時數據的概率),
- P ( p ) P(p) P(p) 是先驗分布(對參數 $ p $ 的初始假設),
- $ P(X) $ 是邊緣似然(歸一化常數,與 $ p $ 無關)。
實際計算中,只需關注分子部分的比例關系:
P ( p ∣ X ) ∝ P ( X ∣ p ) P ( p ) P(p|X) \propto P(X|p)P(p) P(p∣X)∝P(X∣p)P(p)
2. 拋硬幣問題的具體推導
(1) 問題設定
-
觀測數據:拋硬幣 10 次,7 次正面(記作 $ k=7 $,總次數 $ n=10 $)。
-
似然函數:硬幣服從伯努利分布,概率為 $ p $,即:
P ( X ∣ p ) = p k ( 1 ? p ) n ? k = p 7 ( 1 ? p ) 3 P(X|p) = p^k(1-p)^{n-k} = p^7(1-p)^3 P(X∣p)=pk(1?p)n?k=p7(1?p)3 -
先驗分布:假設 $ p $ 的先驗為 Beta 分布 $ \text{Beta}(\alpha, \beta) $,其概率密度函數為:
P ( p ) = p α ? 1 ( 1 ? p ) β ? 1 B ( α , β ) ∝ p α ? 1 ( 1 ? p ) β ? 1 P(p) = \frac{p^{\alpha-1}(1-p)^{\beta-1}}{B(\alpha, \beta)} \propto p^{\alpha-1}(1-p)^{\beta-1} P(p)=B(α,β)pα?1(1?p)β?1?∝pα?1(1?p)β?1其中 $ B(\alpha, \beta) $ 是 Beta 函數(歸一化常數)。
(2) 后驗分布的推導
將似然函數和先驗分布代入貝葉斯公式:
P ( p ∣ X ) ∝ p 7 ( 1 ? p ) 3 ? 似然 ? p α ? 1 ( 1 ? p ) β ? 1 ? 先驗 = p 7 + α ? 1 ( 1 ? p ) 3 + β ? 1 P(p|X) \propto \underbrace{p^7(1-p)^3}_{\text{似然}} \cdot \underbrace{p^{\alpha-1}(1-p)^{\beta-1}}_{\text{先驗}} = p^{7+\alpha-1}(1-p)^{3+\beta-1} P(p∣X)∝似然 p7(1?p)3???先驗 pα?1(1?p)β?1??=p7+α?1(1?p)3+β?1
合并指數項后:
P ( p ∣ X ) ∝ p α new ? 1 ( 1 ? p ) β new ? 1 , P(p|X) \propto p^{\alpha_{\text{new}}-1}(1-p)^{\beta_{\text{new}}-1}, P(p∣X)∝pαnew??1(1?p)βnew??1,
其中:
- $ \alpha_{\text{new}} = \alpha + k = \alpha + 7 $,
- $ \beta_{\text{new}} = \beta + (n - k) = \beta + 3 $.
這表明后驗分布仍然是 Beta 分布,參數更新為:
P ( p ∣ X ) = Beta ( α new , β new ) = Beta ( α + 7 , β + 3 ) . P(p|X) = \text{Beta}(\alpha_{\text{new}}, \beta_{\text{new}}) = \text{Beta}(\alpha+7, \beta+3). P(p∣X)=Beta(αnew?,βnew?)=Beta(α+7,β+3).
(3) 直觀解釋
- 共軛先驗的作用:Beta 分布是伯努利分布的共軛先驗,即先驗和后驗屬于同一分布族,這使得計算簡化為參數更新。
- 參數更新規則:
- 成功次數:先驗參數 $ \alpha $ 加上觀測到的正面次數 $ k $。
- 失敗次數:先驗參數 $ \beta $ 加上觀測到的反面次數 $ n - k $。
3. 舉例說明
假設先驗為均勻分布 $ \text{Beta}(1,1) $(即認為 $ p $ 在 [0,1] 上均勻分布),則后驗分布為:
Beta ( 1 + 7 , 1 + 3 ) = Beta ( 8 , 4 ) . \text{Beta}(1+7, 1+3) = \text{Beta}(8,4). Beta(1+7,1+3)=Beta(8,4).
-
后驗的眾數(MAP估計):
p M A P = α new ? 1 α new + β new ? 2 = 8 ? 1 8 + 4 ? 2 = 7 10 = 0.7. p_{MAP} = \frac{\alpha_{\text{new}} - 1}{\alpha_{\text{new}} + \beta_{\text{new}} - 2} = \frac{8-1}{8+4-2} = \frac{7}{10} = 0.7. pMAP?=αnew?+βnew??2αnew??1?=8+4?28?1?=107?=0.7.此時 MAP 與 MLE 結果相同,因為均勻先驗未引入額外信息。
若先驗為 $ \text{Beta}(4,4) $,則后驗為 $ \text{Beta}(11,7) $,眾數為:
p M A P = 11 ? 1 11 + 7 ? 2 = 10 16 = 0.625. p_{MAP} = \frac{11-1}{11+7-2} = \frac{10}{16} = 0.625. pMAP?=11+7?211?1?=1610?=0.625.
此時 MAP 估計偏向先驗均值(0.5),體現了先驗對結果的修正作用。
4. 總結
后驗分布的推導步驟為:
- 寫出似然函數:基于觀測數據的伯努利分布。
- 選擇共軛先驗(如 Beta 分布),簡化計算。
- 應用貝葉斯定理:將似然與先驗相乘,合并指數項得到后驗分布。
- 參數更新:后驗參數是“先驗參數 + 觀測次數”。
通過這種方式,貝葉斯方法將先驗知識與觀測數據結合,得到參數的后驗分布。