用deepseek學大模型03-數學基礎 概率論 最大似然估計(MLE)最大后驗估計(MAP)

https://metaso.cn/s/r4kq4Ni 什么是最大似然估計(MLE)最大后驗估計(MAP)?深度學習中如何應用,舉例說明。

好的,我現在需要回答關于最大似然估計(MLE)和最大后驗估計(MAP)的問題,同時說明它們在深度學習中的應用并舉例。首先,我得理解這兩個概念的基本定義以及它們的區別和聯系,然后結合我搜索到的資料來組織答案。

首先,根據MLE屬于頻率學派的方法,認為參數是固定的未知常數,通過最大化似然函數來估計參數。而MAP屬于貝葉斯學派,將參數視為隨機變量,結合先驗分布和似然函數來最大化后驗概率。例如,提到MLE不考慮先驗,而MAP利用貝葉斯定理結合先驗和似然。和也強調了這一點,同時指出MAP可以看作是MLE的正則化版本,因為加入先驗項類似于在損失函數中添加正則化項。

接下來,需要解釋它們在深度學習中的應用。和提到在深度學習中,MLE通常對應交叉熵損失或均方誤差(MSE),比如分類任務中使用交叉熵,回歸任務中使用MSE。例如,訓練神經網絡時,最小化交叉熵損失等價于最大化似然函數。而MAP則通過引入先驗(如權重的高斯先驗),對應為損失函數中加入L2正則化(權重衰減),例如嶺回歸的情況。明確指出,使用高斯先驗的MAP對應于在MLE的基礎上添加L2正則化項,這有助于防止過擬合。也提到嶺回歸和LASSO作為例子,展示如何通過不同先驗分布實現不同的正則化效果。

另外,提到的Adam優化算法雖然主要講優化方法,但可以結合MLE和MAP的目標函數進行參數更新,例如在訓練中結合正則化項(如權重衰減)時,實際是在進行MAP估計。例如,深度學習中使用Adam優化器訓練帶有L2正則化的模型,就是在應用MAP框架,因為L2正則化等價于高斯先驗的假設。

需要確認證據之間是否有矛盾。例如,提到MLE在高維問題中的局限性,如參數估計可能有偏,而MAP同樣可能因后驗峰值不典型存在問題。但多數證據(如9、11、17)指出MAP通過引入先驗可以改善小數據下的估計,但若先驗不準確可能適得其反,這也需要注意。

最后,舉例部分應具體。比如,在圖像分類中使用交叉熵損失(MLE),或者在神經網絡訓練中,使用L2正則化對應MAP的高斯先驗。中的例子非常直接,說明MSE對應于MLE,添加L2正則化則是MAP的應用。

總結結構:定義MLE和MAP,區別與聯系(頻率vs貝葉斯,先驗的作用),在深度學習中的應用(損失函數對應MLE,正則化對應MAP),具體例子(交叉熵/MSE,L2正則化)。

最大似然估計(MLE)和最大后驗估計(MAP)是統計學中兩種重要的參數估計方法,在深度學習中具有廣泛應用。以下從定義、區別、聯系及應用實例進行詳細說明:


1. 最大似然估計(MLE)

  • 定義:MLE是頻率學派的方法,認為參數是固定但未知的常量,通過最大化觀測數據的似然函數來估計參數。其數學表達式為:
    θ ^ MLE = arg ? max ? θ P ( X ∣ θ ) \hat{\theta}_{\text{MLE}} = \arg\max_{\theta} P(X \mid \theta) θ^MLE?=argθmax?P(Xθ)

    其中, X X X是觀測數據,似然函數 P ( X ∣ θ ) P(X \mid \theta) P(Xθ)表示參數 θ \theta θ下數據出現的概率。

  • 特點

    • 僅依賴數據:不引入參數的先驗知識。
    • 計算高效:常通過對數似然函數(Negative Log Likelihood, NLL)轉換為優化問題求解。
    • 局限性:在小樣本或高維問題中可能產生有偏估計(如高斯分布方差估計偏差)。

2. 最大后驗估計(MAP)

  • 定義:MAP是貝葉斯學派的方法,將參數視為隨機變量,結合先驗分布 P ( θ ) P(\theta) P(θ)和似然函數,通過最大化后驗分布來估計參數:
    θ ^ MAP = arg ? max ? θ P ( θ ∣ X ) = arg ? max ? θ P ( X ∣ θ ) P ( θ ) \hat{\theta}_{\text{MAP}} = \arg\max_{\theta} P(\theta \mid X) = \arg\max_{\theta} P(X \mid \theta)P(\theta) θ^MAP?=argθmax?P(θX)=argθmax?P(Xθ)P(θ)

    后驗分布由貝葉斯定理導出,忽略常數項 P ( X ) P(X) P(X)后簡化為似然與先驗的乘積。

  • 特點

    • 引入先驗知識:例如假設參數服從高斯分布(對應L2正則化)或拉普拉斯分布(對應L1正則化)。
    • 正則化作用:先驗項可防止過擬合,尤其在數據不足時提升估計穩定性。
    • 依賴性:估計結果依賴于參數表示方式(如參數變換可能導致結果變化)。

3. MLE與MAP的區別與聯系

  • 區別

    MLEMAP
    頻率學派,參數為常量貝葉斯學派,參數為隨機變量
    僅最大化似然函數最大化后驗(似然×先驗)
    無正則化通過先驗實現正則化
  • 聯系

    • 當先驗分布為均勻分布時,MAP退化為MLE。
    • 隨著數據量增大,先驗的影響減弱,MAP趨近于MLE。

4. 深度學習中的應用

(1)MLE的應用
  • 損失函數設計

    • 分類任務:交叉熵損失(Cross-Entropy Loss)等價于最大化對數似然。例如,圖像分類中,Softmax輸出的對數概率與真實標簽的交叉熵即為NLL。
    • 回歸任務:均方誤差(MSE)對應高斯噪聲假設下的MLE。例如,預測房價時,假設目標值服從高斯分布,MSE最小化即最大化似然。
  • 實例
    訓練神經網絡時,最小化交叉熵損失等價于最大化標簽的似然概率。

(2)MAP的應用
  • 正則化技術
    • L2正則化(權重衰減) :等價于假設權重服從高斯先驗 P ( w ) ~ N ( 0 , σ 2 ) P(w) \sim \mathcal{N}(0, \sigma^2) P(w)N(0,σ2)。優化目標為:
      arg ? min ? w ( NLL + λ ∥ w ∥ 2 2 ) \arg\min_w \left( \text{NLL} + \lambda \|w\|_2^2 \right) argwmin?(NLL+λw22?)

例如,在ResNet訓練中,權重衰減項即為MAP框架下的高斯先驗。

  • L1正則化:對應拉普拉斯先驗,促進稀疏權重,用于特征選擇。

  • 實例
    嶺回歸(Ridge Regression)是線性回歸的MAP版本,通過L2正則化控制模型復雜度。


5. 總結

  • MLE:核心是數據驅動,適用于數據充分且無強先驗假設的場景。
  • MAP:通過先驗引入領域知識,提升小數據下的魯棒性,與正則化技術緊密相關。
  • 深度學習中的典型應用
    • MLE對應標準損失函數(如交叉熵、MSE)。
    • MAP對應帶有正則化的損失函數(如L2/L1正則化)。

兩者的選擇需結合實際問題的數據量、先驗知識的可靠性及模型復雜度需求。

最大似然估計(MLE)和最大后驗估計(MAP)是兩種參數估計方法,廣泛應用于統計學和機器學習中。它們在深度學習中的具體應用如下:


deepseek.com:什么是最大似然估計(MLE)最大后驗估計(MAP)?深度學習中如何應用,舉例說明。

1. 最大似然估計(MLE)

定義

MLE 的核心思想是找到一組參數 θ \theta θ,使得觀測數據 D D D 出現的概率(似然函數)最大:
θ MLE = arg ? max ? θ P ( D ∣ θ ) \theta_{\text{MLE}} = \arg\max_\theta P(D | \theta) θMLE?=argθmax?P(Dθ)
即選擇使得數據似然性最高的參數。

特點
  • 頻率學派方法:認為參數是固定但未知的,數據是隨機的。
  • 無先驗假設:僅依賴觀測數據,不引入參數的先驗知識。

2. 最大后驗估計(MAP)

定義

MAP 在貝葉斯框架下,結合參數的先驗分布 P ( θ ) P(\theta) P(θ),最大化后驗概率:
θ MAP = arg ? max ? θ P ( θ ∣ D ) = arg ? max ? θ P ( D ∣ θ ) P ( θ ) \theta_{\text{MAP}} = \arg\max_\theta P(\theta | D) = \arg\max_\theta P(D | \theta) P(\theta) θMAP?=argθmax?P(θD)=argθmax?P(Dθ)P(θ)
即同時考慮數據似然性和參數先驗。

特點
  • 貝葉斯學派方法:認為參數是隨機變量,有先驗分布。
  • 正則化作用:先驗分布可看作對參數的約束,防止過擬合。

MLE vs MAP 的區別

特性MLEMAP
目標最大化似然函數 $P(D\theta)$
先驗信息不包含先驗包含先驗 P ( θ ) P(\theta) P(θ)
數據量影響數據量越大越準確小數據時先驗影響顯著

深度學習中的應用

(1)MLE 的應用

在深度學習中,負對數似然(Negative Log-Likelihood, NLL) 常被用作損失函數,最小化 NLL 等價于最大化似然函數。

示例

  • 分類任務:交叉熵損失(Cross-Entropy Loss)是 MLE 的直接體現。假設標簽服從多項式分布,模型輸出概率為 p ( y ∣ x ; θ ) p(y|x;\theta) p(yx;θ),則損失函數為:
    L ( θ ) = ? ∑ i = 1 N log ? p ( y i ∣ x i ; θ ) \mathcal{L}(\theta) = -\sum_{i=1}^N \log p(y_i | x_i; \theta) L(θ)=?i=1N?logp(yi?xi?;θ)
  • 回歸任務:均方誤差(MSE)對應高斯分布的 MLE。假設目標值服從高斯分布 y ~ N ( f θ ( x ) , σ 2 ) y \sim \mathcal{N}(f_\theta(x), \sigma^2) yN(fθ?(x),σ2),則損失函數為:
    L ( θ ) = 1 2 σ 2 ∑ i = 1 N ( y i ? f θ ( x i ) ) 2 \mathcal{L}(\theta) = \frac{1}{2\sigma^2} \sum_{i=1}^N (y_i - f_\theta(x_i))^2 L(θ)=2σ21?i=1N?(yi??fθ?(xi?))2
(2)MAP 的應用

在損失函數中引入正則化項,對應參數的先驗分布:

  • L2 正則化(權重衰減):等價于假設參數服從高斯先驗 θ ~ N ( 0 , σ 2 ) \theta \sim \mathcal{N}(0, \sigma^2) θN(0,σ2)
  • L1 正則化:等價于假設參數服從拉普拉斯先驗 θ ~ Laplace ( 0 , b ) \theta \sim \text{Laplace}(0, b) θLaplace(0,b)

示例

  • 帶權重衰減的線性回歸
    損失函數為 MSE 加上 L2 正則項:
    L ( θ ) = ∑ i = 1 N ( y i ? θ T x i ) 2 + λ ∥ θ ∥ 2 2 \mathcal{L}(\theta) = \sum_{i=1}^N (y_i - \theta^T x_i)^2 + \lambda \|\theta\|_2^2 L(θ)=i=1N?(yi??θTxi?)2+λθ22?
    這等價于最大化后驗概率 P ( θ ∣ D ) ∝ P ( D ∣ θ ) P ( θ ) P(\theta|D) \propto P(D|\theta)P(\theta) P(θD)P(Dθ)P(θ),其中 P ( θ ) P(\theta) P(θ) 是高斯分布。

  • 貝葉斯神經網絡
    在參數優化時,通過引入先驗分布(如高斯先驗),并使用 MAP 估計參數,結合變分推斷或 MCMC 方法近似后驗。


具體案例

  1. 圖像分類(MLE)

    • 使用交叉熵損失訓練 ResNet,直接最大化標簽的似然概率。
  2. 語言模型(MAP)

    • 在 Transformer 模型中,通過 L2 正則化(權重衰減)約束參數,避免過擬合。

總結

  • MLE:追求模型輸出與數據分布最匹配,常用于定義損失函數。
  • MAP:通過引入先驗(正則化)提升泛化能力,尤其在數據量少時有效。

兩者的選擇取決于問題背景:MLE 更純粹依賴數據,MAP 結合領域知識(先驗)進行約束。

https://metaso.cn/s/6YFhhav
機器學習概率論之MLE, MAP的實例和計算過程

嗯,用戶問的是機器學習中的MLE和MAP的實例和計算過程。我需要先理清楚這兩個概念的基本定義和區別,然后找到證據中的相關例子和計算步驟。

首先,根據和,MLE是頻率學派的方法,目標是最大化似然函數P(X|θ),而MAP是貝葉斯學派的方法,最大化后驗概率P(θ|X),即考慮了先驗P(θ)。提到當先驗是均勻分布時,MAP就退化成MLE。另外,和都舉了拋硬幣的例子,這應該可以作為實例。

再看計算過程。例如,詳細描述了拋硬幣的MLE計算:假設獨立同分布,似然函數是p的乘積,取對數后求導,得到p的估計值是正面次數除以總次數。這個例子很典型,應該用上。

關于MAP的例子,提到單變量高斯分布均值的估計,假設先驗也是高斯分布,結果是一個加權平均,結合了MLE的樣本均值和先驗均值。也提到高斯分布的MAP推導,給出具體公式。還有提到用Beta分布作為先驗,修正MLE的結果,比如當拋硬幣出現極端情況時,MAP可以引入先驗知識調整結果。

另外,指出,當參數服從高斯先驗時,MAP對應的損失函數相當于L2正則化,而拉普拉斯先驗對應L1。這可以作為一個應用實例,比如在正則化中如何體現MAP的思想。

現在需要將這些例子整理出來,分步驟說明計算過程。比如MLE在拋硬幣中的步驟:寫出似然函數,取對數,求導,解方程得到p的估計。而MAP則是在此基礎上加入先驗,比如Beta分布,然后同樣最大化后驗,得到調整后的估計值。

還要注意引用對應的證據來源。比如拋硬幣的MLE例子在,MAP的高斯例子在,正則化對應MAP在。

可能的混淆點在于不同分布下的計算,比如二項分布和高斯分布的例子需要分別說明。此外,要強調MLE和MAP的聯系,比如當先驗均勻時,MAP等于MLE,如所述。

總結一下,回答的結構應該是先分別介紹MLE和MAP的定義,然后各舉一個具體實例(如拋硬幣的MLE,高斯分布均值的MAP),詳細寫出計算步驟,最后說明它們的聯系和區別,比如正則化與先驗的關系,以及均勻先驗下的特例。

在機器學習中,最大似然估計(MLE)和最大后驗估計(MAP)是兩種核心的參數估計方法,分別對應頻率學派和貝葉斯學派的觀點。以下是具體實例和計算過程的詳細說明:


1. 最大似然估計(MLE)

定義

MLE的目標是找到參數θ,使得觀測數據X的似然函數$ P(X|\theta) $最大化,即:
θ ^ M L E = arg ? max ? θ P ( X ∣ θ ) \hat{\theta}_{MLE} = \arg\max_{\theta} P(X|\theta) θ^MLE?=argθmax?P(Xθ)

假設數據獨立同分布(i.i.d.),似然函數通常表示為各樣本概率的乘積。為簡化計算,常對似然函數取對數(對數似然函數),將乘法轉換為加法。

實例:拋硬幣估計正面概率

問題:拋硬幣10次,7次正面,估計正面概率p。
步驟

  1. 假設模型:硬幣服從伯努利分布,正面概率為p,反面為1-p。

  2. 似然函數
    P ( X ∣ p ) = p 7 ( 1 ? p ) 3 P(X|p) = p^7(1-p)^3 P(Xp)=p7(1?p)3

  3. 對數似然
    log ? P ( X ∣ p ) = 7 log ? p + 3 log ? ( 1 ? p ) \log P(X|p) = 7\log p + 3\log(1-p) logP(Xp)=7logp+3log(1?p)

  4. 求導并解方程
    對p求導并令導數為0:
    7 p ? 3 1 ? p = 0 ? p = 7 10 \frac{7}{p} - \frac{3}{1-p} = 0 \Rightarrow p = \frac{7}{10} p7??1?p3?=0?p=107?

結果:MLE估計正面概率為0.7。


2. 最大后驗估計(MAP)

定義

MAP在貝葉斯框架下引入先驗分布$ P(\theta) , 目 標 是 最 大 化 后 驗 概 率 ,目標是最大化后驗概率 P(\theta|X) $,即:
θ ^ M A P = arg ? max ? θ P ( θ ∣ X ) = arg ? max ? θ P ( X ∣ θ ) P ( θ ) \hat{\theta}_{MAP} = \arg\max_{\theta} P(\theta|X) = \arg\max_{\theta} P(X|\theta)P(\theta) θ^MAP?=argθmax?P(θX)=argθmax?P(Xθ)P(θ)

實例1:高斯分布均值的MAP估計

問題:觀測數據$ X = {x_1, x_2, …, x_n} 服 從 高 斯 分 布 服從高斯分布 \mathcal{N}(\mu, \sigma^2) , 假 設 μ 的 先 驗 分 布 為 ,假設μ的先驗分布為 μ \mathcal{N}(\mu_0, \beta^2) $,估計μ。
步驟

  1. 似然函數
    P ( X ∣ μ ) ∝ exp ? ( ? 1 2 σ 2 ∑ i = 1 n ( x i ? μ ) 2 ) P(X|\mu) \propto \exp\left(-\frac{1}{2\sigma^2}\sum_{i=1}^n (x_i - \mu)^2\right) P(Xμ)exp(?2σ21?i=1n?(xi??μ)2)

  2. 先驗分布
    P ( μ ) ∝ exp ? ( ? 1 2 β 2 ( μ ? μ 0 ) 2 ) P(\mu) \propto \exp\left(-\frac{1}{2\beta^2}(\mu - \mu_0)^2\right) P(μ)exp(?2β21?(μ?μ0?)2)

  3. 后驗概率(忽略常數項):
    P ( μ ∣ X ) ∝ exp ? ( ? 1 2 σ 2 ∑ ( x i ? μ ) 2 ? 1 2 β 2 ( μ ? μ 0 ) 2 ) P(\mu|X) \propto \exp\left(-\frac{1}{2\sigma^2}\sum (x_i - \mu)^2 - \frac{1}{2\beta^2}(\mu - \mu_0)^2\right) P(μX)exp(?2σ21?(xi??μ)2?2β21?(μ?μ0?)2)

  4. 對數后驗:對μ求導并令導數為0,得到:
    μ M A P = σ 2 μ 0 + n β 2 x ˉ σ 2 + n β 2 \mu_{MAP} = \frac{\sigma^2 \mu_0 + n\beta^2 \bar{x}}{\sigma^2 + n\beta^2} μMAP?=σ2+nβ2σ2μ0?+nβ2xˉ?

    其中,$ \bar{x} = \frac{1}{n}\sum x_i $為樣本均值(MLE結果)。
    結果:MAP估計是樣本均值和先驗均值的加權平均,權重由樣本數量和先驗方差決定。

實例2:拋硬幣的MAP估計(Beta先驗)

問題:拋硬幣10次,7次正面,假設p的先驗為Beta分布$ \text{Beta}(\alpha, \beta) $,估計p。
步驟

  1. 似然函數:同MLE例子,$ P(X|p) = p7(1-p)3 $。

  2. 先驗分布
    P ( p ) ∝ p α ? 1 ( 1 ? p ) β ? 1 P(p) \propto p^{\alpha-1}(1-p)^{\beta-1} P(p)pα?1(1?p)β?1

  3. 后驗分布(Beta分布共軛性):
    P ( p ∣ X ) ∝ p 7 + α ? 1 ( 1 ? p ) 3 + β ? 1 P(p|X) \propto p^{7+\alpha-1}(1-p)^{3+\beta-1} P(pX)p7+α?1(1?p)3+β?1

  4. 最大化后驗:后驗分布的眾數為:
    p M A P = 7 + α ? 1 10 + α + β ? 2 p_{MAP} = \frac{7+\alpha-1}{10+\alpha+\beta-2} pMAP?=10+α+β?27+α?1?

結果:若選$ \alpha=4, \beta=4 , 則 ,則 p_{MAP} = \frac{10}{16} = 0.625 $,比MLE的0.7更接近均勻先驗假設。


3. MLE與MAP的聯系

  1. 先驗的影響

    • 當先驗為均勻分布時(如$ \alpha=1, \beta=1 $的Beta分布),MAP退化為MLE。
    • 當數據量趨于無窮大時,MAP與MLE趨近一致,先驗影響可忽略。
  2. 正則化與先驗的關系

    • 高斯先驗等價于L2正則化(如嶺回歸),拉普拉斯先驗等價于L1正則化(如LASSO)。

總結

  • MLE:適用于數據量充足、無需引入先驗的場景,計算簡單但可能過擬合。
  • MAP:通過先驗修正估計結果,提升小樣本下的魯棒性,且與正則化技術緊密關聯。
    兩者在參數估計中各有優劣,需根據實際問題選擇合適方法。

好的,用戶問的是拋硬幣的后驗分布是怎么得出的。我需要回顧一下之前講的MAP例子,特別是Beta先驗的情況。用戶可能是在學習貝葉斯統計,對如何從先驗和似然推導后驗不太清楚。他們可能已經知道MLE和MAP的基本概念,但具體到硬幣例子的推導過程還需要更詳細的解釋。

首先,我需要確定用戶的問題點在哪里。后驗分布的推導涉及到貝葉斯定理,所以應該從貝葉斯公式出發,結合似然和先驗分布。在之前的回答中,提到了Beta先驗和伯努利試驗的似然函數,后驗分布是Beta分布,這是因為Beta分布是伯努利分布的共軛先驗。所以用戶可能對共軛先驗的概念還不熟悉,或者想知道具體的計算步驟。

接下來,我需要詳細列出推導過程。首先是貝葉斯定理的應用,寫出后驗正比于似然乘先驗。然后,具體到硬幣的例子,似然函數是p7(1-p)3,先驗是Beta(α,β),即p{α-1}(1-p){β-1}。兩者相乘之后,得到p{7+α-1}(1-p){3+β-1},也就是Beta(7+α, 3+β)。這時候需要解釋為什么乘積就是Beta分布的形式,強調共軛先驗的作用,這樣后驗和先驗屬于同一分布族,計算方便。

然后,可能需要說明歸一化常數的問題,因為貝葉斯定理中的分母是邊緣似然,這里可以忽略,因為只需要知道后驗分布的形狀,最后歸一化由Beta分布的系數完成。所以后驗分布的參數更新為α’ = α + 7,β’ = β + 3,或者更準確地說,α’ = α + k(成功次數),β’ = β + (n - k)(失敗次數)。

用戶可能還會疑惑如何從乘積得到后驗的具體形式,所以需要用數學步驟展示,比如將似然和先驗的表達式相乘,合并同類項,得到新的參數。同時,要指出后驗分布的眾數(mode)就是MAP估計值,即(p^ (α’ -1) (1-p)^(β’ -1))的極值點,通過求導得到結果。

另外,可能需要提醒用戶,當先驗是均勻分布時(比如α=1,β=1),后驗就變成了Beta(8,4),這時候MAP估計和MLE的結果不同,因為有先驗的影響。而如果數據量很大,先驗的影響會被稀釋,后驗趨近于MLE的結果。

還要注意用戶是否理解為什么選擇Beta分布作為先驗,這時候需要簡要解釋共軛先驗的好處,即數學上的便利性,使得后驗分布容易計算。可能還需要提到其他可能的先驗選擇,但Beta在這里最方便。

最后,檢查是否有步驟跳過了關鍵解釋,比如對數轉換、求導過程,或者是否應該詳細展開這些數學推導。根據用戶的問題,他們可能更關心整體的推導流程,而不是每一步的詳細計算,但適當的數學步驟可以增強理解。

總結回答的結構應該是:貝葉斯定理 -> 似然函數 -> 先驗分布 -> 后驗正比于乘積 -> 合并參數得到Beta分布 -> 解釋參數更新 -> 舉例說明。這樣用戶就能一步步看到后驗是如何得出的。

在拋硬幣問題中,后驗分布的推導基于貝葉斯定理,結合觀測數據(似然函數)和先驗分布。以下是具體推導過程:


1. 貝葉斯定理框架

后驗分布 $ P(p|X) $ 的公式為:
P ( p ∣ X ) = P ( X ∣ p ) P ( p ) P ( X ) P(p|X) = \frac{P(X|p)P(p)}{P(X)} P(pX)=P(X)P(Xp)P(p)?

其中:

  • $ P(X|p) $ 是似然函數(給定參數 $ p $ 時數據的概率),
  • P ( p ) P(p) P(p) 是先驗分布(對參數 $ p $ 的初始假設),
  • $ P(X) $ 是邊緣似然(歸一化常數,與 $ p $ 無關)。

實際計算中,只需關注分子部分的比例關系:
P ( p ∣ X ) ∝ P ( X ∣ p ) P ( p ) P(p|X) \propto P(X|p)P(p) P(pX)P(Xp)P(p)


2. 拋硬幣問題的具體推導

(1) 問題設定
  • 觀測數據:拋硬幣 10 次,7 次正面(記作 $ k=7 $,總次數 $ n=10 $)。

  • 似然函數:硬幣服從伯努利分布,概率為 $ p $,即:
    P ( X ∣ p ) = p k ( 1 ? p ) n ? k = p 7 ( 1 ? p ) 3 P(X|p) = p^k(1-p)^{n-k} = p^7(1-p)^3 P(Xp)=pk(1?p)n?k=p7(1?p)3

  • 先驗分布:假設 $ p $ 的先驗為 Beta 分布 $ \text{Beta}(\alpha, \beta) $,其概率密度函數為:
    P ( p ) = p α ? 1 ( 1 ? p ) β ? 1 B ( α , β ) ∝ p α ? 1 ( 1 ? p ) β ? 1 P(p) = \frac{p^{\alpha-1}(1-p)^{\beta-1}}{B(\alpha, \beta)} \propto p^{\alpha-1}(1-p)^{\beta-1} P(p)=B(α,β)pα?1(1?p)β?1?pα?1(1?p)β?1

    其中 $ B(\alpha, \beta) $ 是 Beta 函數(歸一化常數)。


(2) 后驗分布的推導

將似然函數和先驗分布代入貝葉斯公式:
P ( p ∣ X ) ∝ p 7 ( 1 ? p ) 3 ? 似然 ? p α ? 1 ( 1 ? p ) β ? 1 ? 先驗 = p 7 + α ? 1 ( 1 ? p ) 3 + β ? 1 P(p|X) \propto \underbrace{p^7(1-p)^3}_{\text{似然}} \cdot \underbrace{p^{\alpha-1}(1-p)^{\beta-1}}_{\text{先驗}} = p^{7+\alpha-1}(1-p)^{3+\beta-1} P(pX)似然 p7(1?p)3???先驗 pα?1(1?p)β?1??=p7+α?1(1?p)3+β?1

合并指數項后:
P ( p ∣ X ) ∝ p α new ? 1 ( 1 ? p ) β new ? 1 , P(p|X) \propto p^{\alpha_{\text{new}}-1}(1-p)^{\beta_{\text{new}}-1}, P(pX)pαnew??1(1?p)βnew??1,

其中:

  • $ \alpha_{\text{new}} = \alpha + k = \alpha + 7 $,
  • $ \beta_{\text{new}} = \beta + (n - k) = \beta + 3 $.

這表明后驗分布仍然是 Beta 分布,參數更新為:
P ( p ∣ X ) = Beta ( α new , β new ) = Beta ( α + 7 , β + 3 ) . P(p|X) = \text{Beta}(\alpha_{\text{new}}, \beta_{\text{new}}) = \text{Beta}(\alpha+7, \beta+3). P(pX)=Beta(αnew?,βnew?)=Beta(α+7,β+3).


(3) 直觀解釋
  • 共軛先驗的作用:Beta 分布是伯努利分布的共軛先驗,即先驗和后驗屬于同一分布族,這使得計算簡化為參數更新。
  • 參數更新規則
    • 成功次數:先驗參數 $ \alpha $ 加上觀測到的正面次數 $ k $。
    • 失敗次數:先驗參數 $ \beta $ 加上觀測到的反面次數 $ n - k $。

3. 舉例說明

假設先驗為均勻分布 $ \text{Beta}(1,1) $(即認為 $ p $ 在 [0,1] 上均勻分布),則后驗分布為:
Beta ( 1 + 7 , 1 + 3 ) = Beta ( 8 , 4 ) . \text{Beta}(1+7, 1+3) = \text{Beta}(8,4). Beta(1+7,1+3)=Beta(8,4).

  • 后驗的眾數(MAP估計)
    p M A P = α new ? 1 α new + β new ? 2 = 8 ? 1 8 + 4 ? 2 = 7 10 = 0.7. p_{MAP} = \frac{\alpha_{\text{new}} - 1}{\alpha_{\text{new}} + \beta_{\text{new}} - 2} = \frac{8-1}{8+4-2} = \frac{7}{10} = 0.7. pMAP?=αnew?+βnew??2αnew??1?=8+4?28?1?=107?=0.7.

    此時 MAP 與 MLE 結果相同,因為均勻先驗未引入額外信息。

若先驗為 $ \text{Beta}(4,4) $,則后驗為 $ \text{Beta}(11,7) $,眾數為:
p M A P = 11 ? 1 11 + 7 ? 2 = 10 16 = 0.625. p_{MAP} = \frac{11-1}{11+7-2} = \frac{10}{16} = 0.625. pMAP?=11+7?211?1?=1610?=0.625.

此時 MAP 估計偏向先驗均值(0.5),體現了先驗對結果的修正作用。


4. 總結

后驗分布的推導步驟為:

  1. 寫出似然函數:基于觀測數據的伯努利分布。
  2. 選擇共軛先驗(如 Beta 分布),簡化計算。
  3. 應用貝葉斯定理:將似然與先驗相乘,合并指數項得到后驗分布。
  4. 參數更新:后驗參數是“先驗參數 + 觀測次數”。

通過這種方式,貝葉斯方法將先驗知識與觀測數據結合,得到參數的后驗分布。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/895771.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/895771.shtml
英文地址,請注明出處:http://en.pswp.cn/news/895771.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Socket通訊協議理解及客戶端服務器程序流程

Socket通訊我們可以從以下幾個方面簡單理解 1.Socket是網絡通信中的一項重要技術,它提供了在網絡上進行數據交換的接口。用C#、Java、C等開發語言,都可以開發Socket網絡通信程序。 2.Socket(套接字)是計算機網絡編程中的一種抽象,它允許不同…

《Stable Diffusion繪畫完全指南:從入門到精通的Prompt設計藝術》-配套代碼示例

第一章:模型加載與基礎生成 1.1 基礎模型加載 from diffusers import StableDiffusionPipeline import torch# 加載SD 1.5基礎模型(FP32精度) pipe StableDiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5",…

【DL】淺談深度學習中的知識蒸餾 | 輸出層知識蒸餾

目錄 一 核心概念與背景 二 輸出層知識蒸餾 1 教師模型訓練 2 軟標簽生成(Soft Targets) 3 學生模型訓練 三 擴展 1 有效性分析 2 關鍵影響因素 3 變體 一 核心概念與背景 知識蒸餾(Knowledge Distillation, KD)是一種模…

嵌入式學習第十六天--stdio(二)

文件打開 open函數 #include <fcntl.h> int open(const char *pathname&#xff0c;int flags); int open(const char *pathname&#xff0c;int flags&#xff0c;mode_t mode); 功能: 打開或創建文件 參數: pathname //打開的文件名 flags //操作…

對話智面創始人陶然:一是初心和心態,二是堅持和心力

隨著經濟全球化的加深和市場競爭的日益激烈&#xff0c;企業迅速發展成為了每一個企業家的夢想。然而&#xff0c;要實現企業的快速發展并保持競爭力&#xff0c;企業戰略的人力資源管理起著至關重要的作用。 企業的核心競爭力是“人才”的競爭&#xff0c;無論是研發、銷售、…

mybatis使用typeHandler實現類型轉換

使用mybatis作為操作數據庫的orm框架&#xff0c;操作基本數據類型時可以通過內置的類型處理器完成java數據類型和數據庫類型的轉換&#xff0c;但是對于擴展的數據類型要實現與數據庫類型的轉換就需要自定義類型轉換器完成&#xff0c;比如某個實體類型存儲到數據庫&#xff0…

Qt開發①Qt的概念+發展+優點+應用+使用

目錄 1. Qt的概念和發展 1.1 Qt的概念 1.2 Qt 的發展史&#xff1a; 1.3 Qt 的版本 2. Qt 的優點和應用 2.1 Qt 的優點&#xff1a; 2.2 Qt 的應用場景 2.3 Qt 的應用案例 3. 搭建 Qt 開發環境 3.1 Qt 的開發工具 3.2 Qt SDK 的下載和安裝 3.3 Qt 環境變量配置和使…

mac安裝Pyspark并連接Mysql

安裝Scala, apache-spark, Hadoop brew install scala brew install apache-spark brew install hadoop pip install pyspark注意不要自己另外安裝jdk, 會造成版本對不上報錯。因為安裝apache-spark的過程中會自動安裝openjdk。 配置環境變量 JAVA_HOME/opt/homebrew/Cellar…

【Go語言快速上手】第二部分:Go語言進階之網絡編程

文章目錄 前言&#xff1a;網絡編程一、TCP/UDP 編程&#xff1a;net 包的使用1. TCP 編程1.1 TCP 服務器1.2 TCP 客戶端 2. UDP 編程2.1 UDP 服務器2.2 UDP 客戶端 二、HTTP 編程&#xff1a;net/http 包的使用&#xff0c;編寫 HTTP 服務器和客戶端2.1 HTTP 服務器2.2 HTTP 客…

王炸 用AI+飛書 分解 一鍵生成 項目計劃表模版

效果圖&#xff1a; 各字段設置&#xff1a; 以下是一個使用 AI&#xff08;DeepSeeker&#xff09; 飛書多維表格分解項目待辦模板的示例&#xff0c;你可以根據實際情況進行調整和優化&#xff1a; 列表中需要選擇對象&#xff0c;且選擇輸出結果&#xff08;記得控制字符長度…

從月牙定理看古希臘數學的奇妙突破

文章目錄 每日一句正能量前言古希臘人的 “化圓為方” 之夢&#xff08;一&#xff09;幾何作圖的基本規則&#xff08;二&#xff09;化圓為方問題的起源與發展&#xff08;三&#xff09;化圓為方的意義 月牙面積定理的誕生&#xff08;一&#xff09;希波克拉底的生平與成就…

實戰:vLLM多機多卡部署大模型

兩臺服務器 1. Docker容器中使用GPU 必須確保已安裝并配置 NVIDIA Docker。你可以安裝 nvidia-docker 來確保 GPU 驅動能夠被 Docker 使用 #安裝 nvidia-docker&#xff1a; sudo apt-get install nvidia-docker2#然后重啟 Docker&#xff1a; sudo systemctl restart docke…

LLM中種子(Seed)作用是什么:多樣性

LLM中種子(Seed)作用是什么:多樣性 目錄 LLM中種子(Seed)作用是什么:多樣性作用舉例不同種子的區別設置不同種子的原因在LLM(大語言模型)中,種子(Seed)用于初始化隨機數生成器,發揮著確保結果可重復性的關鍵作用,具體如下: 作用 當大語言模型生成文本時,很多操…

neo4j二進制部署

neo4j二進制部署 下載所需組件 jdk 17 neo4j 5.2.0 配置文件 server.default_listen_address0.0.0.0環境變量 export JAVA_HOME/usr/local/jdk-17.0.13 export CLASSPATH.:${JAVA_HOME}/jre/lib/rt.jar:${JAVA_HOME}/lib/dt.jar:${JAVA_HOME}/lib/tools.jar export PATH$…

Win10環境使用零訊ZeroNews內網穿透實現Deepseek對外服務

Win10環境使用零訊ZeroNews內網穿透實現Deepseek對外服務 前言 之前筆者已經在Win10環境搭建好了Ollama、DeepSeek、Open WebUI、Dify等組件&#xff0c;成功實現了私有化部署及內網訪問&#xff1a; https://lizhiyong.blog.csdn.net/article/details/145505686 https://l…

spconv 安裝測試

pip install spconv 報錯: File "/usr/local/lib/python3.10/dist-packages/torch/nn/modules/module.py", line 1736, in _wrapped_call_impl return self._call_impl(*args, **kwargs) File "/usr/local/lib/python3.10/dist-packages/torch/nn/modules/mod…

MySQL 查詢緩存技術深度解析

在現代數據庫管理系統中&#xff0c;查詢性能優化是提升應用響應速度和用戶體驗的關鍵環節。MySQL 作為一款廣泛使用的開源關系型數據庫&#xff0c;提供了查詢緩存功能&#xff0c;用于緩存查詢結果&#xff0c;從而在后續相同的查詢請求時能夠快速返回結果&#xff0c;減少數…

halcon 條形碼、二維碼識別、opencv識別

一、條形碼 函數介紹 create_bar_code_model * 1.創建條碼讀取器的模板 * 參數一&#xff1a;通用參數的名稱&#xff0c;針對條形碼模型進行調整。默認值為空 * 參數二&#xff1a;針對條形碼模型進行調整 * 參數三&#xff1a;條形碼模型的句柄。 create_bar_code_model (…

一個簡潔高效的Flask用戶管理示例

Flask-Login 是 Flask 的用戶管理擴展&#xff0c;提供 用戶身份驗證、會話管理、權限控制 等功能。 適用于&#xff1a; ? 用戶登錄、登出 ? 記住用戶&#xff08;“記住我” 功能&#xff09; ? 限制未登錄用戶訪問某些頁面 ? 用戶會話管理 1. 安裝 Flask-Login pi…

HashSet 的底層原理(簡單易懂)

在 Java 集合框架中&#xff0c;HashSet 是一個非常常用的集合類&#xff0c;它提供了快速的元素查找和插入操作。那么&#xff0c;HashSet 的底層是如何實現這些高效操作的呢&#xff1f;本文將深入探討 HashSet 的底層原理。 一、HashSet 的基本概念 HashSet 是基于哈希表的…