最大似然估計（Maximum Likelihood Estimation, MLE）詳解

一、定義

最大似然估計 是一種參數估計方法，其核心思想是：
選擇能使觀測數據出現概率最大的參數值作為估計值。
具體來說，假設數據 $D={x_1,x_2,…,x_n}$ 獨立且服從某個概率分布 $P (x ∣ θ)$ ，則通過最大化似然函數 $\mathcal{L}(\theta \mid \mathcal{D})$ 來求解參數 $θ$ 。

二、公式推導

似然函數：
數據獨立時，似然函數為各數據點概率的乘積：
$\mathcal{L}(\theta \mid \mathcal{D})=\prod_{i=1}^{n} P\left(x_{i} \mid \theta\right)$
對數似然：
為簡化計算，取自然對數（乘積變加法）：
$\mathcal{L}(\theta \mid \mathcal{D})=\prod_{i=1}^{n} P\left(x_{i} \mid \theta\right)$
最大化目標：
求解使對數似然最大的參數 $θ^?$ ：
$\theta^*=\arg \max _\theta \sum_{i=1}^n \ln P\left(x_i \mid \theta\right)$
求解方法：
對 θ 求導并令導數為零，或使用梯度下降等優化算法。

三、經典例子

例1：估計正態分布的均值和方差

假設數據 $\mathcal{D}={x_1?,x_2?,…,x_n?}$ 服從正態分布 $\mathcal{N}\left(\mu, \sigma^2\right)$ ，求 $\mu$ 和 $\sigma^2$ 估計。

似然函數：
$\mathcal{L}\left(\mu, \sigma^2\right)=\prod_{i=1}^n \frac{1}{\sqrt{2 \pi \sigma^2}} e^{-\frac{\left(x_i-\mu\right)^2}{2\sigma^2}}$
對數似然：

$\ln \mathcal{L}=-\frac{n}{2} \ln (2 \pi)-\frac{n}{2} \ln \sigma^2-\frac{1}{2 \sigma^2} \sum_{i=1}^n(x_i-\mu)^2$
3. 求導解方程：
對 $μ$ 求導：
$\frac{\partial \ln \mathcal{L}}{\partial \mu}=\frac{1}{\sigma^2} \sum_{i=1}^n\left(x_i-\mu\right)=0 \Rightarrow \quad \mu^*=\frac{1}{n} \sum_{i=1}^n x_i$
對 $\sigma^2$ 求導：
$\frac{\partial \ln \mathcal{L}}{\partial \sigma^2}=-\frac{n}{2 \sigma^2}+\frac{1}{2 \sigma^4} \sum_{i=1}^n\left(x_i-\mu\right)^2=0 \Rightarrow \quad \sigma^{2 *}=\frac{1}{n} \sum_{i=1}^n\left(x_i-\mu^*\right)^2$

結論
$\mu^*$ 是樣本均值， $\sigma^{2 *}$ 是樣本方差（但分母為 n，有偏估計）。

例2：二項分布的參數估計

假設拋硬幣 n 次，正面朝上 k 次，估計正面概率 p。

似然函數：
$\mathcal{L}§ = \binom{n}{k} p^k (1-p)^{n-k} $
對數似然：

$\ln \mathcal{L} = \ln \binom{n}{k} + k \ln p + (n - k) \ln (1 - p) $
3. 求導解方程：
$\frac{\partial \ln \mathcal{L}}{\partial p} = \frac{k}{p} - \frac{n-k}{1-p} = 0 \implies p^* = \frac{k}{n} $

結論：正面概率的 MLE 估計是觀測頻率 $\frac{k}{n}$

四、MLE 與大模型的關系

在大模型（如 GPT、BERT、ResNet）中，MLE 是訓練目標的數學基礎，但需結合工程技巧擴展：

損失函數設計：
- 交叉熵損失：分類任務中，最小化交叉熵等價于最大化對數似然。
  例如，語言模型預測下一個詞的概率分布時，損失函數為：
  
  $\mathcal{L} = - \sum_{t=1}^{T} \ln P(w_t|w_{<t}, \theta)$
- 均方誤差（MSE）：回歸任務中，MSE 等價于假設數據服從高斯分布時的 MLE。
正則化與貝葉斯擴展：
- MLE 容易過擬合，大模型常加入正則化項（如 L2 正則），這等價于最大后驗估計（MAP，貝葉斯框架下的 MLE 擴展）。
- 貝葉斯神經網絡將 MLE 推廣為后驗分布推斷（如變分推斷）。
優化算法：
- 大模型參數規模巨大（如 GPT-3 有 1750 億參數），直接求解 MLE 不可行，需使用 隨機梯度下降（SGD） 或其變體（如 Adam）近似優化。
生成模型中的應用：
- 生成對抗網絡（GAN）和擴散模型中，生成器的訓練隱式地最大化數據的似然。
- 自回歸模型（如 Transformer）顯式地通過 MLE 學習序列數據的分布。

五、MLE 的局限性及應對

過擬合風險：
- 問題：MLE 傾向于擬合訓練數據噪聲。
- 解決方案：加入正則化項，或使用貝葉斯方法引入先驗。
數據稀疏性：
- 問題：小數據場景下，MLE 估計可能不準確。
- 解決方案：數據增強、預訓練（如 BERT 的 MLM 任務）。
非凸優化：
- 問題：復雜模型的似然函數可能非凸，陷入局部最優。
- 解決方案：隨機初始化、動量優化、學習率調度。

六、總結

核心公式： $\theta^*=\arg \max _\theta \sum_{i=1}^n \ln P\left(x_i \mid \theta\right)$ 。
應用場景：從經典統計到深度學習，MLE 是參數估計的基石。
大模型中的角色：
- 直接指導損失函數設計（如交叉熵）。
- 結合正則化和優化算法解決高維問題。
- 生成模型和自回歸模型的核心訓練目標。
哲學意義：MLE 體現了“讓數據自己說話”的思想，但需通過技術手段平衡擬合與泛化。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/84319.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/84319.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/84319.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！