一、定義
最大似然估計 是一種參數估計方法,其核心思想是:
選擇能使觀測數據出現概率最大的參數值作為估計值。
具體來說,假設數據 D = x 1 , x 2 , … , x n D={x_1,x_2,…,x_n} D=x1?,x2?,…,xn?獨立且服從某個概率分布 P ( x ∣ θ ) P(x∣θ) P(x∣θ),則通過最大化似然函數 L ( θ ∣ D ) \mathcal{L}(\theta \mid \mathcal{D}) L(θ∣D)來求解參數 θ θ θ。
二、公式推導
-
似然函數:
數據獨立時,似然函數為各數據點概率的乘積:
L ( θ ∣ D ) = ∏ i = 1 n P ( x i ∣ θ ) \mathcal{L}(\theta \mid \mathcal{D})=\prod_{i=1}^{n} P\left(x_{i} \mid \theta\right) L(θ∣D)=∏i=1n?P(xi?∣θ) -
對數似然:
為簡化計算,取自然對數(乘積變加法):
L ( θ ∣ D ) = ∏ i = 1 n P ( x i ∣ θ ) \mathcal{L}(\theta \mid \mathcal{D})=\prod_{i=1}^{n} P\left(x_{i} \mid \theta\right) L(θ∣D)=∏i=1n?P(xi?∣θ) -
最大化目標:
求解使對數似然最大的參數 θ ? θ^? θ?:
θ ? = arg ? max ? θ ∑ i = 1 n ln ? P ( x i ∣ θ ) \theta^*=\arg \max _\theta \sum_{i=1}^n \ln P\left(x_i \mid \theta\right) θ?=argmaxθ?∑i=1n?lnP(xi?∣θ) -
求解方法:
對 θ 求導并令導數為零,或使用梯度下降等優化算法。
三、經典例子
例1:估計正態分布的均值和方差
假設數據 D = x 1 ? , x 2 ? , … , x n ? \mathcal{D}={x_1?,x_2?,…,x_n?} D=x1??,x2??,…,xn??服從正態分布 N ( μ , σ 2 ) \mathcal{N}\left(\mu, \sigma^2\right) N(μ,σ2),求 μ \mu μ和 σ 2 \sigma^2 σ2估計。
-
似然函數:
L ( μ , σ 2 ) = ∏ i = 1 n 1 2 π σ 2 e ? ( x i ? μ ) 2 2 σ 2 \mathcal{L}\left(\mu, \sigma^2\right)=\prod_{i=1}^n \frac{1}{\sqrt{2 \pi \sigma^2}} e^{-\frac{\left(x_i-\mu\right)^2}{2\sigma^2}} L(μ,σ2)=∏i=1n?2πσ2?1?e?2σ2(xi??μ)2? -
對數似然:
ln ? L = ? n 2 ln ? ( 2 π ) ? n 2 ln ? σ 2 ? 1 2 σ 2 ∑ i = 1 n ( x i ? μ ) 2 \ln \mathcal{L}=-\frac{n}{2} \ln (2 \pi)-\frac{n}{2} \ln \sigma^2-\frac{1}{2 \sigma^2} \sum_{i=1}^n(x_i-\mu)^2 lnL=?2n?ln(2π)?2n?lnσ2?2σ21?∑i=1n?(xi??μ)2
3. 求導解方程:
對 μ μ μ 求導:
? ln ? L ? μ = 1 σ 2 ∑ i = 1 n ( x i ? μ ) = 0 ? μ ? = 1 n ∑ i = 1 n x i \frac{\partial \ln \mathcal{L}}{\partial \mu}=\frac{1}{\sigma^2} \sum_{i=1}^n\left(x_i-\mu\right)=0 \Rightarrow \quad \mu^*=\frac{1}{n} \sum_{i=1}^n x_i ?μ?lnL?=σ21?∑i=1n?(xi??μ)=0?μ?=n1?∑i=1n?xi?
對 σ 2 \sigma^2 σ2求導:
? ln ? L ? σ 2 = ? n 2 σ 2 + 1 2 σ 4 ∑ i = 1 n ( x i ? μ ) 2 = 0 ? σ 2 ? = 1 n ∑ i = 1 n ( x i ? μ ? ) 2 \frac{\partial \ln \mathcal{L}}{\partial \sigma^2}=-\frac{n}{2 \sigma^2}+\frac{1}{2 \sigma^4} \sum_{i=1}^n\left(x_i-\mu\right)^2=0 \Rightarrow \quad \sigma^{2 *}=\frac{1}{n} \sum_{i=1}^n\left(x_i-\mu^*\right)^2 ?σ2?lnL?=?2σ2n?+2σ41?∑i=1n?(xi??μ)2=0?σ2?=n1?∑i=1n?(xi??μ?)2
- 結論
μ ? \mu^* μ?是樣本均值, σ 2 ? \sigma^{2 *} σ2?是樣本方差(但分母為 n,有偏估計)。
例2:二項分布的參數估計
假設拋硬幣 n 次,正面朝上 k 次,估計正面概率 p。
-
似然函數:
$\mathcal{L}§ = \binom{n}{k} p^k (1-p)^{n-k} $ -
對數似然:
$\ln \mathcal{L} = \ln \binom{n}{k} + k \ln p + (n - k) \ln (1 - p) $
3. 求導解方程:
$\frac{\partial \ln \mathcal{L}}{\partial p} = \frac{k}{p} - \frac{n-k}{1-p} = 0 \implies p^* = \frac{k}{n} $
結論:正面概率的 MLE 估計是觀測頻率 k n \frac{k}{n} nk?
?
四、MLE 與大模型的關系
在大模型(如 GPT、BERT、ResNet)中,MLE 是訓練目標的數學基礎,但需結合工程技巧擴展:
-
損失函數設計:
-
交叉熵損失:分類任務中,最小化交叉熵等價于最大化對數似然。
例如,語言模型預測下一個詞的概率分布時,損失函數為:L = ? ∑ t = 1 T ln ? P ( w t ∣ w < t , θ ) \mathcal{L} = - \sum_{t=1}^{T} \ln P(w_t|w_{<t}, \theta) L=?∑t=1T?lnP(wt?∣w<t?,θ)
-
均方誤差(MSE):回歸任務中,MSE 等價于假設數據服從高斯分布時的 MLE。
-
-
正則化與貝葉斯擴展:
-
MLE 容易過擬合,大模型常加入正則化項(如 L2 正則),這等價于最大后驗估計(MAP,貝葉斯框架下的 MLE 擴展)。
-
貝葉斯神經網絡將 MLE 推廣為后驗分布推斷(如變分推斷)。
-
-
優化算法:
- 大模型參數規模巨大(如 GPT-3 有 1750 億參數),直接求解 MLE 不可行,需使用 隨機梯度下降(SGD) 或其變體(如 Adam)近似優化。
-
生成模型中的應用:
-
生成對抗網絡(GAN)和擴散模型中,生成器的訓練隱式地最大化數據的似然。
-
自回歸模型(如 Transformer)顯式地通過 MLE 學習序列數據的分布。
-
五、MLE 的局限性及應對
-
過擬合風險:
-
問題:MLE 傾向于擬合訓練數據噪聲。
-
解決方案:加入正則化項,或使用貝葉斯方法引入先驗。
-
-
數據稀疏性:
-
問題:小數據場景下,MLE 估計可能不準確。
-
解決方案:數據增強、預訓練(如 BERT 的 MLM 任務)。
-
-
非凸優化:
-
問題:復雜模型的似然函數可能非凸,陷入局部最優。
-
解決方案:隨機初始化、動量優化、學習率調度。
-
六、總結
-
核心公式: θ ? = arg ? max ? θ ∑ i = 1 n ln ? P ( x i ∣ θ ) \theta^*=\arg \max _\theta \sum_{i=1}^n \ln P\left(x_i \mid \theta\right) θ?=argmaxθ?∑i=1n?lnP(xi?∣θ)。
-
應用場景:從經典統計到深度學習,MLE 是參數估計的基石。
-
大模型中的角色:
-
直接指導損失函數設計(如交叉熵)。
-
結合正則化和優化算法解決高維問題。
-
生成模型和自回歸模型的核心訓練目標。
-
-
哲學意義:MLE 體現了“讓數據自己說話”的思想,但需通過技術手段平衡擬合與泛化。