機器學習4——參數估計之貝葉斯估計

貝葉斯估計

問題建模：

后驗概率公式：

$P\left(\omega_i \mid \mathbf{x}, \mathcal{D}\right)=\frac{P\left(\mathbf{x} \mid \omega_i, \mathcal{D}_i\right) P\left(\omega_i\right)}{\sum_{j=1}^c P\left(\mathbf{x} \mid \omega_j, \mathcal{D}_j\right) P\left(\omega_j\right)}$

由于我們在做分類器時，手上其實是有訓練數據的，也就是每一類 $\omega_i$ 都有自己對應的訓練數據集合 $\mathcal{D}_i$ 。因此，我們真正能估計的是：
$P(\mathbf{x} \mid \omega_i, \mathcal{D}_i)$
也就是說，“在知道類別是 $\omega_i$ ” 且 “在我們擁有第 i 類的數據 $\mathcal{D}_i$ ” 的情況下，輸入 $\mathbf{x}$ 出現的概率。我們在每個類別內部進行建模的時候，類別標簽已經是已知的固定量。所以：

給定 $\mathcal{D}_i$ ，我們知道這些數據都是屬于 $\omega_i$ 類別的。
那我們就可以只用這些數據來建模＂類別 $\omega_i$ 的條件概率分布＂。

也就是說，一旦我們知道了 $\mathcal{D}_i$ 是哪一類的，我們已經隱含地知道了類別標簽 $\omega_i$ ，所以再寫 $\omega_i$ 就是多余了。于是就可以簡寫為：

$P\left(\mathbf{x} \mid \omega_i, \mathcal{D}_i\right)=P\left(\mathbf{x} \mid \mathcal{D}_i\right)$
所以，問題的核心在于**估計 $P(\mathbf{x} \mid \mathcal{D})$ 。**這里省略下標表示對所有類別通用的求解方式。
$\begin{aligned} p(\mathbf{x} \mid \mathcal{D}) & =\int p(\mathbf{x}, \boldsymbol{\theta} \mid \mathcal{D}) d \boldsymbol{\theta} \\ & =\int p(\mathbf{x} \mid \boldsymbol{\theta}, \mathcal{D}) p(\boldsymbol{\theta} \mid \mathcal{D}) d \boldsymbol{\theta} \\ & =\int p(\mathbf{x} \mid \boldsymbol{\theta}) p(\boldsymbol{\theta} \mid \mathcal{D}) d \boldsymbol{\theta}\end{aligned}$
這是一種對概率密度求積分的思想。因為在貝葉斯方法中，參數 $\theta$ 不是固定的值，而是一個不確定的變量！

傳統頻率派做法通常是：
直接用最大似然估計或MAP估計得出一個具體的 $\hat{\theta}$ ，然后用 $p(\mathbf{x} \mid \hat{\theta})$ 來做預測。
而貝葉斯派則認為：

我們應該考慮所有可能的參數值，不要只依賴一個點估計！要用加權平均 的方式整合所有參數不確定性。所以我們不是用一個固定參數預測 $\mathbf{x}$ ，而是用下面這個**＂平均版本＂**：

$p(\mathbf{x} \mid \mathcal{D})=\mathbb{E}_{\theta \sim p(\theta \mid \mathcal{D})}[p(\mathbf{x} \mid \theta)]$

舉個例子：

假設我們要預測某人是否患病（1 or 0），你用邏輯回歸來建模，參數是 $\theta$ 。現在你已經看到了一些訓練數據 $\mathcal{D}$ 。
- 如果你直接用最大似然：
  $\hat{\theta} = \text{argmax}_\theta p(\mathcal{D} \mid \theta)$ ，然后預測：
  $p(\text{患病} \mid \text{特征}) \approx p(\text{患病} \mid \text{特征}, \hat{\theta})$
- 如果你用貝葉斯預測：
  你承認你對 $\theta$ 沒有那么確定，只能說它服從某個后驗分布：
  $p(\text{患病} \mid \text{特征}) = \int p(\text{患病} \mid \text{特征}, \theta) \cdot p(\theta \mid \mathcal{D}) d\theta$
這就是貝葉斯方法“把模型參數的不確定性也考慮進來”的精髓。

繼續看上面的公式： $\int p(\mathbf{x} \mid \boldsymbol{\theta}) p(\boldsymbol{\theta} \mid \mathcal{D}) d \boldsymbol{\theta}$ 。

$p(\mathbf{x} \mid \theta)$ ：似然函數，形式已知（如高斯分布）。
$p(\theta \mid \mathcal{D})$ ：參數的后驗分布，需通過訓練數據計算。計算過程：
$\begin{aligned} p(\boldsymbol{\theta} \mid \mathcal{D}) & =\frac{p(\boldsymbol{\theta}, \mathcal{D})}{p(\mathcal{D})} \\ & =\frac{p(\boldsymbol{\theta}) p(\mathcal{D} \mid \boldsymbol{\theta})}{\int p(\boldsymbol{\theta}, \mathcal{D}) d \boldsymbol{\theta}} \\ & =\frac{p(\boldsymbol{\theta}) p(\mathcal{D} \mid \boldsymbol{\theta})}{\int p(\boldsymbol{\theta}) p(\mathcal{D} \mid \boldsymbol{\theta}) d \boldsymbol{\theta}} \\ p(\mathcal{D} \mid \boldsymbol{\theta}) & =\prod_{i=1}^n p\left(\mathbf{x}_k \mid \boldsymbol{\theta}\right) \end{aligned}$

進行貝葉斯參數估計的一般階段：

階段 I：訓練（后驗分布）

輸入：
- 數據集 $\mathcal{D} = \{x_1, x_2, ..., x_n\}$
- 參數的先驗分布 $p(\theta)$ ：比如說你覺得 $\theta$ 是某個高斯分布。
核心公式：
$p(\theta \mid \mathcal{D}) = \frac{p(\mathcal{D} \mid \theta) p(\theta)}{p(\mathcal{D})}$
逐項理解：
- $p(\theta)$ ：我們對參數的先驗認知；
- $p(\mathcal{D} \mid \theta)$ ：參數下，數據出現的可能性（似然）；
- $p(\theta \mid \mathcal{D})$ ：數據觀察之后，對參數的更新信念；
- $p(\mathcal{D}) = \int p(\mathcal{D} \mid \theta)p(\theta)d\theta$ ：歸一化項，保證后驗是概率分布。
目標： 求出后驗分布 $p(\theta \mid \mathcal{D})$ 。
階段 II：估計類條件密度（積分）

我們要干嘛？
在數據集下，我們想知道觀測到新樣本 $\mathbf{x}$ 的可能性是多少？但我們不能只用某一個 $\theta$ ，因為我們不確定。所以我們把所有可能的 $\theta$ 都考慮進去，做一個加權平均（加權方式是后驗概率）：
$p(\mathbf{x} \mid \mathcal{D}) = \int p(\mathbf{x} \mid \theta) \cdot p(\theta \mid \mathcal{D}) d\theta$
- $p(\mathbf{x} \mid \theta)$ ：在參數 $\theta$ 下，x 的生成概率（比如說高斯密度）；
- $p(\theta \mid \mathcal{D})$ ：階段 I 得到的后驗分布；
- 積分的結果：在參數不確定的前提下， $\mathbf{x}$ 的總體生成可能性。
這一步的意義是： 我們不是像MLE那樣說“ $\theta$ 就是這個”，而是說“我們不知道 $\theta$ 到底是哪個，所以我們把所有可能的 $\theta$ 的解釋能力都考慮進來”，這叫邊際化參數。
階段 III：分類

現在我們有了每個類 $\omega_i$ 的條件密度估計：
$p(\mathbf{x} \mid \omega_i, \mathcal{D}_i)$
我們還可以提前給出類的先驗概率 $P(\omega_i)$ ，比如所有類是等概率的就是均勻先驗。

最后就可以通過貝葉斯規則，計算某個類的后驗概率（重點是“對這個樣本來說，它屬于哪個類更有可能”）：
$P(\omega_i \mid \mathbf{x}, \mathcal{D}) = \frac{P(\mathbf{x} \mid \omega_i, \mathcal{D}_i) P(\omega_i)}{\sum_{j=1}^c P(\mathbf{x} \mid \omega_j, \mathcal{D}_j) P(\omega_j)}$
- 分子是“這個類解釋當前樣本的能力 × 這個類本身的先驗”；
- 分母是對所有類的分子求和（歸一化）；
- 最后就可以取最大后驗的類作為分類結果。

比較最大似然估計和貝葉斯估計的哲學思想

為什么最大似然估計認為能讓似然函數最大的參數值即為所求?

最大似然估計的基本假設是：

現實中觀測到的數據是由某個“真實參數”控制的概率模型生成的，而我們不知道這個參數是多少。

所以我們要“反過來推”，從數據出發，倒推出這個參數。這就是最大似然的直覺: “哪個參數讓我們實際觀測到的數據最可能發生？”

似然函數是對“模型如何解釋數據”的度量

似然函數 $L(\theta) = p(D \mid \theta)$
它表示在參數為 $\theta$ 的前提下，我們實際看到數據 $D$ 的概率。

MLE 就是選擇那個讓這件事發生得最自然、最不意外的 $\theta$ 。
和頻率學派的統計思想一致

頻率學派認為：
- 參數是“固定不變”的（雖然我們不知道它是多少）；
- 數據是“可重復的隨機樣本”。
那么，從一堆樣本中，我們就用 MLE 來尋找最有可能產生這堆樣本的參數值，這是頻率學派最常見的估計方法之一。
從極大化聯合概率來看

假設數據是獨立同分布的：
$\{x_1, x_2, \ldots, x_n\}$ ，則似然函數是：
$L(\theta) = \prod_{i=1}^n p(x_i \mid \theta)$
你會發現：MLE 尋找的是哪個 $\theta$ ，能讓這些樣本的聯合概率最大。

這等價于：

選擇一個最能“復現”這些樣本的參數值。
和“最大后驗估計”也有關聯

當你加上先驗知識 $p(\theta)$ 的時候，你得到的是最大后驗估計（MAP）：
$\theta_{\text{MAP}} = \arg\max_\theta p(\theta \mid D) = \arg\max_\theta p(D \mid \theta)p(\theta)$
當先驗是均勻分布（對所有參數值一視同仁）時：
$\theta_{\text{MAP}} = \theta_{\text{MLE}}$
所以 MLE 可以被看作一種“沒有先驗信息時的貝葉斯估計”。

貝葉斯學派認為：“參數本身也是不確定的，是一個概率分布。”我們根據數據不斷地更新我們對參數的信念。

頻率學派	貝葉斯學派
參數是固定的，數據是隨機的	數據是確定的，參數是不確定的
用樣本來推斷固定參數	用數據來更新我們對參數的信念
不談“參數的概率”，只談樣本概率	參數也有概率分布

$\underbrace{p(\theta \mid D)}_{\text {后驗 }}=\frac{\underbrace{p(D \mid \theta)}_{\text {似然 }} \cdot \underbrace{p(\theta)}_{\text {先驗 }}}{\underbrace{p(D)}_{\text {邊際似然 }}}$

這表達了：

我們通過觀察數據 D，把原先對參數 $\theta$ 的“信念” $p(\theta)$ ，更新為一個新的“信念” $p(\theta \mid D)$ 。

類比為“科學實驗”

我們對一個理論（參數）有一個初步的信念（先驗）；
我們進行實驗，收集數據（似然）；
我們更新我們的信念，得到一個更加可信的理論（后驗）. “新信念的比例 = 舊信念的比例 × 數據支持程度的比例”。。

分母實際上是一個歸一化常數, $p(D)=\int p(D \mid \theta) \cdot p(\theta) d \theta$

它的作用是對所有可能的 $\theta$ 情況歸一化，讓后驗 $p(\theta \mid D)$ 的積分為 1。來保證這個式子符合概率的形式. 核心思想體現在分子.

主觀信念更新是核心：我們不是問“誰生成了數據”，而是“在看到數據后我們應該相信誰？”
信念更新的比例邏輯：比例推理形式強調的是“相對可信度”的更新，而不是絕對頻率。
概率的可解釋性來自先驗：先驗并不等于胡說，而是代表我們對問題背景的理解，是模型的一部分。
貝葉斯定理并不是從頻率定義出發的數學技巧，而是從“主觀信念更新的理性原則”出發，用似然函數衡量數據的支持程度，用先驗表示我們原有的信念，再通過歸一化得到后驗信念。