貝葉斯估計
問題建模:
后驗概率公式:
P ( ω i ∣ x , D ) = P ( x ∣ ω i , D i ) P ( ω i ) ∑ j = 1 c P ( x ∣ ω j , D j ) P ( ω j ) P\left(\omega_i \mid \mathbf{x}, \mathcal{D}\right)=\frac{P\left(\mathbf{x} \mid \omega_i, \mathcal{D}_i\right) P\left(\omega_i\right)}{\sum_{j=1}^c P\left(\mathbf{x} \mid \omega_j, \mathcal{D}_j\right) P\left(\omega_j\right)} P(ωi?∣x,D)=∑j=1c?P(x∣ωj?,Dj?)P(ωj?)P(x∣ωi?,Di?)P(ωi?)?
由于我們在做分類器時,手上其實是有訓練數據的,也就是每一類 ω i \omega_i ωi? 都有自己對應的訓練數據集合 D i \mathcal{D}_i Di?。因此,我們真正能估計的是:
P ( x ∣ ω i , D i ) P(\mathbf{x} \mid \omega_i, \mathcal{D}_i) P(x∣ωi?,Di?)
也就是說,“在知道類別是 ω i \omega_i ωi?” 且 “在我們擁有第 i 類的數據 D i \mathcal{D}_i Di?” 的情況下,輸入 x \mathbf{x} x 出現的概率。我們在每個類別內部進行建模的時候,類別標簽已經是已知的固定量。所以:
- 給定 D i \mathcal{D}_i Di? ,我們知道這些數據都是屬于 ω i \omega_i ωi? 類別的。
- 那我們就可以只用這些數據來建模"類別 ω i \omega_i ωi? 的條件概率分布"。
也就是說,一旦我們知道了 D i \mathcal{D}_i Di? 是哪一類的,我們已經隱含地知道了類別標簽 ω i \omega_i ωi? ,所以再寫 ω i \omega_i ωi? 就是多余了。于是就可以簡寫為:
P ( x ∣ ω i , D i ) = P ( x ∣ D i ) P\left(\mathbf{x} \mid \omega_i, \mathcal{D}_i\right)=P\left(\mathbf{x} \mid \mathcal{D}_i\right) P(x∣ωi?,Di?)=P(x∣Di?)
所以,問題的核心在于**估計 P ( x ∣ D ) P(\mathbf{x} \mid \mathcal{D}) P(x∣D)。**這里省略下標表示對所有類別通用的求解方式。
p ( x ∣ D ) = ∫ p ( x , θ ∣ D ) d θ = ∫ p ( x ∣ θ , D ) p ( θ ∣ D ) d θ = ∫ p ( x ∣ θ ) p ( θ ∣ D ) d θ \begin{aligned} p(\mathbf{x} \mid \mathcal{D}) & =\int p(\mathbf{x}, \boldsymbol{\theta} \mid \mathcal{D}) d \boldsymbol{\theta} \\ & =\int p(\mathbf{x} \mid \boldsymbol{\theta}, \mathcal{D}) p(\boldsymbol{\theta} \mid \mathcal{D}) d \boldsymbol{\theta} \\ & =\int p(\mathbf{x} \mid \boldsymbol{\theta}) p(\boldsymbol{\theta} \mid \mathcal{D}) d \boldsymbol{\theta}\end{aligned} p(x∣D)?=∫p(x,θ∣D)dθ=∫p(x∣θ,D)p(θ∣D)dθ=∫p(x∣θ)p(θ∣D)dθ?
這是一種對概率密度求積分的思想。因為在貝葉斯方法中,參數 θ \theta θ 不是固定的值,而是一個不確定的變量!
-
傳統頻率派做法通常是:
直接用最大似然估計或MAP估計得出一個具體的 θ ^ \hat{\theta} θ^ ,然后用 p ( x ∣ θ ^ ) p(\mathbf{x} \mid \hat{\theta}) p(x∣θ^) 來做預測。 -
而貝葉斯派則認為:
我們應該考慮所有可能的參數值,不要只依賴一個點估計!要用加權平均 的方式整合所有參數不確定性。所以我們不是用一個固定參數預測 x \mathbf{x} x ,而是用下面這個**"平均版本"**:
p ( x ∣ D ) = E θ ~ p ( θ ∣ D ) [ p ( x ∣ θ ) ] p(\mathbf{x} \mid \mathcal{D})=\mathbb{E}_{\theta \sim p(\theta \mid \mathcal{D})}[p(\mathbf{x} \mid \theta)] p(x∣D)=Eθ~p(θ∣D)?[p(x∣θ)]
-
舉個例子:
假設我們要預測某人是否患病(1 or 0),你用邏輯回歸來建模,參數是 θ \theta θ。現在你已經看到了一些訓練數據 D \mathcal{D} D。
-
如果你直接用最大似然:
θ ^ = argmax θ p ( D ∣ θ ) \hat{\theta} = \text{argmax}_\theta p(\mathcal{D} \mid \theta) θ^=argmaxθ?p(D∣θ),然后預測:
p ( 患病 ∣ 特征 ) ≈ p ( 患病 ∣ 特征 , θ ^ ) p(\text{患病} \mid \text{特征}) \approx p(\text{患病} \mid \text{特征}, \hat{\theta}) p(患病∣特征)≈p(患病∣特征,θ^) -
如果你用貝葉斯預測:
你承認你對 θ \theta θ 沒有那么確定,只能說它服從某個后驗分布:
p ( 患病 ∣ 特征 ) = ∫ p ( 患病 ∣ 特征 , θ ) ? p ( θ ∣ D ) d θ p(\text{患病} \mid \text{特征}) = \int p(\text{患病} \mid \text{特征}, \theta) \cdot p(\theta \mid \mathcal{D}) d\theta p(患病∣特征)=∫p(患病∣特征,θ)?p(θ∣D)dθ
這就是貝葉斯方法“把模型參數的不確定性也考慮進來”的精髓。
-
繼續看上面的公式: ∫ p ( x ∣ θ ) p ( θ ∣ D ) d θ \int p(\mathbf{x} \mid \boldsymbol{\theta}) p(\boldsymbol{\theta} \mid \mathcal{D}) d \boldsymbol{\theta} ∫p(x∣θ)p(θ∣D)dθ。
-
p ( x ∣ θ ) p(\mathbf{x} \mid \theta) p(x∣θ):似然函數,形式已知(如高斯分布)。
-
p ( θ ∣ D ) p(\theta \mid \mathcal{D}) p(θ∣D):參數的后驗分布,需通過訓練數據計算。計算過程:
p ( θ ∣ D ) = p ( θ , D ) p ( D ) = p ( θ ) p ( D ∣ θ ) ∫ p ( θ , D ) d θ = p ( θ ) p ( D ∣ θ ) ∫ p ( θ ) p ( D ∣ θ ) d θ p ( D ∣ θ ) = ∏ i = 1 n p ( x k ∣ θ ) \begin{aligned} p(\boldsymbol{\theta} \mid \mathcal{D}) & =\frac{p(\boldsymbol{\theta}, \mathcal{D})}{p(\mathcal{D})} \\ & =\frac{p(\boldsymbol{\theta}) p(\mathcal{D} \mid \boldsymbol{\theta})}{\int p(\boldsymbol{\theta}, \mathcal{D}) d \boldsymbol{\theta}} \\ & =\frac{p(\boldsymbol{\theta}) p(\mathcal{D} \mid \boldsymbol{\theta})}{\int p(\boldsymbol{\theta}) p(\mathcal{D} \mid \boldsymbol{\theta}) d \boldsymbol{\theta}} \\ p(\mathcal{D} \mid \boldsymbol{\theta}) & =\prod_{i=1}^n p\left(\mathbf{x}_k \mid \boldsymbol{\theta}\right) \end{aligned} p(θ∣D)p(D∣θ)?=p(D)p(θ,D)?=∫p(θ,D)dθp(θ)p(D∣θ)?=∫p(θ)p(D∣θ)dθp(θ)p(D∣θ)?=i=1∏n?p(xk?∣θ)?
進行貝葉斯參數估計的一般階段:
-
階段 I:訓練(后驗分布)
輸入:
- 數據集 D = { x 1 , x 2 , . . . , x n } \mathcal{D} = \{x_1, x_2, ..., x_n\} D={x1?,x2?,...,xn?}
- 參數的先驗分布 p ( θ ) p(\theta) p(θ):比如說你覺得 θ \theta θ 是某個高斯分布。
核心公式:
p ( θ ∣ D ) = p ( D ∣ θ ) p ( θ ) p ( D ) p(\theta \mid \mathcal{D}) = \frac{p(\mathcal{D} \mid \theta) p(\theta)}{p(\mathcal{D})} p(θ∣D)=p(D)p(D∣θ)p(θ)?
逐項理解:- p ( θ ) p(\theta) p(θ):我們對參數的先驗認知;
- p ( D ∣ θ ) p(\mathcal{D} \mid \theta) p(D∣θ):參數下,數據出現的可能性(似然);
- p ( θ ∣ D ) p(\theta \mid \mathcal{D}) p(θ∣D):數據觀察之后,對參數的更新信念;
- p ( D ) = ∫ p ( D ∣ θ ) p ( θ ) d θ p(\mathcal{D}) = \int p(\mathcal{D} \mid \theta)p(\theta)d\theta p(D)=∫p(D∣θ)p(θ)dθ:歸一化項,保證后驗是概率分布。
目標: 求出后驗分布 p ( θ ∣ D ) p(\theta \mid \mathcal{D}) p(θ∣D)。
-
階段 II:估計類條件密度(積分)
我們要干嘛?
在數據集下,我們想知道觀測到新樣本 x \mathbf{x} x的可能性是多少?但我們不能只用某一個 θ \theta θ,因為我們不確定。所以我們把所有可能的 θ \theta θ 都考慮進去,做一個加權平均(加權方式是后驗概率):
p ( x ∣ D ) = ∫ p ( x ∣ θ ) ? p ( θ ∣ D ) d θ p(\mathbf{x} \mid \mathcal{D}) = \int p(\mathbf{x} \mid \theta) \cdot p(\theta \mid \mathcal{D}) d\theta p(x∣D)=∫p(x∣θ)?p(θ∣D)dθ- p ( x ∣ θ ) p(\mathbf{x} \mid \theta) p(x∣θ):在參數 θ \theta θ 下,x 的生成概率(比如說高斯密度);
- p ( θ ∣ D ) p(\theta \mid \mathcal{D}) p(θ∣D):階段 I 得到的后驗分布;
- 積分的結果:在參數不確定的前提下, x \mathbf{x} x 的總體生成可能性。
這一步的意義是: 我們不是像MLE那樣說“ θ \theta θ 就是這個”,而是說“我們不知道 θ \theta θ 到底是哪個,所以我們把所有可能的 θ \theta θ 的解釋能力都考慮進來”,這叫邊際化參數。
-
階段 III:分類
現在我們有了每個類 ω i \omega_i ωi? 的條件密度估計:
p ( x ∣ ω i , D i ) p(\mathbf{x} \mid \omega_i, \mathcal{D}_i) p(x∣ωi?,Di?)
我們還可以提前給出類的先驗概率 P ( ω i ) P(\omega_i) P(ωi?),比如所有類是等概率的就是均勻先驗。最后就可以通過貝葉斯規則,計算某個類的后驗概率(重點是“對這個樣本來說,它屬于哪個類更有可能”):
P ( ω i ∣ x , D ) = P ( x ∣ ω i , D i ) P ( ω i ) ∑ j = 1 c P ( x ∣ ω j , D j ) P ( ω j ) P(\omega_i \mid \mathbf{x}, \mathcal{D}) = \frac{P(\mathbf{x} \mid \omega_i, \mathcal{D}_i) P(\omega_i)}{\sum_{j=1}^c P(\mathbf{x} \mid \omega_j, \mathcal{D}_j) P(\omega_j)} P(ωi?∣x,D)=∑j=1c?P(x∣ωj?,Dj?)P(ωj?)P(x∣ωi?,Di?)P(ωi?)?- 分子是“這個類解釋當前樣本的能力 × 這個類本身的先驗”;
- 分母是對所有類的分子求和(歸一化);
- 最后就可以取最大后驗的類作為分類結果。
比較最大似然估計和貝葉斯估計的哲學思想
為什么最大似然估計認為能讓似然函數最大的參數值即為所求?
最大似然估計的基本假設是:
現實中觀測到的數據是由某個“真實參數”控制的概率模型生成的,而我們不知道這個參數是多少。
所以我們要“反過來推”,從數據出發,倒推出這個參數。這就是最大似然的直覺: “哪個參數讓我們實際觀測到的數據最可能發生?”
-
似然函數是對“模型如何解釋數據”的度量
似然函數 L ( θ ) = p ( D ∣ θ ) L(\theta) = p(D \mid \theta) L(θ)=p(D∣θ)
它表示在參數為 θ \theta θ 的前提下,我們實際看到數據 D D D 的概率。MLE 就是選擇那個讓這件事發生得最自然、最不意外的 θ \theta θ。
-
和頻率學派的統計思想一致
頻率學派認為:
- 參數是“固定不變”的(雖然我們不知道它是多少);
- 數據是“可重復的隨機樣本”。
那么,從一堆樣本中,我們就用 MLE 來尋找最有可能產生這堆樣本的參數值,這是頻率學派最常見的估計方法之一。
-
從極大化聯合概率來看
假設數據是獨立同分布的:
D = { x 1 , x 2 , … , x n } D = \{x_1, x_2, \ldots, x_n\} D={x1?,x2?,…,xn?},則似然函數是:
L ( θ ) = ∏ i = 1 n p ( x i ∣ θ ) L(\theta) = \prod_{i=1}^n p(x_i \mid \theta) L(θ)=i=1∏n?p(xi?∣θ)
你會發現:MLE 尋找的是哪個 θ \theta θ,能讓這些樣本的聯合概率最大。這等價于:
選擇一個最能“復現”這些樣本的參數值。
-
和“最大后驗估計”也有關聯
當你加上先驗知識 p ( θ ) p(\theta) p(θ) 的時候,你得到的是最大后驗估計(MAP):
θ MAP = arg ? max ? θ p ( θ ∣ D ) = arg ? max ? θ p ( D ∣ θ ) p ( θ ) \theta_{\text{MAP}} = \arg\max_\theta p(\theta \mid D) = \arg\max_\theta p(D \mid \theta)p(\theta) θMAP?=argθmax?p(θ∣D)=argθmax?p(D∣θ)p(θ)
當先驗是均勻分布(對所有參數值一視同仁)時:
θ MAP = θ MLE \theta_{\text{MAP}} = \theta_{\text{MLE}} θMAP?=θMLE?
所以 MLE 可以被看作一種“沒有先驗信息時的貝葉斯估計”。
貝葉斯學派認為:“參數本身也是不確定的,是一個概率分布。”我們根據數據不斷地更新我們對參數的信念。
頻率學派 | 貝葉斯學派 |
---|---|
參數是固定的,數據是隨機的 | 數據是確定的,參數是不確定的 |
用樣本來推斷固定參數 | 用數據來更新我們對參數的信念 |
不談“參數的概率”,只談樣本概率 | 參數也有概率分布 |
p ( θ ∣ D ) ? 后驗? = p ( D ∣ θ ) ? 似然? ? p ( θ ) ? 先驗? p ( D ) ? 邊際似然? \underbrace{p(\theta \mid D)}_{\text {后驗 }}=\frac{\underbrace{p(D \mid \theta)}_{\text {似然 }} \cdot \underbrace{p(\theta)}_{\text {先驗 }}}{\underbrace{p(D)}_{\text {邊際似然 }}} 后驗? p(θ∣D)??=邊際似然? p(D)??似然? p(D∣θ)???先驗? p(θ)???
這表達了:
我們通過觀察數據 D,把原先對參數 θ \theta θ 的“信念” p ( θ ) p(\theta) p(θ),更新為一個新的“信念” p ( θ ∣ D ) p(\theta \mid D) p(θ∣D)。
類比為“科學實驗”
- 我們對一個理論(參數)有一個初步的信念(先驗);
- 我們進行實驗,收集數據(似然);
- 我們更新我們的信念,得到一個更加可信的理論(后驗). “新信念的比例 = 舊信念的比例 × 數據支持程度的比例”。。
分母實際上是一個歸一化常數, p ( D ) = ∫ p ( D ∣ θ ) ? p ( θ ) d θ p(D)=\int p(D \mid \theta) \cdot p(\theta) d \theta p(D)=∫p(D∣θ)?p(θ)dθ
它的作用是對所有可能的 θ \theta θ 情況歸一化,讓后驗 p ( θ ∣ D ) p(\theta \mid D) p(θ∣D) 的積分為 1。來保證這個式子符合概率的形式. 核心思想體現在分子.
- 主觀信念更新是核心:我們不是問“誰生成了數據”,而是“在看到數據后我們應該相信誰?”
- 信念更新的比例邏輯:比例推理形式強調的是“相對可信度”的更新,而不是絕對頻率。
- 概率的可解釋性來自先驗:先驗并不等于胡說,而是代表我們對問題背景的理解,是模型的一部分。
- 貝葉斯定理并不是從頻率定義出發的數學技巧,而是從“主觀信念更新的理性原則”出發,用似然函數衡量數據的支持程度,用先驗表示我們原有的信念,再通過歸一化得到后驗信念。