EM算法與變分推斷

符號說明

$x$ ：已觀測變量的集合 ${x_1,x_2,x_3,...,x_N\}$ ，長度為 $N$
$z$ ：隱變量（未觀測變量）
$\theta$ ：分布參數
$(x, z)$ ：完整數據
$p(x|\theta)$ ：似然函數

KL散度

KL散度用于衡量原始分布與近似分布的差異，從公式來看，其計算的是原始分布與近似分布之間的對數差的期望，公式如下
$D_{KL}(p||q)=E[\ln p(x)-\ln q(x)]=\sum_{i=1}^Np(x_i)\ln \frac{p(x_i)}{q(x_i)}=\int_x p(x_i) \ln \frac{p(x_i)}{q(x_i)}dx$
KL散度大于等于0

EM算法

EM算法原理

EM算法常用于估計參數的隱變量，它是一種迭代式的方法，其基本想法是：如果參數 $\theta$ 已知，則可以根據訓練數據推斷出最優隱變量 $z$ 的值（ $E$ 步）；反之，若 $z$ 已知，則可以方便地對參數 $\theta$ 做極大似然估計（ $M$ 步）
假設我們要對參數 $\theta$ 做極大似然估計，則需要最大化對數似然
$\ln p(x,z|\theta)$ ，但由于隱變量 $z$ 是未知的，因此上式無法直接求解，我們可以通過對上式計算關于 $z$ 的期望來最大化已觀測數據x的邊緣似然，即最大化
$\ln p(x,z|\theta)=\int_z \ln p(x,z|\theta)p(z|x,\theta)dz$
于是，EM算法的原型便是，以初始值 $\theta^0$ 為起點，對上式可迭代執行以下步驟直至收斂：
- 基于第 $t$ 步的 $\theta^t$ 推斷隱變量 $z$ 的分布 $p(z|x,\theta)$
- 基于已觀測變量 $x$ 和 $p(z|x,\theta)$ 對參數 $\theta$ 做極大似然估計得到 $\theta^{t+1}$
由此，我們可以得出EM算法的迭代方程
$\theta^{t+1}=\argmax_\theta\int_z \ln p(x,z|\theta^t)p(z|x,\theta^t)dz$

變分推斷

問題背景

通常而言，機器學習中需要解決的問題是由觀察到的變量 $x$ 來估計隱變量 $z$ 的分布以及參數 $\theta$ ，也就是求解 $p(z|x,\theta)$ 以及 $\theta$

用公式來表達，變量集合 $x$ 的聯合分布為 $p(x|\theta)=\prod_{i=1}^N\int_zp(x_i,z|\theta)dz$
則其對應的對數似然函數就為
$\ln p(x|\theta)=\ln \prod_{i=1}^Np(x_i,z|\theta)=\sum_{i=1}^N\ln\left[\int_z p(x_i,z|\theta)dz\right]$
而概率模型中的參數估計通常以最大化對數似然函數為手段，對上式應用EM算法得到 $\theta^{t+1}=\argmax_\theta\int_z \ln p(x,z|\theta^t)p(z|x,\theta^t)dz$ 當 $p(z|x,\theta^t)$ 與隱變量 $z$ 的真實后驗分布相等時， $\int_z \ln p(x,z|\theta^t)p(z|x,\theta^t)dz$ 近似于對數似然函數，然而，由于隱變量 $z$ 是未知的，我們很難得知它的真實分布，因此我們實際使用的 $p(z|x,\theta^t)$ 未必是隱變量 $z$ 的真實后驗分布，而通常只是一個近似分布。
因此，如何推斷 $z$ 的真實后驗分布 $p(z|x,\theta^t)$ 成為了一個問題，此時我們便可以借助變分推斷。假設我們現在要使用近似分布 $q (z)$ 去逼近真實分布 $p(z|x,\theta^t)$ ，我們可以很容易驗證以下關系式
$\ln p(x|\theta)=L(q)+KL(q||p)$ 其中 $L(q)=\int_z \ln \frac{p(x,z|\theta)}{q(z)}q(z)dz$ ， $KL(q||p)=\int_z\ln \frac{q(z)}{p(z|x,\theta)}q(z)dz$
證明如下，通過將對數似然函數進行變換可以得到
$\begin{aligned} \ln p(x|\theta) &= \ln p(x,z|\theta)-\ln p(z|x,\theta)\\ &= \ln \frac{p(x,z|\theta)}{q(z)}-\ln \frac{p(z|x,\theta)}{{q(z)}}\\ \end{aligned}$ 對等式兩邊同時乘上 $q (z)$ 可得
$\ln p(x|\theta)q(z) = \ln \frac{p(x,z|\theta)}{q(z)}q(z)-\ln \frac{p(z|x,\theta)}{{q(z)}}q(z)$ 等式兩邊同時對 $z$ 求積分，由于 $\ln p(x|\theta)$ 與 $z$ 無關，因此積分后仍得原式，所以有
$\begin{aligned} \ln p(x|\theta) &= \int_z \ln \frac{p(x,z|\theta)}{q(z)}q(z)dz-\int_z\ln \frac{p(z|x,\theta)}{{q(z)}}q(z)dz\\ &= \int_z \ln \frac{p(x,z|\theta)}{q(z)}q(z)dz+\int_z\ln \frac{q(z)}{p(z|x,\theta)}q(z)dz\\ \end{aligned}$ 令 $L(q)=\int_z \ln \frac{p(x,z|\theta)}{q(z)}q(z)dz$ ， $KL(q||p)=\int_z\ln \frac{q(z)}{p(z|x,\theta)}q(z)dz$ ，則關系式得證。
觀察我們所得到的關系式，假如我們假設近似分布 $q (z)$ 無限接近于 $p(z|x,\theta)$ ，那么KL散度便無限趨近于0，此時就有 $\ln p(x|\theta)\approx L(q)$ 于是，我們就將最大化對數似然的問題就轉化為找到一個q(z)能最大化 $L (q)$ 的問題

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/12277.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/12277.shtml
英文地址，請注明出處：http://en.pswp.cn/web/12277.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！