符號說明
- x x x:已觀測變量的集合 { x 1 , x 2 , x 3 , . . . , x N } \{x_1,x_2,x_3,...,x_N\} {x1?,x2?,x3?,...,xN?},長度為 N N N
- z z z:隱變量(未觀測變量)
- θ \theta θ:分布參數
- ( x , z ) (x,z) (x,z):完整數據
- p ( x ∣ θ ) p(x|\theta) p(x∣θ):似然函數
KL散度
- KL散度用于衡量原始分布與近似分布的差異,從公式來看,其計算的是原始分布與近似分布之間的對數差的期望,公式如下
D K L ( p ∣ ∣ q ) = E [ ln ? p ( x ) ? ln ? q ( x ) ] = ∑ i = 1 N p ( x i ) ln ? p ( x i ) q ( x i ) = ∫ x p ( x i ) ln ? p ( x i ) q ( x i ) d x D_{KL}(p||q)=E[\ln p(x)-\ln q(x)]=\sum_{i=1}^Np(x_i)\ln \frac{p(x_i)}{q(x_i)}=\int_x p(x_i) \ln \frac{p(x_i)}{q(x_i)}dx DKL?(p∣∣q)=E[lnp(x)?lnq(x)]=i=1∑N?p(xi?)lnq(xi?)p(xi?)?=∫x?p(xi?)lnq(xi?)p(xi?)?dx - KL散度大于等于0
EM算法
EM算法原理
- EM算法常用于估計參數的隱變量,它是一種迭代式的方法,其基本想法是:如果參數 θ \theta θ已知,則可以根據訓練數據推斷出最優隱變量 z z z的值( E E E步);反之,若 z z z已知,則可以方便地對參數 θ \theta θ做極大似然估計( M M M步)
- 假設我們要對參數 θ \theta θ做極大似然估計,則需要最大化對數似然
ln ? p ( x , z ∣ θ ) \ln p(x,z|\theta) lnp(x,z∣θ),但由于隱變量 z z z是未知的,因此上式無法直接求解,我們可以通過對上式計算關于 z z z的期望來最大化已觀測數據x的邊緣似然,即最大化
ln ? p ( x , z ∣ θ ) = ∫ z ln ? p ( x , z ∣ θ ) p ( z ∣ x , θ ) d z \ln p(x,z|\theta)=\int_z \ln p(x,z|\theta)p(z|x,\theta)dz lnp(x,z∣θ)=∫z?lnp(x,z∣θ)p(z∣x,θ)dz - 于是,EM算法的原型便是,以初始值 θ 0 \theta^0 θ0為起點,對上式可迭代執行以下步驟直至收斂:
- 基于第 t t t步的 θ t \theta^t θt推斷隱變量 z z z的分布 p ( z ∣ x , θ ) p(z|x,\theta) p(z∣x,θ)
- 基于已觀測變量 x x x和 p ( z ∣ x , θ ) p(z|x,\theta) p(z∣x,θ)對參數 θ \theta θ做極大似然估計得到 θ t + 1 \theta^{t+1} θt+1
- 由此,我們可以得出EM算法的迭代方程
θ t + 1 = arg?max ? θ ∫ z ln ? p ( x , z ∣ θ t ) p ( z ∣ x , θ t ) d z \theta^{t+1}=\argmax_\theta\int_z \ln p(x,z|\theta^t)p(z|x,\theta^t)dz θt+1=θargmax?∫z?lnp(x,z∣θt)p(z∣x,θt)dz
變分推斷
問題背景
-
通常而言,機器學習中需要解決的問題是由觀察到的變量 x x x來估計隱變量 z z z的分布以及參數 θ \theta θ,也就是求解 p ( z ∣ x , θ ) p(z|x,\theta) p(z∣x,θ)以及 θ \theta θ
用公式來表達,變量集合 x x x的聯合分布為 p ( x ∣ θ ) = ∏ i = 1 N ∫ z p ( x i , z ∣ θ ) d z p(x|\theta)=\prod_{i=1}^N\int_zp(x_i,z|\theta)dz p(x∣θ)=i=1∏N?∫z?p(xi?,z∣θ)dz
則其對應的對數似然函數就為
ln ? p ( x ∣ θ ) = ln ? ∏ i = 1 N p ( x i , z ∣ θ ) = ∑ i = 1 N ln ? [ ∫ z p ( x i , z ∣ θ ) d z ] \ln p(x|\theta)=\ln \prod_{i=1}^Np(x_i,z|\theta)=\sum_{i=1}^N\ln\left[\int_z p(x_i,z|\theta)dz\right] lnp(x∣θ)=lni=1∏N?p(xi?,z∣θ)=i=1∑N?ln[∫z?p(xi?,z∣θ)dz] -
而概率模型中的參數估計通常以最大化對數似然函數為手段,對上式應用EM算法得到 θ t + 1 = arg?max ? θ ∫ z ln ? p ( x , z ∣ θ t ) p ( z ∣ x , θ t ) d z \theta^{t+1}=\argmax_\theta\int_z \ln p(x,z|\theta^t)p(z|x,\theta^t)dz θt+1=θargmax?∫z?lnp(x,z∣θt)p(z∣x,θt)dz當 p ( z ∣ x , θ t ) p(z|x,\theta^t) p(z∣x,θt)與隱變量 z z z的真實后驗分布相等時, ∫ z ln ? p ( x , z ∣ θ t ) p ( z ∣ x , θ t ) d z \int_z \ln p(x,z|\theta^t)p(z|x,\theta^t)dz ∫z?lnp(x,z∣θt)p(z∣x,θt)dz近似于對數似然函數,然而,由于隱變量 z z z是未知的,我們很難得知它的真實分布,因此我們實際使用的 p ( z ∣ x , θ t ) p(z|x,\theta^t) p(z∣x,θt)未必是隱變量 z z z的真實后驗分布,而通常只是一個近似分布。
-
因此,如何推斷 z z z的真實后驗分布 p ( z ∣ x , θ t ) p(z|x,\theta^t) p(z∣x,θt)成為了一個問題,此時我們便可以借助變分推斷。假設我們現在要使用近似分布 q ( z ) q(z) q(z)去逼近真實分布 p ( z ∣ x , θ t ) p(z|x,\theta^t) p(z∣x,θt),我們可以很容易驗證以下關系式
ln ? p ( x ∣ θ ) = L ( q ) + K L ( q ∣ ∣ p ) \ln p(x|\theta)=L(q)+KL(q||p) lnp(x∣θ)=L(q)+KL(q∣∣p)其中 L ( q ) = ∫ z ln ? p ( x , z ∣ θ ) q ( z ) q ( z ) d z L(q)=\int_z \ln \frac{p(x,z|\theta)}{q(z)}q(z)dz L(q)=∫z?lnq(z)p(x,z∣θ)?q(z)dz, K L ( q ∣ ∣ p ) = ∫ z ln ? q ( z ) p ( z ∣ x , θ ) q ( z ) d z KL(q||p)=\int_z\ln \frac{q(z)}{p(z|x,\theta)}q(z)dz KL(q∣∣p)=∫z?lnp(z∣x,θ)q(z)?q(z)dz -
證明如下,通過將對數似然函數進行變換可以得到
ln ? p ( x ∣ θ ) = ln ? p ( x , z ∣ θ ) ? ln ? p ( z ∣ x , θ ) = ln ? p ( x , z ∣ θ ) q ( z ) ? ln ? p ( z ∣ x , θ ) q ( z ) \begin{aligned} \ln p(x|\theta) &= \ln p(x,z|\theta)-\ln p(z|x,\theta)\\ &= \ln \frac{p(x,z|\theta)}{q(z)}-\ln \frac{p(z|x,\theta)}{{q(z)}}\\ \end{aligned} lnp(x∣θ)?=lnp(x,z∣θ)?lnp(z∣x,θ)=lnq(z)p(x,z∣θ)??lnq(z)p(z∣x,θ)??對等式兩邊同時乘上 q ( z ) q(z) q(z)可得
ln ? p ( x ∣ θ ) q ( z ) = ln ? p ( x , z ∣ θ ) q ( z ) q ( z ) ? ln ? p ( z ∣ x , θ ) q ( z ) q ( z ) \ln p(x|\theta)q(z) = \ln \frac{p(x,z|\theta)}{q(z)}q(z)-\ln \frac{p(z|x,\theta)}{{q(z)}}q(z) lnp(x∣θ)q(z)=lnq(z)p(x,z∣θ)?q(z)?lnq(z)p(z∣x,θ)?q(z)等式兩邊同時對 z z z求積分,由于 ln ? p ( x ∣ θ ) \ln p(x|\theta) lnp(x∣θ)與 z z z無關,因此積分后仍得原式,所以有
ln ? p ( x ∣ θ ) = ∫ z ln ? p ( x , z ∣ θ ) q ( z ) q ( z ) d z ? ∫ z ln ? p ( z ∣ x , θ ) q ( z ) q ( z ) d z = ∫ z ln ? p ( x , z ∣ θ ) q ( z ) q ( z ) d z + ∫ z ln ? q ( z ) p ( z ∣ x , θ ) q ( z ) d z \begin{aligned} \ln p(x|\theta) &= \int_z \ln \frac{p(x,z|\theta)}{q(z)}q(z)dz-\int_z\ln \frac{p(z|x,\theta)}{{q(z)}}q(z)dz\\ &= \int_z \ln \frac{p(x,z|\theta)}{q(z)}q(z)dz+\int_z\ln \frac{q(z)}{p(z|x,\theta)}q(z)dz\\ \end{aligned} lnp(x∣θ)?=∫z?lnq(z)p(x,z∣θ)?q(z)dz?∫z?lnq(z)p(z∣x,θ)?q(z)dz=∫z?lnq(z)p(x,z∣θ)?q(z)dz+∫z?lnp(z∣x,θ)q(z)?q(z)dz?令 L ( q ) = ∫ z ln ? p ( x , z ∣ θ ) q ( z ) q ( z ) d z L(q)=\int_z \ln \frac{p(x,z|\theta)}{q(z)}q(z)dz L(q)=∫z?lnq(z)p(x,z∣θ)?q(z)dz, K L ( q ∣ ∣ p ) = ∫ z ln ? q ( z ) p ( z ∣ x , θ ) q ( z ) d z KL(q||p)=\int_z\ln \frac{q(z)}{p(z|x,\theta)}q(z)dz KL(q∣∣p)=∫z?lnp(z∣x,θ)q(z)?q(z)dz,則關系式得證。 -
觀察我們所得到的關系式,假如我們假設近似分布 q ( z ) q(z) q(z)無限接近于 p ( z ∣ x , θ ) p(z|x,\theta) p(z∣x,θ),那么KL散度便無限趨近于0,此時就有 ln ? p ( x ∣ θ ) ≈ L ( q ) \ln p(x|\theta)\approx L(q) lnp(x∣θ)≈L(q)于是,我們就將最大化對數似然的問題就轉化為找到一個q(z)能最大化 L ( q ) L(q) L(q)的問題