學習這些的最終目的
1、量化兩個概率分布的差異
2、推導交叉熵損失
一、KL散度
KL散度就是用來量化兩個概論分布的差異,如何量化?
計算真實概論分布P信息量 和 估計概論分布為Q,但實際概率分布為P時信息量的差值
那么設,概率分布為P時的信息量為H(P),估計概論分布為Q,但實際概率分布為q時的信息量為H(P,Q)
那么兩個概率分布差異的量化為:D(P,Q)?= H(P) - H(P,Q),注意D(P,Q) 不等于 D(Q,P)
Q估計P的信息量可以用交叉熵(H(P,Q))來計算,P本身信息量可以用熵(H(P))來計算
二、交叉熵
交叉熵是用于,使用“估計分布”下,對真實分布的期望信息量估計
如何估計?
設,每個事件,真實發生概率為pi = x,對應的估計事件的信息量為Ii
那么交叉熵H(P,Q) =?pi * Ii,就是用每個事件真實的概率?乘上 估計概率分布對應事件的信息量,代表估計概率分布q對真實概率分布q的期望信息量估計
三、熵
熵表示一個概率分布下的期望信息量
設,每個事件,真實發生概率為pi = x,對應的事件的信息量為Ii
H(P) =?pi * Ii
到此,我們可以發現,如果估計概率分布和真實概率分布一致,那么D(P,Q)應該為0
四、信息量
現在只差如何定義信息量了
在信息論中,某個事件的信息量(self-information)定義為
I(x)=,p為事件x發生的概率,即事件發生的概率越低,它帶來的信息量越大
下圖是I(X)的函數圖像,x屬于[0,1],I屬于[0,+00]
舉個例子來說
小明不中彩票,帶來的信息量很小,因為這是很正常的一件事
但如果小明中了彩票,就帶來了較大的信息量,因為這是小概率事件
五、交叉熵損失
對于模型的預測,以分類為例,模型會給出每個類別的概率,可以認為是概率分布Q,真實分布為P,那么P和Q差異的量化就是D(P,Q),對D(P,Q)求梯度,就得到了交叉熵損失
六、結語
表述可能不準確,大家意會