信息論
信息量
- I(x) = -log( P )
- I為信息量
- P為x發生的概率
熵
- 混亂程度的度量,不確定的局面表示很混亂
- 系統里信息量的期望值
- H(x) = -sum( P(i) * log( P(i) ) )
相對熵(KL散度)
- 用于度量兩個概率分布間的差異性信息
- D_KL(S | O) = sum( P_S(x) * log_2( 1 / P_O(x) ) ) - sum( P_S(x) * log_2( 1 / P_S(x) ) )
- S是真實規律
- O是模型推算規律
交叉熵
- D_KL(S | O)中的O
- H(p, q) = sum( p(x) * log( 1/q(x) ) )
- p為真實規律
- q為模型推算規律
損失函數
- 均方差損失函數
- 可用于回歸問題,可用于分類問題
- torch.nn.MSELoss()
- 交叉熵損失函數
- 更適合分類問題
- torch.nn.CrossEntropyLoss()