目錄
- H?lder Statistical Pseudo Divergence
- Proper H?lder Divergence
H?lder Statistical Pseudo Divergence
H?lder Statistical Pseudo Divergence是一種度量兩個概率分布 p p p 和 q q q差異的方法,它基于H?lder不等式。定義如下:
D α H ( p : q ) = 1 α F ( α θ p ) + 1 β F ( β θ q ) ? F ( θ p + θ q ) , D_{\alpha}^{H}(p : q) = \frac{1}{\alpha}F(\alpha\theta_{p}) + \frac{1}{\beta}F(\beta\theta_{q}) - F(\theta_{p} + \theta_{q}), DαH?(p:q)=α1?F(αθp?)+β1?F(βθq?)?F(θp?+θq?),其中:
- α \alpha α 和 β \beta β是H?lder共軛指數,滿足 β = α α ? 1 \beta = \frac{\alpha}{\alpha - 1} β=α?1α?。
- F F F是一個嚴格凸函數,通常選擇為負對數似然函數或其他凸函數。
- θ p \theta_p θp?和 θ q \theta_q θq?是與概率分布 p p p和 q q q相關的參數,可以是分布的矩或其他特征。
性質:
- 非負性: D α H ( p : q ) ≥ 0 D_{\alpha}^{H}(p : q) \geq 0 DαH?(p:q)≥0,當且僅當 p = q p = q p=q 時等號成立。
- 非對稱性:不滿足對稱性,即 D α H ( p : q ) ≠ D α H ( q : p ) D_{\alpha}^{H}(p : q) \neq D_{\alpha}^{H}(q : p) DαH?(p:q)=DαH?(q:p)通常成立。
應用:
- 信息論:在信息論中,可以用來衡量信息源的不確定性。
- 機器學習:在機器學習中,可以用來比較不同模型的預測分布,從而評估模型的性能。
Proper H?lder Divergence
Proper H?lder Divergence通過引入權重參數 γ \gamma γ來平衡兩個分布的貢獻,從而滿足對稱性。定義如下:
D α , γ H ( p : q ) = 1 α F ( γ θ p ) + 1 β F ( γ θ q ) ? F ( γ α θ p + γ β θ q ) , D_{\alpha,\gamma}^{H}(p : q) = \frac{1}{\alpha}F(\gamma\theta_{p}) + \frac{1}{\beta}F(\gamma\theta_{q}) - F\left(\frac{\gamma}{\alpha}\theta_{p} + \frac{\gamma}{\beta}\theta_{q}\right), Dα,γH?(p:q)=α1?F(γθp?)+β1?F(γθq?)?F(αγ?θp?+βγ?θq?),其中:
- α \alpha α和 β \beta β是H?lder共軛指數,滿足 β = α α ? 1 \beta = \frac{\alpha}{\alpha - 1} β=α?1α?。
- F F F是一個嚴格凸函數。
- γ \gamma γ是一個權重參數,用于平衡 θ p \theta_p θp?和 θ q \theta_q θq? 的貢獻。
- θ p \theta_p θp?和 θ q \theta_q θq?是與概率分布 p p p和 q q q相關的參數。
性質:
- 非負性: D α , γ H ( p : q ) ≥ 0 D_{\alpha,\gamma}^{H}(p : q) \geq 0 Dα,γH?(p:q)≥0,當且僅當 p = q p = q p=q時等號成立。
- 對稱性:滿足對稱性,即 D α , γ H ( p : q ) = D α , γ H ( q : p ) D_{\alpha,\gamma}^{H}(p : q) = D_{\alpha,\gamma}^{H}(q : p) Dα,γH?(p:q)=Dα,γH?(q:p)。
應用:
- 信息論:在信息論中,可以用來衡量信息源的不確定性,并且由于其對稱性,更適合用于比較兩個信息源。
- 機器學習:在機器學習中,可以用來比較不同模型的預測分布,從而評估模型的性能,并且由于其對稱性,更適合用于模型選擇和集成。