延森不等式(Jensen’s Inequality)是凸函數理論中的一個重要結果,廣泛應用于概率論、統計學和優化理論等領域。這個不等式的基本形式是:
對于一個凸函數 f f f和一個隨機變量 X X X,如果 E [ X ] \mathbb{E}[X] E[X]存在,那么有:
f ( E [ X ] ) ≤ E [ f ( X ) ] f(\mathbb{E}[X]) \leq \mathbb{E}[f(X)] f(E[X])≤E[f(X)]
證明這個不等式的一般步驟如下:
-
凸函數的定義:
函數 f : R → R f: \mathbb{R} \rightarrow \mathbb{R} f:R→R是凸函數,當且僅當對于任意的 x 1 , x 2 ∈ R x_1, x_2 \in \mathbb{R} x1?,x2?∈R和 λ ∈ [ 0 , 1 ] \lambda \in [0, 1] λ∈[0,1],有:
f ( λ x 1 + ( 1 ? λ ) x 2 ) ≤ λ f ( x 1 ) + ( 1 ? λ ) f ( x 2 ) f(\lambda x_1 + (1 - \lambda) x_2) \leq \lambda f(x_1) + (1 - \lambda) f(x_2) f(λx1?+(1?λ)x2?)≤λf(x1?)+(1?λ)f(x2?) -
證明步驟:
-
步驟1:利用凸函數的定義,我們首先對于簡單情形 λ = 1 2 \lambda = \frac{1}{2} λ=21?給出不等式。
-
步驟2:將凸函數定義擴展到一般情況,對于任意的有限個數 x i x_i xi?和權重 λ i \lambda_i λi?(權重非負且和為1),有:
f ( ∑ i = 1 n λ i x i ) ≤ ∑ i = 1 n λ i f ( x i ) f\left( \sum_{i=1}^n \lambda_i x_i \right) \leq \sum_{i=1}^n \lambda_i f(x_i) f(∑i=1n?λi?xi?)≤∑i=1n?λi?f(xi?) -
步驟3:利用這一步驟得到的結果,證明對任意隨機變量 X X X和其概率分布的期望的情形。
-
詳細證明:
步驟1:首先考慮兩個點的情況,設 x 1 x_1 x1?和 x 2 x_2 x2?是實數, λ ∈ [ 0 , 1 ] \lambda \in [0, 1] λ∈[0,1]。根據凸函數的定義,有:
f ( λ x 1 + ( 1 ? λ ) x 2 ) ≤ λ f ( x 1 ) + ( 1 ? λ ) f ( x 2 ) f(\lambda x_1 + (1 - \lambda) x_2) \leq \lambda f(x_1) + (1 - \lambda) f(x_2) f(λx1?+(1?λ)x2?)≤λf(x1?)+(1?λ)f(x2?)
步驟2:將這個不等式擴展到有限個點的情況。設 x 1 , x 2 , … , x n x_1, x_2, \ldots, x_n x1?,x2?,…,xn?是實數, λ 1 , λ 2 , … , λ n \lambda_1, \lambda_2, \ldots, \lambda_n λ1?,λ2?,…,λn?是非負權重,且 ∑ i = 1 n λ i = 1 \sum_{i=1}^n \lambda_i = 1 ∑i=1n?λi?=1。利用凸函數的定義,可以通過數學歸納法證明:
f ( ∑ i = 1 n λ i x i ) ≤ ∑ i = 1 n λ i f ( x i ) f\left( \sum_{i=1}^n \lambda_i x_i \right) \leq \sum_{i=1}^n \lambda_i f(x_i) f(∑i=1n?λi?xi?)≤∑i=1n?λi?f(xi?)
步驟3:考慮隨機變量 X X X和凸函數 f f f,對于離散情形,我們可以寫成:
X = x i with?probability p i X = x_i \quad \text{with probability} \quad p_i X=xi?with?probabilitypi?
這里 ∑ i p i = 1 \sum_i p_i = 1 ∑i?pi?=1。
因此:
E [ X ] = ∑ i p i x i \mathbb{E}[X] = \sum_i p_i x_i E[X]=∑i?pi?xi?
E [ f ( X ) ] = ∑ i p i f ( x i ) \mathbb{E}[f(X)] = \sum_i p_i f(x_i) E[f(X)]=∑i?pi?f(xi?)
根據步驟2的結果,有:
f ( ∑ i p i x i ) ≤ ∑ i p i f ( x i ) f\left( \sum_i p_i x_i \right) \leq \sum_i p_i f(x_i) f(∑i?pi?xi?)≤∑i?pi?f(xi?)
即:
f ( E [ X ] ) ≤ E [ f ( X ) ] f(\mathbb{E}[X]) \leq \mathbb{E}[f(X)] f(E[X])≤E[f(X)]
對于連續情形,可以通過類似的方法,考慮連續隨機變量的概率密度函數,使用積分形式得到同樣的結果。具體地,可以考慮隨機變量的積分表示:
設 X X X是一個連續隨機變量,其概率密度函數為 p ( x ) p(x) p(x),則:
E [ X ] = ∫ x p ( x ) d x \mathbb{E}[X] = \int x p(x) \, dx E[X]=∫xp(x)dx
E [ f ( X ) ] = ∫ f ( x ) p ( x ) d x \mathbb{E}[f(X)] = \int f(x) p(x) \, dx E[f(X)]=∫f(x)p(x)dx
根據凸函數定義的積分形式,也可以證明:
f ( ∫ x p ( x ) d x ) ≤ ∫ f ( x ) p ( x ) d x f\left( \int x p(x) \, dx \right) \leq \int f(x) p(x) \, dx f(∫xp(x)dx)≤∫f(x)p(x)dx
因此,對于連續隨機變量同樣有:
f ( E [ X ] ) ≤ E [ f ( X ) ] f(\mathbb{E}[X]) \leq \mathbb{E}[f(X)] f(E[X])≤E[f(X)]
綜上所述,延森不等式對于離散和連續情形都成立。