期望，積分，均值，求和的關系

1. 回顧期望的定義

對于連續性隨機變量 $X$ ，期望為：
$E_{X\sim f(x)}[X] = \int_{\Omega}xf(x)dx$
其中 $f (x)$ 為概率密度函數， $\Omega$ 為概率密度函數的定義域。

對于離散型隨機變量 $X$ ，期望為：
$\sum_x xP(X = x)$
其中 $P (X = x)$ 表示隨機變量 $X$ 等于 $x$ 時的概率。

2. 積分，期望，求和，均值

然而在機器學習當中，我們常常會發現這種等式，它將求期望，求和，積分統一了起來：
$\sum_x xp(x) = \int xp(x)dx \tag1$
實際上這種寫法是不嚴謹的。如果我們理解了本文開頭部分就會發現，連等式第二，第三項中的 $p (x)$ 表達的含義是不一樣的。第二項的 $p (x)$ 表達的是 $x$ 事件發生的概率（或者稱為隨機變量 $X$ 等于 $x$ 的概率），而第三項的 $p (x)$ 則是概率密度函數。

那么為什么在求期望時，能夠把求和與積分統一起來（第二項和第三項）？我們可以回顧一下概率密度函數的意義。

定義: $f (x)$ 為概率密度函數， $\int^b_a f(x)dx$ 表示隨機變量 $X$ 屬于 $[a, b]$ 區間的概率。

2.1. 期望與求積分，求均值的關系：

為了一般性，我們考慮對函數 $F (x)$ 求期望，其中 $x$ 服從概率密度函數 $f (x)$ ：
$E_{X \sim f(x)}[F(X)] = \int_\Omega F(x)f(x)dx$
將 $\Omega$ 拆分成多個無窮小的區間 $\Omega_i$ ，在每個無窮小區間內，我們認為 $F (x)$ 不變，因此可以視為常數：
$\int_\Omega F(x)f(x)dx = \sum_i F(x_i)\int_{\Omega_i}f(x)dx \tag2$
同時根據概率密度函數的定義， $\int_{\Omega_i}f(x)dx$ 即為： $\in \Omega_i$ 這個區間的概率，記為 $p(x_i)$ 。由于區間是無窮小的，我們可以直接近似為隨機變量 $X=x_i$ 這一事件發生的概率。

因此 $(2)$ 式又可以寫做：
$\begin{align*} \int_\Omega F(x)f(x)dx & = \sum_i F(x_i)\int_{\Omega_i}f(x)dx \\ & = \sum_i^n F(x_i)p(x_i) \\ & = \sum_i^n F(x_i) \frac{N(x_i)}{N} \\ & = \frac{1}{N}\sum_i^n F(x_i) N(x_i) \tag2 \end{align*}$
其中 $N$ 為總實驗次數， $N(x_i)$ 表示隨機實驗中，隨機變量 $X = x_i$ 這一事件發生的次數。
我們可以發現 $(2)$ 式可以近似表示成: $N$ 次實驗中， $F (x)$ 取值之和的平均值。即 $E_{X\sim f(x)}[F(x)]$ ：在 $x$ 服從概率密度函數 $f (x)$ 的情況下的期望，或者說是 $F (x)$ 相對于概率密度函數 $f (x)$ 的期望（相對期望）。
由于 $F (x)$ 可以替換成任意以 $x$ 為自變量的函數，我們可以令 $F (x) = x$ ，即為 $(1)$ 式。

需要注意的是，求均值是對積分的近似表示，這是因為：

拆分的區間在實際計算的過程中，不可能是無窮小的，只能盡可能小。 對應于實際采樣/實驗的次數是有限的。
區間內的采樣不可能是完全均勻的：實際的實驗/采樣過程中，隨機變量 $X$ 有可能會傾向于取某一段區間內的值（對應于 $X$ 一直位于重復的 $\Omega_i$ ），有些區間內的值可能一直無法取到。比如高斯分布， $\sigma$ 外的值很難取到。當然，增加重復實驗/采樣的次數可以緩解這個問題。

有人這里會說，既然 $x$ 一直位于重復的 $\Omega_i$ ，那么我對區間 $\Omega$ 構造均勻分布，然后對這個均勻分布采樣不就行了？但是我們要注意， $\sim f(x)$ ，而 $f (x)$ 并不一定是這個對應的均勻分布。因此這種方式不可行。
當然，我們可以采用重要性采樣來解決某些值一直取不到的問題，感興趣的讀者可以自行查閱。

蒙特卡洛方法求積分，最樸素的手段就是定義一個在積分上下限這個區間上的均勻分布，在這個均勻分布上采樣，然后求均值。

因此，出現了求期望，可以把求積分，求和，求均值都聯系在一起。甚至于說，只要出現求積分，也可以與求均值，求和聯系在一起（蒙特卡洛積分）。

3. 總結

出現了這種期望的形式 $E_{X \sim f(x)}[F(X)] = \int F(x)f(x)dx$ ，其中 $f (x)$ 為概率密度函數。我們都可以用求和再求均值的方式來近似：
$\int F(x)f(x)dx = \frac{1}{N}\sum_i^N F(x_i)$
其中 $N$ 為總實驗次數， $x_i$ 表示第 $i$ 次實驗隨機變量的取值。
也可以表示為：
$\int F(x)f(x)dx = \sum_i^nF(x_i) \cdot p(x_i)$
這里的 $n$ 表示隨機變量 $X$ 有 $n$ 個取值， $p(x_i)$ 為隨機變量 $X = x_i$ 的概率。上面兩個式子是完全等價的。但需要注意： $x_i$ 的含義不一樣。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/87902.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/87902.shtml
英文地址，請注明出處：http://en.pswp.cn/web/87902.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！