透徹理解：方差、協方差、相關系數、協方差矩陣及其應用

最近看了幾篇跨領域特征對齊方面的經典文獻，學者們搞了很多花樣，如有的提出一階統計特征對齊，有的提出二階統計特征對齊，有的學者提出高階統計特征對齊。

通俗而言，就是在統計特征層面對跨域特征進行對齊，如對齊一階矩（均值）、二階矩（方差）、三階矩（偏度）。為此，本文系統的梳理了一遍概率與統計相關的知識點。

1. 方差

隨機變量 $X$ 與均值 $E [X]$ 的偏離程度可以表示為 $∣ X ? E [X] ∣$ ，為了便于計算考慮 $X-E[X])^2$ 。由于 $X-E[X])^2$ 任是一個隨機變量，因此其均值 $E[(X-E[X])^2]$ 可以反映隨機變量 $X$ 的波動程度，記為
$V(X)=E[(X-E[X])^2]$

注：本文僅分析離散型隨機變量。

總體方差

$\sigma^2=\frac{1}{N}\sum_{i=1}^{N}(x_i-\mu)^2$

式中， $\sigma^2$ 表示總體方差， $N$ 表示總體樣本的個數， $\mu$ 表示總體均值。

樣本方差

在實際生活中，總體樣本是未知的，一般是采用抽樣的方法獲得部分樣本，因為采用無偏估計可以修正樣本估計的偏差，計算公式如下：
$S^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2$
式中， $S^2$ 表示樣本方差， $n$ 表示抽樣的樣本個數（觀測樣本個數）， $\bar{x}$ 表示觀測的樣本均值。

在后續的方差計算中，均是默認采用無偏估計，且在python的一些包中也均采用的是無偏估計。

編程實現：

x = torch.randn(10)mu = torch.mean(x)
var = torch.sum((x-mu)*(x-mu)) / (10-1) # tensor(0.6017)

內置函數torch.var：

var = torch.var(x) # tensor(0.6017)

2. 協方差

用于描述二維隨機變量 $(X, Y)$ 之間的相互關系，定義為
$Y)=E[(X-\mu_{X})(Y-\mu_{Y})]$
式中， $\mu_{X},\mu_{Y}$ 分別表示隨機變量 $X 、 Y$ 的期望。

方差用于描述單個隨機變量的波動程度，協方差則是度量二維隨機變量的相關程度。當 $X = Y$ ，則協方差就退化為方差，因此可以認為協方差是方差的一個特例。

性質

關于協方差的一些性質均可以由期望 $E [X]$ 和方差 $V [X]$ 的性質推導得來，畢竟協方差也是方差的一種。因此，下面僅列舉了協方差的結論，推導省略。

$C o v (X, Y) > 0$ ：隨機變量 $X$ 和 $Y$ 正相關。
$C o v (X, Y) < 0$ ：隨機變量 $X$ 和 $Y$ 負相關。
$C o v (X, Y) = 0$ ：隨機變量 $X$ 和 $Y$ 不相關。
$C o v (X, Y) = C o v (Y, X)$
$C o v (X, X) = V (X)$
$\times Cov(X,Y)$
$C o v (X + a, Y + b) = C o v (X, Y)$
$C o v (X, Y) = E [X Y] ? E [X] E [Y]$

編程實現：

x = torch.randn(10)
mu_x = torch.mean(x)
y = torch.randn(10)
mu_y = torch.mean(y)cov_xy = torch.sum((x-mu_x)*(y-mu_y)) / (10-1) # tensor(-0.3363)

內置函數torch.cov：

xy = torch.stack((x, y)) # size (2, 10)cov_matrix = torch.cov(xy) # size (2, 2) 
cov_xy = cov_matrix[0, 1]  # tensor(-0.3363)

由于torch.cov返回的是協方差矩陣，所以對角線上的是方差，非對角線上的是協方差。（見第4節的分析）

3. 相關系數

協方差數值大小并不能反應相互關系的強弱，如 $C o v (X, Y)$ 和 $C o v (a X, bY)$ 兩者的協方差值相差 $ab$ 倍，但是他們分布趨勢幾乎一樣。因此，無法直接通過協方差值的大小來判斷兩個隨機變量的分布關系。

$Cov(aX,bY)=ab\times Cov(X,Y)$

相關系數通過對隨機變量進行標準化處理，可以消除這一干擾，統一度量范圍，記為
$\rho_{XY}=\frac{Cov(X,Y)}{\sigma_X \sigma_Y}$
式中， $\rho_{XY}$ 記為相關系數， $\sigma_X$ 表示隨機變量 $X$ 的標準差（ $\sigma_X=\sqrt{V[X]}$ ）。

公式推導

記隨機變量 $X 、 Y$ 的期望和標準差分別為 $\mu_X,\mu_Y,\sigma_X,\sigma_Y$ ，標準化處理如下
$\widetilde{X}=\frac{X-\mu_X}{\sigma_X},\ \widetilde{Y}=\frac{Y-\mu_Y}{\sigma_Y}$
所以歸一化后的隨機變量 $\tilde{X}、\tilde{Y}$ 協方差為
$\begin{align*} Cov(\tilde{X},\tilde{Y}) &= Cov(\frac{X-\mu_X}{\sigma_X},\frac{Y-\mu_Y}{\sigma_Y}) \\ &= \frac{Cov(X-\mu_X, Y-\mu_Y)}{\sigma_X \sigma_Y} \\ &= \frac{Cov(X, Y)}{\sigma_X \sigma_Y} \\ &= \rho_{XY} \end{align*}$
所以，相關系數可以看做是標準化變量的協方差。

性質

1）不受縮放比例的影響。

設 $Z = a X, W = bY$ ，則隨機變量 $Z, W$ 的相關系數為
$\begin{align*} \rho_{ZW} &= \frac{Cov(Z,W)}{\sigma_Z \sigma_W} \\ &= \frac{Cov(aX,bY)}{\sqrt{V[aX]} \sqrt{V[bY]}} \\ &= \frac{abCov(X,Y)}{\sqrt{a^2V[X]} \sqrt{b^2V[Y]}} \\ &= \rho_{XY} \end{align*}$

2）不受隨機變量加減的影響。

設 $Z = X + a, W = Y + b$ ，則隨機變量 $Z, W$ 的相關系數為
$\begin{align*} \rho_{ZW} &= \frac{Cov(Z,W)}{\sigma_Z \sigma_W} \\ &= \frac{Cov(X+a,Y+b)}{\sqrt{V[X+a]} \sqrt{V[Y+b]}} \\ &= \frac{Cov(X,Y)}{\sqrt{V[X]} \sqrt{V[Y]}} \\ &= \rho_{XY} \end{align*}$

編程實現：

x = torch.randn(10)
mu_x = torch.mean(x)y = torch.randn(10)
mu_y = torch.mean(y)cov_xy = torch.sum((x-mu_x)*(y-mu_y)) / (10-1) # xy協方差
x_std = torch.std(x) # x的標準差
y_std = torch.std(y) # y的標準差r_xy = cov_xy / (x_std * y_std) # tensor(0.1423)

內置函數torch.corrcoef：

xy = torch.stack((x, y)) # size (2, 10)
r_matrix = torch.corrcoef(xy) # size (2,2), 對角線值全為1
r_xy = r_matrix[0,1] # tensor(0.1423)

4. 協方差矩陣

協方差是計算兩個隨機變量的相關性，協方差矩陣是計算三個及以上隨機變量的相關性。假設有三個隨機變量 $X_1,X_2,X_3$ ，則對應的協方差矩陣一覽表為

隨機變量	$X_1$	$X_2$	$X_3$
$X_1$	$Cov(X_1,X_1)$	$Cov(X_1,X_2)$	$Cov(X_1,X_3)$
$X_2$	$Cov(X_2,X_1)$	$Cov(X_2,X_2)$	$Cov(X_2,X_3)$
$X_3$	$Cov(X_3,X_1)$	$Cov(X_3,X_2)$	$Cov(X_3,X_3)$

將上述一覽表寫成協方差矩陣的形式
$\Sigma= \begin{bmatrix} V(X_1) & Cov(X_1,X_2) & Cov(X_1, X_3) \\ Cov(X_2, X_1) & V(X_2) & Cov(X_2, X_3) \\ Cov(X_3, X_1) & Cov(X_3,X_2) & V(X_3) \end{bmatrix} _{3\times 3}$
式中， $\Sigma$ 表示協方差矩陣， $V (X)$ 表示隨機變量的方差， $V (X) = C o v (X, X)$ 。

一般而言， $\sigma^2$ 表示方差，大寫的*\Sigma*表示協方差矩陣 $\Sigma$ 。

為了提高代碼的效率，一般采用向量化編程思想計算多個隨機變量的協方差矩陣 $\Sigma$
$\Sigma = E[(\bold{X}-\boldsymbol{\mu})(\bold{X}-\boldsymbol{\mu})^T]$
式中， $\bold{X}\in \R^{d\times n}，\boldsymbol{\mu}\in \R^{d\times 1}, \Sigma \in \R^{d\times d}$ ， $n$ 是觀測樣本的個數， $d$ 是隨機變量的個數， $\boldsymbol{\mu}$ 是均值向量，包含了每個隨機變量對應的均值。

補充理解：

$\bold{X}=[X_1、X_2、X_3]$ 包含了三個隨機變量。
可以從隨機變量 $X_1$ 中取值，這些取出來的值稱為觀測樣本，因為離散型隨機變量的取值為有限個值（或可列個值），如從中取出 $n$ 個觀測樣本 ${x_1,x_2,...,x_n\}$ 。
對應于我們的訓練樣本則 $n$ 是訓練樣本個數， $d$ 是每個樣本對應的特征維數。

公式推導

下面以隨機變量個數為3，推導上述公式成立
$\begin{align*} \bold{X} &= [X_1, X_2, X_3]^T \\ \boldsymbol{\mu} &= E[X]=[\mu_1,\mu_2,\mu_3]^T \\ \bold{X} - \boldsymbol{\mu} &= [X_1-\mu_1, X_2-\mu_2, X_3-\mu_3]^T \end{align*}$
則有
$\begin{align*} & E[(\bold{X} - \boldsymbol{\mu} )(\bold{X} - \boldsymbol{\mu} )^T] \\ &= E[(X_1-\mu_1, X_2-\mu_2, X_3-\mu_3)^T \times (X_1-\mu_1, X_2-\mu_2, X_3-\mu_3)] \\ &= E \begin{bmatrix} \begin{pmatrix} (X_1-\mu_1)^2 & (X_1-\mu_1)(X_2-\mu_2) & (X_1-\mu_1)(X_3-\mu_3) \\ (X_2-\mu_2)(X_1-\mu_1) & (X_2-\mu_2)^2 & (X_2-\mu_2)(X_3-\mu_3) \\ (X_3-\mu_3)(X_1-\mu_1) & (X_3-\mu_3)(X_2-\mu_2) & (X_3-\mu_3)^2 \end{pmatrix} \end{bmatrix} \\ &= \begin{pmatrix} V(X_1) & Cov(X_1,X_2) & Cov(X_1, X_3) \\ Cov(X_2, X_1) & V(X_2) & Cov(X_2, X_3) \\ Cov(X_3, X_1) & Cov(X_3,X_2) & V(X_3) \end{pmatrix} \end{align*}$

編程實現：

S = torch.randn(5, 32) # 5個樣本，每個樣本特征維度32
X = S.T
mu = X.mean(1).reshape(-1, 1) # 計算X每行的均值x = (X - mu) @ (X - mu).T
cov_x1 = x / (5-1)  #協方差矩陣

內置函數torch.cov：

cov_x2 = torch.cov(S.T) # 計算協方差矩陣# 驗證cov_x1與cov_x2是否相等
diff = (cov_x1 - cov_x2).sum() # diff=0

需要注意的是，torch.cov(input)的輸入input要求大小為 $d\times n$ ， $n$ 代表的是觀測樣本的個數，也就是訓練數據的樣本個數； $d$ 代表的是隨機變量的個數，可以理解為樣本的特征維數。

所以在輸入torch.cov之前，需要將訓練樣本 $\in \R^{n\times d}$ 進行轉置。

5. 總結

如果需要評價相關性或相似性，前提是變量之間本身就具有線性關系，否則上述評價方法失效。
期望是一階矩（一階原點矩），方差（協方差）是二階矩（二階中心距）。
在深度學習相關的方法中，可能會引入上述相關的統計特征對分布偏差進行約束。

參考:

[1]《概率論與數理統計教程》茆詩松等。
[2] 《程序員的數學2 概率統計》平岡和幸等。
[3] wiki-方差