最近看了幾篇跨領域特征對齊方面的經典文獻,學者們搞了很多花樣,如有的提出一階統計特征對齊,有的提出二階統計特征對齊,有的學者提出高階統計特征對齊。
通俗而言,就是在統計特征層面對跨域特征進行對齊,如對齊一階矩(均值)、二階矩(方差)、三階矩(偏度)。為此,本文系統的梳理了一遍概率與統計相關的知識點。
目錄
- 1. 方差
- 總體方差
- 樣本方差
- 2. 協方差
- 性質
- 3. 相關系數
- 公式推導
- 性質
- 4. 協方差矩陣
- 公式推導
- 5. 總結
1. 方差
隨機變量 X X X與均值 E [ X ] E[X] E[X]的偏離程度可以表示為 ∣ X ? E [ X ] ∣ |X-E[X]| ∣X?E[X]∣,為了便于計算考慮 ( X ? E [ X ] ) 2 (X-E[X])^2 (X?E[X])2。由于 ( X ? E [ X ] ) 2 (X-E[X])^2 (X?E[X])2任是一個隨機變量,因此其均值 E [ ( X ? E [ X ] ) 2 ] E[(X-E[X])^2] E[(X?E[X])2]可以反映隨機變量 X X X的波動程度,記為
V ( X ) = E [ ( X ? E [ X ] ) 2 ] V(X)=E[(X-E[X])^2] V(X)=E[(X?E[X])2]
注:本文僅分析離散型隨機變量。
總體方差
σ 2 = 1 N ∑ i = 1 N ( x i ? μ ) 2 \sigma^2=\frac{1}{N}\sum_{i=1}^{N}(x_i-\mu)^2 σ2=N1?i=1∑N?(xi??μ)2
式中, σ 2 \sigma^2 σ2表示總體方差, N N N表示總體樣本的個數, μ \mu μ表示總體均值。
樣本方差
在實際生活中,總體樣本是未知的,一般是采用抽樣的方法獲得部分樣本,因為采用無偏估計可以修正樣本估計的偏差,計算公式如下:
S 2 = 1 n ? 1 ∑ i = 1 n ( x i ? x ˉ ) 2 S^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2 S2=n?11?i=1∑n?(xi??xˉ)2
式中, S 2 S^2 S2表示樣本方差, n n n表示抽樣的樣本個數(觀測樣本個數), x ˉ \bar{x} xˉ表示觀測的樣本均值。
在后續的方差計算中,均是默認采用無偏估計,且在python的一些包中也均采用的是無偏估計。
編程實現:
x = torch.randn(10)mu = torch.mean(x)
var = torch.sum((x-mu)*(x-mu)) / (10-1) # tensor(0.6017)
內置函數torch.var
:
var = torch.var(x) # tensor(0.6017)
2. 協方差
用于描述二維隨機變量 ( X , Y ) (X, Y) (X,Y)之間的相互關系,定義為
C o v ( X , Y ) = E [ ( X ? μ X ) ( Y ? μ Y ) ] Cov(X, Y)=E[(X-\mu_{X})(Y-\mu_{Y})] Cov(X,Y)=E[(X?μX?)(Y?μY?)]
式中, μ X , μ Y \mu_{X},\mu_{Y} μX?,μY?分別表示隨機變量 X 、 Y X、Y X、Y的期望。
方差用于描述單個隨機變量的波動程度,協方差則是度量二維隨機變量的相關程度。當 X = Y X=Y X=Y,則協方差就退化為方差,因此可以認為協方差是方差的一個特例。
性質
關于協方差的一些性質均可以由期望 E [ X ] E[X] E[X]和方差 V [ X ] V[X] V[X]的性質推導得來,畢竟協方差也是方差的一種。因此,下面僅列舉了協方差的結論,推導省略。
-
C o v ( X , Y ) > 0 Cov(X,Y)>0 Cov(X,Y)>0:隨機變量 X X X和 Y Y Y正相關。
-
C o v ( X , Y ) < 0 Cov(X,Y)<0 Cov(X,Y)<0:隨機變量 X X X和 Y Y Y負相關。
-
C o v ( X , Y ) = 0 Cov(X,Y)=0 Cov(X,Y)=0:隨機變量 X X X和 Y Y Y不相關。
-
C o v ( X , Y ) = C o v ( Y , X ) Cov(X,Y)=Cov(Y,X) Cov(X,Y)=Cov(Y,X)
-
C o v ( X , X ) = V ( X ) Cov(X,X)=V(X) Cov(X,X)=V(X)
-
C o v ( a X , b Y ) = a b × C o v ( X , Y ) Cov(aX,bY)=ab \times Cov(X,Y) Cov(aX,bY)=ab×Cov(X,Y)
-
C o v ( X + a , Y + b ) = C o v ( X , Y ) Cov(X+a,Y+b)=Cov(X,Y) Cov(X+a,Y+b)=Cov(X,Y)
-
C o v ( X , Y ) = E [ X Y ] ? E [ X ] E [ Y ] Cov(X,Y)=E[XY]-E[X]E[Y] Cov(X,Y)=E[XY]?E[X]E[Y]
編程實現:
x = torch.randn(10)
mu_x = torch.mean(x)
y = torch.randn(10)
mu_y = torch.mean(y)cov_xy = torch.sum((x-mu_x)*(y-mu_y)) / (10-1) # tensor(-0.3363)
內置函數torch.cov
:
xy = torch.stack((x, y)) # size (2, 10)cov_matrix = torch.cov(xy) # size (2, 2)
cov_xy = cov_matrix[0, 1] # tensor(-0.3363)
由于torch.cov
返回的是協方差矩陣,所以對角線上的是方差,非對角線上的是協方差。(見第4節的分析)
3. 相關系數
協方差數值大小并不能反應相互關系的強弱,如 C o v ( X , Y ) Cov(X,Y) Cov(X,Y)和 C o v ( a X , b Y ) Cov(aX,bY) Cov(aX,bY)兩者的協方差值相差 a b ab ab倍,但是他們分布趨勢幾乎一樣。因此,無法直接通過協方差值的大小來判斷兩個隨機變量的分布關系。
C o v ( a X , b Y ) = a b × C o v ( X , Y ) Cov(aX,bY)=ab\times Cov(X,Y) Cov(aX,bY)=ab×Cov(X,Y)
相關系數通過對隨機變量進行標準化處理,可以消除這一干擾,統一度量范圍,記為
ρ X Y = C o v ( X , Y ) σ X σ Y \rho_{XY}=\frac{Cov(X,Y)}{\sigma_X \sigma_Y} ρXY?=σX?σY?Cov(X,Y)?
式中, ρ X Y \rho_{XY} ρXY?記為相關系數, σ X \sigma_X σX?表示隨機變量 X X X的標準差( σ X = V [ X ] \sigma_X=\sqrt{V[X]} σX?=V[X]?)。
公式推導
記隨機變量 X 、 Y X、Y X、Y的期望和標準差分別為 μ X , μ Y , σ X , σ Y \mu_X,\mu_Y,\sigma_X,\sigma_Y μX?,μY?,σX?,σY?,標準化處理如下
X ~ = X ? μ X σ X , Y ~ = Y ? μ Y σ Y \widetilde{X}=\frac{X-\mu_X}{\sigma_X},\ \widetilde{Y}=\frac{Y-\mu_Y}{\sigma_Y} X =σX?X?μX??,?Y =σY?Y?μY??
所以歸一化后的隨機變量 X ~ 、 Y ~ \tilde{X}、\tilde{Y} X~、Y~協方差為
C o v ( X ~ , Y ~ ) = C o v ( X ? μ X σ X , Y ? μ Y σ Y ) = C o v ( X ? μ X , Y ? μ Y ) σ X σ Y = C o v ( X , Y ) σ X σ Y = ρ X Y \begin{align*} Cov(\tilde{X},\tilde{Y}) &= Cov(\frac{X-\mu_X}{\sigma_X},\frac{Y-\mu_Y}{\sigma_Y}) \\ &= \frac{Cov(X-\mu_X, Y-\mu_Y)}{\sigma_X \sigma_Y} \\ &= \frac{Cov(X, Y)}{\sigma_X \sigma_Y} \\ &= \rho_{XY} \end{align*} Cov(X~,Y~)?=Cov(σX?X?μX??,σY?Y?μY??)=σX?σY?Cov(X?μX?,Y?μY?)?=σX?σY?Cov(X,Y)?=ρXY??
所以,相關系數可以看做是標準化變量的協方差。
性質
1)不受縮放比例的影響。
設 Z = a X , W = b Y Z=aX,W=bY Z=aX,W=bY,則隨機變量 Z , W Z,W Z,W的相關系數為
ρ Z W = C o v ( Z , W ) σ Z σ W = C o v ( a X , b Y ) V [ a X ] V [ b Y ] = a b C o v ( X , Y ) a 2 V [ X ] b 2 V [ Y ] = ρ X Y \begin{align*} \rho_{ZW} &= \frac{Cov(Z,W)}{\sigma_Z \sigma_W} \\ &= \frac{Cov(aX,bY)}{\sqrt{V[aX]} \sqrt{V[bY]}} \\ &= \frac{abCov(X,Y)}{\sqrt{a^2V[X]} \sqrt{b^2V[Y]}} \\ &= \rho_{XY} \end{align*} ρZW??=σZ?σW?Cov(Z,W)?=V[aX]?V[bY]?Cov(aX,bY)?=a2V[X]?b2V[Y]?abCov(X,Y)?=ρXY??
2)不受隨機變量加減的影響。
設 Z = X + a , W = Y + b Z=X+a,W=Y+b Z=X+a,W=Y+b,則隨機變量 Z , W Z,W Z,W的相關系數為
ρ Z W = C o v ( Z , W ) σ Z σ W = C o v ( X + a , Y + b ) V [ X + a ] V [ Y + b ] = C o v ( X , Y ) V [ X ] V [ Y ] = ρ X Y \begin{align*} \rho_{ZW} &= \frac{Cov(Z,W)}{\sigma_Z \sigma_W} \\ &= \frac{Cov(X+a,Y+b)}{\sqrt{V[X+a]} \sqrt{V[Y+b]}} \\ &= \frac{Cov(X,Y)}{\sqrt{V[X]} \sqrt{V[Y]}} \\ &= \rho_{XY} \end{align*} ρZW??=σZ?σW?Cov(Z,W)?=V[X+a]?V[Y+b]?Cov(X+a,Y+b)?=V[X]?V[Y]?Cov(X,Y)?=ρXY??
編程實現:
x = torch.randn(10)
mu_x = torch.mean(x)y = torch.randn(10)
mu_y = torch.mean(y)cov_xy = torch.sum((x-mu_x)*(y-mu_y)) / (10-1) # xy協方差
x_std = torch.std(x) # x的標準差
y_std = torch.std(y) # y的標準差r_xy = cov_xy / (x_std * y_std) # tensor(0.1423)
內置函數torch.corrcoef
:
xy = torch.stack((x, y)) # size (2, 10)
r_matrix = torch.corrcoef(xy) # size (2,2), 對角線值全為1
r_xy = r_matrix[0,1] # tensor(0.1423)
4. 協方差矩陣
協方差是計算兩個隨機變量的相關性,協方差矩陣是計算三個及以上隨機變量的相關性。假設有三個隨機變量 X 1 , X 2 , X 3 X_1,X_2,X_3 X1?,X2?,X3?,則對應的協方差矩陣一覽表為
隨機變量 | X 1 X_1 X1? | X 2 X_2 X2? | X 3 X_3 X3? |
---|---|---|---|
X 1 X_1 X1? | C o v ( X 1 , X 1 ) Cov(X_1,X_1) Cov(X1?,X1?) | C o v ( X 1 , X 2 ) Cov(X_1,X_2) Cov(X1?,X2?) | C o v ( X 1 , X 3 ) Cov(X_1,X_3) Cov(X1?,X3?) |
X 2 X_2 X2? | C o v ( X 2 , X 1 ) Cov(X_2,X_1) Cov(X2?,X1?) | C o v ( X 2 , X 2 ) Cov(X_2,X_2) Cov(X2?,X2?) | C o v ( X 2 , X 3 ) Cov(X_2,X_3) Cov(X2?,X3?) |
X 3 X_3 X3? | C o v ( X 3 , X 1 ) Cov(X_3,X_1) Cov(X3?,X1?) | C o v ( X 3 , X 2 ) Cov(X_3,X_2) Cov(X3?,X2?) | C o v ( X 3 , X 3 ) Cov(X_3,X_3) Cov(X3?,X3?) |
將上述一覽表寫成協方差矩陣的形式
Σ = [ V ( X 1 ) C o v ( X 1 , X 2 ) C o v ( X 1 , X 3 ) C o v ( X 2 , X 1 ) V ( X 2 ) C o v ( X 2 , X 3 ) C o v ( X 3 , X 1 ) C o v ( X 3 , X 2 ) V ( X 3 ) ] 3 × 3 \Sigma= \begin{bmatrix} V(X_1) & Cov(X_1,X_2) & Cov(X_1, X_3) \\ Cov(X_2, X_1) & V(X_2) & Cov(X_2, X_3) \\ Cov(X_3, X_1) & Cov(X_3,X_2) & V(X_3) \end{bmatrix} _{3\times 3} Σ= ?V(X1?)Cov(X2?,X1?)Cov(X3?,X1?)?Cov(X1?,X2?)V(X2?)Cov(X3?,X2?)?Cov(X1?,X3?)Cov(X2?,X3?)V(X3?)? ?3×3?
式中, Σ \Sigma Σ表示協方差矩陣, V ( X ) V(X) V(X)表示隨機變量的方差, V ( X ) = C o v ( X , X ) V(X)=Cov(X,X) V(X)=Cov(X,X)。
一般而言, σ 2 \sigma^2 σ2表示方差,大寫的*\Sigma*表示協方差矩陣 Σ \Sigma Σ。
為了提高代碼的效率,一般采用向量化編程思想計算多個隨機變量的協方差矩陣 Σ \Sigma Σ
Σ = E [ ( X ? μ ) ( X ? μ ) T ] \Sigma = E[(\bold{X}-\boldsymbol{\mu})(\bold{X}-\boldsymbol{\mu})^T] Σ=E[(X?μ)(X?μ)T]
式中, X ∈ R d × n , μ ∈ R d × 1 , Σ ∈ R d × d \bold{X}\in \R^{d\times n},\boldsymbol{\mu}\in \R^{d\times 1}, \Sigma \in \R^{d\times d} X∈Rd×n,μ∈Rd×1,Σ∈Rd×d, n n n是觀測樣本的個數, d d d是隨機變量的個數, μ \boldsymbol{\mu} μ是均值向量,包含了每個隨機變量對應的均值。
補充理解:
- X = [ X 1 、 X 2 、 X 3 ] \bold{X}=[X_1、X_2、X_3] X=[X1?、X2?、X3?]包含了三個隨機變量。
- 可以從隨機變量 X 1 X_1 X1?中取值,這些取出來的值稱為觀測樣本,因為離散型隨機變量的取值為有限個值(或可列個值),如從中取出 n n n個觀測樣本 { x 1 , x 2 , . . . , x n } \{x_1,x_2,...,x_n\} {x1?,x2?,...,xn?}。
- 對應于我們的訓練樣本則 n n n是訓練樣本個數, d d d是每個樣本對應的特征維數。
公式推導
下面以隨機變量個數為3,推導上述公式成立
X = [ X 1 , X 2 , X 3 ] T μ = E [ X ] = [ μ 1 , μ 2 , μ 3 ] T X ? μ = [ X 1 ? μ 1 , X 2 ? μ 2 , X 3 ? μ 3 ] T \begin{align*} \bold{X} &= [X_1, X_2, X_3]^T \\ \boldsymbol{\mu} &= E[X]=[\mu_1,\mu_2,\mu_3]^T \\ \bold{X} - \boldsymbol{\mu} &= [X_1-\mu_1, X_2-\mu_2, X_3-\mu_3]^T \end{align*} XμX?μ?=[X1?,X2?,X3?]T=E[X]=[μ1?,μ2?,μ3?]T=[X1??μ1?,X2??μ2?,X3??μ3?]T?
則有
E [ ( X ? μ ) ( X ? μ ) T ] = E [ ( X 1 ? μ 1 , X 2 ? μ 2 , X 3 ? μ 3 ) T × ( X 1 ? μ 1 , X 2 ? μ 2 , X 3 ? μ 3 ) ] = E [ ( ( X 1 ? μ 1 ) 2 ( X 1 ? μ 1 ) ( X 2 ? μ 2 ) ( X 1 ? μ 1 ) ( X 3 ? μ 3 ) ( X 2 ? μ 2 ) ( X 1 ? μ 1 ) ( X 2 ? μ 2 ) 2 ( X 2 ? μ 2 ) ( X 3 ? μ 3 ) ( X 3 ? μ 3 ) ( X 1 ? μ 1 ) ( X 3 ? μ 3 ) ( X 2 ? μ 2 ) ( X 3 ? μ 3 ) 2 ) ] = ( V ( X 1 ) C o v ( X 1 , X 2 ) C o v ( X 1 , X 3 ) C o v ( X 2 , X 1 ) V ( X 2 ) C o v ( X 2 , X 3 ) C o v ( X 3 , X 1 ) C o v ( X 3 , X 2 ) V ( X 3 ) ) \begin{align*} & E[(\bold{X} - \boldsymbol{\mu} )(\bold{X} - \boldsymbol{\mu} )^T] \\ &= E[(X_1-\mu_1, X_2-\mu_2, X_3-\mu_3)^T \times (X_1-\mu_1, X_2-\mu_2, X_3-\mu_3)] \\ &= E \begin{bmatrix} \begin{pmatrix} (X_1-\mu_1)^2 & (X_1-\mu_1)(X_2-\mu_2) & (X_1-\mu_1)(X_3-\mu_3) \\ (X_2-\mu_2)(X_1-\mu_1) & (X_2-\mu_2)^2 & (X_2-\mu_2)(X_3-\mu_3) \\ (X_3-\mu_3)(X_1-\mu_1) & (X_3-\mu_3)(X_2-\mu_2) & (X_3-\mu_3)^2 \end{pmatrix} \end{bmatrix} \\ &= \begin{pmatrix} V(X_1) & Cov(X_1,X_2) & Cov(X_1, X_3) \\ Cov(X_2, X_1) & V(X_2) & Cov(X_2, X_3) \\ Cov(X_3, X_1) & Cov(X_3,X_2) & V(X_3) \end{pmatrix} \end{align*} ?E[(X?μ)(X?μ)T]=E[(X1??μ1?,X2??μ2?,X3??μ3?)T×(X1??μ1?,X2??μ2?,X3??μ3?)]=E ? ?(X1??μ1?)2(X2??μ2?)(X1??μ1?)(X3??μ3?)(X1??μ1?)?(X1??μ1?)(X2??μ2?)(X2??μ2?)2(X3??μ3?)(X2??μ2?)?(X1??μ1?)(X3??μ3?)(X2??μ2?)(X3??μ3?)(X3??μ3?)2? ?? ?= ?V(X1?)Cov(X2?,X1?)Cov(X3?,X1?)?Cov(X1?,X2?)V(X2?)Cov(X3?,X2?)?Cov(X1?,X3?)Cov(X2?,X3?)V(X3?)? ??
編程實現:
S = torch.randn(5, 32) # 5個樣本,每個樣本特征維度32
X = S.T
mu = X.mean(1).reshape(-1, 1) # 計算X每行的均值x = (X - mu) @ (X - mu).T
cov_x1 = x / (5-1) #協方差矩陣
內置函數torch.cov
:
cov_x2 = torch.cov(S.T) # 計算協方差矩陣# 驗證cov_x1與cov_x2是否相等
diff = (cov_x1 - cov_x2).sum() # diff=0
需要注意的是,torch.cov(input)
的輸入input要求大小為 d × n d\times n d×n, n n n代表的是觀測樣本的個數,也就是訓練數據的樣本個數; d d d代表的是隨機變量的個數,可以理解為樣本的特征維數。
所以在輸入torch.cov
之前,需要將訓練樣本 X ∈ R n × d X \in \R^{n\times d} X∈Rn×d進行轉置。
5. 總結
-
如果需要評價相關性或相似性,前提是變量之間本身就具有線性關系,否則上述評價方法失效。
-
期望是一階矩(一階原點矩),方差(協方差)是二階矩(二階中心距)。
-
在深度學習相關的方法中,可能會引入上述相關的統計特征對分布偏差進行約束。
參考:
[1]《概率論與數理統計教程》茆詩松等。
[2] 《程序員的數學2 概率統計》平岡和幸等。
[3] wiki-方差