主要記錄多元隨機變量數字特征相關內容。
關鍵詞:多元統計分析
一元隨機變量
總體
隨機變量Y
總體均值
μ = E ( Y ) = ∫ y f ( y ) d y \mu = E(Y) = \int y f(y) \, dy μ=E(Y)=∫yf(y)dy
總體方差
σ 2 = V a r ( Y ) = E ( Y ? μ ) 2 \sigma^2 = Var(Y) = E(Y - \mu)^2 σ2=Var(Y)=E(Y?μ)2
樣本
隨機樣本 { y 1 , . . . , y n } \{y_1, ..., y_n\} {y1?,...,yn?}
樣本均值
y ˉ = 1 n ∑ i = 1 n n y i \bar{y}=\frac{1}{n}\sum_{i=1^n}^ny_i yˉ?=n1?∑i=1nn?yi?
樣本方差
s 2 = 1 n ? 1 ∑ i = 1 n n ( y i ? y ˉ ) 2 s^2=\frac{1}{n-1}\sum_{i=1^n}^n(y_i - \bar{y})^2 s2=n?11?∑i=1nn?(yi??yˉ?)2
二元隨機變量
總體
隨機變量(X, Y)
總體協方差
σ X Y = c o v ( X , Y ) = E [ ( X ? μ X ) ( Y ? μ Y ) ] = E ( X Y ) ? μ X μ Y \sigma_{XY}=cov(X, Y)=E[(X - \mu_X)(Y - \mu_Y)] = E(XY)-\mu_X\mu_Y σXY?=cov(X,Y)=E[(X?μX?)(Y?μY?)]=E(XY)?μX?μY?
總體相關系數
ρ X Y = c o r r ( X , Y ) = σ X Y / ( σ X σ Y ) \rho_{XY}=corr(X, Y) = \sigma_{XY} / (\sigma_{X}\sigma_{Y}) ρXY?=corr(X,Y)=σXY?/(σX?σY?)
說明:
可以理解變量中的 X為身高、Y為體重
根據西瓦茲不等式可得, σ X Y ≤ σ X σ Y \sigma_{XY} \leq \sigma_{X}\sigma_{Y} σXY?≤σX?σY?
總體相關系數取值范圍 [ ? 1 , 1 ] [-1, 1] [?1,1]
樣本
二元隨機樣本 { ( x 1 , y 1 ) , . . . , ( x n , y n ) } \{(x_1, y_1), ..., (x_n, y_n)\} {(x1?,y1?),...,(xn?,yn?)}
樣本協方差
s x y = 1 n ? 1 ∑ i = 1 n ( x i ? x ˉ ) ( y i ? y ˉ ) s_{xy}=\frac{1}{n-1} \sum_{i=1}^n(x_i - \bar{x})(y_i - \bar{y}) sxy?=n?11?i=1∑n?(xi??xˉ)(yi??yˉ?)
樣本相關系數
r x y = s x y / ( s x s y ) r_{xy} = s_{xy} / (s_xs_y) rxy?=sxy?/(sx?sy?)
樣本相關取值范圍 [ ? 1 , 1 ] [-1, 1] [?1,1]
性質
σ X Y = 0 ? X 和 Y 是不相關 / 線性獨立的 \sigma_{XY}=0 \Leftrightarrow X和Y 是不相關/線性獨立的 σXY?=0?X和Y是不相關/線性獨立的
線性獨立不等于獨立
特例:如果X和Y服從二元正態分布,那么我們有
σ X Y = 0 ? X 和 Y 是獨立的 \sigma_{XY}=0 \Leftrightarrow X和Y 是獨立的 σXY?=0?X和Y是獨立的
多元數據特征
現有 n n n 個樣本點,每個樣本點
包含 p p p 個變量
的觀測,則數據集可以表示為 n × p n \times p n×p 矩陣
Y = ( y 11 . . . y 1 j . . . y 1 p . . . . . . . . . . . . . . . y i 1 . . . y i j . . . y i p . . . . . . . . . . . . . . . y n 1 . . . y n j . . . y n p ) = ( y 1 ? . . . y 2 ? . . . y n ? ) Y = \begin{pmatrix} y_{11} & ... & y_{1j} & ... & y_{1p} \\ ... & ... & ... & ... & ... \\ y_{i1} & ... & y_{ij} & ... & y_{ip} \\ ... & ... & ... & ... & ... \\ y_{n1} & ... & y_{nj} & ... & y_{np} \\ \end{pmatrix} = \begin{pmatrix} y_1^\top \\ ... \\ y_2^\top \\ ... \\ y_n^\top \end{pmatrix} Y= ?y11?...yi1?...yn1??...............?y1j?...yij?...ynj??...............?y1p?...yip?...ynp?? ?= ?y1??...y2??...yn??? ?
其中 y i = ( y i 1 , . . . , y i p ) ? y_i = (y_{i1}, ..., y_{ip})^\top yi?=(yi1?,...,yip?)? 由 Y 的第 i i i 行構成,表示第 i i i個樣本
對于總體
y = ( Y 1 , . . . , Y p ) ? \bm{y}=(Y_1, ..., Y_p)^\top y=(Y1?,...,Yp?)?
這里的 y \bm{y} y 是隨機向量
期望(即均值向量):
E ( y ) = ( E ( Y 1 ) , . . . , E ( Y p ) ) ? = ( μ 1 , . . . , μ p ) ? = μ E(\bm{y})=(E(Y_1), ..., E(Y_p))^\top=(\mu_1, ..., \mu_p)^\top=\bm{\mu} E(y)=(E(Y1?),...,E(Yp?))?=(μ1?,...,μp?)?=μ
對于樣本
{ y 1 , y 2 , . . . , y n } \{ \bm{y_1}, \bm{y_2}, ..., \bm{y_n} \} {y1?,y2?,...,yn?}
均值向量:
y ˉ = 1 n ∑ i = 1 n y i = ( y 1 ˉ , . . . , y p ˉ ) ? \bar{\bm{y}} = \frac{1}{n}\sum_{i=1}^n \bm{y_i}=(\bar{y_1}, ..., \bar{y_p})^\top yˉ?=n1?i=1∑n?yi?=(y1?ˉ?,...,yp?ˉ?)?
其中 y j ˉ = 1 n ∑ i = 1 n y i j , E ( y ˉ ) = μ \bar{y_j}=\frac{1}{n}\sum_{i=1}^n y_{ij}, E(\bar{\bm{y}})=\bm{\mu} yj?ˉ?=n1?∑i=1n?yij?,E(yˉ?)=μ
協方差矩陣(Covariance matrix)
對總體
隨機向量 y = ( Y 1 , . . . , Y p ) ? , p × p \bm{y}=(Y_1, ..., Y_p)^\top, p \times p y=(Y1?,...,Yp?)?,p×p總體協方差矩陣定義為:
Σ = C o v ( y ) = E [ ( y ? μ ) ( y ? μ ) ? ] = ( σ 11 σ 12 . . . σ 1 p σ 21 σ 22 . . . σ 2 p . . . . . . . . . . . . σ p 1 σ p 2 . . . σ p p ) \begin{aligned} \boldsymbol{\Sigma} &= Cov(\bm{y}) \\ &= E[(\bm{y}-\bm{\mu})(\bm{y}-\bm{\mu})^\top] \\ &=\begin{pmatrix} \sigma_{11} & \sigma_{12} & ... & \sigma_{1p} \\ \sigma_{21} & \sigma_{22} & ... & \sigma_{2p} \\ ... & ... & ... & ... \\ \sigma_{p1} & \sigma_{p2} & ... & \sigma_{pp} \\ \end{pmatrix} \end{aligned} Σ?=Cov(y)=E[(y?μ)(y?μ)?]= ?σ11?σ21?...σp1??σ12?σ22?...σp2??............?σ1p?σ2p?...σpp?? ??
其中,
σ j k \sigma_{jk} σjk?為 Y j Y_j Yj?和 Y k Y_{k} Yk?之間的協方差, σ j j = σ j 2 \sigma_{jj}=\sigma_{j}^2 σjj?=σj2? 為 Y j Y_j Yj?的方差。
對樣本
隨機樣本 { y 1 , . . . , y n } , p × p \{ \bm{y_1}, ..., \bm{y_n} \}, p \times p {y1?,...,yn?},p×p 樣本協方差矩陣定義為:
S = 1 n ? 1 ∑ i = 1 n ( y i ? y ˉ ) ( y i ? y ˉ ) ? = ( s 11 s 12 . . . s 1 p s 21 s 22 . . . s 2 p . . . . . . . . . . . . s p 1 s p 2 . . . s p p ) \begin{aligned} \bm{S} &= \frac{1}{n-1}\sum_{i=1}^n (\bm{y_i}-\bar{\bm{y}}) (\bm{y_i}-\bar{\bm{y}})^\top \\ &= \begin{pmatrix} s_{11} & s_{12} & ... & s_{1p} \\ s_{21} & s_{22} & ... & s_{2p} \\ ... & ... & ... & ... \\ s_{p1} & s_{p2} & ... & s_{pp} \\ \end{pmatrix} \end{aligned} S?=n?11?i=1∑n?(yi??yˉ?)(yi??yˉ?)?= ?s11?s21?...sp1??s12?s22?...sp2??............?s1p?s2p?...spp?? ??
其中,
s j k = 1 n ? 1 ∑ i = 1 n ( y i j ? y j ˉ ) ( y k j ? y k ˉ ) s_{jk}=\frac{1}{n-1}\sum_{i=1}^n(y_{ij}-\bar{y_j})(y_{kj}-\bar{y_k}) sjk?=n?11?∑i=1n?(yij??yj?ˉ?)(ykj??yk?ˉ?)
s j j = s j 2 = 1 n ? 1 ∑ i = 1 n ( y i j ? y j ˉ ) 2 s_{jj}=s_{j}^2=\frac{1}{n-1}\sum_{i=1}^n(y_{ij}- \bar{y_j})^2 sjj?=sj2?=n?11?∑i=1n?(yij??yj?ˉ?)2
性質1
Σ \boldsymbol{\Sigma} Σ和 S \bm{S} S是對稱的
性質2
S \bm{S} S是 Σ \boldsymbol{\Sigma} Σ的無偏估計,也即 E ( S ) = Σ E(\bm{S})=\boldsymbol{\Sigma} E(S)=Σ
性質3
y ˉ \bar{\bm{y}} yˉ? 的協方差矩陣是 C o v ( y ˉ ) = Σ n Cov(\bar{\bm{y}})=\frac{\boldsymbol{\Sigma}}{n} Cov(yˉ?)=nΣ?
性質3,對應一維情況是相似的,即樣本均值的方差 C o v ( x ˉ ) = σ 2 / n . Cov(\bar{x})=\sigma^2/n. Cov(xˉ)=σ2/n.
相關系數矩陣
總體相關系數矩陣
P = ( ρ j k ) = ( 1 ρ 12 . . . ρ 1 p ρ 21 1 . . . ρ 2 p . . . . . . . . . . . . ρ p 1 ρ p 2 . . . 1 ) \bm{P}= (\rho_{jk}) = \begin{pmatrix} 1 & \rho_{12} & ... & \rho_{1p} \\ \rho_{21} & 1 & ... & \rho_{2p} \\ ... & ... & ... & ... \\ \rho_{p1} & \rho_{p2} & ... & 1 \end{pmatrix} P=(ρjk?)= ?1ρ21?...ρp1??ρ12?1...ρp2??............?ρ1p?ρ2p?...1? ?
其中 ρ j k = σ j k / ( σ j σ k ) \rho_{jk}=\sigma_{jk} / (\sigma_j \sigma_k) ρjk?=σjk?/(σj?σk?) 為 Y j Y_{j} Yj?與 Y k Y_{k} Yk?之間的總體相關系數
樣本相關系數矩陣
對隨機樣本 { y 1 , . . . , y n } \{\bm{y_1}, ..., \bm{y_n}\} {y1?,...,yn?}來說,
R = ( r j k ) = ( 1 r 12 . . . r 1 p r 21 1 . . . r 2 p . . . . . . . . . . . . r p 1 r p 2 . . . 1 ) \bm{R}= (r_{jk}) = \begin{pmatrix} 1 & r_{12} & ... & r_{1p} \\ r_{21} & 1 & ... & r_{2p} \\ ... & ... & ... & ... \\ r_{p1} & r_{p2} & ... & 1 \end{pmatrix} R=(rjk?)= ?1r21?...rp1??r12?1...rp2??............?r1p?r2p?...1? ?
其中 r j k = s j k / s j j s k k = s j k / ( s j s k ) r_{jk}=s_{jk} / \sqrt{s_{jj}s_{kk}}=s_{jk} / (s_js_k) rjk?=sjk?/sjj?skk??=sjk?/(sj?sk?) 為第 j j j 和第 k k k 個變量之間的樣本相關系數
協方差矩陣的用途
1.刻畫數據整體離散型
如果 ∣ S ∣ |S| ∣S∣很小,有可能是數據波動比較小,也有可能是存在共線性現象。故 ∣ S ∣ |S| ∣S∣稱為廣義方差
。
t r ( S ) tr(S) tr(S)刻畫了各變量波動程度的總和,但忽略了變量間的相關性,故成為總方差
。
2.定義統計距離
一元情況
歐式距離: ∣ y 1 ? y 2 ∣ |y_1 - y_2| ∣y1??y2?∣
標準化后的距離: ∣ y 1 ? y 2 ∣ / s y |y_1 - y_2| / s_y ∣y1??y2?∣/sy?
多元情況
在多元情況中,對于兩個 p p p維向量
y 1 = ( y 1 1 , . . . , y 1 p ) ? \bm{y_1}=(y_11, ..., y_1p)^\top y1?=(y1?1,...,y1?p)?
y 2 = ( y 2 1 , . . . , y 2 p ) ? \bm{y_2}=(y_21, ..., y_2p)^\top y2?=(y2?1,...,y2?p)?
歐式距離定義為:
∣ ∣ y 1 ? y 2 ∣ ∣ = ( y 1 ? y 2 ) ? ( y 1 ? y 2 ) = ∑ j = i p ( y 1 j ? y 2 j ) 2 ||\bm{y_1}-\bm{y_2}|| = \sqrt{(\bm{y_1}-\bm{y_2})^\top(\bm{y_1}-\bm{y_2})}=\sqrt{\sum_{j=i}^p(y_{1j}-y_{2j})^2} ∣∣y1??y2?∣∣=(y1??y2?)?(y1??y2?)?=j=i∑p?(y1j??y2j?)2?
歐式距離只考慮了分量各自的距離,沒有考慮到不同變量變化的尺度不同,以及變量之間的相關性。
統計距離/馬氏距離
類似于一元情況 ∣ y 1 ? y 2 ∣ / s y |y_1 - y_2|/s_y ∣y1??y2?∣/sy?,我們定義 y 1 \bm{y_1} y1?和 y 2 \bm{y_2} y2?之間的統計距離/馬氏距離:
d = ( y 1 ? y 2 ) ? S ? 1 ( y 1 ? y 2 ) d = \sqrt{(\bm{y_1-\bm{y_2}})^\top \, \bm{S}^{-1}(\bm{y_1-\bm{y_2}})} d=(y1??y2?)?S?1(y1??y2?)?
統計距離而言,方差更大的變量貢獻更小的權重,兩個高度相關的變量的貢獻小于兩個相關性較低的變量。
歐氏距離vs統計距離
統計距離其實是兩個經過“標準化”的向量 S ? 1 / 2 y 1 \bm{S}^{-1/2} \bm{y_1} S?1/2y1? 和 S ? 1 / 2 y 2 \bm{S}^{-1/2} \bm{y_2} S?1/2y2? 之間的歐式距離:
∣ ∣ S ? 1 / 2 y 1 ? S ? 1 / 2 y 2 ∣ ∣ = ( y 1 ? y 2 ) ? S ? 1 ( y 1 ? y 2 ) ||\bm{S}^{-1/2}\bm{y_1} - \bm{S}^{-1/2}\bm{y_2}|| = \sqrt{(\bm{y_1-\bm{y_2}})^\top \, \bm{S}^{-1}(\bm{y_1-\bm{y_2}})} ∣∣S?1/2y1??S?1/2y2?∣∣=(y1??y2?)?S?1(y1??y2?)?
為什么是 S ? 1 / 2 y 1 \bm{S}^{-1/2}\bm{y_1} S?1/2y1? 的形式?我們可以計算得到其協方差實際就是一個單位矩陣 I \bm{I} I
C o v ( S ? 1 / 2 y 1 ) = I p Cov(\bm{S^{-1/2}y_1}) = \bm{I}_p Cov(S?1/2y1?)=Ip?
由此可得,經過標準化后的 S ? 1 / 2 y 1 \bm{S^{-1/2}y_1} S?1/2y1? 各變量之間的相關系數為0,不同變量之間協方差為0,變量自身的方差也標準化為了1。
隨機變量的線性組合
y = ( Y 1 , . . . , Y p ) ? \bm{y}=(Y_1, ..., Y_p)^\top y=(Y1?,...,Yp?)? 的均值 μ \mu μ,協方差矩陣為 Σ \boldsymbol{\Sigma} Σ
定義線性組合:
Z = a ? y = ∑ j = 1 p a j Y j Z=\bm{a}^\top\bm{y}=\sum_{j=1}^pa_jY_j Z=a?y=j=1∑p?aj?Yj?
其中 a = ( a 1 , . . . , a p ) ? \bm{a}=(a_1, ..., a_p)^\top a=(a1?,...,ap?)?是系數向量。
則對隨機變量 Z Z Z 我們有:
E ( Z ) = E ( a ? y ) = a ? μ E(Z)=E(\bm{a}^\top\bm{y})=\bm{a^\top \mu} E(Z)=E(a?y)=a?μ
v a r ( Z ) = v a r ( a ? y ) = a ? Σ a var(Z)=var(\bm{a}^\top\bm{y})=\bm{a^\top \boldsymbol{\Sigma} \, a} var(Z)=var(a?y)=a?Σa
如果我們有另一個線性組合:
W = b ? y = ∑ j = 1 p b j Y j W=\bm{b}^\top\bm{y}=\sum_{j=1}^pb_jY_j W=b?y=j=1∑p?bj?Yj?
則可以計算 Z Z Z和 W W W之間的線性關系:
σ Z W = c o v ( Z , W ) = E ( a ? y ? a ? μ ) ( b ? y ? b ? μ ) = a ? Σ b \begin{aligned} \sigma_{ZW} &=cov(Z, W) \\ &=E(\bm{a^\top\,y-a^\top\mu})(\bm{b^\top\,y-b^\top\mu}) \\ &=\bm{a^\top\boldsymbol{\Sigma}} \, \bm{b} \end{aligned} σZW??=cov(Z,W)=E(a?y?a?μ)(b?y?b?μ)=a?Σb?
ρ Z W = c o r r ( Z , W ) = a ? Σ b ( a ? Σ a ) ( b ? Σ b ) \rho_{ZW}=corr(Z, W)=\frac{\bm{a^\top\boldsymbol{\Sigma}} \, \bm{b}}{\sqrt{(\bm{a^\top\boldsymbol{\Sigma}} \, \bm{a})(\bm{b^\top\boldsymbol{\Sigma}} \, \bm{b})}} ρZW?=corr(Z,W)=(a?Σa)(b?Σb)?a?Σb?
如果是多個線性組合呢?
考慮 q q q個 Y 1 , . . . , Y p Y_1,..., Y_p Y1?,...,Yp?的線性組合,記作 z = A y \bm{z}=\bm{Ay} z=Ay, A = ( a i j ) q × p \bm{A}=(a_{ij})_{q \times p} A=(aij?)q×p?,則我們有:
μ z = E ( A y ) = A μ , \mu_{\bm{z}}=E(\bm{Ay})=\bm{A\mu}, μz?=E(Ay)=Aμ,
Σ z = C o v ( z ) = A Σ A ? \boldsymbol{\Sigma}_{\bm{z}}=Cov(\bm{z})=\bm{A\boldsymbol{\Sigma}A^\top} Σz?=Cov(z)=AΣA?
更一般的,對 w = A y + b \bm{w=Ay + b} w=Ay+b, 其中 b b b為常向量,有
μ w = E ( A y + b ) = A μ + b , \mu_{\bm{w}}=E(\bm{Ay + b}) = \bm{A\mu + b}, μw?=E(Ay+b)=Aμ+b,
Σ w = C o v ( w ) = A Σ A ? \boldsymbol{\Sigma}_{\bm{w}}=Cov(\bm{w})=\bm{A\boldsymbol{\Sigma}A^\top} Σw?=Cov(w)=AΣA?
(待更新)