為什么無偏估計用 ( n ? 1 ) (n-1) (n?1) 而不是 n n n,區別是什么?
在統計學中,無偏估計是指估計量的期望值等于總體參數的真實值。當我們用樣本數據估計總體方差或協方差時,分母使用 ( n ? 1 ) (n-1) (n?1) 而不是 n n n 是為了確保估計是無偏的。
1. 總體方差與樣本方差
總體方差 σ 2 \sigma^2 σ2 定義為:
σ 2 = 1 n ∑ i = 1 n ( x i ? μ ) 2 \sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2 σ2=n1?i=1∑n?(xi??μ)2
其中 n n n 是總體數據點數, μ \mu μ 是總體均值。
樣本方差的直觀定義可能是:
s n 2 = 1 n ∑ i = 1 n ( x i ? x ˉ ) 2 s_n^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 sn2?=n1?i=1∑n?(xi??xˉ)2
但這個估計是有偏的。為了得到無偏估計,我們使用:
s n ? 1 2 = 1 n ? 1 ∑ i = 1 n ( x i ? x ˉ ) 2 s_{n-1}^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 sn?12?=n?11?i=1∑n?(xi??xˉ)2
2. 為什么用 ( n ? 1 ) (n-1) (n?1) 實現無偏估計?
直觀解釋
- 樣本均值的"過擬合": x ˉ \bar{x} xˉ 是從樣本計算得到的,不是固定的總體均值 μ \mu μ。這使得樣本數據點相對于 x ˉ \bar{x} xˉ 的偏差比相對于 μ \mu μ 的偏差小。
- 自由度損失:計算 x ˉ \bar{x} xˉ 時已用掉一個自由度(因為 ∑ ( x i ? x ˉ ) = 0 \sum (x_i - \bar{x}) = 0 ∑(xi??xˉ)=0),所以剩余的獨立信息只有 ( n ? 1 ) (n-1) (n?1) 個自由度。
數學證明
關鍵證明是樣本方差總和的期望值:
E [ ∑ i = 1 n ( x i ? x ˉ ) 2 ] = ( n ? 1 ) σ 2 E\left[ \sum_{i=1}^{n} (x_i - \bar{x})^2 \right] = (n-1) \sigma^2 E[i=1∑n?(xi??xˉ)2]=(n?1)σ2
-
若分母用 n n n:
E [ s n 2 ] = E [ 1 n ∑ i = 1 n ( x i ? x ˉ ) 2 ] = n ? 1 n σ 2 < σ 2 E[s_n^2] = E\left[ \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 \right] = \frac{n-1}{n} \sigma^2 < \sigma^2 E[sn2?]=E[n1?i=1∑n?(xi??xˉ)2]=nn?1?σ2<σ2 -
若分母用 ( n ? 1 ) (n-1) (n?1):
E [ s n ? 1 2 ] = E [ 1 n ? 1 ∑ i = 1 n ( x i ? x ˉ ) 2 ] = 1 n ? 1 ? ( n ? 1 ) σ 2 = σ 2 E[s_{n-1}^2] = E\left[ \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 \right] = \frac{1}{n-1} \cdot (n-1) \sigma^2 = \sigma^2 E[sn?12?]=E[n?11?i=1∑n?(xi??xˉ)2]=n?11??(n?1)σ2=σ2
3. 用 ( n ? 1 ) (n-1) (n?1) 和 n n n 的區別
方面 | 分母用 ( n ? 1 ) (n-1) (n?1) | 分母用 n n n |
---|---|---|
估計性質 | 無偏估計, E [ s n ? 1 2 ] = σ 2 E[s_{n-1}^2] = \sigma^2 E[sn?12?]=σ2 | 有偏估計, E [ s n 2 ] = n ? 1 n σ 2 E[s_n^2] = \frac{n-1}{n} \sigma^2 E[sn2?]=nn?1?σ2 |
數值大小 | 結果稍大(因為分母更小) | 結果稍小(因為分母更大) |
適用場景 | 統計推斷,估計總體參數 | 最大似然估計或描述樣本特性 |
樣本大小影響 | 小樣本時差異明顯,大樣本時差異趨近于零 | 同左,但偏差始終存在 |
- 在小樣本情況下,差異更顯著(例如 n = 5 n=5 n=5 時,有偏估計為 4 5 σ 2 \frac{4}{5}\sigma^2 54?σ2)
- 在大樣本情況下(如 n = 1000 n=1000 n=1000),差異很小,但理論上仍以 ( n ? 1 ) (n-1) (n?1) 為標準
好的,我來更新第4部分的內容,用更詳細的推導過程替代之前的版本。
4. 期望 E [ ∑ i = 1 n ( x i ? x ˉ ) 2 ] = ( n ? 1 ) σ 2 E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = (n-1)\sigma^2 E[∑i=1n?(xi??xˉ)2]=(n?1)σ2 的詳細推導
假設條件
為了推導這個期望,我們需要明確以下假設:
- x 1 , x 2 , … , x n x_1, x_2, \ldots, x_n x1?,x2?,…,xn? 是從均值為 μ \mu μ、方差為 σ 2 \sigma^2 σ2 的總體中抽取的**獨立同分布(i.i.d.)**隨機變量。
- 樣本均值定義為: x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i xˉ=n1?∑i=1n?xi?。
步驟 1:表達式變換
直接計算 E [ ∑ i = 1 n ( x i ? x ˉ ) 2 ] E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] E[∑i=1n?(xi??xˉ)2] 較為復雜,因為 x ˉ \bar{x} xˉ 本身是隨機變量。我們可以利用一個恒等式將表達式改寫為更容易處理的形式。
考慮 x i ? x ˉ x_i - \bar{x} xi??xˉ 的定義:
x i ? x ˉ = ( x i ? μ ) ? ( x ˉ ? μ ) x_i - \bar{x} = (x_i - \mu) - (\bar{x} - \mu) xi??xˉ=(xi??μ)?(xˉ?μ)
這里我們引入了總體均值 μ \mu μ,將偏差分解為兩部分:樣本值與總體均值的偏差 ( x i ? μ ) (x_i - \mu) (xi??μ) 和樣本均值與總體均值的偏差 ( x ˉ ? μ ) (\bar{x} - \mu) (xˉ?μ)。
將這個表達式平方并求和:
∑ i = 1 n ( x i ? x ˉ ) 2 = ∑ i = 1 n [ ( x i ? μ ) ? ( x ˉ ? μ ) ] 2 \sum_{i=1}^n (x_i - \bar{x})^2 = \sum_{i=1}^n \left[ (x_i - \mu) - (\bar{x} - \mu) \right]^2 i=1∑n?(xi??xˉ)2=i=1∑n?[(xi??μ)?(xˉ?μ)]2
展開平方:
( x i ? x ˉ ) 2 = ( x i ? μ ) 2 ? 2 ( x i ? μ ) ( x ˉ ? μ ) + ( x ˉ ? μ ) 2 (x_i - \bar{x})^2 = (x_i - \mu)^2 - 2 (x_i - \mu)(\bar{x} - \mu) + (\bar{x} - \mu)^2 (xi??xˉ)2=(xi??μ)2?2(xi??μ)(xˉ?μ)+(xˉ?μ)2
對所有 i i i 求和:
∑ i = 1 n ( x i ? x ˉ ) 2 = ∑ i = 1 n ( x i ? μ ) 2 ? 2 ∑ i = 1 n ( x i ? μ ) ( x ˉ ? μ ) + ∑ i = 1 n ( x ˉ ? μ ) 2 \sum_{i=1}^n (x_i - \bar{x})^2 = \sum_{i=1}^n (x_i - \mu)^2 - 2 \sum_{i=1}^n (x_i - \mu)(\bar{x} - \mu) + \sum_{i=1}^n (\bar{x} - \mu)^2 i=1∑n?(xi??xˉ)2=i=1∑n?(xi??μ)2?2i=1∑n?(xi??μ)(xˉ?μ)+i=1∑n?(xˉ?μ)2
簡化最后一項,因為 ( x ˉ ? μ ) 2 (\bar{x} - \mu)^2 (xˉ?μ)2 不依賴于 i i i:
∑ i = 1 n ( x ˉ ? μ ) 2 = n ( x ˉ ? μ ) 2 \sum_{i=1}^n (\bar{x} - \mu)^2 = n (\bar{x} - \mu)^2 i=1∑n?(xˉ?μ)2=n(xˉ?μ)2
接下來處理中間項 ∑ i = 1 n ( x i ? μ ) ( x ˉ ? μ ) \sum_{i=1}^n (x_i - \mu)(\bar{x} - \mu) ∑i=1n?(xi??μ)(xˉ?μ):
x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i xˉ=n1?i=1∑n?xi?
所以:
x ˉ ? μ = 1 n ∑ i = 1 n ( x i ? μ ) \bar{x} - \mu = \frac{1}{n} \sum_{i=1}^n (x_i - \mu) xˉ?μ=n1?i=1∑n?(xi??μ)
代入:
∑ i = 1 n ( x i ? μ ) ( x ˉ ? μ ) = ∑ i = 1 n ( x i ? μ ) ? 1 n ∑ j = 1 n ( x j ? μ ) \sum_{i=1}^n (x_i - \mu)(\bar{x} - \mu) = \sum_{i=1}^n (x_i - \mu) \cdot \frac{1}{n} \sum_{j=1}^n (x_j - \mu) i=1∑n?(xi??μ)(xˉ?μ)=i=1∑n?(xi??μ)?n1?j=1∑n?(xj??μ)
因為 ∑ j = 1 n ( x j ? μ ) \sum_{j=1}^n (x_j - \mu) ∑j=1n?(xj??μ) 不依賴于 i i i,可以提出:
∑ i = 1 n ( x i ? μ ) ( x ˉ ? μ ) = 1 n ∑ i = 1 n ( x i ? μ ) ? ∑ j = 1 n ( x j ? μ ) = 1 n [ ∑ i = 1 n ( x i ? μ ) ] 2 \sum_{i=1}^n (x_i - \mu)(\bar{x} - \mu) = \frac{1}{n} \sum_{i=1}^n (x_i - \mu) \cdot \sum_{j=1}^n (x_j - \mu) = \frac{1}{n} \left[ \sum_{i=1}^n (x_i - \mu) \right]^2 i=1∑n?(xi??μ)(xˉ?μ)=n1?i=1∑n?(xi??μ)?j=1∑n?(xj??μ)=n1?[i=1∑n?(xi??μ)]2
注意到:
∑ i = 1 n ( x i ? μ ) = n ( x ˉ ? μ ) \sum_{i=1}^n (x_i - \mu) = n (\bar{x} - \mu) i=1∑n?(xi??μ)=n(xˉ?μ)
所以:
∑ i = 1 n ( x i ? μ ) ( x ˉ ? μ ) = 1 n [ n ( x ˉ ? μ ) ] 2 = n ( x ˉ ? μ ) 2 \sum_{i=1}^n (x_i - \mu)(\bar{x} - \mu) = \frac{1}{n} \left[ n (\bar{x} - \mu) \right]^2 = n (\bar{x} - \mu)^2 i=1∑n?(xi??μ)(xˉ?μ)=n1?[n(xˉ?μ)]2=n(xˉ?μ)2
將這些結果代回原式:
∑ i = 1 n ( x i ? x ˉ ) 2 = ∑ i = 1 n ( x i ? μ ) 2 ? 2 n ( x ˉ ? μ ) 2 + n ( x ˉ ? μ ) 2 \sum_{i=1}^n (x_i - \bar{x})^2 = \sum_{i=1}^n (x_i - \mu)^2 - 2 n (\bar{x} - \mu)^2 + n (\bar{x} - \mu)^2 i=1∑n?(xi??xˉ)2=i=1∑n?(xi??μ)2?2n(xˉ?μ)2+n(xˉ?μ)2
= ∑ i = 1 n ( x i ? μ ) 2 ? n ( x ˉ ? μ ) 2 = \sum_{i=1}^n (x_i - \mu)^2 - n (\bar{x} - \mu)^2 =i=1∑n?(xi??μ)2?n(xˉ?μ)2
我們得到了一個關鍵恒等式:
∑ i = 1 n ( x i ? x ˉ ) 2 = ∑ i = 1 n ( x i ? μ ) 2 ? n ( x ˉ ? μ ) 2 \sum_{i=1}^n (x_i - \bar{x})^2 = \sum_{i=1}^n (x_i - \mu)^2 - n (\bar{x} - \mu)^2 i=1∑n?(xi??xˉ)2=i=1∑n?(xi??μ)2?n(xˉ?μ)2
步驟 2:計算期望
現在,對這個表達式取期望:
E [ ∑ i = 1 n ( x i ? x ˉ ) 2 ] = E [ ∑ i = 1 n ( x i ? μ ) 2 ? n ( x ˉ ? μ ) 2 ] E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = E\left[ \sum_{i=1}^n (x_i - \mu)^2 - n (\bar{x} - \mu)^2 \right] E[i=1∑n?(xi??xˉ)2]=E[i=1∑n?(xi??μ)2?n(xˉ?μ)2]
由于期望是線性的,可以分開計算:
E [ ∑ i = 1 n ( x i ? x ˉ ) 2 ] = E [ ∑ i = 1 n ( x i ? μ ) 2 ] ? E [ n ( x ˉ ? μ ) 2 ] E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = E\left[ \sum_{i=1}^n (x_i - \mu)^2 \right] - E\left[ n (\bar{x} - \mu)^2 \right] E[i=1∑n?(xi??xˉ)2]=E[i=1∑n?(xi??μ)2]?E[n(xˉ?μ)2]
第一項: E [ ∑ i = 1 n ( x i ? μ ) 2 ] E\left[ \sum_{i=1}^n (x_i - \mu)^2 \right] E[∑i=1n?(xi??μ)2]
因為 x i x_i xi? 是 i.i.d. 的,且 E [ ( x i ? μ ) 2 ] = Var ( x i ) = σ 2 E[(x_i - \mu)^2] = \text{Var}(x_i) = \sigma^2 E[(xi??μ)2]=Var(xi?)=σ2:
E [ ∑ i = 1 n ( x i ? μ ) 2 ] = ∑ i = 1 n E [ ( x i ? μ ) 2 ] = ∑ i = 1 n σ 2 = n σ 2 E\left[ \sum_{i=1}^n (x_i - \mu)^2 \right] = \sum_{i=1}^n E[(x_i - \mu)^2] = \sum_{i=1}^n \sigma^2 = n \sigma^2 E[i=1∑n?(xi??μ)2]=i=1∑n?E[(xi??μ)2]=i=1∑n?σ2=nσ2
第二項: E [ n ( x ˉ ? μ ) 2 ] E\left[ n (\bar{x} - \mu)^2 \right] E[n(xˉ?μ)2]
首先計算 x ˉ \bar{x} xˉ 的方差:
x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i xˉ=n1?i=1∑n?xi?
由于 x i x_i xi? 是獨立的:
Var ( x ˉ ) = Var ( 1 n ∑ i = 1 n x i ) = 1 n 2 ∑ i = 1 n Var ( x i ) = 1 n 2 ? n σ 2 = σ 2 n \text{Var}(\bar{x}) = \text{Var}\left( \frac{1}{n} \sum_{i=1}^n x_i \right) = \frac{1}{n^2} \sum_{i=1}^n \text{Var}(x_i) = \frac{1}{n^2} \cdot n \sigma^2 = \frac{\sigma^2}{n} Var(xˉ)=Var(n1?i=1∑n?xi?)=n21?i=1∑n?Var(xi?)=n21??nσ2=nσ2?
因為 E [ x ˉ ] = μ E[\bar{x}] = \mu E[xˉ]=μ(樣本均值無偏),所以:
E [ ( x ˉ ? μ ) 2 ] = Var ( x ˉ ) = σ 2 n E[(\bar{x} - \mu)^2] = \text{Var}(\bar{x}) = \frac{\sigma^2}{n} E[(xˉ?μ)2]=Var(xˉ)=nσ2?
因此:
E [ n ( x ˉ ? μ ) 2 ] = n ? E [ ( x ˉ ? μ ) 2 ] = n ? σ 2 n = σ 2 E\left[ n (\bar{x} - \mu)^2 \right] = n \cdot E[(\bar{x} - \mu)^2] = n \cdot \frac{\sigma^2}{n} = \sigma^2 E[n(xˉ?μ)2]=n?E[(xˉ?μ)2]=n?nσ2?=σ2
合并結果
E [ ∑ i = 1 n ( x i ? x ˉ ) 2 ] = n σ 2 ? σ 2 = ( n ? 1 ) σ 2 E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = n \sigma^2 - \sigma^2 = (n - 1) \sigma^2 E[i=1∑n?(xi??xˉ)2]=nσ2?σ2=(n?1)σ2
步驟 3:驗證與意義
我們得到了:
E [ ∑ i = 1 n ( x i ? x ˉ ) 2 ] = ( n ? 1 ) σ 2 E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = (n - 1) \sigma^2 E[i=1∑n?(xi??xˉ)2]=(n?1)σ2
這表明, ∑ i = 1 n ( x i ? x ˉ ) 2 \sum_{i=1}^n (x_i - \bar{x})^2 ∑i=1n?(xi??xˉ)2 的期望值是 ( n ? 1 ) σ 2 (n-1) \sigma^2 (n?1)σ2。在統計學中,樣本方差定義為:
s 2 = 1 n ? 1 ∑ i = 1 n ( x i ? x ˉ ) 2 s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2 s2=n?11?i=1∑n?(xi??xˉ)2
其期望為:
E [ s 2 ] = 1 n ? 1 E [ ∑ i = 1 n ( x i ? x ˉ ) 2 ] = 1 n ? 1 ? ( n ? 1 ) σ 2 = σ 2 E[s^2] = \frac{1}{n-1} E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = \frac{1}{n-1} \cdot (n-1) \sigma^2 = \sigma^2 E[s2]=n?11?E[i=1∑n?(xi??xˉ)2]=n?11??(n?1)σ2=σ2
這說明 s 2 s^2 s2 是總體方差 σ 2 \sigma^2 σ2 的無偏估計。
如果用 n n n 作為分母:
E [ 1 n ∑ i = 1 n ( x i ? x ˉ ) 2 ] = 1 n ? ( n ? 1 ) σ 2 = n ? 1 n σ 2 < σ 2 E\left[ \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2 \right] = \frac{1}{n} \cdot (n-1) \sigma^2 = \frac{n-1}{n} \sigma^2 < \sigma^2 E[n1?i=1∑n?(xi??xˉ)2]=n1??(n?1)σ2=nn?1?σ2<σ2
這表明分母用 n n n 會低估總體方差。
總結
通過將 ∑ i = 1 n ( x i ? x ˉ ) 2 \sum_{i=1}^n (x_i - \bar{x})^2 ∑i=1n?(xi??xˉ)2 展開為 ∑ i = 1 n ( x i ? μ ) 2 ? n ( x ˉ ? μ ) 2 \sum_{i=1}^n (x_i - \mu)^2 - n (\bar{x} - \mu)^2 ∑i=1n?(xi??μ)2?n(xˉ?μ)2,并分別計算兩項的期望,我們推導出:
E [ ∑ i = 1 n ( x i ? x ˉ ) 2 ] = ( n ? 1 ) σ 2 E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = (n - 1) \sigma^2 E[i=1∑n?(xi??xˉ)2]=(n?1)σ2
- ∑ i = 1 n ( x i ? μ ) 2 \sum_{i=1}^n (x_i - \mu)^2 ∑i=1n?(xi??μ)2 的期望是 n σ 2 n \sigma^2 nσ2,表示總體偏差。
- n ( x ˉ ? μ ) 2 n (\bar{x} - \mu)^2 n(xˉ?μ)2 的期望是 σ 2 \sigma^2 σ2,反映樣本均值的波動。
- 兩者的差值 ( n ? 1 ) σ 2 (n-1) \sigma^2 (n?1)σ2 解釋了為什么樣本方差的分母用 n ? 1 n-1 n?1 是無偏的。
5. 數據中心化的原理
數據中心化是將每個數據點減去均值的過程:
數學表示
- 原始數據: x 1 , x 2 , . . . , x n x_1, x_2, ..., x_n x1?,x2?,...,xn?
- 均值: μ = 1 n ∑ i = 1 n x i \mu = \frac{1}{n}\sum_{i=1}^n x_i μ=n1?∑i=1n?xi?
- 中心化數據: x i ′ = x i ? μ x'_i = x_i - \mu xi′?=xi??μ
幾何意義
- 將數據集平移,使中心點位于坐標原點
- 數據分布形狀不變,僅位置發生移動
- 數據點之間的相對關系保持不變
優點
- 消除數據的整體偏移
- 提高數值計算的穩定性
- 加快模型收斂速度
- 使不同特征處于相似的尺度范圍
示例
對于數據 [2, 4, 6, 8]:
- 均值 μ = 5 \mu = 5 μ=5
- 中心化后:[-3, -1, 1, 3]
數據中心化是統計分析和機器學習中的重要預處理步驟,有助于我們關注數據的相對變化而非絕對位置。