用班級平均身高的案例,展示 ?Delta、Jackknife、Bootstrap? 的完整計算過程。
?0.?數據準備?
?原始數據(4個學生的身高)??:
????????????????
真實均值(目標統計量)??:
????????????????
?1. Delta 方法(公式法)??
?目標?:計算均值的方差?
?步驟 1:計算樣本方差
??
具體計算:
步驟 2:計算均值的方差
?
?Delta 方法結果
?2. Jackknife 方法(刀切法)??
?目標?:通過每次去掉一個數據點,計算均值的波動。
?步驟 1:計算“去掉一個點”的均值?
去掉的數據點 | 剩余數據 | 計算均值 |
---|---|---|
160cm | [170, 175, 185] | (170+175+185)/3 = 176.67 |
170cm | [160, 175, 185] | (160+175+185)/3 ≈ 173.33 |
175cm | [160, 170, 185] | (160+170+185)/3 ≈ 171.67 |
185cm | [160, 170, 175] | (160+170+175)/3 = 168.33 |
?步驟 2:計算“偽值”(Pseudo-values)??
偽值公式:
計算:
注:因為均值是線性統計量,偽值會還原出原始數據。但對非線性統計量?(如中位數),偽值會體現每個數據點的影響。
?步驟 3:計算偽值的方差
?
然后調整:
??這里和 Delta 方法結果不同,原因是偽值計算方式對非線性統計量更準確,但對均值會略有偏差)
?Jackknife 方法結果
?3. Bootstrap 方法(自助法)??
?目標?:通過重復抽樣模擬均值分布,計算方差。
?步驟 1:從原始數據中有放回抽樣?
我們進行 ?5 次抽樣?(實際中需 1000+ 次,這里簡化演示):
抽樣次數 | 抽到的數據(有放回) | 計算均值 |
---|---|---|
1 | [160, 170, 175, 185] | 172.5 |
2 | [170, 170, 175, 185] | (170+170+175+185)/4=175 |
3 | [160, 175, 185, 185] | (160+175+185+185)/4=176.25 |
4 | [160, 160, 170, 175] | (160+160+170+175)/4=166.25 |
5 | [170, 175, 175, 185] | (170+175+175+185)/4=176.25 |
?步驟 2:計算這些均值的方差
?
?
?? 由于抽樣次數太少,結果不穩定,實際 1000+ 次會接近 27.08
?Bootstrap 方法結果(5次抽樣)
?4.?最終對比?
方法 | 計算方式 | 結果 | 備注 |
---|---|---|---|
?Delta? | 公式 | 27.08 | 最快,但依賴公式 |
?Jackknife? | 偽值方差調整 | 20.31 | 適用于無公式統計量 |
?Bootstrap? | 重復抽樣計算方差 | ≈27.08(需大樣本) | 最穩健,但計算量大 |
?5.?關鍵結論?
- ?Delta 最快,但必須知道公式(如均值、回歸系數)。
- ?Jackknife 更通用,適合中位數等無公式統計量。
- ?Bootstrap 最穩健,但需要大量計算(通常抽 1000+ 次)。
6. 補充
如何理解“偽值”?
偽值 = 用“拆數據”的方式,模擬統計量對單個數據點的依賴程度。?
想象你是班主任,想知道班上每個學生對“平均分”的影響有多大。于是你:
- ?先計算全班平均分?(比如80分);
- ?讓每個學生輪流請假,重新計算剩下學生的平均分;
- ?比較“請假前后”的差異,這個差異就是該學生的“偽值”。
?偽值的意義?
- 如果某個學生請假后,平均分從80掉到75,說明他對班級影響很大(偽值低);
- 如果請假后平均分幾乎不變,說明他影響小(偽值接近均值)。
Jackknife方法中偽值的計算公式?
對統計量?T(如均值、中位數),偽值定義為:
?其中?:
- n:總數據量;
- T全量?:用全部數據計算的統計量(如均值);
- T去掉第i個點?:去掉第?i?個數據后重新計算的統計量。
偽值的核心作用?
- ?估計偏差?:通過偽值的均值可以修正統計量的偏差。
- ?計算方差?:用偽值的方差推斷原統計量的穩定性(如Jackknife方差公式)。
類比
- ?偽值? ≈ ??“數據點的貢獻值”??,就像公司評估員工績效:
- 全公司業績 = 100萬(T全量?);
- 去掉員工A后業績 = 90萬(T?i?);
- 員工A的偽值 =?n×100?(n?1)×90=10(他對業績的凈貢獻)。