Delta、Jackknife、Bootstrap

班級平均身高的案例,展示 ?Delta、Jackknife、Bootstrap? 的完整計算過程


?0.?數據準備?

?原始數據(4個學生的身高)??:

????????????????X = [160\,\text{cm},\ 170\,\text{cm},\ 175\,\text{cm},\ 185\,\text{cm}]

真實均值(目標統計量)??:

????????????????\bar{X} = \frac{160 + 170 + 175 + 185}{4} = 172.5\,\text{cm}


?1. Delta 方法(公式法)??

?目標?:計算均值的方差? \text{Var}(\bar{X})

?步驟 1:計算樣本方差S^2

S^2 = \frac{\sum (X_i - \bar{X})^2}{n-1}??

具體計算:

\begin{aligned} (160-172.5)^2 &= (-12.5)^2 = 156.25 \\ (170-172.5)^2 &= (-2.5)^2 = 6.25 \\ (175-172.5)^2 &= (2.5)^2 = 6.25 \\ (185-172.5)^2 &= (12.5)^2 = 156.25 \\ \end{aligned}

S^2 = \frac{156.25 + 6.25 + 6.25 + 156.25}{3} = \frac{325}{3} \approx 108.33

步驟 2:計算均值的方差

?\text{Var}(\bar{X}) = \frac{S^2}{n} = \frac{108.33}{4} = 27.08

?Delta 方法結果

\boxed{\text{Var}(\bar{X}) = 27.08}


?2. Jackknife 方法(刀切法)??

?目標?:通過每次去掉一個數據點,計算均值的波動。

?步驟 1:計算“去掉一個點”的均值?

去掉的數據點剩余數據計算均值 \bar{X}_{-i}
160cm[170, 175, 185](170+175+185)/3 = 176.67
170cm[160, 175, 185](160+175+185)/3 ≈ 173.33
175cm[160, 170, 185](160+170+185)/3 ≈ 171.67
185cm[160, 170, 175](160+170+175)/3 = 168.33

?步驟 2:計算“偽值”(Pseudo-values)??

偽值公式:

\tilde{X}_i = n \bar{X} - (n-1) \bar{X}_{-i}

計算:

\begin{aligned} \tilde{X}_1 &= 4 \times 172.5 - 3 \times 176.67 = 690 - 530 = 160 \\ \tilde{X}_2 &= 4 \times 172.5 - 3 \times 173.33 = 690 - 520 = 170 \\ \tilde{X}_3 &= 4 \times 172.5 - 3 \times 171.67 = 690 - 515 = 175 \\ \tilde{X}_4 &= 4 \times 172.5 - 3 \times 168.33 = 690 - 505 = 185 \\ \end{aligned}

注:因為均值是線性統計量,偽值會還原出原始數據。但對非線性統計量?(如中位數),偽值會體現每個數據點的影響。

?步驟 3:計算偽值的方差

?\text{Var}(\tilde{X}) = \frac{\sum (\tilde{X}_i - \bar{X})^2}{n} = \frac{(160-172.5)^2 + \cdots + (185-172.5)^2}{4} = \frac{325}{4} = 81.25

然后調整:

\text{Var}(\bar{X}) = \frac{\text{Var}(\tilde{X})}{n} = \frac{81.25}{4} = 20.31

??這里和 Delta 方法結果不同,原因是偽值計算方式對非線性統計量更準確,但對均值會略有偏差)

?Jackknife 方法結果

\boxed{\text{Var}(\bar{X}) \approx 20.31}


?3. Bootstrap 方法(自助法)??

?目標?:通過重復抽樣模擬均值分布,計算方差。

?步驟 1:從原始數據中有放回抽樣?

我們進行 ?5 次抽樣?(實際中需 1000+ 次,這里簡化演示):

抽樣次數抽到的數據(有放回)計算均值\bar{X}^*
1[160, 170, 175, 185]172.5
2[170, 170, 175, 185](170+170+175+185)/4=175
3[160, 175, 185, 185](160+175+185+185)/4=176.25
4[160, 160, 170, 175](160+160+170+175)/4=166.25
5[170, 175, 175, 185](170+175+175+185)/4=176.25

?步驟 2:計算這些均值的方差

?\text{Var}(\bar{X}) = \frac{(172.5-172.5)^2 + (175-172.5)^2 + (176.25-172.5)^2 + (166.25-172.5)^2 + (176.25-172.5)^2}{5}

?= \frac{0 + 6.25 + 14.06 + 39.06 + 14.06}{5} = \frac{73.43}{5} \approx 14.69

?? 由于抽樣次數太少,結果不穩定,實際 1000+ 次會接近 27.08

?Bootstrap 方法結果(5次抽樣)

\boxed{\text{Var}(\bar{X}) \approx 14.69}


?4.?最終對比?

方法計算方式結果 \text{Var}(\bar{X})備注
?Delta?公式\frac{S^2}{n}27.08最快,但依賴公式
?Jackknife?偽值方差調整20.31適用于無公式統計量
?Bootstrap?重復抽樣計算方差≈27.08(需大樣本)最穩健,但計算量大

?5.?關鍵結論?

  1. ?Delta 最快,但必須知道公式(如均值、回歸系數)。
  2. ?Jackknife 更通用,適合中位數等無公式統計量。
  3. ?Bootstrap 最穩健,但需要大量計算(通常抽 1000+ 次)。

6. 補充

如何理解“偽值”?

偽值 = 用“拆數據”的方式,模擬統計量對單個數據點的依賴程度。?

想象你是班主任,想知道班上每個學生對“平均分”的影響有多大。于是你:

  1. ?先計算全班平均分?(比如80分);
  2. ?讓每個學生輪流請假,重新計算剩下學生的平均分;
  3. ?比較“請假前后”的差異,這個差異就是該學生的“偽值”。

?偽值的意義?

  • 如果某個學生請假后,平均分從80掉到75,說明他對班級影響很大(偽值低);
  • 如果請假后平均分幾乎不變,說明他影響小(偽值接近均值)。

Jackknife方法中偽值的計算公式?

對統計量?T(如均值、中位數),偽值定義為:

?其中?:

  • n:總數據量;
  • T全量?:用全部數據計算的統計量(如均值);
  • T去掉第i個點?:去掉第?i?個數據后重新計算的統計量。

偽值的核心作用?

  1. ?估計偏差?:通過偽值的均值可以修正統計量的偏差。
  2. ?計算方差?:用偽值的方差推斷原統計量的穩定性(如Jackknife方差公式)。

類比

  • ?偽值? ≈ ??“數據點的貢獻值”??,就像公司評估員工績效:
    • 全公司業績 = 100萬(T全量?);
    • 去掉員工A后業績 = 90萬(T?i?);
    • 員工A的偽值 =?n×100?(n?1)×90=10(他對業績的凈貢獻)。

    本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
    如若轉載,請注明出處:http://www.pswp.cn/diannao/89824.shtml
    繁體地址,請注明出處:http://hk.pswp.cn/diannao/89824.shtml
    英文地址,請注明出處:http://en.pswp.cn/diannao/89824.shtml

    如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

    相關文章

    企業智腦技術架構設計:緊貼企業場景規劃面向未來的發展趨勢與實現路徑

    摘要 本文深入探討了企業智腦技術架構的設計理念與發展趨勢,分析了當前企業智能化轉型的技術需求與挑戰,提出了一個面向未來的企業智腦技術架構設計方案。文章從底層技術支撐、核心能力構建、應用場景適配、安全合規保障以及未來發展路徑五個維度展開論…

    新手向:Python方向講解

    從NASA火星任務到TikTok推薦算法,從自動化腳本到量子計算,Python用import antigravity重新定義了編程邊界 一、設計哲學:優雅明確的編程禪學 Python之禪(import this): 優美勝于丑陋(Beautifu…

    Chrome谷歌瀏覽器插件ModHeader,修改請求頭,開發神器

    文章目錄一、介紹與下載二、使用一、介紹與下載 ModHeader顧名思義就是讓我們可以自定義HTTP請求頭或者是重寫響應頭,包括新增請求頭/響應頭或者覆蓋Chrome瀏覽器設置的請求頭的默認值,同時還可以根據URL Pattern來只對特定網站生效。 有條件的同學可以…

    SEW:無監督預訓練在語音識別中的性能-效率權衡

    摘要 本文研究了自動語音識別(ASR)中預訓練模型的性能-效率權衡問題。我們聚焦于 wav2vec 2.0,并形式化了多種影響模型性能和效率的架構設計。基于所有觀察結果,我們提出了 SEW(Squeezed and Efficient Wav2vec&#…

    linux系統部署express+vue項目

    一、準備階段: 1、安裝linux上所需要的環境:npm nodejs nginx pm2 //安裝 npm(Node 包管理器) sudo apt install npm//判斷是否安裝成功 npm -v//安裝 Node.js(可以根據需要選擇版本) sudo apt inst…

    PixiJS教程(004):點擊事件交互

    1.6 事件交互實現要求:點擊寶劍,修改寶劍的顏色。1??實現代碼: // 為精靈添加交互事件 sprite.interactive true; sprite.on(click, () > {// 點擊精靈時,改變精靈的顏色sprite.tint Math.random() * 0xFFFFFF; });說明&am…

    創客匠人助力家庭教育IP破局:從0到1打造創始人個人品牌全攻略

    一、IP定位:細分賽道的精準錨定與用戶畫像構建 在家庭教育8000億市場規模的競爭中,創始人IP的差異化定位成為破局關鍵。創客匠人通過“標簽化定位”工具,幫助教育者鎖定垂直領域,如親子溝通、青春期教育等細分賽道。以景麗霞老師…

    使用堅果云擴容Zotero同步空間的簡單快捷方法

    本文介紹基于堅果云的WebDAV協議,用于文獻管理軟件Zotero的文件同步,從而實現Zotero存儲空間擴容的方法。 在之前的文章Zotero文獻管理軟件入門使用方法:軟件下載、文獻導入、引文插入(https://blog.csdn.net/zhebushibiaoshifu/a…

    Java啟動腳本

    Java啟動腳本 編寫代碼,然后打包 Java-1.0-SNAPSHOT.jar public class test {public static void main(String[] args) {System.out.println("Hello IDEA");} }編寫運行腳本 #!/bin/sh WORKDIR$(cd $(dirname $0); pwd) cd $WORKDIRexport JAVA_OPTS"…

    VSCode使用ssh遠程連接阿里云

    1. 終端選擇 Windows使用PowerShell Ubuntu和Mac使用Terminal 2. 設置ssh 2.1. 第一臺電腦 生成密鑰 ssh-keygen -o -t rsa -b 4096 -C "emailexample.com" 按三次回車 查看密鑰 cat ~/.ssh/id_rsa.pub 拷貝密鑰,粘貼到服務器的密鑰框中 2.2. 第…

    XLSR-Wav2Vec2:用于語音識別的無監督跨語言表示學習

    摘要 本文提出了 XLSR,該方法通過從多種語言的原始語音波形中預訓練單個模型,以學習跨語言的語音表示。我們基于 wav2vec 2.0 構建模型,該方法通過對掩蔽后的潛在語音表示解決對比任務進行訓練,并聯合學習在多種語言之間共享的潛…

    圖靈完備之路(數電學習三分鐘)----數據選擇器與總線

    1.數據選擇器之前我們學習了邏輯與算數的計算,得知兩個數字之間的加減和與或的結果是不同的,而一個通用的數字電路不可能只有一個功能,所以我們將在本節引入電路選擇器這一“器件”,來實現對兩個輸入的運算方式的選擇,…

    Linux下如何設置CUDA的路徑

    今天遇到一個關于CUDA的問題,我要跑的深度學習代碼,他里面有cuda編程,需要編譯。但是你運行就報錯。 代碼提示我大段報錯。 (score-denoise) ubuntuGPUA10002:~/wbd/score-denoise_Transformerdepth20$ python train.py Detected CUDA fil…

    js樹的排序

    樹 樹的前中后序遍歷 樹是一種重要的非線性數據結構,尤其是二叉樹。二叉樹的遍歷是操作樹的基礎,主要有前序遍歷、中序遍歷和后序遍歷三種方式。 前序遍歷 訪問順序:根結點 -> 左子樹 -> 右子樹。 遍歷規則:首先訪問根結…

    解碼 Red Stuff:Walrus 高效可靠存儲的引擎

    Red Stuff 是 Walrus 所采用的二維(2D)糾刪碼協議,定義了數據如何被編碼和存儲。它是實現高效、安全、且高可用的去中心化存儲的關鍵。通過 Red Stuff,Walrus 成功解決了去中心化存儲系統常見的三大難題:安全性、復制效…

    【ACP】阿里云云計算高級運維工程師--ACP

    文章目錄1、簡要介紹2、核心特點3、考試相關信息4、適合人群1、簡要介紹 阿里云云計算認證ACP(Alibaba Cloud Certified Professional)是面向云計算技術與應用從業者的專業級認證,旨在評估考生對阿里云云計算產品的理解、部署、運維及最佳實…

    快速掌握Python編程基礎

    干貨分享,感謝您的閱讀!備注:本博客將自己初步學習Python的總結進行分享,希望大家通過本博客可以在短時間內快速掌握Python的基本程序編碼能力,如有錯誤請留言指正,謝謝!(持續更新&a…

    「Java案例」雞兔同籠問題

    案例解析 雞兔同籠求解 《孫子算經》是中國古代重要的數學著作,成書于南北朝時期,其中就記載了一個有趣的問題:雞和兔在同一個籠子里,雞和兔共有n條腿, m個頭,問雞和兔各有多少只?編寫一個程序…

    BLDC電機-運動控制---stm32時鐘樹定時器SYSTICKRTC的學習

    一、時鐘樹 二、基本定時器 三、通用定時器 四、高級定時器 五、SYSTICK 六、RTC

    Implementing a User-Defined Preconditioner in PETSc

    文章目錄Implementing a User-Defined Preconditioner in PETScBasic ApproachExample ImplementationUsing Your PreconditionerAdvanced OptionsImportant NotesUsing PCShell to Implement User-Defined Preconditioners in PETScBasic Implementation StepsAdvanced Featur…