用R包mice進行多重插補

利用R包mice實現的鏈式方程多重插補方法來插補缺失的數據。

所有多重插補方法都遵循三個步驟

插補——與單次插補類似,對缺失值進行插補。但是,插補值會從分布中提取m次,而不是僅提取一次。此步驟結束時,應該有m 個完整的數據集。
分析——對m個數據集進行逐一分析。此步驟結束時,應該有m個分析結果。
池化——通過計算關注變量的平均值、方差和置信區間,或組合各個獨立模型的模擬結果,將m個結果合并為一個結果。

為什么要多重插補?

單次插補直接用某種方法填補缺失值,得到一個完整數據集,但忽略了插補值本身存在的不確定性,會低估標準誤,導致統計推斷過于樂觀。

多重插補通過多次(比如5次、10次)插補,生成多個完整數據集,反映了缺失值可能的多種合理取值,從而考慮了插補的不確定性。

鏈式方程多重插補(MICE)怎么做?

先對所有變量的缺失值初始化(比如用均值或隨機值填充),得到一個初步完整數據集。

逐個變量進行迭代插補,比如第1個變量的缺失值用其它變量的當前完整值建立回歸模型預測(如線性回歸、邏輯回歸、PMM等),插補預測值(加上隨機擾動)。

依次對第2個、第3個…變量做類似操作,每一輪完成一遍所有變量的插補。

這個過程迭代多次(比如20次),模型逐漸穩定。

每一次迭代的最終結果就是一個完整數據集,重復m次(默認5次)得到多個完整數據集。

隨機性的來源在哪里?

每次變量插補時,不是簡單用回歸預測值,而是用帶隨機誤差的預測值,比如PMM(預測均值匹配)會隨機從訓練樣本中選取一個類似的真實值來填補。

這種“隨機擾動”保證了插補值的多樣性,使得多組插補結果反映了缺失值潛在的真實變異。

同時,在初始化、模型擬合、抽樣步驟中都會引入隨機性,保證不同插補數據集的差異。

什么是 PMM(預測均值匹配)?

在 MICE 多重插補中,PMM 是一種常用的插補方法,它不直接使用回歸預測值,而是找一個“相似的人”來“借值”填補缺失。
例子
假設你現在有個變量是認知分數(比如“記憶得分”),有些人沒填。
你要為“小明”插補一個記憶得分,他的其它信息是:
年齡:40
教育年限:16年
BMI:23
其他認知指標:都正常

你用這些變量訓練了一個回歸模型來預測“記憶得分”。
回歸模型告訴你:“小明的記憶得分大概是 78.3”。
但你不會直接填 78.3。
PMM 怎么做呢?
找到所有“非缺失者”(有真實記憶得分的人),用同一個模型去預測他們的得分。
得到每個人的“預測得分”和他們的真實得分(比如:預測=78.0,真實=80)。
從中選出預測得分最接近 78.3 的幾個“鄰居”(通常是5個)。
從這幾個鄰居的“真實得分”中隨機抽一個來給小明用,比如抽到的是“80”,那小明就插補為 80。

所以隨機來自:

  1. “鄰居”中隨機選一個真實值填進去;
  2. 整個插補過程本身也有隨機擾動(不同種子、初始化方式);
    插補每個數據集時都獨立進行,因此你得到了5個(默認)不完全一樣的版本。

分別對5個數據集進行了檢驗,并應用Rubin規則匯集了5個數據集中的參數估計值。

參考:
https://en.wikipedia.org/wiki/Imputation_(statistics)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/87018.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/87018.shtml
英文地址,請注明出處:http://en.pswp.cn/web/87018.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【專題】網絡攻防技術期末復習資料

網絡攻防技術期末復習資料 鏈接:https://blog.csdn.net/Pqf18064375973/article/details/148996272?sharetypeblogdetail&sharerId148996272&sharereferPC&sharesourcePqf18064375973&sharefrommp_from_link 網絡安全威脅的成因。 分類&#xff1a…

地震災害的模擬

為確保地震災害模擬的準確性和高效性,涉及的系統需要處理復雜的物理模型、數據輸入和多層次的模擬過程。在技術設計方案中,我們將涵蓋以下幾個方面: 背景:描述該模擬系統的目的與應用場景。需求:列出系統的功能需求&a…

9.9 《1/10成本實現GPT-3.5級表現!ChatGLM3-6B QLoRA微調實戰:4bit量化+低秩適配全解析》

1/10成本實現GPT-3.5級表現!ChatGLM3-6B QLoRA微調實戰:4bit量化+低秩適配全解析 ChatGLM3-6B 微調入門實戰:QLoRA 量化低秩適配技術 ▲ ChatGLM3-6B采用GLM架構改進版,支持32K上下文長度和代碼生成能力 一、QLoRA 技術原理精要 QLoRA(Quantized Low-Rank Adaptation)…

【Python基礎】11 Python深度學習生態系統全景解析:從基礎框架到專業應用的技術深度剖析(超長版,附多個代碼及結果)

引言:Python在深度學習領域的統治地位 在人工智能浪潮席卷全球的今天,Python已經成為深度學習領域當之無愧的王者語言。這不僅僅是因為Python語法簡潔易學,更重要的是圍繞Python構建的深度學習生態系統的完整性和強大性。從Google的TensorFlow到Facebook的PyTorch,從科學計…

RESTful API 設計原則深度解析

在 Web 服務架構中,RESTful API作為一種輕量級、可擴展的接口設計風格,通過 HTTP 協議實現資源的標準化訪問。本文從核心原則、URL 設計、HTTP 方法應用、狀態管理及面試高頻問題五個維度,結合工程實踐與反例分析,系統解析 RESTfu…

java web2(黑馬)

數據庫設計 簡介 1.軟件的研發步驟 2.數據庫設計概念 > 數據庫設計就是根據業務系統的具體需求,結合我們所選用的DBMS,為這個業務系統構造出最優 的數據存儲模型 > 建立數據庫中的表結構以及表與表之間的關聯關系的過程, > …

Meta 宣布加入 Kotlin 基金會,將為 Kotlin 和 Android 生態提供全新支持

近日 Meta 正式宣發加入了 Kotlin 基金會,如果你對 Meta 不熟悉,那么對于開源了 React Native 的 Facebook 應該不陌生了吧?現在它也正式加入了 Kotlin 領導者的陣營: Kotlin 基金會 是由 Jetbrains 和 Google 共同成立的基金會&a…

緩存系統-淘汰策略

目錄 一、LRU(最近最少使用) 工作原理 操作流程 基本特征 二、LFU(最不常使用) 工作原理 操作流程 基本特征 三、ARC 自適應 工作原理 操作流程 基本特征 四、TTL(生存時間) 工作原理 操作流…

TypeScript 安裝使用教程

一、TypeScript 簡介 TypeScript 是由微軟開發的開源編程語言,是 JavaScript 的超集,添加了靜態類型、接口、枚舉、類等特性,使開發大型應用更安全、可維護、可擴展。最終會被編譯為標準的 JavaScript 代碼在瀏覽器或 Node.js 中運行。 二、…

強化學習系列--dpo損失函數

DPO 概要 DPO(Direct Preference Optimization,直接偏好優化)是由斯坦福大學等研究團隊于2023年提出的一種偏好優化算法,可用于LLM、VLM與MLLM的對齊訓練。 算法基于PPO的RLHF基礎上進行了大幅簡化。DPO算法跳過了訓練獎勵模型這…

UniApp完全支持快應用QUICKAPP-以及如何采用 Uni 模式開發發行快應用優雅草卓伊凡

UniApp完全支持快應用QUICKAPP-以及如何采用 Uni 模式開發發行快應用優雅草卓伊凡 一、UniApp 對快應用的支持深度 UniApp 已完全支持快應用的開發和發布,具體包括: 兩種渲染模式: Webview 渲染(快應用 Light 版)&a…

js 允許生成特殊的變量名 基于字符集編碼混淆的 XSS 繞過漏洞 -- Google 2025 Lost In Transliteration

題目實現了一個字符轉換工具 在/file路由用戶可以通過 ct 參數自定義 Content-Type // 文件路由 - 提供靜態文件服務(JS和CSS),支持內容類型驗證 app.MapGet("/file", (string filename "", string? ct null, string?…

【仿muduo庫實現并發服務器】LoopThreadPool模塊

仿muduo庫實現并發服務器 1.LoopThread模塊1.1成員變量1.2構造函數13線程入口函數1.4獲取eventloop對象GetLoop() 2.LoopThreadPool模塊2.1成員變量2.2構造函數2.3配置線程數量2.4按照配置數量創建線程2.5依次分配Eventloop對象 1.LoopThread模塊 這個模塊是為了將EventLoop與…

華為云Flexus+DeepSeek征文|基于Dify構建文本/圖像/視頻生成工作流

華為云FlexusDeepSeek征文|基于Dify構建文本/圖像/視頻生成工作流 一、構建文本/圖像/視頻生成工作流前言二、構建文本/圖像/視頻生成工作流環境2.1 基于FlexusX實例的Dify平臺2.2 基于MaaS的模型API商用服務 三、構建文本/圖像/視頻生成工作流實戰3.1 配置Dify環境…

相機-IMU聯合標定:IMU更新頻率

文章目錄 ??簡介?? IMU頻率參數錯誤設置的影響? 相機-IMU聯合標定失敗:Optimization failed!?? 確定IMU更新頻率直接通過 rostopic hz 檢查實際頻率檢查 IMU 驅動或數據手冊從 bag 文件統計頻率在這里插入圖片描述修改 `update_rate` 的注意事項**最終建議****常見問題…

動手實踐:如何提取Python代碼中的字符串變量的值

要提取Python代碼中所有變量類型為字符串的變量的值,但不執行代碼(避免安全風險),可以通過靜態分析代碼的抽象語法樹(AST)來實現。以下是完整的解決方案: 本文由「大千AI助手」原創發布&#xf…

Python中字符串isalpha()函數詳解

在 Python 中,isalpha() 是字符串(string)類型的內置方法,用于檢查字符串中的所有字符是否都是字母字符(alphabetic character)。以下是詳細說明: 一、基本功能 返回值:布爾值&…

Gradio全解13——MCP詳解(4)——TypeScript包命令:npm與npx

Gradio全解13——MCP詳解(4)——TypeScript包命令:npm與npx 第13章 MCP詳解13.4 TypeScript包命令:npm與npx13.4.1 概念區分1. npm概念與運行邏輯2. npx概念及特點 13.4.2 操作示例1. 使用npm執行包2. 使用npx執行包3. 常用npm命令…

《推客小程序全鏈路開發指南:從架構設計到裂變運營》

在移動互聯網流量紅利逐漸消退的今天,如何低成本獲客成為企業營銷的核心痛點。推客小程序作為一種基于社交關系的裂變營銷工具,正成為企業突破增長瓶頸的利器。本文將為您全面解析推客小程序的開發定制全流程,幫助您打造專屬的社交裂變營銷平…

中鈞科技參加中亞數字經濟對話會,引領新疆企業數字化新征程!

6月27 日,烏魯木齊成為數字經濟領域的焦點,中國新疆 - 中亞國家數字經濟和數字貿易企業對話會在此盛大舉行。 來自中亞國家及新疆數字經濟領域的100 余位核心代表齊聚一堂,圍繞數字經濟時代的機遇、挑戰與策略展開深度探討。 本次對話會由新…