雙重機器學習DML介紹

本文參考:
[1]文心一言回答;

一、核心原理與數學框架

雙重機器學習(Double Machine Learning, DML)由Chernozhukov等學者于2018年提出,是一種結合機器學習與傳統計量經濟學的因果推斷框架。其核心目標是在高維數據和非線性關系下,無偏估計處理變量(如政策、治療)對結果變量(如收入、健康)的因果效應。

1. 基本模型設定

DML通常基于部分線性模型(Partially Linear Model, PLR):
在這里插入圖片描述

2. 核心步驟:兩階段殘差回歸

在這里插入圖片描述

3. 關鍵技術:交叉擬合與正交化

在這里插入圖片描述

4.DML的優勢

處理高維數據:通過機器學習自動篩選重要協變量,避免“維度詛咒”。
非線性關系建模:支持隨機森林、神經網絡等非線性模型,適應復雜數據結構。
穩健性:交叉擬合和正交化技術降低過擬合風險,確保估計無偏。

二、DML無偏的數學原理

1.數學框架:部分線性模型(PLR)

DML的核心基于以下部分線性模型:
在這里插入圖片描述

2. 正交化:剝離協變量影響

步驟1:殘差化處理

在這里插入圖片描述

步驟2:殘差回歸

在這里插入圖片描述

3. Cross-fitting:避免過擬合

在這里插入圖片描述

4.Neyman正交性:對模型偏誤不敏感

在這里插入圖片描述

5. 關鍵點總結

正交化:通過殘差化剝離協變量X的影響,確保T~ 和 Y~ 與X正交。
交叉擬合:避免過擬合,提高估計的穩健性。
Neyman正交性:對第一階段模型偏誤不敏感,保證無偏性。
機器學習靈活性:支持非線性模型(如隨機森林、神經網絡),適應復雜數據結構。

三、DML的雙重穩健體現

雙重機器學習(DML)的“雙重穩健”性體現在其對兩種獨立誤差來源的穩健性,以及通過正交化與交叉擬合技術實現的雙重保障。以下是具體體現:
對第一階段模型偏誤的穩健性:即使第一階段模型存在誤差,只要滿足正交性條件,第二階段估計仍無偏。
對模型選擇的穩健性:無論使用線性還是非線性模型,只要正確應用正交化和交叉擬合,估計量都是無偏的。
交叉擬合的雙重保障:通過樣本分割和交叉驗證,避免過擬合并提高穩健性。

3.1.對第一階段模型偏誤的穩健性

DML的核心思想是通過兩階段殘差回歸剝離協變量X的影響。其雙重穩健性首先體現在:即使第一階段模型(用于擬合Y和T關于X的預測值)存在誤差,只要滿足正交性條件,第二階段的估計仍能保持無偏。
在這里插入圖片描述
在這里插入圖片描述

3.2.對模型選擇的穩健性

DML的雙重穩健性還體現在:無論使用線性模型還是非線性機器學習模型,只要正確應用正交化和交叉擬合,估計量都是無偏的。

3.3.交叉擬合的雙重保障

DML通過交叉擬合(Cross-fitting)技術進一步強化了穩健性:
在這里插入圖片描述

3.4.數學證明:Neyman正交性

DML的雙重穩健性可嚴格證明為Neyman正交性:
在這里插入圖片描述

四、Neyman正交

Neyman正交性(Neyman Orthogonality)是統計學和計量經濟學中的一個核心概念,尤其在因果推斷和雙重機器學習(DML)中扮演關鍵角色。其核心思想是確保估計量對第一階段模型偏誤不敏感,從而保證估計的無偏性。以下是詳細解釋:

4.1.定義與數學表達

在這里插入圖片描述

4.2.核心意義

Neyman正交性確保了以下兩點:
在這里插入圖片描述

4.3.在DML中的作用

在雙重機器學習中,Neyman正交性通過以下步驟實現:
在這里插入圖片描述

4.4.直觀理解

Neyman正交性可理解為一種“雙重保護”:
在這里插入圖片描述
總結
Neyman正交性是雙重機器學習(DML)無偏性的核心數學保障。它通過要求估計量對第一階段模型的偏誤“不敏感”,并結合正交化和交叉擬合技術,確保了在高維數據和非線性場景下因果效應的準確估計。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/919733.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/919733.shtml
英文地址,請注明出處:http://en.pswp.cn/news/919733.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【圖像算法 - 21】慧眼識蟲:基于深度學習與OpenCV的農田害蟲智能識別系統

摘要: 在現代農業生產中,病蟲害是影響作物產量和品質的關鍵因素之一。傳統的害蟲識別依賴人工巡查,效率低、成本高且易出錯。本文將介紹如何利用深度學習與OpenCV構建一套高效的農田害蟲智能識別系統。該系統能夠自動識別10類常見農業害蟲&a…

循環神經網絡實戰:GRU 對比 LSTM 的中文情感分析(三)

循環神經網絡實戰:GRU 對比 LSTM 的中文情感分析(三) 文章目錄循環神經網絡實戰:GRU 對比 LSTM 的中文情感分析(三)前言數據準備(與 LSTM 相同)模型搭建(GRU)…

學習游戲制作記錄(制作提示框以及使用鍵盤切換UI)8.21

1.制作裝備提示框創建提示框,添加文本子對象,用來描述名稱,類型以及屬性加成掛載垂直分配組件和文本大小適配組件,這樣圖像會根據文本大小來調整自己創建UI_ItemTip腳本并掛載在文本框上:[SerializeField] private Tex…

chapter07_初始化和銷毀方法

一、簡介 一個Bean,在進行實例化之后,需要進行兩種初始化 初始化屬性,由PropertyValues進行賦值初始化方法,由ApplicationContext統一調用,例如加載配置文件 Bean的初始化與銷毀,共有三種方式(注…

open webui源碼分析6-Function

一、Functions簡介 可以把Tools作為依賴于外部服務的插件,Functions就是內部插件,二者都是用來增強open webui的能力的。Functions是輕量的,高度可定制的,并且是用純Python編寫的,所以你可以自由地創建任何東西——從新…

C2039 “unref“:不是“osgEarth::Symbology::Style”的成員 問題分析及解決方法

在osgEarth2.10中實現多線段連續測量功能時,遇到下圖中的錯誤; 經過測試和驗證,主要問題出現在下圖圈出代碼的定義上 圖22-1 對于22-1中的兩個變量這樣定義是錯誤的。因為Style類沒有繼承自osg::Referenced,因此不能與osg::ref_ptr配合使用

GitHub 熱榜項目 - 日榜(2025-08-19)

GitHub 熱榜項目 - 日榜(2025-08-19) 生成于:2025-08-19 統計摘要 共發現熱門項目:12 個 榜單類型:日榜 本期熱點趨勢總結 本期GitHub熱榜呈現三大技術熱點:1)AI原生開發持續爆發,Archon OS、Parlant等…

ingress 配置ssl證書

模擬環境舉例&#xff1a; # 生成帶 OU 的證書配置文件 cat > csr.conf <<EOF [ req ] default_bits 2048 prompt no default_md sha256 distinguished_name dn[ dn ] C CN ST Beijing L Beijing O YourCompany, Inc. # 組織名稱 (必填) OU DevOps De…

Pandas 合并數據集:concat 和 append

文章目錄Pandas 合并數據集&#xff1a;concat 和 append回顧&#xff1a;NumPy 數組的拼接使用 pd.concat 進行簡單拼接重復索引將重復索引視為錯誤忽略索引添加多級索引&#xff08;MultiIndex&#xff09;鍵使用連接&#xff08;Join&#xff09;方式拼接append 方法Pandas …

2025年5月架構設計師綜合知識真題回顧,附參考答案、解析及所涉知識點(七)

本文主要回顧2025年上半年(2025-5-24)系統架構設計師考試上午綜合知識科目的選擇題,同時附帶參考答案、解析和所涉知識點。 2025年5月架構設計師綜合知識真題回顧,附參考答案、解析及所涉知識點(一) 2025年5月架構設計師綜合知識真題回顧,附參考答案、解析及所涉知識點(…

面向RF設計人員的微帶貼片天線計算器

微帶貼片天線和陣列可能是僅次于單極天線和偶極天線的最簡單的天線設計。這些天線也很容易集成到PCB中&#xff0c;因此通常用于5G天線陣列和雷達等高級系統。這些天線陣列在基諧模式和高階模式下也遵循一組簡單的設計方程&#xff0c;因此您甚至可以在不使用仿真工具的情況下設…

明基RD280U編程顯示器深度測評:碼農的「第二塊鍵盤」竟然會發光?

文章目錄前言一、開箱篇&#xff1a;當理工男遇到「俄羅斯套娃式包裝」二、外觀篇&#xff1a;深空灰的「代碼容器」1. 桌面變形記2. 保護肩頸的人體工學設計三、顯示篇&#xff1a;給代碼做「光子嫩膚」1. 28寸超大大屏 3:2屏比 4K超清2.專業編程模式&#xff0c;讓代碼一目…

算法114. 二叉樹展開為鏈表

題目&#xff1a;給你二叉樹的根結點 root &#xff0c;請你將它展開為一個單鏈表&#xff1a; 展開后的單鏈表應該同樣使用 TreeNode &#xff0c;其中 right 子指針指向鏈表中下一個結點&#xff0c;而左子指針始終為 null 。 展開后的單鏈表應該與二叉樹 先序遍歷 順序相同。…

智慧能源管理系統:點亮山東零碳園區的綠色引擎

一、概述在全球積極踐行“雙碳”目標的時代浪潮下&#xff0c;山東作為經濟大省&#xff0c;正全力推動產業的綠色變革&#xff0c;零碳園區建設成為其中的關鍵一環。《山東省零碳園區建設方案》明確規劃&#xff0c;到2027年建成15個左右省級零碳園區 &#xff0c;到2030年進一…

分布式日志分析平臺(ELFK 與 EFK)理論

一、日志分析平臺核心概念在分布式系統中&#xff0c;日志是系統運行狀態監控、問題排查和業務分析的重要依據。隨著系統規模擴大&#xff0c;單機日志管理方式已無法滿足需求&#xff0c;分布式日志分析平臺應運而生。其核心目標是實現日志的集中收集、統一處理、高效存儲和可…

CoreShop微信小程序商城框架開啟多租戶-添加一個WPF客戶端以便進行本地操作--讀取店鋪信息(6)

本節內容&#xff0c;使用登錄的token進行店鋪信息讀取&#xff0c;順利的話&#xff0c;進行EXCEL上傳測試。 1。在后臺編寫 讀取店鋪信息代碼 1.1 查看原來鋪店信息在什么位置&#xff0c;店鋪的表格為CoreCmsStore#region 獲取列表// POST: Api/CoreCmsStore/GetPageList///…

UE5關卡藍圖能不能保存副本呀?

提問 關卡藍圖能不能保存副本呀&#xff1f; 回答 在 UE 里&#xff0c;“關卡藍圖&#xff08;Level Blueprint&#xff09;”本身其實是不能直接復制/保存成獨立資源的&#xff0c;因為它和具體的 **Level&#xff08;.umap 文件&#xff09;**是綁定的——相當于一個“場景腳…

機器學習數據預處理學習報告

一、學習背景與目的在機器學習流程中&#xff0c;數據預處理是保障模型訓練效果的關鍵環節。原始數據常存在缺失值、量綱不一致、特征格式不匹配等問題&#xff0c;直接影響模型對數據規律的學習。本次學習圍繞 Pandas 與 Scikit-learn&#xff08;sklearn&#xff09;工具庫&a…

git舊倉庫遷移到新倉庫

git舊倉庫遷移到新倉庫 A倉庫(舊倉庫)&#xff1a;git172.16.21.21:xxxx_software/Ni-Handler-Mgr.git B倉庫(新倉庫)&#xff1a;git172.16.11.11:yyyy/hostpc/ni-handler-mgr.git Step1 新建新倉庫 創建新 GitHub 倉庫? 在 GitHub 頁面點擊 “New repository”&#xff0c;命…

YOLO --- YOLOv5模型以及項目詳解

YOLO — YOLOv5模型以及項目詳解 文章目錄YOLO --- YOLOv5模型以及項目詳解一&#xff0c;開源地址二&#xff0c;改進點Focus 模塊三&#xff0c;網絡結構3.1 CSP1_X 與 CSP2_X3.2 自適應Anchor的計算3.3 激活函數3.3.1 SiLU3.3.2 Swish3.4 Bottleneck3.5 C33.5.1 BottleneckC…