雙重機器學習DML介紹

本文參考：
[1]文心一言回答；

一、核心原理與數學框架

雙重機器學習（Double Machine Learning, DML）由Chernozhukov等學者于2018年提出，是一種結合機器學習與傳統計量經濟學的因果推斷框架。其核心目標是在高維數據和非線性關系下，無偏估計處理變量（如政策、治療）對結果變量（如收入、健康）的因果效應。

1. 基本模型設定

DML通常基于部分線性模型（Partially Linear Model, PLR）：
在這里插入圖片描述

2. 核心步驟：兩階段殘差回歸

在這里插入圖片描述

3. 關鍵技術：交叉擬合與正交化

在這里插入圖片描述

4.DML的優勢

處理高維數據：通過機器學習自動篩選重要協變量，避免“維度詛咒”。
非線性關系建模：支持隨機森林、神經網絡等非線性模型，適應復雜數據結構。
穩健性：交叉擬合和正交化技術降低過擬合風險，確保估計無偏。

二、DML無偏的數學原理

1.數學框架：部分線性模型（PLR）

DML的核心基于以下部分線性模型：
在這里插入圖片描述

2. 正交化：剝離協變量影響

步驟1：殘差化處理

在這里插入圖片描述

步驟2：殘差回歸

在這里插入圖片描述

3. Cross-fitting：避免過擬合

在這里插入圖片描述

4.Neyman正交性：對模型偏誤不敏感

在這里插入圖片描述

5. 關鍵點總結

正交化：通過殘差化剝離協變量X的影響，確保T~ 和 Y~ 與X正交。
交叉擬合：避免過擬合，提高估計的穩健性。
Neyman正交性：對第一階段模型偏誤不敏感，保證無偏性。
機器學習靈活性：支持非線性模型（如隨機森林、神經網絡），適應復雜數據結構。

三、DML的雙重穩健體現

雙重機器學習（DML）的“雙重穩健”性體現在其對兩種獨立誤差來源的穩健性，以及通過正交化與交叉擬合技術實現的雙重保障。以下是具體體現：
對第一階段模型偏誤的穩健性：即使第一階段模型存在誤差，只要滿足正交性條件，第二階段估計仍無偏。
對模型選擇的穩健性：無論使用線性還是非線性模型，只要正確應用正交化和交叉擬合，估計量都是無偏的。
交叉擬合的雙重保障：通過樣本分割和交叉驗證，避免過擬合并提高穩健性。

3.1.對第一階段模型偏誤的穩健性

DML的核心思想是通過兩階段殘差回歸剝離協變量X的影響。其雙重穩健性首先體現在：即使第一階段模型（用于擬合Y和T關于X的預測值）存在誤差，只要滿足正交性條件，第二階段的估計仍能保持無偏。
在這里插入圖片描述

3.2.對模型選擇的穩健性

DML的雙重穩健性還體現在：無論使用線性模型還是非線性機器學習模型，只要正確應用正交化和交叉擬合，估計量都是無偏的。

3.3.交叉擬合的雙重保障

DML通過交叉擬合（Cross-fitting）技術進一步強化了穩健性：
在這里插入圖片描述

3.4.數學證明：Neyman正交性

DML的雙重穩健性可嚴格證明為Neyman正交性：
在這里插入圖片描述

四、Neyman正交

Neyman正交性（Neyman Orthogonality）是統計學和計量經濟學中的一個核心概念，尤其在因果推斷和雙重機器學習（DML）中扮演關鍵角色。其核心思想是確保估計量對第一階段模型偏誤不敏感，從而保證估計的無偏性。以下是詳細解釋：

4.1.定義與數學表達

在這里插入圖片描述

4.2.核心意義

Neyman正交性確保了以下兩點：
在這里插入圖片描述

4.3.在DML中的作用

在雙重機器學習中，Neyman正交性通過以下步驟實現：
在這里插入圖片描述

4.4.直觀理解

Neyman正交性可理解為一種“雙重保護”：
在這里插入圖片描述
總結
Neyman正交性是雙重機器學習（DML）無偏性的核心數學保障。它通過要求估計量對第一階段模型的偏誤“不敏感”，并結合正交化和交叉擬合技術，確保了在高維數據和非線性場景下因果效應的準確估計。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/919733.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/919733.shtml
英文地址，請注明出處：http://en.pswp.cn/news/919733.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！