【斯坦福因果推斷課程全集】1

The average treatment effect

Difference-in-means estimation

IID Sampling and Population Asymptotics

Example: The linear model

Regression adjustments with a linear model

隨機對照試驗（RCT）是統計因果推論的基礎。如果有的話，從隨機對照試驗中得出的證據通常被認為是金標準證據；即使由于倫理或實際原因無法進行隨機對照試驗，觀察性研究的質量通常也是根據觀察性研究與隨機對照試驗的近似程度來評估的。

今天的講座將從潛在結果模型的角度來估算 RCT 的平均治療效果，并討論回歸調整在因果效應估算中的作用。平均治療效果完全通過隨機化（或實驗設計）確定。回歸調整可用于減少方差，但回歸模型在確定平均治療效果方面不起任何作用。

The average treatment effect

我們通過潛在的結果來定義一種治療的因果效應。對于w∈{0,1}的二元治療，我們定義了潛在的結果Yi (1)和Yi (0)對應于第i個受試者的結果他們是否分別接受過治療。治療對第i個單位的因果效應是? $\Delta_i=Y_i(1)-Y_i(0).$

因果推論的根本問題在于，只能給給定個體分配一種干預，因此只能觀察到 Yi(0) 和 Yi(1) 中的一種。因此，永遠無法觀測到 ?i。

現在，盡管 ?i 本身從根本上說是不可知的，但我們可以（也許是顯著地）利用隨機實驗來了解 ?i 的某些特性。特別是，大型隨機實驗可以讓我們恢復平均干預效果（ATE） $\tau=\mathbb{E}\left[Y_i(1)-Y_i(0)\right].$

為此，假設我們觀察到n個獨立且同分布的樣本（Yi，Wi）滿足以下兩個性質： $\begin{aligned}Y_i&=Y_i(W_i)&\text{(SUTVA)}\\W_i&\perp\{Y_i(0), Y_i(1)\}&\text{(random treatment assignment)}\end{aligned}$

那么，均值差估計器

$\hat{\tau}_{DM}=\frac1{n_1}\sum_{W_i=1}Y_i-\frac1{n_0}\sum_{W_i=1}Y_i,\quad n_w=|\{i:W_i=w\}|$ 對平均治療效果是無偏不倚和一致的。

Difference-in-means estimation

τDM 的統計特性很容易建立。我們隨機干預分配假設的一個關鍵結果是，在所有潛在結果 $\{Y_i(0),|Y_i(1)\}_{i=1}^n$ 和 n1 的條件下，所有單位都以相同的概率接受干預：

$\mathbb{P}\begin{bmatrix}W_i=1&\{Y_i(0), Y_i(1)\}_{i=1}^n, n_1\end{bmatrix}=\frac{n_1}n,\quad i=1, \ldots, n.$

因此，對于治療單位的平均結果，我們得到

$\begin{aligned} &&&\begin{aligned}\mathbb{E}\left[\frac{1}{n_1}\sum_{W_i=1}Y_i \Big| \{Y_i(0), Y_i(1)\}_{i=1}^n , n_1\right]\end{aligned} \\ &&&=\mathbb{E}\left[\frac{1}{n_{1}}\sum_{i=1}^{n}W_{i}Y_{i} \Big| \{Y_{i}(0), Y_{i}(1)\}_{i=1}^{n} , n_{1}\right]& (\ldots) \\ &&&=\mathbb{E}\left[\frac{1}{n_1}\sum_{i=1}^nW_iY_i(1)\left| \{Y_i(0), Y_i(1)\}_{i=1}^n , n_1\right]\right. & \begin{aligned}(\mathrm{SUTVA})\end{aligned} \\ &&&=\frac{1}{n_1}\sum_{i=1}^nY_i(1)\mathbb{E}\left[W_i\left| \{Y_i(0), Y_i(1)\}_{i=1}^n , n_1\right]\right.& (\text{chain rule}) \\ &&&=\frac1n\sum_{i=1}^nY_i(1)& (\text{random assignment}), \end{aligned}$ 而對照組的平均值也有類似的結果。因此，我們可以看到

$\mathbb{E}\left[\hat{\tau}_{DM} \left| \{Y_i(0), Y_i(1)\}_{i=1}^n , n_1\right]=\tau_{SATE}:=\frac{1}{n}\sum_{i=1}^n\left(Y_i(1)-Y_i(0)\right).\quad(1.5)\right.$

換句話說，僅僅由于隨機化，均值差估計器對研究中 n 個單位潛在結果的平均差異是無偏的。這個量 $\tau_{SATE}$ 通常稱為樣本平均干預效果。

IID Sampling and Population Asymptotics

無偏性結果（1.5）在潛在結果的任何實現條件下都成立，這意味著，在無條件的情況下、

$\mathbb{E}\left[\hat{\tau}_{DM}\right]=\mathbb{E}\left[Y_i(1)\right]-\mathbb{E}\left[Y_i(0)\right]=\tau.$

此外，考慮到 IID 采樣，我們還可以將方差寫成

$\left.\text{Var}\left[\hat{\tau}_{DM}\left|\begin{array}{c|c}n_0, n_1\end{array}\right.\right.\right]=\frac{1}{n_0}\text{Var}\left[Y_i(0)\right]+\frac{1}{n_1}\text{Var}\left[Y_i(1)\right].$

一個標準的中心極限定理可以用來驗證這一點

$\begin{aligned}\sqrt{n}\left(\hat{\tau}_{DM}-\tau\right)&\Rightarrow\mathcal{N}\left(0,V_{DM}\right), \\V_{DM}&=\text{Var}\left[Y_i(0)\right] \Big/ \mathbb{P}\left[W_i=0\right]+\text{Var}\left[Y_i(1)\right] \Big/ \mathbb{P}\left[W_i=1\right].\end{aligned}\quad(1.6)$

最后，請注意，我們可以通過常規插件估計器來估計 VDM，為 τ 建立有效的高斯置信區間：

$\lim_{n\to\infty}\mathbb{P}\left[\tau\in\left(\hat{\tau}_{DM}\pm\Phi^{-1}(1-\alpha/2)\sqrt{\widehat{V}_{DM}/n}\right)\right]=1-\alpha,\quad(1.7)$

其中，Φ為標準高斯累積分布函數，

$\widehat{V}_{DM}=\frac1{n_1-1}\sum_{W_i=1}\left(Y_i-\frac1{n_1}\sum_{W_i=1}Y_i\right)^2+\frac1{n_0-1}\sum_{W_i=0}\left(Y_i-\frac1{n_0}\sum_{W_i=0}Y_i\right)^2$

從某種角度看，上述內容就是隨機試驗中估計平均干預效果所需要的全部內容。均值差估算器 $\hat{\tau}_{DM}$ 是一致的，可以進行有效的漸進推斷；此外，該估算器的實現非常簡單，很難 "作弊"（不擇手段的分析師幾乎不可能嘗試不同的估算策略，并報告最接近他們想要的答案）。

另一方面， $\hat{\tau}_{DM}$ 是否是使用數據的 "最優 "方法，即在給定樣本量下提供最準確的 τ 值，這一點還很不明確。下面，我們將嘗試看看是否/何時可以做得更好。

Example: The linear model

為了更好地理解 $\hat{\tau}_{DM}$ 的行為，研究一下特殊情況是有幫助的。首先，我們考慮線性模型：我們假設? $(X_i,Y_i,W_i)$ 的生成方式為

$Y_i(w)=c_{(w)}+X_i\beta_{(w)}+\varepsilon_i(w), \mathbb{E}\left[\varepsilon_i(w) \big| X_i\right]=0, \mathrm{Var}\left[\varepsilon_i(w) \big| X_i\right]=\sigma^2. (1.8)$

在這里， $\hat{\tau}_{DM}$ 并不使用 $X_i$ ；但是，我們可以根據 $X_i$ 的分布來描述它的行為。在整個分析過程中，為簡單起見，我們假設我們處于一個平衡的隨機試驗中，其中

$\mathbb{P}\left[W_{i}=0\right]=\mathbb{P}\left[W_{i}=1\right]=\frac{1}{2}.$

此外，我們假設（但不失一般性）：

$\mathbb{E}\left[X\right]=0,\quad\mathrm{and~define}\quad A=\mathrm{Var}\left[X\right].$

假設 $\mathbb{E}\left[X\right]=0$ 并不失一般性，因為我們今天要考慮的所有估計器都是平移不變的（當然，不能讓分析師利用 $\mathbb{E}\left[X\right]=0$ 的知識）。

在這種情況下，我們可以將 $\hat{\tau}_{DM}$ 的漸近方差寫成

$\begin{aligned} V_{DM}& \begin{aligned}=\text{Var}\left[Y_i(0)\right] \Big/ \mathbb{P}\left[W_i=0\right]+\text{Var}\left[Y_i(1)\right] \Big/ \mathbb{P}\left[W_i=1\right]\end{aligned} \\ &=2\left(\mathrm{Var}\left[X_i\beta_{(0)}\right]+\sigma^2\right)+2\left(\mathrm{Var}\left[X_i\beta_{(1)}\right]+\sigma^2\right) \\ &&(1.9) \\ &=4\sigma^{2}+2\begin{Vmatrix}\beta_{(0)}\end{Vmatrix}_{A}^{2}+2\begin{Vmatrix}\beta_{(1)}\end{Vmatrix}_{A}^{2} \\ &=4\sigma^{2}+\begin{Vmatrix}\beta_{(0)}+\beta_{(1)}\end{Vmatrix}_{A}^{2}+\begin{Vmatrix}\beta_{(0)}-\beta_{(1)}\end{Vmatrix}_{A}^{2}, \end{aligned}$

$\left\|v\right\|_A^2=v^\prime Av.$

這是τ的最佳估計器嗎？

Regression adjustments with a linear model

如果我們假設是線性模型（1.8），那么我們很自然地想要使用它來進行更好的估計。請注意，給定這個模型，我們可以將該ATE寫成

$\tau=\mathbb{E}\left[Y(1)-Y(0)\right]=c_{(1)}-c_{(0)}+\mathbb{E}\left[X\right]\left(\beta_{(1)}-\beta_{(0)}\right).$

這表明了一個普通的最小二乘估計量

$\hat{\tau}_{OLS}=\hat{c}_{(1)}-\hat{c}_{(0)}+\overline{X}\left(\hat{\beta}_{(1)}-\hat{\beta}_{(0)}\right),\quad\overline{X}=\frac1n\sum_{i=1}^nX_i,$

其中 $(\hat{c}_{(w)}, \hat{\beta}_{(w)})$ ?是通過對 $W_{i}=w$ 的觀察結果運行OLS獲得的（即，我們對處理單元和控制單元運行單獨的回歸）。關于OLS的標準結果表明（回想一下，wlog，我們使用 $\mathbb{E}\left[X\right]=0$ ?）

$\sqrt{n_w}\left(\begin{pmatrix}\hat c_{(w)}\\\hat\beta_{(w)}\end{pmatrix}-\begin{pmatrix}c_{(w)}\\\beta_{(w)}\end{pmatrix}\right)\Rightarrow\mathcal N\left(0, \sigma^2\begin{pmatrix}1&0\\0&A^{-1}\end{pmatrix}\right).$

特別地，我們發現 $\hat{c}_{(0)}, \hat{c}_{(1)}, \hat{\beta}_{(0)}, \hat{\beta}_{(1)}$ 和 $\overline{X}$ 都是漸近獨立的。然后，我們可以寫

$\begin{aligned}\hat{\tau}_{OLS}-\tau&=\underbrace{\hat{c}_{(1)}-c_{(1)}}_{\approx\mathcal{N}(0,\sigma^2/n_1)}-\underbrace{\hat{c}_{(0)}-c_{(0)}}_{\approx\mathcal{N}(0,\sigma^2/n_0)}+\underbrace{\overline{X}\left(\beta_{(1)}-\beta_{(0)}\right)}_{\approx\mathcal{N}\left(0,\left\|\beta_{(1)}-\beta_{(0)}\right\|_A^2/n\right)}\\&+\underbrace{\overline{X}\left(\hat{\beta}_{(1)}-\hat{\beta}_{(0)}-\beta_{(1)}+\hat{\beta}_{(0)}\right)}_{\mathcal{O}_P(1/n)},\end{aligned}$

這就引出了中心極限定理

$\begin{aligned}\sqrt{n}\left(\hat{\tau}_{OLS}-\tau\right)\Rightarrow\mathcal{N}\left(0,V_{OLS}\right),\quad V_{OLS}=4\sigma^2+\left\|\beta_{(0)}-\beta_{(1)}\right\|_A^2.\end{aligned}$