【初識掃盲】逆概率加權

我們正在處理一個存在缺失數據的回歸模型，并且希望采用一種非參數的逆概率加權方法來調整估計，以應對這種缺失數據的情況。

首先，我們需要明確問題的背景。我們有樣本 $\left\{\left(Y_i, \boldsymbol{X}_i, r_i\right): i=1, \ldots, n\right\}$ ，其中 $Y_i$ 是因變量， $\boldsymbol{X}_i$ 是自變量，而 $r_i$ 是一個指示變量：如果 $Y_i$ 被觀測到，則 $r_i = 1$ ，否則 $r_i = 0$ 。缺失機制是隨機的，即 $r_i$ 以概率 $\pi_i = \pi(\boldsymbol{X}_i)$ 服從伯努利分布，且與 $\boldsymbol{X}_i$ 獨立。

關鍵在于，如果我們只使用完全數據（即 $r_i = 1$ 的數據），估計結果可能會有偏差，因為缺失數據并不是完全隨機的。為了糾正這一點，我們采用逆概率加權法，通過加權來平衡觀測數據，以反映整個數據集的情況。

目標函數被修改為：

$\hat{\boldsymbol{\beta}}_h = \arg \min_{\boldsymbol{\beta} \in \mathbb{R}^p} \sum_{i=1}^n \frac{r_i}{\pi\left(\boldsymbol{X}_i\right)} M$

讓我們逐步解析這個目標函數。

逆概率加權：項 $\frac{r_i}{\pi_i}$ 是逆概率加權的關鍵。它通過除以觀測概率 $\pi_i$ 來加權每個觀測數據點。這樣做的目的是，那些更有可能被觀測到的數據點會被賦予更高的權重，從而在估計過程中得到更多的關注。這有助于糾正由于缺失數據引入的偏差。
函數 $M$ ：一個目標函數
目標函數：整個目標函數是在所有樣本上最小化加權和。即使某些 $Y_i$ 缺失，我們也會對所有樣本進行求和，但只有當 $r_i = 1$ 時，即 $Y_i$ 被觀測到時，才會對求和有貢獻。
期望條件：提到的期望條件 $E\left\{\left.\frac{r_i}{\pi_i} - 1 \right| \boldsymbol{X}_i\right\} = 0$ 表明，逆概率加權調整在給定 $\boldsymbol{X}_i$ 的情況下，平均而言是無偏的。這是因為：

$E\left\{\frac{r_i}{\pi_i} \mid \boldsymbol{X}_i\right\} = \frac{E(r_i \mid \boldsymbol{X}_i)}{\pi_i} = \frac{\pi_i}{\pi_i} = 1$

因此， $E\left\{\frac{r_i}{\pi_i} - 1 \mid \boldsymbol{X}_i\right\} = 0$ ，這意味著加權項在給定 $\boldsymbol{X}_i$ 的情況下，平均而言是中性的，從而有助于無偏估計。

這描述了如何通過逆概率加權法調整回歸的目標函數，以處理缺失數據。通過為每個觀測數據點分配一個與其觀測概率成反比的權重，我們確保估計結果不會因數據缺失機制而產生偏差。

這種方法特別有用，因為它允許我們在不完全排除缺失數據的情況下，有效地利用所有可用數據，從而提高估計的效率和可靠性。

$\boxed{ \text{該目標函數通過逆概率加權法調整回歸，以處理缺失數據，確保估計結果無偏且高效。} }$

這里提到的隨機缺失是什么意思？詳細解釋一下這里的逆概率加權是什么意思，為什么期望是那樣的？

我們來詳細理解一下“隨機缺失”和“逆概率加權”這兩個概念，以及為什么在給定 $\boldsymbol{X}_i$ 的情況下，期望 $E\left\{\left.\frac{r_i}{\pi_i} - 1 \right| \boldsymbol{X}_i\right\} = 0$ 。

首先，隨機缺失（Missing at Random, MAR） 是指數據的缺失機制與未觀測到的數據無關，但可能與已觀測到的數據相關。換句話說，給定已觀測到的變量 $\boldsymbol{X}_i$ ，數據是否缺失僅取決于 $\boldsymbol{X}_i$ ，而不取決于未觀測到的 $Y_i$ 。這一假設非常重要，因為它允許我們使用已觀測到的信息來調整缺失數據的影響，從而減少估計偏差。

接下來，逆概率加權（Inverse Probability Weighting, IPW） 是一種處理缺失數據的方法，通過為每個觀測到的數據點分配一個權重，這個權重是其被觀測到的概率的倒數。具體來說，如果一個數據點被觀測到的概率是 $\pi_i$ ，那么它的權重就是 $\frac{1}{\pi_i}$ 。這樣做的目的是使每個數據點在分析中的權重與其被觀測到的概率成反比，從而平衡觀測數據，使其更具代表性。

現在，我們來探討為什么在給定 $\boldsymbol{X}_i$ 的情況下，期望 $E\left\{\left.\frac{r_i}{\pi_i} - 1 \right| \boldsymbol{X}_i\right\} = 0$ 。我們逐步分析如下：

$E\left\{\left.\frac{r_i}{\pi_i} - 1 \right| \boldsymbol{X}_i\right\} = E\left\{\left.\frac{r_i}{\pi_i} \right| \boldsymbol{X}_i\right\} - E\left\{1 \mid \boldsymbol{X}_i\right\}$

由于 $E\left\{1 \mid \boldsymbol{X}_i\right\} = 1$ ，我們只需計算 $E\left\{\left.\frac{r_i}{\pi_i} \right| \boldsymbol{X}_i\right\}$ 。

根據隨機缺失假設， $r_i$ 在給定 $\boldsymbol{X}_i$ 的條件下服從伯努利分布，即 $r_i \mid \boldsymbol{X}_i \sim \text{B}(\pi_i)$ 。因此，

$E\left\{\left. r_i \right| \boldsymbol{X}_i \right\} = \pi_i$

于是，

$E\left\{\left.\frac{r_i}{\pi_i} \right| \boldsymbol{X}_i\right\} = \frac{E\left\{\left. r_i \right| \boldsymbol{X}_i \right\}}{\pi_i} = \frac{\pi_i}{\pi_i} = 1$

因此，

$E\left\{\left.\frac{r_i}{\pi_i} - 1 \right| \boldsymbol{X}_i\right\} = 1 - 1 = 0$

這表明，逆概率加權調整在給定 $\boldsymbol{X}_i$ 的條件下，平均而言是無偏的。通過這種方式，我們能夠有效地處理缺失數據，減少估計偏差，提高分析的準確性。

希望這些解釋能夠幫助你更好地理解這些概念及其背后的數學原理。

假設 $r_i$ 服從參數為 $\pi_i$ 的伯努利分布：

$E\left\{\left. r_i \right| \boldsymbol{X}_i \right\} = \pi_i$

因此，

$E\left\{\left. \frac{r_i}{\pi_i} \right| \boldsymbol{X}_i \right\} = \frac{1}{\pi_i} E\left\{\left. r_i \right| \boldsymbol{X}_i \right\} = \frac{\pi_i}{\pi_i} = 1$

由此可得，

$E\left\{\left. \frac{r_i}{\pi_i} - 1 \right| \boldsymbol{X}_i \right\} = 1 - 1 = 0$

這表明，逆概率加權調整項 $\frac{r_i}{\pi_i}$ 在給定 $\boldsymbol{X}_i$ 的條件下，其期望值為 1，因此其中心化版本 $\frac{r_i}{\pi_i} - 1$ 的期望值為零。這意味著，平均而言，逆概率加權調整不會引入偏差，從而確保估計量在給定 $\boldsymbol{X}_i$ 的條件下保持無偏性。