以下是關于兩階段最小二乘法(2SLS)與工具變量(IV)模型關系的系統解析,結合計量經濟學理論與論文上下文進行說明:
一、核心關系:2SLS是IV模型的實現方法
1. IV模型:解決內生性的理論框架
- 目標:估計存在內生性問題的回歸模型 yi=xi′β+uiy_i = x_i'\beta + u_iyi?=xi′?β+ui?(cov(xi,ui)≠0\text{cov}(x_i, u_i) \neq 0cov(xi?,ui?)=0)。
- 工具變量要求:
- 相關性:cov(zi,xi)≠0\text{cov}(z_i, x_i) \neq 0cov(zi?,xi?)=0
- 外生性:cov(zi,ui)=0\text{cov}(z_i, u_i) = 0cov(zi?,ui?)=0
- 理論解:IV估計量 β^IV=(Z′X)?1Z′y\hat{\beta}_{IV} = (Z'X)^{-1}Z'yβ^?IV?=(Z′X)?1Z′y(僅適用于 dz=dβd_z = d_\betadz?=dβ? 的恰好識別場景)。
2. 2SLS:IV模型的普適性算法
- 作用:將IV估計推廣到 dz>dβd_z > d_\betadz?>dβ?(過度識別)場景。
- 本質:通過兩階段回歸數值等價于IV估計的廣義形式:
β^2SLS=[X′Z(Z′Z)?1Z′X]?1X′Z(Z′Z)?1Z′y \hat{\beta}_{2SLS} = [X'Z(Z'Z)^{-1}Z'X]^{-1}X'Z(Z'Z)^{-1}Z'y β^?2SLS?=[X′Z(Z′Z)?1Z′X]?1X′Z(Z′Z)?1Z′y - 關鍵結論:
2SLS是IV模型的估計方法,當工具變量數=參數數(dz=dβd_z = d_\betadz?=dβ?)時,2SLS退化為標準IV估計。
二、2SLS的兩階段本質
1. 第一階段:凈化內生變量
- 目標:分離 xix_ixi? 中與工具變量 ziz_izi? 相關的部分(外生成分)。
- 操作:
回歸:xi=zi′δ+vi?????x^i=zi′δ^ \text{回歸:} \quad x_i = z_i'\delta + v_i \implies \hat{x}_i = z_i'\hat{\delta} 回歸:xi?=zi′?δ+vi??x^i?=zi′?δ^ - 數學意義:x^i\hat{x}_ix^i? 是 xix_ixi? 在工具變量空間上的投影(X^=Z(Z′Z)?1Z′X\hat{X} = Z(Z'Z)^{-1}Z'XX^=Z(Z′Z)?1Z′X)。
2. 第二階段:替代回歸
- 目標:用“凈化”后的 x^i\hat{x}_ix^i? 替代原始內生變量 xix_ixi?。
- 操作:
回歸:yi=x^i′β+εi?????β^2SLS=(X^′X^)?1X^′y \text{回歸:} \quad y_i = \hat{x}_i'\beta + \varepsilon_i \implies \hat{\beta}_{2SLS} = (\hat{X}'\hat{X})^{-1}\hat{X}'y 回歸:yi?=x^i′?β+εi??β^?2SLS?=(X^′X^)?1X^′y - 直觀理解:
通過工具變量 ziz_izi? 提取 xix_ixi? 的外生變異,阻斷內生性傳遞路徑。
示例(教育回報率估計):
- 第一階段:用出生季度(ziz_izi?)預測受教育年限(xix_ixi?)
- 第二階段:用預測的受教育年限(x^i\hat{x}_ix^i?)估計工資方程
三、2SLS與IV模型的數學等價性
1. 恰好識別場景(dz=dβd_z = d_\betadz?=dβ?)
- 2SLS第二階段:
β^2SLS=(X^′X^)?1X^′y \hat{\beta}_{2SLS} = (\hat{X}'\hat{X})^{-1}\hat{X}'y β^?2SLS?=(X^′X^)?1X^′y - 代入 X^=Z(Z′Z)?1Z′X\hat{X} = Z(Z'Z)^{-1}Z'XX^=Z(Z′Z)?1Z′X:
β^2SLS=[X′Z(Z′Z)?1Z′X]?1X′Z(Z′Z)?1Z′y \hat{\beta}_{2SLS} = [X'Z(Z'Z)^{-1}Z'X]^{-1}X'Z(Z'Z)^{-1}Z'y β^?2SLS?=[X′Z(Z′Z)?1Z′X]?1X′Z(Z′Z)?1Z′y - 標準IV估計量:
β^IV=(Z′X)?1Z′y(當?dz=dβ?時等價) \hat{\beta}_{IV} = (Z'X)^{-1}Z'y \quad \text{(當 } d_z = d_\beta \text{ 時等價)} β^?IV?=(Z′X)?1Z′y(當?dz?=dβ??時等價)
2. 過度識別場景(dz>dβd_z > d_\betadz?>dβ?)
- 2SLS優勢:自動處理多余工具變量,仍可計算唯一解。
- IV模型擴展:需結合GMM框架最小化加權矩條件(如論文中的SGMM)。
四、論文中的技術定位
1. 2SLS作為基準方法
- 對比角色:論文以離線2SLS為基準,凸顯SGMM的在線計算優勢(見表1-2)。
- 局限場景:
- 2SLS無法直接處理流數據(需全樣本存儲)
- 2SLS在過度識別時統計效率非最優(未使用GMM加權)
2. SGMM對2SLS的改進
維度 | 2SLS | SGMM(本文) |
---|---|---|
數據模式 | 批處理(離線) | 流數據(在線) |
計算復雜度 | O(ndz2)O(n d_z^2)O(ndz2?)(矩陣求逆) | O(dz2)O(d_z^2)O(dz2?) 每樣本(增量更新) |
過度識別 | 直接可用但非最優 | 動態優化權重矩陣 WiW_iWi? |
理論性質 | 一致但漸近方差非最小 | 漸近等價于最優GMM |
五、關鍵概念辨析
術語 | 定義 | 與2SLS的關系 |
---|---|---|
工具變量(IV) | 滿足相關性、外生性的變量 ziz_izi? | 2SLS的實現基礎 |
IV模型 | 結構方程 yi=xi′β+uiy_i = x_i'\beta + u_iyi?=xi′?β+ui? + 矩條件 E[uizi]=0\mathbb{E}[u_i z_i] = 0E[ui?zi?]=0 | 2SLS估計的對象 |
2SLS | 通過兩階段回歸求解IV模型的算法 | IV模型的估計器 |
GMM | 最小化加權矩條件 min?βgn(β)′Wngn(β)\min_\beta g_n(\beta)'W_n g_n(\beta)minβ?gn?(β)′Wn?gn?(β) | 2SLS的推廣(含最優加權) |
總結
- IV模型是解決內生性問題的理論框架,2SLS是其最常用的估計算法。
- 2SLS通過兩階段回歸數值實現IV估計:第一階段提取內生變量的外生成分,第二階段進行無偏回歸。
- 論文中,2SLS作為離線基準,而SGMM通過隨機近似框架將其擴展至流數據場景,實現高效在線估計。
核心公式回顧:
2SLS估計量:
β^2SLS=[X′Z(Z′Z)?1Z′X]?1?工具投影X′Z(Z′Z)?1Z′y?工具加權 \hat{\beta}_{2SLS} = \color{red}{\underbrace{[X'Z(Z'Z)^{-1}Z'X]^{-1}}_{\text{工具投影}}} \color{blue}{\underbrace{X'Z(Z'Z)^{-1}Z'y}_{\text{工具加權}}} β^?2SLS?=工具投影[X′Z(Z′Z)?1Z′X]?1??工具加權X′Z(Z′Z)?1Z′y??
紅色部分:工具變量對解釋變量的投影
藍色部分:工具變量對因變量的加權