機器學習
不要事前決定變量關系,關鍵是誰也不知道啊,機器學習學習的模型(那也不是真實的關系啊)
這就是自然學科的好處:只要不斷的優化這個未知的東西(函數),然后在數據上(場景)表現好就可以了,我也接受這種觀念。
但是社科不一樣了:要事前的決定形式(變量是線性關系,非線性關系,二次關系等等),然后根據數據估計參數,得到因果(說實話,我很質疑的)。
在回歸分析中,存在系數是線性的假設(只能包括系數的一次項, β 1 \beta1 β1 β 2 \beta2 β2, 不能是 β 2 \beta^2 β2 e β e^{\beta} eβ)。然后是模型的設定(假設變量間是線性關系 y = β x y=\beta x y=βx, y = β x 2 y=\beta x^2 y=βx2).實際中一般就是指包括一次項,二次項。別的沒啥意義解讀了。
E ( Y ∣ X ) = f ( x ) E(Y|X)=f(x) E(Y∣X)=f(x) 條件期望,
那 f ( x ) f(x) f(x)是什么形式,一次性,多項,非線性,誰也不知道啊。但是回歸分析中,要求系數是線性的,變量間的關系(一次,多項式,可以回歸分析),如果是非線性就不是回歸分析了。
那我就開始研究,機器學習因果推斷,異質性,非線性關系,哈哈哈哈,機器學習好用啊,雖然本身沒有任何意義,認為賦予一個價值解讀,
回歸模型的要求
在回歸分析中,回歸系數要求是線性的這一說法通常與回歸模型的線性假設相關。這里的“線性”需從不同角度理解,具體含義和要求如下:
一、回歸模型的線性假設:系數線性 vs. 變量線性
1. 系數線性(核心要求)
- 定義:回歸模型對系數(參數)是線性的,即模型表達式中系數必須以一次項形式出現,不能包含系數的平方、乘積、對數等非線性變換。
- 數學表達式:
對于多元線性回歸模型,形式為:
[
Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k + \epsilon
]
其中,(\beta_0, \beta_1, \dots, \beta_k) 是待估計的系數,必須為線性項(無 (\beta^2)、(\beta_1\beta_2) 等形式)。 - 意義:
系數線性是線性回歸模型的核心假設,只有滿足這一點,才能用最小二乘法(OLS)等線性估計方法求解系數,保證估計量的無偏性和有效性。
2. 變量線性(非必須,可通過變換滿足)
這里:主要是指因變量和自變量的關系是線性關系,自變量間的關系不管
- 定義:變量之間的關系可以是線性或非線性的,但非線性關系可通過變量變換轉化為系數線性的模型。
- 例1:若 (Y) 與 (X) 存在二次關系 (Y = \beta_0 + \beta_1 X + \beta_2 X^2 + \epsilon),可令 (X_2 = X^2),轉化為線性模型 (Y = \beta_0 + \beta_1 X + \beta_2 X_2 + \epsilon)。
- 例2:對數線性模型 (Y = \beta_0 + \beta_1 \ln X + \epsilon) 中,(\ln X) 是變量變換后的線性項,系數 (\beta_1) 仍為線性。
- 關鍵:
模型對變量可以是非線性的,但對系數必須是線性的。變量非線性可通過變換處理,而系數非線性會導致模型不再屬于線性回歸范疇(需用非線性回歸方法)。
二、為何回歸系數必須是線性的?
1. 線性估計方法的前提
- 最小二乘法(OLS)、極大似然估計等線性回歸的核心方法,均基于系數線性假設推導而來。若系數非線性,這些方法不再適用,需用迭代法(如牛頓迭代法)求解,計算復雜度大幅增加。
2. 線性模型的可解釋性
- 線性系數表示自變量對因變量的邊際效應(如 (\beta_1) 表示 (X_1) 每增加1單位,(Y) 的平均變化量)。若系數非線性(如 (\beta_1^2)),邊際效應難以直觀解釋。
3. 統計推斷的基礎
- 系數線性假設下,才能對系數進行 (t) 檢驗、(F) 檢驗,構建置信區間,以及滿足高斯-馬爾可夫定理(OLS估計量的最優線性無偏性)。
三、常見誤區與注意事項
1. 誤區:線性模型不能處理非線性關系
- 澄清:線性模型可通過變量變換(如對數、平方、交互項等)處理非線性關系,只要變換后的模型對系數是線性的即可。
- 例:交互項模型 (Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_1 X_2 + \epsilon) 中,(X_1 X_2) 是變量的非線性組合,但系數 (\beta_3) 是線性的,因此仍屬于線性模型。
2. 注意:系數非線性的模型
- 若模型中系數本身存在非線性(如 (Y = \beta_0 + e^{\beta_1 X} + \epsilon)),則屬于非線性回歸模型,需使用非線性估計方法(如非線性最小二乘法),且無法保證估計量的優良性質(如無偏性)。
四、總結
要點 | 說明 |
---|---|
核心要求 | 回歸模型必須對系數線性,即系數以一次項形式出現,不包含平方、乘積等非線性形式。 |
變量處理 | 變量間可存在非線性關系,通過變量變換(如對數、平方)轉化為系數線性的模型。 |
方法適用性 | 系數線性時可用OLS等線性方法;系數非線性需用非線性回歸,計算復雜且推斷受限。 |
可解釋性 | 線性系數直接表示邊際效應,非線性系數難以直觀解釋。 |
結論:回歸系數的線性性是線性回歸模型的基石,它保證了模型的可估計性、可解釋性和統計推斷的可靠性。變量間的非線性關系可通過合理變換解決,但系數必須保持線性。
機器學習應用
SHap可解釋模型
雙重機器學習
Victor Chernozhukov, Denis Chetverikov, Mert Demirer, Esther Duflo, Christian Hansen, Whitney Newey, James Robins, Double/debiased machine learning for treatment and structural parameters, The Econometrics Journal, Volume 21, Issue 1, 1 February 2018, Pages C1–C68, https://doi.org/10.1111/ectj.12097