補充:
1、多重共線性的補充
所謂的估計標準誤,指的是回歸系數的標準誤差。例如回歸方程:
y = β0 + β1X1 + β2X2 + e
我們構建的回歸方程的系數的計算得出是基于樣本的。這意味著,我們每從總體中進行一次抽樣,然后計算回歸方程系數,得到的回歸系數(β0、β1和β2)都是不同的。如此,我們反復地進行抽樣計算得到多個不同的β0、β1和β2,它們都會分別服從一個抽樣分布并有一個對應的標準誤差。我們就將這個標準誤稱之為回歸系數的標準誤差。
我們還熟知,在對回歸方程的檢驗中有兩類檢驗。
一類叫做線性關系檢驗,它是用于判斷整個回歸方程是否顯著的。
方法:構造F統計量: F = MSA/MSE。
一類叫做回歸系數檢驗,它是用于判斷回歸方程中某一個系數是否顯著不為0的。(如果不顯著,證明這個變量是不必要的)。
方法:構造t統計量: T = t - 0 /?σ2;這正是基于回歸系數實際上是服從正態分布的, β帽?~ N(β, Sβ),但通常我們使用估計標準誤去替代不可知的總體標準誤,所以使用了t分布。
估計標準誤差的增大不會影響F檢驗。這也就說明多重共線性不會影響你整個方程的“預測能力”。方程整體還是很準的。但問題在于,t檢驗的分母會因此增大,t檢驗就更難通過。我們所設定的零假設H0: βi = 0就不得不接受了。整個回歸方程就像一坨屎山代碼,“能跑”,但你不能解釋它,“可讀性”很差。
2、異方差的補充:
Q1: 如何理解截面數據更容易導致異方差問題?
A1:我的理解:關于這個有一個例子:要研究不同家庭的消費支出情況,自變量有家庭收入等。然而,對于家庭收入較低的家庭,由于本身收入少,其大部分支出都屬于固定支出,所以它的消費支出情況相當穩定,即方差很小;而對于家庭收入較高的家庭,由于本身收入高,他們可能由于一時的習慣或者習慣決定等,消費支出情況有較大的波動,使得方差很大。而這里面,高收入群體一時的習慣或決定是難以捕捉的非關鍵解釋變量,屬于個體的天然差異性。
后續會繼續異方差和自相關問題的檢驗與解決,等待復習到對應位置。