以下是關于特征選擇中常用方法的表格總結,并且詳細闡述了皮爾遜相關系數的原理、計算方法、步驟以及示例。
常用特征選擇方法總結
方法 | 原理 | 優點 | 缺點 | 使用場景 |
---|---|---|---|---|
過濾法(Filter Method) | 基于特征的統計信息(如相關性、方差等)篩選特征。 | 簡單、計算效率高,適用于大數據 | 無法考慮特征之間的依賴關系 | 適用于高維數據,快速篩選特征 |
包裹法(Wrapper Method) | 使用預測模型評估特征子集的效果,并通過遞歸或貪心算法進行選擇。 | 選擇特征考慮了模型性能 | 計算成本高,可能過擬合 | 適用于較小數據集,模型訓練時間可接受時 |
嵌入法(Embedded Method) | 在模型訓練過程中進行特征選擇,如L1正則化(Lasso回歸)等。 | 結合了模型訓練,減少了計算開銷 | 可能對高維數據不夠有效 | 適用于大數據,能夠同時訓練模型和選擇特征 |
基于相關系數的特征選擇 | 通過計算特征與目標變量之間的相關系數,篩選與目標相關性高的特征,并去除冗余特征。 | 簡單直觀,適用于特征間相關性較強 | 只能處理線性關系,忽略非線性關系 | 適用于線性關系較強的回歸或分類問題 |
基于樹的方法(如隨機森林) | 通過訓練樹模型(如隨機森林)來計算特征的重要性,并選擇重要特征。 | 適用于大規模數據集 | 可能過擬合,計算復雜度高 | 適用于分類、回歸任務,數據集較大時 |
主成分分析(PCA) | 將數據線性變換到一個新的坐標系,使得新特征的方差最大化,通常用于降維。 | 可以有效降維,減少計算開銷 | 只能處理線性關系,解釋性差 | 適用于大規模數據,特征相關性較強時 |
皮爾遜相關系數的詳細闡述
1. 原理
皮爾遜相關系數(Pearson Correlation Coefficient,簡稱PCC)是衡量兩個變量之間線性相關程度的一個統計量。它的取值范圍為[?1,1][-1, 1][?1,1],數值越接近1或-1,表示相關性越強,數值接近0則表示無相關性。
- r=1r = 1r=1:完全正相關,兩個變量的關系是線性且相同方向。
- r=?1r = -1r=?1:完全負相關,兩個變量的關系是線性且相反方向。
- r=0r = 0r=0:沒有線性關系。
2. 計算方法
皮爾遜相關系數的計算公式如下:
rxy=∑(xi?xˉ)(yi?yˉ)∑(xi?xˉ)2∑(yi?yˉ)2 r_{xy} = \frac{\sum{(x_i - \bar{x})(y_i - \bar{y})}}{\sqrt{\sum{(x_i - \bar{x})^2}\sum{(y_i - \bar{y})^2}}} rxy?=∑(xi??xˉ)2∑(yi??yˉ?)2?∑(xi??xˉ)(yi??yˉ?)?
其中:
- rxyr_{xy}rxy? 是變量 xxx 和 yyy 的皮爾遜相關系數。
- xix_ixi? 和 yiy_iyi? 是數據集中的第 iii 個觀測值。
- xˉ\bar{x}xˉ 和 yˉ\bar{y}yˉ? 是變量 xxx 和 yyy 的均值。
3. 計算步驟
-
計算每個變量的均值:
xˉ=1n∑i=1nxi和yˉ=1n∑i=1nyi \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \quad \text{和} \quad \bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_i xˉ=n1?i=1∑n?xi?和yˉ?=n1?i=1∑n?yi?
-
計算每對數據點的偏差(xi?xˉx_i - \bar{x}xi??xˉ 和 yi?yˉy_i - \bar{y}yi??yˉ?)。
-
計算偏差的乘積和:
∑(xi?xˉ)(yi?yˉ) \sum{(x_i - \bar{x})(y_i - \bar{y})} ∑(xi??xˉ)(yi??yˉ?)
-
計算各自的方差:
∑(xi?xˉ)2,∑(yi?yˉ)2 \sum{(x_i - \bar{x})^2}, \quad \sum{(y_i - \bar{y})^2} ∑(xi??xˉ)2,∑(yi??yˉ?)2
-
計算皮爾遜相關系數:
rxy=∑(xi?xˉ)(yi?yˉ)∑(xi?xˉ)2∑(yi?yˉ)2 r_{xy} = \frac{\sum{(x_i - \bar{x})(y_i - \bar{y})}}{\sqrt{\sum{(x_i - \bar{x})^2}\sum{(y_i - \bar{y})^2}}} rxy?=∑(xi??xˉ)2∑(yi??yˉ?)2?∑(xi??xˉ)(yi??yˉ?)?
4. 示例
假設我們有兩個特征 XXX 和 YYY 的數據集如下:
XXX | YYY |
---|---|
1 | 2 |
2 | 3 |
3 | 4 |
4 | 5 |
步驟 1:計算均值
Xˉ=1+2+3+44=2.5,Yˉ=2+3+4+54=3.5 \bar{X} = \frac{1 + 2 + 3 + 4}{4} = 2.5, \quad \bar{Y} = \frac{2 + 3 + 4 + 5}{4} = 3.5 Xˉ=41+2+3+4?=2.5,Yˉ=42+3+4+5?=3.5
步驟 2:計算偏差
-
對于 XXX:
X?Xˉ=[1?2.5,2?2.5,3?2.5,4?2.5]=[?1.5,?0.5,0.5,1.5] X - \bar{X} = [1-2.5, 2-2.5, 3-2.5, 4-2.5] = [-1.5, -0.5, 0.5, 1.5] X?Xˉ=[1?2.5,2?2.5,3?2.5,4?2.5]=[?1.5,?0.5,0.5,1.5]
-
對于 YYY:
Y?Yˉ=[2?3.5,3?3.5,4?3.5,5?3.5]=[?1.5,?0.5,0.5,1.5] Y - \bar{Y} = [2-3.5, 3-3.5, 4-3.5, 5-3.5] = [-1.5, -0.5, 0.5, 1.5] Y?Yˉ=[2?3.5,3?3.5,4?3.5,5?3.5]=[?1.5,?0.5,0.5,1.5]
步驟 3:計算偏差的乘積和
∑(Xi?Xˉ)(Yi?Yˉ)=(?1.5×?1.5)+(?0.5×?0.5)+(0.5×0.5)+(1.5×1.5)=2.25+0.25+0.25+2.25=5 \sum{(X_i - \bar{X})(Y_i - \bar{Y})} = (-1.5 \times -1.5) + (-0.5 \times -0.5) + (0.5 \times 0.5) + (1.5 \times 1.5) = 2.25 + 0.25 + 0.25 + 2.25 = 5 ∑(Xi??Xˉ)(Yi??Yˉ)=(?1.5×?1.5)+(?0.5×?0.5)+(0.5×0.5)+(1.5×1.5)=2.25+0.25+0.25+2.25=5
步驟 4:計算方差
-
XXX 的方差:
∑(Xi?Xˉ)2=(?1.5)2+(?0.5)2+(0.5)2+(1.5)2=2.25+0.25+0.25+2.25=5 \sum{(X_i - \bar{X})^2} = (-1.5)^2 + (-0.5)^2 + (0.5)^2 + (1.5)^2 = 2.25 + 0.25 + 0.25 + 2.25 = 5 ∑(Xi??Xˉ)2=(?1.5)2+(?0.5)2+(0.5)2+(1.5)2=2.25+0.25+0.25+2.25=5
-
YYY 的方差:
∑(Yi?Yˉ)2=(?1.5)2+(?0.5)2+(0.5)2+(1.5)2=2.25+0.25+0.25+2.25=5 \sum{(Y_i - \bar{Y})^2} = (-1.5)^2 + (-0.5)^2 + (0.5)^2 + (1.5)^2 = 2.25 + 0.25 + 0.25 + 2.25 = 5 ∑(Yi??Yˉ)2=(?1.5)2+(?0.5)2+(0.5)2+(1.5)2=2.25+0.25+0.25+2.25=5
步驟 5:計算皮爾遜相關系數
rxy=55×5=55=1 r_{xy} = \frac{5}{\sqrt{5 \times 5}} = \frac{5}{5} = 1 rxy?=5×5?5?=55?=1
所以,rxy=1r_{xy} = 1rxy?=1,表明 XXX 和 YYY 完全正相關。
總結:
- 皮爾遜相關系數用來衡量兩個變量的線性相關性,取值范圍為[?1,1][-1, 1][?1,1]。
- 計算過程包括數據的均值計算、偏差乘積和、方差計算等步驟。
- 它適用于評估連續數值型特征間的相關性,并廣泛用于特征選擇中,尤其是當我們想要移除冗余特征時。
- 當然如果你看過另一篇關于特征降維的文章,那么你可能會有疑問,因為PCA和基于樹的選擇在特征選擇和特征降維里面都出現了。
- 雖然 PCA 和 基于樹的選擇方法(如隨機森林) 經常出現在特征選擇和特征降維的討論中,但它們的作用有所不同:
PCA 更多是通過生成新的特征(主成分)來實現降維,也可以視為一種選擇重要特征的方式。
基于樹的方法,如隨機森林,主要通過選擇最重要的原始特征來達到降維和提高模型準確性的目的。
它們兩者的共同點在于減少特征的數量,但方法和實現方式不同。在實際應用中,它們常常結合使用,以便同時進行特征選擇和降維,優化模型的性能。
如果有更多問題或者需要進一步的解釋,隨時告訴我!