【1】引言
前序學習進程中,對用scikit-learn表達線性回歸進行了初步解讀。
線性回歸能夠將因變量yyy表達成由自變量xxx、線性系數矩陣www和截距bbb組成的線性函數式:
y=∑i=1nwi?xi+b=wTx+by=\sum_{i=1}^{n}w_{i}\cdot x_{i}+b=w^T{x}+by=i=1∑n?wi??xi?+b=wTx+b實際上很多時候數據之間不一定是理想化的線性關系,所以需要對線性關系式進行修正,這個時候就可以考慮嶺回歸。
嶺回歸是修正后的線性回歸,相對于普通線性回歸,增加了一個參數:均方誤差。
【2】線性回歸均方誤差
對于線性回歸,均方誤差的計算式子為:
L(w,b)=∑i=1n(yi?yi^)2=∑i=1n(yi?(wTxi+b))2L(w,b)=\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})^2=\sum_{i=1}^{n}(y_{i}-(w^Tx_{i}+b))^2L(w,b)=i=1∑n?(yi??yi?^?)2=i=1∑n?(yi??(wTxi?+b))2在這里,yyy是第i個樣本的真實值,y^\hat{y}y^?是第i個樣本的預測值。
線性回歸的均方誤差將真實值和預測值作差后求平方和即可。
【3】嶺回歸均方誤差
嶺回歸相對于線性回歸,均方誤差的計算式子增加了對參數權重平方和的計算,稱之為L2正則化懲罰項:
L(w,b)=∑i=1n(yi?yi^)2+α∑j=1mwj2=∑i=1n(yi?(wTxi+b))2+α∑j=1mwj2L(w,b)=\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})^2+\alpha\sum_{j=1}^{m}w_{j}^{2}=\sum_{i=1}^{n}(y_{i}-(w^Tx_{i}+b))^2+\alpha\sum_{j=1}^{m}w_{j}^{2}L(w,b)=i=1∑n?(yi??yi?^?)2+αj=1∑m?wj2?=i=1∑n?(yi??(wTxi?+b))2+αj=1∑m?wj2?在這里,yyy是第i個樣本的真實值,y^\hat{y}y^?是第i個樣本的預測值。
新增加的L2正則化懲罰項為α∑j=1mwj2,其中α≥0\alpha\sum_{j=1}^{m}w_{j}^{2},其中\alpha\geq0α∑j=1m?wj2?,其中α≥0
實際上根據上述說明,從線性回歸到嶺回歸主要的變化發生在均方誤差的定義上。
嶺回歸大名鼎鼎,在均方誤差項里面增加了一個L2正則化懲罰項。既然可以有L2正則化,顯然也可以有L1正則化,這就是Lasso套索回歸方。
【4】套索回歸Lasso
嶺回歸相對于普通線性回歸,區別在于添加了L2正則化懲罰項,這一變化解決了普通線性回歸至少兩個問題:多重共線性和過擬合。
套索回歸Lasso相對于普通線性回歸,添加L1正則化懲罰項,此時的均方誤差公式為:
L(w,b)=12n∑i=1n(yi?yi^)2+α∑j=1n∣wj∣=12n∑i=1n(yi?(wTxi+b))2+α∑j=1n∣wj∣L(w,b)=\frac{1}{2n}\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})^2+\alpha\sum_{j=1}^{n}\left | w_{j} \right |=\frac{1}{2n}\sum_{i=1}^{n}(y_{i}-(w^Tx_{i}+b))^2+\alpha\sum_{j=1}^{n}\left | w_{j} \right |L(w,b)=2n1?i=1∑n?(yi??yi?^?)2+αj=1∑n?∣wj?∣=2n1?i=1∑n?(yi??(wTxi?+b))2+αj=1∑n?∣wj?∣
新增加的L1正則化懲罰項為α∑j=1m∣wj∣\alpha\sum_{j=1}^{m}\left | w_{j} \right |α∑j=1m?∣wj?∣,其中:
α≥0\alpha \geq0α≥0是L1正則化懲罰項強度,可以控制對后面部分懲罰的力度;
∑j=1n∣wj∣\sum_{j=1}^{n}\left | w_{j}\right |∑j=1n?∣wj?∣是所有線性系數絕對值的和。
當α>0\alpha >0α>0時,隨著α\alphaα增加,正則化強度增加,會增強對系數絕對值和的約束,使得w→0w \rightarrow 0w→0;
當α=0\alpha=0α=0,懲罰項不起作用,Lasso回歸退回到普通線性回歸。
【5】套索回歸Lasso的特點
嶺回歸和線性回歸都是線性關系式的推演,但嶺回歸通過L2正則化懲罰項讓線性系數wjw_{j}wj?保持在合理且較小的范圍,讓回歸模型更穩健、更準確。
套索回歸Lasso會讓部分線性系數直接精確約束至0,即自動剔除不重要的特征,是的模型最終只保留少數非零系數特征,這個特性讓Lasso非常適合高維數據的降維和變量篩選;
此外L1正則化懲罰項的存在,很顯然對線性系數發揮約束作用可以防止線性回歸過擬合。
此外應該強調的是,較小的α\alphaα可以保留相對多的特征,特征多可能過擬合,所以使用Lasso回歸應對L1正則化懲罰項的系數α\alphaα進行選取嘗試,已實現獲取最佳效果。
【6】總結
初步學習了套索回歸Lasso的基本概念,了解了套索回歸在對高維數據降維上的優勢和防止數據過擬合應該采取的措施。