文章目錄
- 1 過擬合
- 1.1 過擬合問題
- 1.2 解決過擬合
- 2 正則化
- 2.1 正則化代價函數
- 2.2 線性回歸的正則化
- 2.3 邏輯回歸的正則化
1 過擬合
1.1 過擬合問題
-
欠擬合(Underfitting)
模型過于簡單,無法捕捉數據中的模式,導致訓練誤差和測試誤差都較高。
也稱為高偏差(High Bias),即模型對數據有較強的先入之見(如強行用線性模型擬合非線性數據)。
-
過擬合(Overfitting)
模型過于復雜,過度擬合訓練數據(甚至噪聲),導致泛化能力差。
也稱為高方差(High Variance),即模型對訓練數據的微小變化非常敏感。
-
泛化(Generalization)
模型在未見過的數據上表現良好的能力,是機器學習的核心目標。

模型類型 | 擬合情況 | 問題 |
---|---|---|
線性模型(一次多項式) | 直線擬合數據 | 欠擬合(高偏差),無法反映房價隨面積增長而趨于平緩的趨勢。 |
二次多項式(加入 x 2 x^2 x2) | 曲線擬合數據 | 恰到好處,能較好捕捉數據趨勢,泛化能力強。 |
四次多項式(加入 x 3 , x 4 x^3,x^4 x3,x4) | 曲線完美穿過所有訓練點 | 過擬合(高方差),模型波動劇烈,無法合理預測新數據。 |

1.2 解決過擬合
? 過擬合問題:
- 模型在訓練集上表現極好,但在新數據上泛化能力差。
- 特征過多或模型過于復雜時容易發生(如高階多項式回歸)。
收集更多訓練數據
- 原理:更多的數據能幫助模型學習更通用的模式,而非噪聲。
- 適用場景:當數據獲取成本較低時(如房價預測中新增房屋記錄)。
- 局限性:某些領域數據稀缺(如罕見病例診斷)。

減少特征數量
- 原理:僅保留與目標最相關的特征,降低模型復雜度。
- 例如:房價預測中僅使用面積、臥室數量,而忽略到咖啡店距離等弱相關特征。
- 方法:
- 人工選擇:基于領域知識篩選特征。
- 自動選擇:后續課程會介紹算法(如遞歸特征消除)。
- 缺點:可能丟棄有用信息(若所有特征都有貢獻)。

正則化(Regularization)
- 核心思想:不刪除特征,而是通過懲罰大參數值( w j w_j wj?)來限制模型復雜度。使參數值趨近于0(但不完全為 0),減弱不重要特征的影響。
- 優勢:
- 保留所有特征,避免信息丟失。
- 尤其適用于特征多、數據少的場景(如醫療數據)。
- 注意:通常僅正則化權重參數 w 1 , w 2 , ? , w n w_1,w_2,\cdots,w_n w1?,w2?,?,wn?,偏置項 b b b 可忽略(對模型復雜度影響小)。

方法 | 優點 | 缺點 | 適用場景 |
---|---|---|---|
收集更多數據 | 直接提升泛化能力 | 成本高或不可行 | 數據易獲取時優先使用 |
特征選擇 | 簡化模型,降低計算成本 | 可能丟失有用信息 | 特征間冗余性高時 |
正則化 | 保留所有特征,靈活控制復雜度 度) | 需調整超參數(如正則化強) | 最常用,尤其 適合高維數據 |
2 正則化
- 目標:通過限制參數 w j w_j wj? 的大小,降低模型復雜度,防止過擬合。
- 方法:在成本函數中增加懲罰項,迫使算法選擇較小的參數值。
? 例如:對高階多項式項(如 w 3 x 3 , w 4 x 4 w_3x^3,w_4x^4 w3?x3,w4?x4)的參數施加懲罰,使其接近 0,從而近似退化為低階模型(如二次函數)。

2.1 正則化代價函數
? 線性回歸的原始成本函數:
J ( w ? , b ) = 1 2 m ∑ i = 1 m ( f w ? , b ( x ? ( i ) ) ? y ( i ) ) 2 J(\vec{w},b)=\frac1{2m}\sum_{i=1}^m(f_{\vec{w},b}(\vec{x}^{(i)})-y^{(i)})^2 J(w,b)=2m1?i=1∑m?(fw,b?(x(i))?y(i))2
? 加入正則化項后:
J reg ( w ? , b ) = 1 2 m ∑ i = 1 m ( f w ? , b ( x ? ( i ) ) ? y ( i ) ) 2 + λ 2 m ∑ j = 1 n w j 2 J_\text{reg}{(\vec{w},b)}=\frac1{2m}\sum_{i=1}^m(f_{\vec{w},b}(\vec{x}^{(i)})-y^{(i)})^2+\frac\lambda{2m}\sum_{j=1}^nw_j^2 Jreg?(w,b)=2m1?i=1∑m?(fw,b?(x(i))?y(i))2+2mλ?j=1∑n?wj2?
- 第一項:均方誤差(擬合訓練數據)。
- 第二項:正則化項(懲罰大參數, λ \lambda λ 控制懲罰強度)。
- 注意:
- 通常不懲罰偏置項 b b b(對模型復雜度影響極小)。
- 系數 1 2 m \displaystyle\frac{1}{2m} 2m1? 用于統一縮放,便于選擇 λ \lambda λ。

λ λ λ 取值 | 影響 | 結果 |
---|---|---|
λ = 0 \lambda=0 λ=0 | 無正則化 | 可能過擬合(如高階多項式完美擬合噪聲)。 |
λ λ λ 適中 | 平衡擬合與簡化 | 模型復雜度降低,泛化能力增強(如保留四階項但參數較小)。 |
λ λ λ 極大(如 1010) | 過度懲罰 | 所有 w j ≈ 0 w_j\approx0 wj?≈0,模型退化為水平線(欠擬合)。 |

2.2 線性回歸的正則化
原始線性回歸(無正則化)
- 權重 w j w_j wj?
w j : = w j ? α ? J ? w j , ? J ? w j = 1 m ∑ i = 1 m ( f w ? , b ( x ? ( i ) ) ? y ( i ) ) x j ( i ) w_j:=w_j-\alpha\frac{\partial J}{\partial w_j},\quad\frac{\partial J}{\partial w_j}=\frac1m\sum_{i=1}^m(f_{\vec{w},b}(\vec{x}^{(i)})-y^{(i)})x_j^{(i)} wj?:=wj??α?wj??J?,?wj??J?=m1?i=1∑m?(fw,b?(x(i))?y(i))xj(i)?
- 偏置 b b b
b : = b ? α ? J ? b , ? J ? b = 1 m ∑ i = 1 m ( f w ? , b ( x ? ( i ) ) ? y ( i ) ) b:=b-\alpha\frac{\partial J}{\partial b},\quad\frac{\partial J}{\partial b}=\frac1m\sum_{i=1}^m(f_{\vec{w},b}(\vec{x}^{(i)})-y^{(i)}) b:=b?α?b?J?,?b?J?=m1?i=1∑m?(fw,b?(x(i))?y(i))

正則化線性回歸
- 權重 w j w_j wj?
- 新增項: λ m w j \displaystyle\frac{\lambda}{m}w_j mλ?wj?(來自正則化項的導數)。
- 物理意義:每次迭代時, w j w_j wj? 會被額外縮小 α λ m w j \alpha\displaystyle\frac{\lambda}{m}w_j αmλ?wj?。
- 系數 1 ? λ m 1-\displaystyle\frac{\lambda}{m} 1?mλ?:由于 α \alpha α(學習率)和 λ \lambda λ 通常很小(如 α = 0.01 , λ = 1 \alpha=0.01,\lambda=1 α=0.01,λ=1), 1 ? λ m 1-\displaystyle\frac{\lambda}{m} 1?mλ? 略小于 1(如 0.9998)。每次迭代時, w j w_j wj? 先輕微縮小(如乘以 0.9998),再減去原始梯度。從而逐步壓縮參數值 w j w_j wj?,防止其過大。
w j : = w j ? α [ 1 m ∑ i = 1 m ( f w ? , b ( x ? ( i ) ) ? y ( i ) ) x j ( i ) + λ m w j ] : = w j ( 1 ? α λ m ) ? α ? (原始梯度項) \begin{aligned} w_j&:=w_j-\alpha\left[\frac1m\sum_{i=1}^m(f_{\vec{w},b}(\vec{x}^{(i)})-y^{(i)})x_j^{(i)}+\frac\lambda mw_j\right]\\ &:=w_j\left(1-\alpha\frac\lambda m\right)-\alpha\cdot\text{(原始梯度項)} \end{aligned} wj??:=wj??α[m1?i=1∑m?(fw,b?(x(i))?y(i))xj(i)?+mλ?wj?]:=wj?(1?αmλ?)?α?(原始梯度項)?
- 偏置 b b b(不變)
- 不變原因:正則化通常不懲罰 b b b。
b : = b ? α 1 m ∑ i = 1 m ( f w ? , b ( x ? ( i ) ) ? y ( i ) ) b:=b-\alpha\frac1m\sum_{i=1}^m(f_{\vec{w},b}(\vec{x}^{(i)})-y^{(i)}) b:=b?αm1?i=1∑m?(fw,b?(x(i))?y(i))

2.3 邏輯回歸的正則化
- 權重 w j w_j wj?
- 新增項: λ m w j \displaystyle\frac{\lambda}{m}w_j mλ?wj?(來自正則化項的導數)。
- 物理意義:每次迭代時, w j w_j wj? 會被額外縮小 α λ m w j \alpha\displaystyle\frac{\lambda}{m}w_j αmλ?wj?(類似線性回歸)。
w j : = w j ? α [ 1 m ∑ i = 1 m ( f w ? , b ( x ? ( i ) ) ? y ( i ) ) x j ( i ) + λ m w j ] : = w j ( 1 ? α λ m ) ? α ? (原始梯度項) \begin{aligned} w_j&:=w_j-\alpha\left[\frac1m\sum_{i=1}^m(f_{\vec{w},b}(\vec{x}^{(i)})-y^{(i)})x_j^{(i)}+\frac\lambda mw_j\right]\\ &:=w_j\left(1-\alpha\frac\lambda m\right)-\alpha\cdot\text{(原始梯度項)} \end{aligned} wj??:=wj??α[m1?i=1∑m?(fw,b?(x(i))?y(i))xj(i)?+mλ?wj?]:=wj?(1?αmλ?)?α?(原始梯度項)?
- 偏置 b b b(不變)
- 不變原因:正則化通常不懲罰 b b b。
b : = b ? α 1 m ∑ i = 1 m ( f w ? , b ( x ? ( i ) ) ? y ( i ) ) b:=b-\alpha\frac1m\sum_{i=1}^m(f_{\vec{w},b}(\vec{x}^{(i)})-y^{(i)}) b:=b?αm1?i=1∑m?(fw,b?(x(i))?y(i))
