2025-04-05 吳恩達機器學習5——邏輯回歸(2)：過擬合與正則化

文章目錄

1 過擬合
- 1.1 過擬合問題
- 1.2 解決過擬合
2 正則化
- 2.1 正則化代價函數
- 2.2 線性回歸的正則化
- 2.3 邏輯回歸的正則化

1 過擬合

1.1 過擬合問題

欠擬合（Underfitting）

模型過于簡單，無法捕捉數據中的模式，導致訓練誤差和測試誤差都較高。

也稱為高偏差（High Bias），即模型對數據有較強的先入之見（如強行用線性模型擬合非線性數據）。
過擬合（Overfitting）

模型過于復雜，過度擬合訓練數據（甚至噪聲），導致泛化能力差。

也稱為高方差（High Variance），即模型對訓練數據的微小變化非常敏感。
泛化（Generalization）

模型在未見過的數據上表現良好的能力，是機器學習的核心目標。

模型類型	擬合情況	問題
線性模型（一次多項式）	直線擬合數據	欠擬合（高偏差），無法反映房價隨面積增長而趨于平緩的趨勢。
二次多項式（加入 $x^2$ ）	曲線擬合數據	恰到好處，能較好捕捉數據趨勢，泛化能力強。
四次多項式（加入 $x^3,x^4$ ）	曲線完美穿過所有訓練點	過擬合（高方差），模型波動劇烈，無法合理預測新數據。

1.2 解決過擬合

? 過擬合問題：

模型在訓練集上表現極好，但在新數據上泛化能力差。
特征過多或模型過于復雜時容易發生（如高階多項式回歸）。

收集更多訓練數據

原理：更多的數據能幫助模型學習更通用的模式，而非噪聲。
適用場景：當數據獲取成本較低時（如房價預測中新增房屋記錄）。
局限性：某些領域數據稀缺（如罕見病例診斷）。

減少特征數量

原理：僅保留與目標最相關的特征，降低模型復雜度。
例如：房價預測中僅使用面積、臥室數量，而忽略到咖啡店距離等弱相關特征。
方法：
- 人工選擇：基于領域知識篩選特征。
- 自動選擇：后續課程會介紹算法（如遞歸特征消除）。
缺點：可能丟棄有用信息（若所有特征都有貢獻）。

正則化（Regularization）

核心思想：不刪除特征，而是通過懲罰大參數值（ $w_j$ ）來限制模型復雜度。使參數值趨近于0（但不完全為 0），減弱不重要特征的影響。
優勢：
- 保留所有特征，避免信息丟失。
- 尤其適用于特征多、數據少的場景（如醫療數據）。
注意：通常僅正則化權重參數 $w_1,w_2,\cdots,w_n$ ，偏置項 $b$ 可忽略（對模型復雜度影響小）。

方法	優點	缺點	適用場景
收集更多數據	直接提升泛化能力	成本高或不可行	數據易獲取時優先使用
特征選擇	簡化模型，降低計算成本	可能丟失有用信息	特征間冗余性高時
正則化	保留所有特征，靈活控制復雜度度)	需調整超參數（如正則化強）	最常用，尤其適合高維數據

2 正則化

目標：通過限制參數 $w_j$ 的大小，降低模型復雜度，防止過擬合。
方法：在成本函數中增加懲罰項，迫使算法選擇較小的參數值。

? 例如：對高階多項式項（如 $w_3x^3,w_4x^4$ ）的參數施加懲罰，使其接近 0，從而近似退化為低階模型（如二次函數）。

2.1 正則化代價函數

? 線性回歸的原始成本函數：
$J(\vec{w},b)=\frac1{2m}\sum_{i=1}^m(f_{\vec{w},b}(\vec{x}^{(i)})-y^{(i)})^2$
? 加入正則化項后：
$J_\text{reg}{(\vec{w},b)}=\frac1{2m}\sum_{i=1}^m(f_{\vec{w},b}(\vec{x}^{(i)})-y^{(i)})^2+\frac\lambda{2m}\sum_{j=1}^nw_j^2$

第一項：均方誤差（擬合訓練數據）。
第二項：正則化項（懲罰大參數， $\lambda$ 控制懲罰強度）。
注意：
- 通常不懲罰偏置項 $b$ （對模型復雜度影響極小）。
- 系數 $\displaystyle\frac{1}{2m}$ 用于統一縮放，便于選擇 $\lambda$ 。

$λ$ 取值	影響	結果
$\lambda=0$	無正則化	可能過擬合（如高階多項式完美擬合噪聲）。
$λ$ 適中	平衡擬合與簡化	模型復雜度降低，泛化能力增強（如保留四階項但參數較小）。
$λ$ 極大（如 10¹⁰）	過度懲罰	所有 $w_j\approx0$ ，模型退化為水平線（欠擬合）。

2.2 線性回歸的正則化

原始線性回歸（無正則化）

權重 $w_j$

$w_j:=w_j-\alpha\frac{\partial J}{\partial w_j},\quad\frac{\partial J}{\partial w_j}=\frac1m\sum_{i=1}^m(f_{\vec{w},b}(\vec{x}^{(i)})-y^{(i)})x_j^{(i)}$

偏置 $b$

$b:=b-\alpha\frac{\partial J}{\partial b},\quad\frac{\partial J}{\partial b}=\frac1m\sum_{i=1}^m(f_{\vec{w},b}(\vec{x}^{(i)})-y^{(i)})$

正則化線性回歸

權重 $w_j$
- 新增項： $\displaystyle\frac{\lambda}{m}w_j$ （來自正則化項的導數）。
- 物理意義：每次迭代時， $w_j$ 會被額外縮小 $\alpha\displaystyle\frac{\lambda}{m}w_j$ 。
- 系數 $1-\displaystyle\frac{\lambda}{m}$ ：由于 $\alpha$ （學習率）和 $\lambda$ 通常很小（如 $\alpha=0.01,\lambda=1$ ）， $1-\displaystyle\frac{\lambda}{m}$ 略小于 1（如 0.9998）。每次迭代時， $w_j$ 先輕微縮小（如乘以 0.9998），再減去原始梯度。從而逐步壓縮參數值 $w_j$ ，防止其過大。

$\begin{aligned} w_j&:=w_j-\alpha\left[\frac1m\sum_{i=1}^m(f_{\vec{w},b}(\vec{x}^{(i)})-y^{(i)})x_j^{(i)}+\frac\lambda mw_j\right]\\ &:=w_j\left(1-\alpha\frac\lambda m\right)-\alpha\cdot\text{(原始梯度項)} \end{aligned}$

偏置 $b$ （不變）
- 不變原因：正則化通常不懲罰 $b$ 。

$b:=b-\alpha\frac1m\sum_{i=1}^m(f_{\vec{w},b}(\vec{x}^{(i)})-y^{(i)})$

2.3 邏輯回歸的正則化

權重 $w_j$
- 新增項： $\displaystyle\frac{\lambda}{m}w_j$ （來自正則化項的導數）。
- 物理意義：每次迭代時， $w_j$ 會被額外縮小 $\alpha\displaystyle\frac{\lambda}{m}w_j$ （類似線性回歸）。

偏置 $b$ （不變）
- 不變原因：正則化通常不懲罰 $b$ 。

$b:=b-\alpha\frac1m\sum_{i=1}^m(f_{\vec{w},b}(\vec{x}^{(i)})-y^{(i)})$

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/75622.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/75622.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/75622.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！