2025-04-05 吳恩達機器學習5——邏輯回歸(2):過擬合與正則化

文章目錄

  • 1 過擬合
    • 1.1 過擬合問題
    • 1.2 解決過擬合
  • 2 正則化
    • 2.1 正則化代價函數
    • 2.2 線性回歸的正則化
    • 2.3 邏輯回歸的正則化

1 過擬合

1.1 過擬合問題

  • 欠擬合(Underfitting)

    模型過于簡單,無法捕捉數據中的模式,導致訓練誤差和測試誤差都較高。

    也稱為高偏差(High Bias),即模型對數據有較強的先入之見(如強行用線性模型擬合非線性數據)。

  • 過擬合(Overfitting)

    模型過于復雜,過度擬合訓練數據(甚至噪聲),導致泛化能力差。

    也稱為高方差(High Variance),即模型對訓練數據的微小變化非常敏感。

  • 泛化(Generalization)

    模型在未見過的數據上表現良好的能力,是機器學習的核心目標。

image-20250405190541082
模型類型擬合情況問題
線性模型(一次多項式)直線擬合數據欠擬合(高偏差),無法反映房價隨面積增長而趨于平緩的趨勢。
二次多項式(加入 x 2 x^2 x2曲線擬合數據恰到好處,能較好捕捉數據趨勢,泛化能力強。
四次多項式(加入 x 3 , x 4 x^3,x^4 x3,x4曲線完美穿過所有訓練點過擬合(高方差),模型波動劇烈,無法合理預測新數據。
image-20250405191327545

1.2 解決過擬合

? 過擬合問題:

  • 模型在訓練集上表現極好,但在新數據上泛化能力差。
  • 特征過多或模型過于復雜時容易發生(如高階多項式回歸)。

收集更多訓練數據

  • 原理:更多的數據能幫助模型學習更通用的模式,而非噪聲。
  • 適用場景:當數據獲取成本較低時(如房價預測中新增房屋記錄)。
  • 局限性:某些領域數據稀缺(如罕見病例診斷)。
image-20250405220747507

減少特征數量

  • 原理:僅保留與目標最相關的特征,降低模型復雜度。
  • 例如:房價預測中僅使用面積、臥室數量,而忽略到咖啡店距離等弱相關特征。
  • 方法:
    • 人工選擇:基于領域知識篩選特征。
    • 自動選擇:后續課程會介紹算法(如遞歸特征消除)。
  • 缺點:可能丟棄有用信息(若所有特征都有貢獻)。
image-20250405221109036

正則化(Regularization)

  • 核心思想:不刪除特征,而是通過懲罰大參數值( w j w_j wj?)來限制模型復雜度。使參數值趨近于0(但不完全為 0),減弱不重要特征的影響。
  • 優勢:
    • 保留所有特征,避免信息丟失。
    • 尤其適用于特征多、數據少的場景(如醫療數據)。
  • 注意:通常僅正則化權重參數 w 1 , w 2 , ? , w n w_1,w_2,\cdots,w_n w1?,w2?,?,wn?,偏置項 b b b 可忽略(對模型復雜度影響小)。
image-20250405221206401
方法優點缺點適用場景
收集更多數據直接提升泛化能力成本高或不可行數據易獲取時優先使用
特征選擇簡化模型,降低計算成本可能丟失有用信息特征間冗余性高時
正則化保留所有特征,靈活控制復雜度 度)需調整超參數(如正則化強)最常用,尤其 適合高維數據

2 正則化

  • 目標:通過限制參數 w j w_j wj? 的大小,降低模型復雜度,防止過擬合。
  • 方法:在成本函數中增加懲罰項,迫使算法選擇較小的參數值。

? 例如:對高階多項式項(如 w 3 x 3 , w 4 x 4 w_3x^3,w_4x^4 w3?x3,w4?x4)的參數施加懲罰,使其接近 0,從而近似退化為低階模型(如二次函數)。

image-20250405222901780

2.1 正則化代價函數

? 線性回歸的原始成本函數:
J ( w ? , b ) = 1 2 m ∑ i = 1 m ( f w ? , b ( x ? ( i ) ) ? y ( i ) ) 2 J(\vec{w},b)=\frac1{2m}\sum_{i=1}^m(f_{\vec{w},b}(\vec{x}^{(i)})-y^{(i)})^2 J(w ,b)=2m1?i=1m?(fw ,b?(x (i))?y(i))2
? 加入正則化項后:
J reg ( w ? , b ) = 1 2 m ∑ i = 1 m ( f w ? , b ( x ? ( i ) ) ? y ( i ) ) 2 + λ 2 m ∑ j = 1 n w j 2 J_\text{reg}{(\vec{w},b)}=\frac1{2m}\sum_{i=1}^m(f_{\vec{w},b}(\vec{x}^{(i)})-y^{(i)})^2+\frac\lambda{2m}\sum_{j=1}^nw_j^2 Jreg?(w ,b)=2m1?i=1m?(fw ,b?(x (i))?y(i))2+2mλ?j=1n?wj2?

  • 第一項:均方誤差(擬合訓練數據)。
  • 第二項:正則化項(懲罰大參數, λ \lambda λ 控制懲罰強度)。
  • 注意
    • 通常不懲罰偏置項 b b b(對模型復雜度影響極小)。
    • 系數 1 2 m \displaystyle\frac{1}{2m} 2m1? 用于統一縮放,便于選擇 λ \lambda λ
image-20250405223027011
λ λ λ 取值影響結果
λ = 0 \lambda=0 λ=0無正則化可能過擬合(如高階多項式完美擬合噪聲)。
λ λ λ 適中平衡擬合與簡化模型復雜度降低,泛化能力增強(如保留四階項但參數較小)。
λ λ λ 極大(如 1010過度懲罰所有 w j ≈ 0 w_j\approx0 wj?0,模型退化為水平線(欠擬合)。
image-20250405223653887

2.2 線性回歸的正則化

原始線性回歸(無正則化)

  • 權重 w j w_j wj?

w j : = w j ? α ? J ? w j , ? J ? w j = 1 m ∑ i = 1 m ( f w ? , b ( x ? ( i ) ) ? y ( i ) ) x j ( i ) w_j:=w_j-\alpha\frac{\partial J}{\partial w_j},\quad\frac{\partial J}{\partial w_j}=\frac1m\sum_{i=1}^m(f_{\vec{w},b}(\vec{x}^{(i)})-y^{(i)})x_j^{(i)} wj?:=wj??α?wj??J?,?wj??J?=m1?i=1m?(fw ,b?(x (i))?y(i))xj(i)?

  • 偏置 b b b

b : = b ? α ? J ? b , ? J ? b = 1 m ∑ i = 1 m ( f w ? , b ( x ? ( i ) ) ? y ( i ) ) b:=b-\alpha\frac{\partial J}{\partial b},\quad\frac{\partial J}{\partial b}=\frac1m\sum_{i=1}^m(f_{\vec{w},b}(\vec{x}^{(i)})-y^{(i)}) b:=b?α?b?J?,?b?J?=m1?i=1m?(fw ,b?(x (i))?y(i))

image-20250405224006656

正則化線性回歸

  • 權重 w j w_j wj?
    • 新增項: λ m w j \displaystyle\frac{\lambda}{m}w_j mλ?wj?(來自正則化項的導數)。
    • 物理意義:每次迭代時, w j w_j wj? 會被額外縮小 α λ m w j \alpha\displaystyle\frac{\lambda}{m}w_j αmλ?wj?
    • 系數 1 ? λ m 1-\displaystyle\frac{\lambda}{m} 1?mλ?:由于 α \alpha α(學習率)和 λ \lambda λ 通常很小(如 α = 0.01 , λ = 1 \alpha=0.01,\lambda=1 α=0.01,λ=1), 1 ? λ m 1-\displaystyle\frac{\lambda}{m} 1?mλ? 略小于 1(如 0.9998)。每次迭代時, w j w_j wj? 先輕微縮小(如乘以 0.9998),再減去原始梯度。從而逐步壓縮參數值 w j w_j wj?,防止其過大。

w j : = w j ? α [ 1 m ∑ i = 1 m ( f w ? , b ( x ? ( i ) ) ? y ( i ) ) x j ( i ) + λ m w j ] : = w j ( 1 ? α λ m ) ? α ? (原始梯度項) \begin{aligned} w_j&:=w_j-\alpha\left[\frac1m\sum_{i=1}^m(f_{\vec{w},b}(\vec{x}^{(i)})-y^{(i)})x_j^{(i)}+\frac\lambda mw_j\right]\\ &:=w_j\left(1-\alpha\frac\lambda m\right)-\alpha\cdot\text{(原始梯度項)} \end{aligned} wj??:=wj??α[m1?i=1m?(fw ,b?(x (i))?y(i))xj(i)?+mλ?wj?]:=wj?(1?αmλ?)?α?(原始梯度項)?

  • 偏置 b b b(不變)
    • 不變原因:正則化通常不懲罰 b b b

b : = b ? α 1 m ∑ i = 1 m ( f w ? , b ( x ? ( i ) ) ? y ( i ) ) b:=b-\alpha\frac1m\sum_{i=1}^m(f_{\vec{w},b}(\vec{x}^{(i)})-y^{(i)}) b:=b?αm1?i=1m?(fw ,b?(x (i))?y(i))

image-20250405224445043

2.3 邏輯回歸的正則化

  • 權重 w j w_j wj?
    • 新增項: λ m w j \displaystyle\frac{\lambda}{m}w_j mλ?wj?(來自正則化項的導數)。
    • 物理意義:每次迭代時, w j w_j wj? 會被額外縮小 α λ m w j \alpha\displaystyle\frac{\lambda}{m}w_j αmλ?wj?(類似線性回歸)。

w j : = w j ? α [ 1 m ∑ i = 1 m ( f w ? , b ( x ? ( i ) ) ? y ( i ) ) x j ( i ) + λ m w j ] : = w j ( 1 ? α λ m ) ? α ? (原始梯度項) \begin{aligned} w_j&:=w_j-\alpha\left[\frac1m\sum_{i=1}^m(f_{\vec{w},b}(\vec{x}^{(i)})-y^{(i)})x_j^{(i)}+\frac\lambda mw_j\right]\\ &:=w_j\left(1-\alpha\frac\lambda m\right)-\alpha\cdot\text{(原始梯度項)} \end{aligned} wj??:=wj??α[m1?i=1m?(fw ,b?(x (i))?y(i))xj(i)?+mλ?wj?]:=wj?(1?αmλ?)?α?(原始梯度項)?

  • 偏置 b b b(不變)
    • 不變原因:正則化通常不懲罰 b b b

b : = b ? α 1 m ∑ i = 1 m ( f w ? , b ( x ? ( i ) ) ? y ( i ) ) b:=b-\alpha\frac1m\sum_{i=1}^m(f_{\vec{w},b}(\vec{x}^{(i)})-y^{(i)}) b:=b?αm1?i=1m?(fw ,b?(x (i))?y(i))

image-20250405225454773

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/75622.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/75622.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/75622.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

如何用人工智能大模型,進行作業批改?

今天我們學習人工智能大模型如何進行作業批改。手把手學習視頻請訪問https://edu.csdn.net/learn/40402/666452 第一步,進入訊飛星火。打開google瀏覽器,輸入百度地址后,搜索”訊飛星火”,在搜索的結果中,點第一個訊飛…

C++學習筆記之 模板|函數模板|類模板

函數模板 類模板 定義:函數模板是建立一個通用函數,它所用到的數據的類型(包括返回值類型、形參類型、局部變量類型 )可以不具體指定,而是用一個虛擬的類型來代替(用標識符占位),在…

正則入門到精通

? 一、正則表達式入門? 正則表達式本質上是一串字符序列,用于定義一個文本模式。通過這個模式,我們可以指定要匹配的文本特征。例如,如果你想匹配一個以 “abc” 開頭的字符串,正則表達式可以寫作 “^abc”,其中 …

對備忘錄模式的理解

對備忘錄模式的理解 一、場景1、題目【[來源](https://kamacoder.com/problempage.php?pid1095)】1.1 題目描述1.2 輸入描述1.3 輸出描述1.4 輸入示例1.5 輸出示例 2、理解需求 二、不采用備忘錄設計模式1、代碼2、問題3、錯誤的備忘錄模式 三、采用備忘錄設計模式1、代碼1.1 …

86.方便的double轉string屬性 C#例子 WPF例子

在C#開發中,屬性封裝是一種常見的設計模式,它可以幫助我們更好地控制數據的訪問和修改,同時提供更靈活的功能擴展。今天,我們就來探討一個簡單而優雅的屬性封裝示例:Power 和 PowerFormatted。 1. 問題背景 在實際開…

bun 版本管理工具 bum 安裝與使用

在使用 node 的過程中,我們可能會因為版本更新或者不同項目的要求而頻繁切換 node 版本,或者是希望使用更簡單的方式安裝不同版本的 node,這個時候我們一般會用到 nvm 或者類似的工具。 在我嘗試使用 bun 的時候,安裝前第一個想到…

GRE,MGRE

GRE:靜態過程,有局限性 R1 : [r1]interface Tunnel 0/0/0 --- 創建一個虛擬的隧道接口 [r1-Tunnel0/0/0]ip address 192.168.3.1 24 --- 給隧道接口分配一個 IP 地址 [r1-Tunnel0/0/0]tunnel-protocol gre --- 定義接口的封裝方式 [r1-Tun…

游戲無法啟動?XINPUT1_3.dll 丟失的終極解決方案

當你興奮地啟動一款新游戲時,突然彈出一個錯誤提示——‘程序無法啟動,因為計算機中丟失 XINPUT1_3.dll’。這種問題在 PC 玩家中非常常見,尤其是運行一些較老的游戲時。XINPUT1_3.dll 是 DirectX 運行庫的關鍵組件,缺失會導致游戲…

用大語言模型學文學常識

李白的詩句“右軍本清真”中的“清真”并非指伊斯蘭教信仰,而是對王羲之(王右軍)人格和藝術境界的贊美。以下是對這一問題的詳細分析: “清真”的古代含義 在魏晉至唐代的語境中,“清真”一詞多用于形容人的品格高潔、…

css炫酷的3D水波紋文字效果實現詳解

炫酷的3D水波紋文字效果實現詳解 這里寫目錄標題 炫酷的3D水波紋文字效果實現詳解項目概述技術棧核心實現1. 基礎布局2. 漸變背景3. 文字效果實現3.1 基礎樣式3.2 文字漂浮動畫 4. 水波紋效果4.1 模糊效果4.2 水波動畫 5. 交互效果 技術要點項目難點與解決方案總結 項目概述 在…

八、重學C++—動態多態(運行期)

上一章節: 七、重學C—靜態多態(編譯期)-CSDN博客https://blog.csdn.net/weixin_36323170/article/details/146999362?spm1001.2014.3001.5502 本章節代碼: cpp/dynamicPolymorphic.cpp CuiQingCheng/cppstudy - 碼云 - 開源中…

eventEmitter實現

沒有做任何異常處理,簡單模擬實現 事件對象的每一個事件都對應一個數組 /*__events {"事件1":[cb1,cb2],"事件2":[cb3,cb4],"事件3":[...],"事件4":[...],};*/class E{__events {};constructor(){}//注冊監聽回調on(type , callbac…

Mysql 中 B 樹 vs B+ 樹

🌳 什么是 B樹 和 B樹? 它們都是多路平衡查找樹(M-Way Search Tree),用于提升磁盤讀寫效率,常用于數據庫(如 MySQL)、操作系統中的索引結構。 🔍 B樹 和 B樹 的核心區別…

藍橋云客---九宮幻方

1.九宮幻方 - 藍橋云課 九宮幻方 題目描述 小明最近在教鄰居家的小朋友小學奧數,而最近正好講述到了三階幻方這個部分,三階幻方指的是將1~9不重復的填入一個3 * 3的矩陣當中,使得每一行、每一列和每一條對角線的和都是相同的。 三階幻方又…

OrangePi5Plus開發板不能正確識別USB 3.0 設備 (綠聯HUB和Camera)

1、先插好上電(可正確識別) 2、上電開機后插入USB 3.0 設備,報錯如下,只能檢測到USB2.0--480M,識別不到USB3.0-5Gbps,重新插拔也不行 Apr 4 21:30:00 orangepi5plus kernel: [ 423.575966] usb 5-1: re…

LiveData 和 MutableLiveData 的區別

LiveData 和 MutableLiveData 的區別 主要在于是否可以修改數據,但它們的工作原理基本相同。下面我們深入對比它們的行為、特性,以及它們在 ViewModel 和 UI 層中的使用方式。 1. LiveData 和 MutableLiveData 的基本區別 特性LiveDataMutableLiveData可…

SDK中窗口調用

存在窗口A和B的win32程序 , 當點擊窗口A中的按鈕后會彈出窗口B #include <windows.h>// 窗口 B 的窗口過程 LRESULT CALLBACK WindowProcB(HWND hwnd, UINT uMsg, WPARAM wParam, LPARAM lParam) {switch (uMsg) {case WM_DESTROY:PostQuitMessage(0);break;default:ret…

進行性核上性麻痹:飲食調理為健康護航

進行性核上性麻痹是一種復雜的神經退行性疾病&#xff0c;目前雖無法根治&#xff0c;但合理的健康飲食有助于緩解癥狀、提高患者生活質量。 高蛋白質食物在患者飲食中占據重要地位。魚肉&#xff0c;尤其是富含 Omega-3 脂肪酸的三文魚、鱈魚等&#xff0c;不僅蛋白質含量豐富…

【Windows+Cursor】從0到1配置Arxiv MCP Server,實現論文自主查詢、下載、分析、綜述生成

1. 安裝UV Installation | uv powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex" 將安裝路徑添加到環境變量 C:\Users\xxxxxx\.local\bin 2. git clone 代碼 git clone https://github.com/blazickjp/arxiv-mcp-server.git…

WPF 教程:給 TreeView 添加 SelectedItem 雙向綁定支持(MVVM-Friendly)

&#x1f332;WPF 教程&#xff1a;給 TreeView 添加 SelectedItem 雙向綁定支持&#xff08;MVVM-Friendly&#xff09; 在 WPF 的 MVVM 應用中&#xff0c;TreeView 是非常常見的控件&#xff0c;但它有個“頑固”的缺陷&#xff1a; ?它的 SelectedItem 不是依賴屬性&…