深度學習正則化技術之權重衰減法、暫退法(通俗易懂版)

一、影響模型泛性的因素有?什么是正則化技術?有什么用?

通常,影響模型泛化能力的因素有:

  • 可調節參數的個數:可調節的參數過少,會造成模型過于簡單,欠擬合;過多,會造成成模型過于復雜,捕獲過多訓練數據中的噪聲或特定細節,過擬合。
  • 參數采用的值:權重取值范圍較大,較大的權重值會導致模型對輸入數據更加敏感,從而可能捕獲訓練數據中的噪聲或特定細節,這會使模型變得過于復雜,容易過擬合訓練數據。
  • 訓練數據量:數據越多,擬合數據模型就需要更加靈活,學習訓練數據中的噪聲和特定細節就變得更加困難。

深度學習中訓練模型由于數據的不足和訓練輪數的增加也可能導致模型學習到了訓練數據中的噪聲,模型的訓練誤差遠遠大于泛化誤差,模型在訓練數據上的表現遠遠好過在測試數據上的表現,這就是模型的過擬合。簡單來說就是由于練習題庫少,做題很多遍但是學習到的做題方法不夠,卻記住了練習題庫,導致做練習題分數很高,但是做新的考試題目就表現得很差。

過擬合一般取決于訓練數據量和模型的復雜程度這兩個因素,模型的復雜程度高,所以就會記住訓練數據中無關緊要的噪聲部分,對預測測試數據產生不良影響。

緩解模型過擬合一般有三種方式:

  • 更多訓練數據:成本高,耗時長。
  • 限制參數(特征)個數:過于生硬,參數過少模型容易過于簡單,參數過多模型容易過于復雜。
  • 正則化技術:它是比限制參數個數更細粒度的調節模型復雜度的技術,一種避免模型過于復雜的技術,常見的正則化技術有權重衰減和暫退法。

二、權重衰減——限制參數“放飛自我”

權重衰減又叫做L2正則化,通過權重向量的L2范數度量模型的權重向量(模型參數)的復雜度,將這種范數度量作為懲罰函數添加到損失函數中,避免模型在訓練過程中權重參數變得過于復雜,造成過擬合。

2.1、簡單類比

考試前復習老師要求不要扣偏題怪題(防止模型過度關注噪聲),而是抓核心知識點(掌握主要特征),相當于老師劃定了考試范圍。就不會只學習帶項圈的貓的特征(項圈即噪聲),而遇到不戴項圈的貓時候就判定不是貓。

所謂的大道至簡,越簡潔的公式越具有普遍意義。比如:用大量小積木塊可以完整擬合訓練數據(比如特定形狀的橋),但是換形狀后就垮了;使用少量搭積木塊雖然不能很完美的擬合訓練數據,但是更容易搭出不同形狀的橋,形狀也更加穩定。

通過限制模型參數的大小,迫使模型學習更簡單、更通用的規律,而不是死記硬背訓練數據。它的本質是在擬合數據和保持簡單性之間找到平衡

2.2、L2范數 VS L1范數

  • L2(權重衰減)懲罰的是參數的平方和,對權重的大向量施加了巨大的懲罰,不會讓少數參數占據絕對的影響力,而是讓各個參數都對模型做出一定的貢獻,更好的保持了大量特征上的均勻分布權重,所以會讓參數趨近小而分散。
  • L1懲罰的是絕對值之和,對于絕對值較小的參數,由于每次都會更靠近零,變成0后就不會再更新,所以L1會讓部分參數歸零,適合特征選擇。

三、暫退法——神經元隨機裝傻

3.1、核心思路

在訓練時,隨機讓一部分神經元“裝傻”(暫時失效),迫使模型不能過度依賴某些特定的神經元,必須學會用多樣化的路徑做預測。

3.2、類比

如果你是一個老師,你想要教會全班回答一個問題。如果只提問學霸,那么其他同學就會躺平,僅僅依靠學霸來應付提問。上面類似傳統的訓練,要想打破這種模型參數之間的特定依賴,每一層都依賴前一層輸出——即打破共適應性,提問的時候可以采用隨機抽取同學回答問題,不再是固定學霸回答,其他同學必須學習回答問題,進而訓練全班同學回答問題的能力——即使神經元隨機失效,稀疏化神經元依賴,相當于訓練了多個子模型,進而提高模型的泛化能力。

Dropout 是一種“以退為進”的策略,主要應用在神經網絡的訓練過程中的前向傳播階段,通過隨機讓神經元失效,強迫模型學習魯棒的特征,避免過擬合。它的本質是給訓練過程增加噪聲,讓模型在“不確定性”中變得更強大。

四、總結

  • Dropout:動態改變網絡結構,訓練多樣性子模型。

  • 權重衰減:直接約束參數,從數學上控制模型復雜度。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/73273.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/73273.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/73273.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

爬蟲逆向:Unicorn 詳細使用指南

文章目錄 1. Unicorn 介紹1.1 Unicorn 的特點1.2 Unicorn功能2. 安裝 Unicorn2.1 安裝 Python 綁定2.2 安裝 Unicorn 核心庫3. Unicorn 的基本使用3.1 初始化模擬器3.2 映射內存3.3 寫入代碼3.4 設置寄存器3.5 執行代碼3.6 讀取寄存器4. Unicorn 的高級功能4.1 鉤子函數4.2 異常…

【SpringBoot】實現登錄功能

在上一篇博客中,我們講解了注冊頁面的實現。在此基礎上會跳轉到登錄頁面,今天給大家帶來的是使用 SpringBoot,MyBatis,Html,CSS,JavaScript,前后端交互實現一個登錄功能。 目錄 一、效果 二、…

【小白向】Ubuntu|VMware 新建虛擬機后打開 SSH 服務、在主機上安裝vscode并連接、配置 git 的 ssh

常常有人問VMware-Tools裝了也復制粘貼不了怎么辦,這個東西影響因素太多了,具體解決辦法你們可以參考一下:【經驗】VMware|虛擬機只能使用鼠標無法使用鍵盤、裝不了或裝了VMware-Tools無法復制粘貼的可能解決辦法_增強型鍵盤驅動程…

mingw工具源碼編譯

ming-w64 mingw編譯生成的庫,需要mingw的lib文件支持。 https://github.com/mingw-w64/mingw-w64 使用msys2的bash git checkout v8.0.3 ./configure --disable-dependency-tracking --targetx86_64-w64-mingw32 mingw32-make.exe -j4 修改makefile中的make 改成mi…

LSTM方法實踐——基于LSTM的汽車銷量時序建模與預測分析

Hi,大家好,我是半畝花海。本實驗基于汽車銷量時序數據,使用LSTM網絡(長短期記憶網絡)構建時間序列預測模型。通過數據預處理、模型訓練與評估等完整流程,驗證LSTM在短期時序預測中的有效性。 目錄 一、實驗…

Stable Diffusion教程|快速入門SD繪畫原理與安裝

什么是Stable Diffusion,什么是煉丹師?根據市場研究機構預測,到2025年全球AI繪畫市場規模將達到100億美元,其中Stable Diffusion(簡稱SD)作為一種先進的圖像生成技術之一,市場份額也在不斷增長&…

Webpack構建流程詳解優化前端性能\Dev-Server與Proxy\網絡攻擊\HMR

簡版 核心流程圖 根據,Webpack的構建流程分為初始化、編譯和輸出三個階段。初始化階段讀取配置、加載插件、實例化Compiler。編譯階段(構建依賴關系)涉及Compiler類的運行,生成Compilation對象,處理模塊依賴。輸出階…

《Transformer如何進行圖像分類:從新手到入門》

引言 如果你對人工智能(AI)或深度學習(Deep Learning)感興趣,可能聽說過“Transformer”這個詞。它最初在自然語言處理(NLP)領域大放異彩,比如在翻譯、聊天機器人和文本生成中表現出…

Java --- 根據身份證號計算年齡

介紹 根據身份證號計算年齡 Java代碼 /*** 根據身份證號計算年齡* param birthDateStr* return*/public static int calculateAge(String birthDateStr) {try {birthDateStrbirthDateStr.substring(6,68);// 定義日期格式SimpleDateFormat sdf new SimpleDateFormat("…

零成本搭建Calibre個人數字圖書館支持EPUB MOBI格式遠程直讀

文章目錄 前言1.網絡書庫軟件下載安裝2.網絡書庫服務器設置3.內網穿透工具設置4.公網使用kindle訪問內網私人書庫 前言 嘿,各位書蟲們!今天要給大家安利一個超級炫酷的技能——如何在本地Windows電腦上搭建自己的私人云端書庫。亞馬遜服務停了&#xff…

【Linux 指北】常用 Linux 指令匯總

第一章、常用基本指令 # 注意: # #表示管理員 # $表示普通用戶 [rootlocalhost Practice]# 說明此處表示管理員01. ls 指令 語法: ls [選項][目錄或文件] 功能:對于目錄,該命令列出該目錄下的所有子目錄與文件。對于文件&#xf…

跟蹤napi_gro_receive_entry時IP頭信息缺失的分析

問題描述 在使用eBPF程序跟蹤napi_gro_receive_entry內核跟蹤點時,發現獲取到的IP頭部字段(如saddr、daddr、protocol)為空值。 代碼如下: /* 自定義結構體來映射 napi_gro_receive_entry tracepoint 的 format */ struct napi…

Android子線程更新View的方法原理

對于所有的Android開發者來說,“View的更新必須在UI線程中進行”是一項最基本常識。 如果不在UI線程中更新View,系統會拋出CalledFromWrongThreadException異常。那么有沒有什么辦法可以不在UI線程中更新View?答案當然是有的! 一…

【Manus資料合集】激活碼內測渠道+《Manus Al:Agent應用的ChatGPT時刻》(附資源)

DeepSeek 之后,又一個AI沸騰,沖擊的不僅僅是通用大模型。 ——全球首款通用AI Agent的破圈啟示錄 2025年3月6日凌晨,全球AI圈被一款名為Manus的產品徹底點燃。由Monica團隊(隸屬中國夜鶯科技)推出的“全球首款通用AI…

Python----計算機視覺處理(opencv:像素,RGB顏色,圖像的存儲,opencv安裝,代碼展示)

一、計算機眼中的圖像 像素 像素是圖像的基本單元,每個像素存儲著圖像的顏色、亮度和其他特征。一系列像素組合到一起就形成 了完整的圖像,在計算機中,圖像以像素的形式存在并采用二進制格式進行存儲。根據圖像的顏色不 同,每個像…

SQLiteStudio:一款免費跨平臺的SQLite管理工具

SQLiteStudio 是一款專門用于管理和操作 SQLite 數據庫的免費工具。它提供直觀的圖形化界面,簡化了數據庫的創建、編輯、查詢和維護,適合數據庫開發者和數據分析師使用。 功能特性 SQLiteStudio 提供的主要功能包括: 免費開源,可…

【軟考網工-實踐篇】DHCP 動態主機配置協議

一、DHCP簡介 DHCP,Dynamic Host Configuration Protocol,動態主機配置協議。 位置:DHCP常見運行于路由器上,作為DHCP服務器功能:用于自動分配IP地址及其他網絡參數給網絡中的設備作用:簡化網絡管理&…

【Linux學習筆記】Linux用戶和文件權限的深度剖析

【Linux學習筆記】Linux用戶和文件權限的深度剖析 🔥個人主頁:大白的編程日記 🔥專欄:Linux學習筆記 前言 文章目錄 【Linux學習筆記】Linux用戶和文件權限的深度剖析前言一. Linux權限管理1.1 文件訪問者的分類(人)…

Centos離線安裝openssl-devel

文章目錄 Centos離線安裝openssl-devel1. openssl-devel是什么?2. openssl-devel下載地址3. openssl-devel安裝4. 安裝結果驗證 Centos離線安裝openssl-devel 1. openssl-devel是什么? openssl-devel 是 Linux 系統中與 OpenSSL 加密庫相關的開發包&…

深度學習篇---Opencv中Haar級聯分類器的自定義

文章目錄 1. 準備工作1.1安裝 OpenCV1.2準備數據集1.2.1正樣本1.2.2負樣本 2. 數據準備2.1 正樣本的準備2.1.1步驟2.1.2生成正樣本描述文件2.1.3示例命令2.1.4正樣本描述文件格式 2.2 負樣本的準備2.2.1步驟2.2.2負樣本描述文件格式 3. 訓練分類器3.1命令格式3.2參數說明 4. 訓…