L1、L2正則化的幾何解釋

L2正則化:

圖中用幾何方式形象地解釋了 Ridge 回歸(L2正則化)的原理。

① 陰影圓:可以理解為(w1^2 + w2^2)?≤R^2,圓周表示目標函數的約束線,這個圓表示了我們的參數?(w1,w2)可以活動的范圍。

  • 為什么要約束??因為如果權重太大,模型在訓練集上可能表現極好(擬合很好),但在新數據上的表現會大幅下降(過擬合)。
  • R 越小意味著什么?圓變小,給權重的空間就越小,懲罰越強,模型更簡單,更不容易過擬合。R 越大,模型約等于普通線性回歸(無正則化)。

② 最小化成本點(最小二乘估計點)在圖中心的黑點,就是普通線性回歸的最小二乘解,也就是“擬合訓練數據最好的點”

  • 用等高線(橢圓)表現:圖里一圈一圈的橢圓,代表對于不同?(w1,w2)參數組合的損失(成本)大小。
    • 離中心越近,損失越小(擬合訓練集效果越好)。
    • 離中心越遠,損失越大(擬合效果變差)。
  • 過擬合的風險:最小化成本點其實對訓練集來說是最優解,但往往會過擬合,也就是在新數據上表現很差。所以我們不總是選這個點作為模型的最終解。

我們的目標:不是單純讓損失最小,而是讓損失和權重大小都要“

約束下的最優解是什么?

  • 如果沒有約束,解就在最小化成本點(中心)。
  • 有了約束之后,我們只能在圓內找解:我們希望找一個既讓損失足夠小,又不會讓參數過大(也就是不過擬合)

最終解的位置

  • 這就是圖里圓和某個等高線“剛好相切”的那個點,既滿足了“損失盡量小”,又不超出圓圈(不讓參數過大)。這個點就是 帶有L2懲罰的解。

L1正則化:

L1, L2 的區別

對于 L2 來說,限定區域是圓,這樣,得到的解 w1 或 w2 為 0 的概率很小,很大概率是非零的。

對于 L1 來說,限定區域是正方形,方形的最優解位置通常是在是尖銳點,這從視覺和常識上來看是很容易理解的。也就是說,方形的凸點會更接近最優解對應的 w 位置,而從圖中我們可以知道凸點處必有 w1 或 w2 為 0。這樣,得到的解 w1 或 w2 為零的概率就很大了。

reference:

以幾何思維理解L1&L2正則化 - 簡書

(5 封私信) 【通俗易懂】機器學習中 L1 和 L2 正則化的直觀解釋 - 知乎

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/91805.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/91805.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/91805.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【學習筆記】Java并發編程的藝術——第1章 并發編程的挑戰

第1章 并發編程的挑戰 1.1 上下文切換 即使是單核處理器也支持多線程執行代碼,CPU給每個線程分配CPU時間片實現多線程,而每個時間片一般是幾十毫秒,所以多個線程感覺是同時執行的 但同一個核切換線程執行時會保存運行狀態,以便下次…

leecode3 無重復元素的最長子串

我的思路 原始代碼 我發現我雖然解決問題了,但是我的思路不簡潔,不明白。 這個題本質上還是滑動窗口的問題。 具體思路為先定義兩個指針,對應滑動窗口的兩個邊界關鍵是:定義一個集合,來判斷這個窗口中的元素是否存在重…

【嵌入式匯編基礎】-ARM架構基礎(三)

ARM架構基礎(三) 文章目錄 ARM架構基礎(三) 7、AArch64 執行狀態 7.3 程序計數器 7.4 堆棧指針 7.5 零寄存器 7.6 鏈接寄存器 7.7 幀指針 7.8 平臺寄存器 (x18) 7.9 過程內調用寄存器 7.10 SIMD 和浮點寄存器 7.11 系統寄存器 7.13 PSTATE 7、AArch64 執行狀態 7.3 程序計…

[buuctf-misc]喵喵喵

m題目在線評測BUUCTF 是一個 CTF 競賽和訓練平臺,為各位 CTF 選手提供真實賽題在線復現等服務。https://buuoj.cn/challenges#%E5%96%B5%E5%96%B5%E5%96%B5BUUCTF 是一個 CTF 競賽和訓練平臺,為各位 CTF 選手提供真實賽題在線復現等服務。https://buuoj.…

Vue 詳情模塊 2

Vue 漸進式JavaScript 框架 基于Vue2的移動端項目:詳情基礎內容,日期及電影描述 目錄 詳情 詳情基礎內容 初始化與賦值 渲染基礎內容 詳情樣式 日期處理 安裝moment 定義過濾器 使用過濾器 電影描述 總結 詳情 詳情基礎內容 初始化與賦值 …

【MODIS數據】MYD03

🌍 遙感數據的“導航儀”:深入解析MYD03地理定位產品 在衛星遙感領域,精確的地理定位是數據應用的基礎。作為Aqua衛星中分辨率成像光譜儀(MODIS)的核心支撐產品,MYD03雖不如地表溫度或植被指數產品知名&am…

如何填寫PDF表格的例子

實際應用場景中,我們會遇到需要根據會話內容自動填寫表格的情況,比如:pdf 表格。假設根據會話內容已經獲得相關信息,下面以填寫個人信息為例來說明。個人信息表格.pdf填寫后的效果:填寫代碼如下:from pdfrw…

2023年影響重大的網絡安全典型案例

以下是2023年影響重大的網絡安全典型案例,按時間順序梳理事件經過及技術細節:---一、DeFi協議攻擊:dForce借貸協議遭入侵(2023年4月)** - 時間線: - 4月19日08:58:黑客開始攻擊Lendf.Me合約&…

Vue 響應式基礎全解析2

DOM更新時機 修改響應式狀態后,DOM更新不是同步的。Vue會緩沖所有修改,在"next tick"周期中統一更新,確保每個組件只更新一次。 如需在DOM更新后執行代碼,可使用nextTick(): import {nextTick } from vueasync function increment() {count.value++

【黑馬SpringCloud微服務開發與實戰】(九)elasticsearch基礎

1. 認識elasticsearch2. 認識和安裝ES主播這里之前已經安裝好了,資料包里面有鏡像 docker run -d \--name es \-e "ES_JAVA_OPTS-Xms512m -Xmx512m" \-e "discovery.typesingle-node" \-v es-data:/usr/share/elasticsearch/data \-v es-plugin…

由淺入深地講清楚瀏覽器緩存

一、什么是瀏覽器緩存?(入門級) 1. 瀏覽器緩存的定義瀏覽器緩存就是:瀏覽器把之前請求過的資源保存起來,下次訪問同樣的資源時可以直接用本地副本,而不是重新請求服務器。舉個生活例子: 你第一次…

Linux I/O 多路復用機制對比分析:poll/ppoll/epoll/select

Linux I/O 多路復用機制對比分析:poll/ppoll/epoll/select 1. 概述 I/O 多路復用是現代高性能網絡編程的核心技術,它允許單個線程同時監視多個文件描述符的狀態變化,從而實現高效的并發處理。Linux 提供了多種 I/O 多路復用機制&#xff0c…

高防服務器租用:保障數據安全

您的網絡速度是否卡頓,業務是否經常受到網絡攻擊的威脅呢?別擔心,高防服務器租用能夠幫助你解決這些困擾!高防服務器租用擁有著卓越的防御能力,可以幫助企業抵御各種網絡攻擊,能夠輕松化解各種超大流量的網…

基于python多光譜遙感數據處理、圖像分類、定量評估及機器學習方法應用

基于衛星或無人機平臺的多光譜數據在地質、土壤調查和農業等應用領域發揮了重要作用,在地質應用方面,綜合Aster的短波紅外波段、landsat熱紅外波段等多光譜數據,可以通過不同的多光譜數據組合,協同用于礦物信息有效提取。第一&…

CSS content-visibility:提升頁面渲染性能的 “智能渲染開關”

在前端開發中,你是否遇到過這樣的問題:頁面包含大量 DOM 元素(如長列表、復雜表格)時,滾動變得卡頓,交互響應遲緩?這往往是因為瀏覽器需要不斷渲染屏幕外的元素,浪費了大量計算資源。…

Javascript面試題及詳細答案150道之(016-030)

《前后端面試題》專欄集合了前后端各個知識模塊的面試題,包括html,javascript,css,vue,react,java,Openlayers,leaflet,cesium,mapboxGL,threejs&…

仿真電路:(十七下)DC-DC升壓壓電路原理簡單仿真

1.前言 升壓的環境用的沒降壓的多,但是升壓會用在LED的很多電路上,所以理解一下原理 2.DC-DC升壓原理簡單仿真 升壓原理 下面還是對升壓進行簡單的仿真 拓撲結構以及原理和降壓還是很相似的,只是位置不太一樣,過程推導就不推導…

ros2--source

setup腳本類型 install下面會有幾個setup.xxx的shell腳本。 setup.bash setup.ps1 setup.sh setup.zsh 什么區別呢 文件名 Shell 類型 適用場景 setup.bash Bash (Linux/macOS) 標準 Linux/macOS 終端(默認使用) setup.sh 通用 Shell 兼容性更廣,但功能可能受限 setu…

40.MySQL事務

1.事務的作用事務用于保證數據的一致性,它由一組相關的 dml (update delete insert) 語句組成,該組的 dml (update delete insert) 語句要么全部成功,要么全部失敗。如:轉賬就要用事務來處理,用以保證數據的一致性。假…

java導入pdf(攜帶動態表格,圖片,純java不需要模板)

java導出pdf文件一、介紹二、準備三、實現效果四、代碼一、介紹 上一篇文章(java使用freemarker操作word(攜帶動態表格,圖片))https://blog.csdn.net/weixin_45853881/article/details/129298494 緊跟上文&#xff0c…