scikit-learn/sklearn學習|嶺回歸解讀

【1】引言

前序學習進程中,對用scikit-learn表達線性回歸進行了初步解讀。
線性回歸能夠將因變量yyy表達成由自變量xxx、線性系數矩陣www和截距bbb組成的線性函數式:
y=∑i=1nwi?xi+b=wTx+by=\sum_{i=1}^{n}w_{i}\cdot x_{i}+b=w^T{x}+by=i=1n?wi??xi?+b=wTx+b實際上很多時候數據之間不一定是理想化的線性關系,所以需要對線性關系式進行修正,這個時候就可以考慮嶺回歸。

【2】嶺回歸的原理

嶺回歸是修正后的線性回歸,所以描述嶺回歸,必須先會議線性回歸。
在用scikit-learn表達線性回歸中,我們在代碼中使用了一個參數:均方誤差。

【2.1】線性回歸均方誤差

對于線性回歸,均方誤差的計算式子為:
L(w,b)=∑i=1n(yi?yi^)2=∑i=1n(yi?(wTxi+b))2L(w,b)=\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})^2=\sum_{i=1}^{n}(y_{i}-(w^Tx_{i}+b))^2L(w,b)=i=1n?(yi??yi?^?)2=i=1n?(yi??(wTxi?+b))2在這里,yyy是第i個樣本的真實值,y^\hat{y}y^?是第i個樣本的預測值。
線性回歸的均方誤差將真實值和預測值作差后求平方和即可。

【2.2】嶺回歸均方誤差

嶺回歸相對于線性回歸,均方誤差的計算式子增加了對參數權重平方和的計算,稱之為L2正則化懲罰項:
L(w,b)=∑i=1n(yi?yi^)2+α∑j=1mwj2=∑i=1n(yi?(wTxi+b))2+α∑j=1mwj2L(w,b)=\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})^2+\alpha\sum_{j=1}^{m}w_{j}^{2}=\sum_{i=1}^{n}(y_{i}-(w^Tx_{i}+b))^2+\alpha\sum_{j=1}^{m}w_{j}^{2}L(w,b)=i=1n?(yi??yi?^?)2+αj=1m?wj2?=i=1n?(yi??(wTxi?+b))2+αj=1m?wj2?在這里,yyy是第i個樣本的真實值,y^\hat{y}y^?是第i個樣本的預測值。
新增加的L2正則化懲罰項α∑j=1mwj2\alpha\sum_{j=1}^{m}w_{j}^{2}αj=1m?wj2?包括兩部分:
第一部分α>0\alpha>0α>0代表正則化強度,可以控制對第二項懲罰的力度;
第二部分∑j=1mwj2\sum_{j=1}^{m}w_{j}^{2}j=1m?wj2?是所有線性系數的平方和。
α\alphaα越大,懲罰項整體就會越大,這個時候往往需要將wjw_{j}wj?調小,也就是通過調整wj→0w_{j}\rightarrow 0wj?0來避免過度擬合;
α=0\alpha=0α=0,此時懲罰項不起作用,嶺回歸退化為線性回歸。

【2.3】嶺回歸的意義

嶺回歸通過添加懲罰項解決了線性回歸至少兩個問題:
多重共線性,當變量之間高度相關時,在線性回歸計算中可能獲得極大的wjw_{j}wj?,通過懲罰項可以將這些參數下降到較小的范圍,使得模型對數據波動的敏感性降低,從而獲得更加穩健的效果;
過擬合,當變量過多或者噪聲過大時,線性回歸可能過度擬合數據,懲罰項通過將線性系數wjw_{j}wj?調小,讓模型更傾向于關注整體趨勢而非噪音。

【3】總結

嶺回歸和線性回歸都是線性關系式的推演,但嶺回歸通過L2正則化懲罰項讓線性系數wjw_{j}wj?保持在合理且較小的范圍,讓回歸模型更穩健、更準確。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/92878.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/92878.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/92878.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

基于Django的圖書館管理系統的設計與實現

基于Django的圖書館管理系統的設計與實現、

ComfyUI版本更新---解決ComfyUI的節點不兼容問題

前言: 新版本的COMFYUI與節點容易出現不兼容的問題,會導致整個系統崩掉。 目錄 一、前期準備工作:虛擬環境配置 為什么需要虛擬環境? 具體操作步驟 二、常見問題解決方案 1、工作流輸入輸出圖像不顯示問題 2、工作流不能拖動&#xff0…

生產管理ERP系統|物聯及生產管理ERP系統|基于SprinBoot+vue的制造裝備物聯及生產管理ERP系統設計與實現(源碼+數據庫+文檔)

生產管理ERP系統 目錄 基于SprinBootvue的制造裝備物聯及生產管理ERP系統設計與實現 一、前言 二、系統設計 三、系統功能設計 四、數據庫設計 五、核心代碼 六、論文參考 七、最新計算機畢設選題推薦 八、源碼獲取: 博主介紹:??大廠碼農|畢…

Numpy科學計算與數據分析:Numpy數組創建與應用入門

Numpy數組創建實戰 學習目標 通過本課程的學習,學員將掌握使用Numpy庫創建不同類型的數組的方法,包括一維數組、多維數組、全零數組、全一陣列、空數組等。本課程將通過理論講解與實踐操作相結合的方式,幫助學員深入理解Numpy數組的創建過程…

如何回收內存對象,有哪些回收算法?

它的主要不足有兩個: 效率問題,標記和清除兩個過程的效率都不高。 空間問題,標記清除之后會產生大量不連續的內存碎片,空間碎片太多可能會導致以后在程序運行過程中需 要分配較大對象時,無法找到足夠的連續內存而不得不…

Numpy科學計算與數據分析:Numpy文件操作入門之數組數據的讀取和保存

Numpy文件讀寫實戰 學習目標 通過本課程,學員將深入了解如何使用Numpy庫進行數組數據的讀取和保存,包括文本文件和二進制文件的處理方法。通過本課程的學習,學員將能夠熟練掌握Numpy在文件操作中的應用,為數據處理和分析打下堅實…

AutoMQ-Kafka的替代方案實戰

AutoMQ無縫兼容kafka,并且借助S3實現數據統一存儲。這個確實解決了大問題! 1. Kafka的挑戰 橫向擴展困難:擴容kafka需要手動創建分區遷移策略和復制分區數據。這個過程不僅風險高、資源密集而且耗時。存儲成本高:計算和存儲在kaf…

Numpy科學計算與數據分析:Numpy線性代數基礎與實踐

Numpy線性代數實踐:從矩陣乘法到特征值 學習目標 通過本課程,學員將掌握Numpy中處理線性代數問題的基本方法,包括矩陣乘法、求解線性方程組以及計算特征值和特征向量。本課程將通過理論與實踐相結合的方式,幫助學員深入理解這些…

CrackMapExec--安裝、使用

用途限制聲明,本文僅用于網絡安全技術研究、教育與知識分享。文中涉及的滲透測試方法與工具,嚴禁用于未經授權的網絡攻擊、數據竊取或任何違法活動。任何因不當使用本文內容導致的法律后果,作者及發布平臺不承擔任何責任。滲透測試涉及復雜技…

深入理解模板方法模式:框架設計的“骨架”藝術

目錄 前言 一、模板方法模式的核心思想 二、模板方法模式的結構組成 1. 抽象類(Abstract Class) 2. 具體子類(Concrete Class) 三、C 實現示例:咖啡與茶的制作流程 步驟 1:定義抽象類(飲料…

LinkedList 深度解析:核心原理與實踐

文章目錄 一、底層數據結構與特性 1. 核心數據結構 2. 關鍵特性 二、核心操作機制解析 1. 添加元素機制 2. 刪除元素機制 三、性能關鍵點分析 1. 時間復雜度對比 2. 空間開銷 四、線程安全解決方案 1. 同步包裝器 2. 使用并發集合 五、經典面試題解析 1. ArrayList 和 LinkedLi…

Jmeter性能測試之安裝及啟動Jmeter

1. 安裝JDK Jmeter依賴JDK環境,如果電腦沒有JDK,需要安裝JDK.如下是Jmeter版本與JDK版本對應關系. 2. Jmeter下載安裝 下載鏈接:https://archive.apache.org/dist/jmeter/binaries/ windows下載.zip壓縮包Linux下載.tar壓縮包 下一步下一步就行 3. 配置環境變…

ShadowKV 機制深度解析:高吞吐長上下文 LLM 推理的 KV 緩存“影子”方案

背景與核心思想簡介 在LLM的長上下文推理中,KV Cache成為影響速度和內存的關鍵因素。每生成一個新token,模型需要對所有先前token的鍵(Key)和值(Value)向量執行自注意力計算。傳統方法會將所有過去的K/V向量…

spring-ai整合PGVector實現RAG

背景 最近公司的產品和業務線,要求往ai方向靠攏,在研發各種智能體,整理下最近學習的過程,將一部分內容整理出來,分享給需要的同學。 這篇文章將會提供詳細的例子以及踩坑說明。主要內容是整合spring-ai,同…

Git 亂碼文件處理全流程指南

一、問題背景與核心目標 1.1 問題描述 在 Git 倉庫中發現了一個異常亂碼文件: "\001\342\240\025\250\325\3738\f\036\035\006\004\240\002\240\002\b\003\004\340\002\340\002\340\002\034\034\001\001\004:\016\020\001\005\016\016\016\211\266\257\211\266…

JavaScript垃圾回收機制

1.垃圾回收的概念 1.1 什么是垃圾回收機制: GC 即 Garbage Collection ,程序工作過程中會產生很多"垃圾",這些垃圾是程序不用的內存或者是之前用過了,以后不會再用的內存空間,而 GC 就是負責回收垃圾的&…

工業相機選擇規則

一、相機分辨率選擇相機分辨率指的是相機傳感器捕捉圖像細節的能力,具體來說就是傳感器上有效像素的總數量。可以把它理解為構成數字圖像的“小方塊”(像素)有多少個。工業領域內相機的分辨率的選擇根據更具產品需要的精度要求和產品大小來確…

【Web安全】csrf、ssrf和xxe的區別

CSRF、SSRF 和 XXE 是三種不同類型的網絡安全漏洞,它們的原理、攻擊目標、利用方式和危害場景均有顯著區別。以下從核心定義、原理、場景等維度詳細對比三者的差異。一、核心定義與原理對比漏洞類型全稱核心定義核心原理CSRF跨站請求偽造攻擊者誘導用戶在已登錄的情…

【Lua】XLua一鍵構建工具

將以下代碼放入Editor文件夾&#xff0c;點擊菜單欄的XLua/一鍵生成代碼和熱補丁 即可。using System; using System.Collections.Generic; using System.Linq; using System.Reflection; using UnityEditor; using UnityEngine;/// <summary> /// XLua自動化構建工具 //…

20250808:EasyGBS 對接大華 ICC 平臺問題處理

最近有個現場在對接大華 ICC 平臺時&#xff0c;客戶反饋&#xff1a;EasyGBS 級聯成功&#xff0c;但 ICC 顯示下級離線。EasyGBS 成功對接過很多家國標平臺&#xff0c;但這種情況確實少見。我們遠程過去確認配置無誤后&#xff0c;就進行了抓包&#xff0c;拿到包我就納悶了…