【機器學習筆記Ⅰ】9 特征縮放

特征縮放(Feature Scaling)詳解

特征縮放是機器學習數據預處理的關鍵步驟,旨在將不同特征的數值范圍統一到相近的尺度,從而加速模型訓練、提升性能并避免某些特征主導模型。


1. 為什么需要特征縮放?

(1) 問題背景

  • 量綱不一致:例如:
    • 特征1:年齡(范圍 0-100)
    • 特征2:收入(范圍 0-1,000,000)
  • 梯度下降的困境
    • 量綱大的特征(如收入)會導致梯度更新方向偏離最優路徑,收斂緩慢。
    • 量綱小的特征(如年齡)的權重更新可能被忽略。

(2) 影響

  • 模型收斂慢:梯度下降需要更多迭代。
  • 某些算法失效
    • 距離類算法(如KNN、SVM)受特征尺度直接影響。
    • 正則化模型(如嶺回歸)對未縮放的系數懲罰不均。

2. 常用特征縮放方法

(1) 標準化(Standardization)

  • 公式
    [
    x’ = \frac{x - \mu}{\sigma}
    ]
    • ( \mu ):特征均值,( \sigma ):標準差。
  • 結果:數據均值為0,方差為1(服從標準正態分布)。
  • 適用場景:大多數算法(如線性回歸、神經網絡)。

Python實現

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

(2) 歸一化(Normalization)

  • 公式(Min-Max縮放):
    [
    x’ = \frac{x - \min(x)}{\max(x) - \min(x)}
    ]
  • 結果:數據被壓縮到 [0, 1] 區間。
  • 適用場景:圖像像素值、神經網絡輸入層。

Python實現

from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

(3) 魯棒縮放(Robust Scaling)

  • 公式
    [
    x’ = \frac{x - \text{median}(x)}{\text{IQR}(x)}
    ]
    • IQR(四分位距)= Q3 - Q1。
  • 特點:抗異常值干擾。
  • 適用場景:數據含離群點時。

3. 不同算法的需求

算法類型是否需要特征縮放原因
梯度下降類必須(如線性回歸、神經網絡)加速收斂,避免震蕩。
距離類(KNN、SVM)必須距離計算依賴特征尺度。
樹模型(決策樹、隨機森林)不需要基于特征排序,不受尺度影響。
正則化模型(Lasso/Ridge)必須公平懲罰各特征系數。

4. 代碼示例對比

未縮放的梯度下降問題

import numpy as np# 未縮放的數據(年齡 vs 收入)
X = np.array([[30, 50000], [40, 60000], [25, 30000]])
y = np.array([1, 2, 0])# 梯度下降(收斂慢)
def gradient_descent(X, y, lr=0.000001, epochs=100):w = np.zeros(X.shape[1])for _ in range(epochs):y_pred = X.dot(w)grad = X.T.dot(y_pred - y) / len(y)w -= lr * gradreturn ww = gradient_descent(X, y)  # 需要極小的學習率和大量迭代

縮放后的優化效果

from sklearn.preprocessing import StandardScalerscaler = StandardScaler()
X_scaled = scaler.fit_transform(X)w_scaled = gradient_descent(X_scaled, y, lr=0.1)  # 學習率更大,收斂更快

5. 注意事項

  1. 劃分數據后縮放:先拆分訓練集/測試集,僅用訓練集統計量(均值、方差)縮放測試集,避免數據泄漏。
    scaler.fit(X_train)  # 僅用訓練集計算參數
    X_train_scaled = scaler.transform(X_train)
    X_test_scaled = scaler.transform(X_test)  # 測試集用相同的scaler
    
  2. 分類特征:獨熱編碼后的二元特征通常無需縮放。
  3. 樹模型例外:決策樹類模型不依賴特征尺度,但縮放有時能提升計算效率。

6. 總結

  • 核心目標:消除特征間的量綱差異,使模型公平對待每個特征。
  • 方法選擇
    • 默認用標準化(StandardScaler)。
    • 數據有界時用歸一化(MinMaxScaler)。
    • 含離群點時用魯棒縮放(RobustScaler)。
  • 關鍵口訣

    “梯度下降必縮放,距離模型量綱關;
    樹模型前可忽略,防漏數據記心間。”


本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/88251.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/88251.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/88251.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

10.9 大模型訓練數據優化實戰:3步讓準確率從68%飆升至79%

大模型訓練過程分析與數據優化 一、訓練過程關鍵指標分析 (插入mermaid流程圖:訓練過程監控與優化閉環) #mermaid-svg-Gni031LkHA93fQYM {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-Gni031LkHA93fQYM .erro…

深度學習模型在C++平臺的部署

一、概述深度學習模型能夠在各種生產場景中發揮重要的作用,而深度學習模型往往在Python環境下完成訓練,因而訓練好的模型如何在生產環境下實現穩定可靠的部署,便是一個重要內容。C開發平臺廣泛存在于各種復雜的生產環境,隨著業務效…

若以部署在linux,nginx反向代理,登錄404,刷新404問題

history模式在router下面的index.js文件的最下面history: createWebHistory(import.meta.env.VITE_APP_CONTEXT_PATH),這兩個配置文件都加上然后nginx里面的配置是這個位置按照實際情況,我的是用docker掛載的,所以在/usr/share/nginx/html/lw-clothing為…

SQL Server通過存儲過程實現HTML頁面生成

引言在現代企業應用中,數據可視化是提升決策效率的關鍵。SQL Server作為核心數據庫管理系統,不僅處理數據存儲和查詢,還具備強大的擴展能力。通過存儲過程直接生成HTML頁面,企業能減少對中間層(如Web服務器或應用程序&…

qt繪制餅狀圖并實現點擊即放大點擊部分

做得比較low #ifndef TEST_POWER_H #define TEST_POWER_H#include <QWidget> #include <QtMath> #include <QPainter> #include <QPushButton> #include <QVector> #include <cmath>namespace Ui { class test_power; } struct PieData {Q…

HashMap的put、get方法詳解(附源碼)

put方法 HashMap 只提供了 put 用于添加元素&#xff0c;putVal 方法只是給 put 方法調用的一個方法&#xff0c;并沒有提供給用戶使用。 對 putVal 方法添加元素的分析如下&#xff1a;如果定位到的數組位置沒有元素 就直接插入。如果定位到的數組位置有元素就和要插入的 key …

雙立柱式帶鋸床cad【1張總圖】+設計說明書+絳重

雙立柱式帶鋸床 摘 要 隨著機械制造技術的進步&#xff0c;制造業對于切割設備的精度、效率和穩定性要求越來越高。雙立柱式帶鋸床作為一種重要的切割設備&#xff0c;必須能夠滿足工業生產對于高精度、高效率的需求。 雙立柱式帶鋸床是一種重要的工業切割設備&#xff0c;其結…

在線JS解密加密配合ECC保護

在線JS解密加密配合ECC保護 1. ECC加密簡介 定義 ECC&#xff08;Elliptic Curve Cryptography&#xff09;是一種基于橢圓曲線數學的公鑰加密技術&#xff0c;利用橢圓曲線離散對數問題&#xff08;ECDLP&#xff09;實現高安全性。 背景 1985年&#xff1a;Koblitz&#xff0…

使用 Docker Compose 簡化 INFINI Console 與 Easysearch 環境搭建

前言回顧 在上一篇文章《搭建持久化的 INFINI Console 與 Easysearch 容器環境》中&#xff0c;我們詳細介紹了如何使用基礎的 docker run 命令&#xff0c;手動啟動和配置 INFINI Console (1.29.6) 和 INFINI Easysearch (1.13.0) 容器&#xff0c;并實現了關鍵數據的持久化&…

Word 怎么讓段落對齊,行與行之間寬一點?

我們來分兩步解決&#xff1a;段落對齊 和 調整行距。 這兩個功能都集中在Word頂部的【開始】選項卡里的【段落】區域。 第一步&#xff1a;讓段落對齊 “對齊”指的是段落的左右邊緣如何排列。通常有四種方式。 操作方法&#xff1a;將鼠標光標點在你想修改的那個段落里的任意…

Attention機制完全解析:從原理到ChatGPT實戰

一、Attention的本質與計算步驟 1.1 核心思想 動態聚焦&#xff1a;Attention是一種信息分配機制&#xff0c;讓模型在處理輸入時動態關注最重要的部分。類比&#xff1a;像人類閱讀時用熒光筆標記關鍵句子。 1.2 計算三步曲&#xff08;以"吃蘋果"為例&#xff09; …

2025年3月青少年電子學會等級考試 中小學生python編程等級考試三級真題答案解析(判斷題)

博主推薦 所有考級比賽學習相關資料合集【推薦收藏】1、Python比賽 信息素養大賽Python編程挑戰賽 藍橋杯python選拔賽真題詳解

HTML5 新特性詳解:從語義化到多媒體的全面升級

很多小伙伴本都好奇&#xff1a;HTML5有什么功能是以前的HTML沒有的&#xff1f; 今天就給大家說道說道 HTML5 作為 HTML 語言的新一代標準&#xff0c;帶來了諸多革命性的新特性。這些特性不僅簡化了前端開發流程&#xff0c;還大幅提升了網頁的用戶體驗和功能性。本文將深入…

mac安裝docker

1、下載docker-desktop https://www.docker.com/products/docker-desktop/2、安裝&#xff0c;雙擊安裝 3、優化docker配置 默認配置 cat ~/Library/Group\ Containers/group.com.docker/settings-store.json {"AutoStart": false,"DockerAppLaunchPath": …

mapbox進階,繪制不隨地圖旋轉的矩形,保證矩形長寬沿屏幕xy坐標方位

????? 主頁: gis分享者 ????? 感謝各位大佬 點贊?? 收藏? 留言?? 加關注?! ????? 收錄于專欄:mapbox 從入門到精通 文章目錄 一、??前言1.1 ??mapboxgl.Map 地圖對象1.2 ??mapboxgl.Map style屬性1.3 ??line線圖層樣式1.4 ??circle點圖層樣…

${project.basedir}延申出來的Maven內置的一些常用屬性

如&#xff1a;${project.basedir} 是 Maven 的內置屬性&#xff0c;可以被 pom.xml 直接識別。它表示當前項目的根目錄&#xff08;即包含 pom.xml 文件的目錄&#xff09;。 Maven 內置的一些常用屬性&#xff1a; 項目相關&#xff1a; ${project.basedir} <!-- 項…

[特殊字符] Python 批量生成詞云:讀取詞頻 Excel + 自定義背景 + Excel to.png 流程解析

本文展示如何用 Python 從之前生成的詞頻 Excel 文件中讀取詞頻數據&#xff0c;結合 wordcloud 和背景圖&#xff0c;批量生成直觀美觀的詞云圖。適用于文本分析、內容展示、報告可視化等場景。 &#x1f4c2; 第一步&#xff1a;讀取所有 Excel 詞頻文件 import os from ope…

模擬網絡請求的C++類設計與實現

在C開發中&#xff0c;理解和模擬網絡請求是學習客戶端-服務器通信的重要一步。本文將詳細介紹一個模擬HTTP網絡請求的C類庫設計&#xff0c;幫助開發者在不涉及實際網絡編程的情況下&#xff0c;理解網絡請求的核心概念和工作流程。 整體架構設計 這個模擬網絡請求的類庫主要由…

移動機器人的認知進化:Deepoc大模型重構尋跡本質

統光電尋跡技術已逼近物理極限。當TCRT5000傳感器在強烈環境光下失效率超過37%&#xff0c;當PID控制器在路徑交叉口產生63%的決策崩潰&#xff0c;工業界逐漸意識到&#xff1a;導引線束縛的不僅是車輪&#xff0c;更是機器智能的演化可能性。 ?技術破局點出現在具身認知架構…

記錄一次pip安裝錯誤OSError: [WinError 32]的解決過程

因為要使用 PaddleOCR&#xff0c;需要安裝依賴。先通過 conda新建了虛擬環境&#xff0c;然后安裝 PaddlePaddle&#xff0c;繼續安裝 PaddleOCR&#xff0c;上述過程我是在 VSCode的終端中處理&#xff0c;結果報錯如下&#xff1a;Downloading multidict-6.6.3-cp312-cp312-…