機器學習第十一講:標準化 → 把厘米和公斤單位統一成標準值

機器學習第十一講:標準化 → 把厘米和公斤單位統一成標準值

資料取自《零基礎學機器學習》。
查看總目錄:學習大綱

關于DeepSeek本地部署指南可以看下我之前寫的文章:DeepSeek R1本地與線上滿血版部署:超詳細手把手指南


一、買菜稱重比喻 🥦(類似材料2的異質數據說明[2])

想象超市有2種秤:

  • 磅秤(公斤):西紅柿稱重1.5kg → 1500g
  • 市斤秤(斤):茄子稱重3斤 → 1500g

雖然實際重量相同,但模型會將"斤"單位誤判為小茄子[2]

原數據
單位是否統一?
模型可直接使用
標準化處理(均值=0,標準差=1)
公平比較所有特征

二、標準化公式廚房教程 💡(引用材料1的標準差公式[1]

配方:
原始數據 → 均值減法 → 標準差除法

像炒菜先洗菜再切塊,保證原材料處理統一

具體步驟

  1. 計算集體均值

    • 所有身高相加 ÷ 人數 = 平均身高(類似班級平均分)
    • 所有體重相加 ÷ 人數 = 平均體重
  2. 測量差異幅度(標準差)

    每個人身高與均值的差值
    平方求和
    (平方和)/人數=方差
    開平方得標準差σ
  3. 轉換標準值

    • (原值 - 均值)÷ 標準差 = 標準化值[1]

三、運動員體檢案例 🏃(結合材料6的圖像數據處理[6]

初始數據

姓名身高(cm)體重(kg)
張三19895
李四17570
王五16758

標準化后

姓名z_身高z_體重
張三1.731.44
李四0.120.20
王五-0.85-1.05

通過材料2的歸一化處理思想[2],消除單位差異


四、代碼實操手冊 💻(參考材料6的MNIST數據處理[6]

from sklearn.preprocessing import StandardScaler
import pandas as pd# 創建示例數據
data = [[198,95], [175,70], [167,58]]
df = pd.DataFrame(data, columns=['身高','體重'])# 初始化標準化器(引用材料4的正則化對比[4])
scaler = StandardScaler()# 關鍵步驟(參考材料1的數學原理[1])
scaled_data = scaler.fit_transform(df)print("標準化后數據:\n", scaled_data)
"""
輸出:
[[ 1.73241126  1.43724252][ 0.1220428   0.20219468][-0.85445406 -1.05081984]]
"""

五、常見誤區對照表 ??(類似材料2的特征縮放原則[2]

錯誤類型后果示例正確處理技巧
未區分訓練/測試集測試數據使用訓練集參數存儲訓練集的均值和標準差 [3]
忽略離散型特征性別(0/1)被錯誤縮放只對連續型特征標準化 [2]
重復標準化兩次縮放導致數據失真sca ler只擬合一次 [6]

六、服裝廠質檢案例 🧥(參考材料5的混淆矩陣評估[5]

某工廠測量T恤尺寸誤差(厘米):

43% 57% 標準化前后的質檢準確率 標準化前 標準化后

通過3次實驗對比發現:
標準化后的誤差檢測準確率提升22%(類似材料5的模型評估[5])


七、知識要點總結 📌

  1. 運算原理:均值歸零 → 標準差歸一[1]
    • 優點:消除量綱差異,加速模型訓練(引用材料6的圖像處理實戰[6])
  2. 適用場景:包含不同量級的連續型數據(溫度/濕度/光照強度)
  3. 對比特征:與規范化(歸一化)的核心區別在于改變數據分布[4]
  4. 驗證方法:使用標準差檢查處理結果是否≈1,均值≈0[1]

目錄:總目錄
上篇文章:機器學習第十講:異常值檢測 → 發現身高填3米的不合理數據
下篇文章:機器學習第十二講:特征選擇 → 選最重要的考試科目做錄取判斷


[1]《零基礎學機器學習》的標準差公式與數據標準化流程
[2]《零基礎學機器學習》的異質數據處理原則
[3]《零基礎學機器學習》的張量變形方法基礎
[4]《零基礎學機器學習》的正則化與標準化對比說明
[6]《零基礎學機器學習》的標準化實戰應用場景

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/80841.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/80841.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/80841.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

less中使用 @supports

在Less中使用supports supports 是CSS的條件規則,用于檢測瀏覽器是否支持特定的CSS屬性或值。在Less中,你可以像在普通CSS中一樣使用supports,同時還能利用Less的特性來增強它。 基本用法 /* 檢測瀏覽器是否支持display: flex */ supports …

LeetCode Hot100 (1/100)

目錄 一、有關數組和動態數組的排序(sort函數) 1.普通數組的排序 基本用法 降序排序 2.vector的排序 基本用法 降序排序 二、數組長度和一些vector的基本語法 1. 靜態數組長度計算? 2. 安全獲取數組長度(C17 起)? 3.vecto…

通過MCP讓LLM調用系統接口

場景 MCP的出現大大豐富了LLM的功能,對于存量系統,我們希望能讓模型調用已有的接口,以最小的成本讓AI能夠獲取系統內部數據。因此我們開發了一個名為http-api-call的MCP Server,來支持模型到內部API的調用 實現方案 使用用標準…

基于Transformer的多資產收益預測模型實戰(附PyTorch實現與避坑指南)

基于Transformer的多資產收益預測模型實戰(附PyTorch模型訓練及可視化完整代碼) 一、項目背景與目標 在量化投資領域,利用時間序列數據預測資產收益是核心任務之一。傳統方法如LSTM難以捕捉資產間的復雜依賴關系,而Transformer架構通過自注意力機制能有效建模多資產間的聯…

養生:打造健康生活的全方位策略

在生活節奏不斷加快的當下,養生已成為提升生活質量、維護身心平衡的重要方式。從飲食、運動到睡眠,再到心態調節,各個方面的養生之道共同構建起健康生活的堅實基礎。以下為您詳細介紹養生的關鍵要點,助您擁抱健康生活。 飲食養生…

輕型汽車鼓式液壓制動器系統設計

一、設計基礎參數 1.1 整車匹配參數 參數項數值范圍整備質量1200-1500kg最大設計車速160km/h輪胎規格195/65 R15制動法規要求GB 12676-2014 1.2 制動性能指標 制動減速度:≥6.2m/s(0型試驗) 熱衰退率:≤30%(連續10…

無法更新Google Chrome的解決問題

解決問題:原文鏈接:【百分百成功】Window 10 Google Chrome無法啟動更新檢查(錯誤代碼為1:0x80004005) google谷歌chrome瀏覽器無法更新Chrome無法更新至最新版本? 下載了 就是更新Google Chrome了

【AAAI 2025】 Local Conditional Controlling for Text-to-Image Diffusion Models

Local Conditional Controlling for Text-to-Image Diffusion Models(文本到圖像擴散模型的局部條件控制) 文章目錄 內容摘要關鍵詞作者及研究團隊項目主頁01 研究領域待解決問題02 論文解決的核心問題03 關鍵解決方案04 主要貢獻05 相關研究工作06 解決…

Kuka AI音樂AI音樂開發「人聲伴奏分離」 —— 「Kuka Api系列|中文咬字清晰|AI音樂API」第6篇

導讀 今天我們來了解一下 Kuka API 的人聲與伴奏分離功能。 所謂“人聲伴奏分離”,顧名思義,就是將一段完整的音頻拆分為兩個獨立的軌道:一個是人聲部分,另一個是伴奏(樂器)部分。 這個功能在音樂創作和…

Idea 設置編碼UTF-8 Idea中 .properties 配置文件中文亂碼

Idea 設置編碼UTF-8 Idea中 .properties 配置文件中文亂碼 一、設置編碼 1、步驟: File -> Setting -> Editor -> File encodings --> 設置編碼二、配置文件中文亂碼 1、步驟: File -> Setting -> Editor -> File encodings ->…

Xilinx FPGA PCIe | XDMA IP 核 / 應用 / 測試 / 實踐

注:本文為 “Xilinx FPGA 中 PCIe 技術與 XDMA IP 核的應用” 相關文章合輯。 圖片清晰度受引文原圖所限。 略作重排,未整理去重。 如有內容異常,請看原文。 FPGA(基于 Xilinx)中 PCIe 介紹以及 IP 核 XDMA 的使用 N…

sqli—labs第六關——雙引號報錯注入

一:判斷輸入類型 首先測試 ?id1,?id1,?id1",頁面回顯均無變化 所以我們采用簡單的布爾測試,分別測試數字型,單引號,雙引號 然后發現,只有在測試到雙引號注入的時候符合關鍵…

【TroubleShoot】禁用Unity Render Graph API 兼容模式

使用Unity 6時新建了項目,有一個警告提示: The project currently uses the compatibility mode where the Render Graph API is disabled. Support for this mode will be removed in future Unity versions. Migrate existing ScriptableRenderPasses…

圖形學、人機交互、VR/AR、可視化等領域文獻速讀【持續更新中...】

(1)筆者在時間有限的情況下,想要多積累一些自身課題之外的新文獻、新知識,所以開了這一篇文章。 (2)想通過將文獻喂給大模型,并向大模型提問的方式來快速理解文獻的重要信息(如基礎i…

Hadoop-HDFS-Packet含義及作用

在 HDFS(Hadoop Distributed File System)中,Packet 是數據讀寫過程中用于數據傳輸的基本單位。它是 HDFS 客戶端與數據節點(DataNode)之間進行數據交互時的核心概念,尤其在寫入和讀取文件時,Pa…

顯示的圖標跟UI界面對應不上。

圖片跟UI界面不符合。 要找到對應dp的值。UI的dp要跟代碼里的xml文件里的dp要對應起來。 藍湖里設置一個寬度給對應上。然后把對應的值填入xml. 一個屏幕上的圖片到底是用topmarin來設置,還是用bottommarin來設置。 因為第一節,5,7 車廂的…

【taro3 + vue3 + webpack4】在微信小程序中的請求封裝及使用

前言 正在寫一個 以taro3 vue3 webpack4為基礎框架的微信小程序,之前一直沒有記咋寫的,現在總結記錄一下。uniapp vite 的后面出。 文章目錄 前言一、創建環境配置文件二、 配置 Taro 環境變量三、 創建請求封裝四、如何上傳到微信小程序體驗版1.第二…

LeetCode:513、找樹左下角的值

//遞歸法 /*** Definition for a binary tree node.* public class TreeNode {* int val;* TreeNode left;* TreeNode right;* TreeNode() {}* TreeNode(int val) { this.val val; }* TreeNode(int val, TreeNode left, TreeNode right) {* t…

采用均線策略來跟蹤和投資基金

策略來源#睿思量化#小程序 截圖來源#睿思量化#小程序 在基金投資中,趨勢跟蹤策略是一種備受關注的交易方法。本文將基于兩張關于廣發電子信息傳媒股票 A(代碼:005310)的圖片資料,詳細闡述這一策略的應用與效果。 從第…

leetcode刷題---二分查找

力扣題目鏈接 二分查找算法使用前提&#xff1a;有序數組&#xff1b;數組內無重復元素 易錯點&#xff1a; 1.while循環的邊界條件&#xff1a;如到底是 while(left < right) 還是 while(left < right) 2.if條件后right&#xff0c;left的取值&#xff1a;到底是 right …