【漫話機器學習系列】257.填補缺失值(Imputing Missing Values)

數據科學必備技能:填補缺失值(Imputing Missing Values)

在數據分析和機器學習項目中,缺失值(Missing Values) 是非常常見的問題。缺失的數據如果處理不當,會嚴重影響模型的訓練效果,甚至導致模型性能大幅下降。因此,掌握缺失值填補的方法,是數據科學工作中非常重要的一步。

本文將基于一張圖,詳細介紹幾種常見且實用的缺失值填補方法,并結合實際例子進行講解。


1. 定量分析:用平均值填補

如果缺失的是定量變量(Quantitative Variable),如數值型數據:年齡、身高、收入等,常用均值(mean)進行填補。

原理:均值可以代表數據的整體水平,用均值填補可以盡量減少數據波動帶來的影響。

示例
假設你有一組數據:

年齡
25
27
NaN
29
31

缺失了一個年齡值,可以先計算現有數據的平均值:

然后將缺失值填補為28。

代碼示例(Python + Pandas)

import pandas as pddf = pd.DataFrame({'Age': [25, 27, None, 29, 31]})
df['Age'].fillna(df['Age'].mean(), inplace=True)
print(df)

2. 定性分析:用眾數填補

如果缺失的是定性變量(Categorical Variable),如性別、城市類別、顏色等,常用眾數(mode)進行填補。

原理:眾數是出現次數最多的類別,使用眾數可以最大限度保持數據分布的一致性。

示例
假設你的數據如下:

城市
北京
上海
NaN
北京
廣州

北京出現次數最多,因此缺失值可以填補為“北京”。

代碼示例(Python + Pandas)

import pandas as pddf = pd.DataFrame({'City': ['北京', '上海', None, '北京', '廣州']})
df['City'].fillna(df['City'].mode()[0], inplace=True)
print(df)

3. 使用模型預測填補缺失值

對于缺失值較多、或者缺失值和其他特征有明顯相關性的情況,可以使用預測模型來填補缺失值。例如,使用 K近鄰(KNN)決策樹線性回歸等算法。

3.1 K近鄰(KNN)填補

KNN可以根據數據中與缺失值樣本最相似的其他樣本的特征,預測其可能的取值。

原理簡述

  • 找到與缺失樣本最接近的K個完整樣本;

  • 取這K個樣本中對應特征的均值(定量)或眾數(定性)作為填補值。

代碼示例(Python + sklearn)

import numpy as np
import pandas as pd
from sklearn.impute import KNNImputerdf = pd.DataFrame({'Height': [1.7, 1.8, np.nan, 1.6, 1.75],'Weight': [65, 80, 70, 60, 75]
})imputer = KNNImputer(n_neighbors=2)
df_filled = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)
print(df_filled)

拓展內容:其他常用填補策略

除了以上三種常見方法,還有一些高級處理方法:

  • 插值法(Interpolation):適用于時間序列數據,比如線性插值、樣條插值等。

  • 基于多重插補(MICE):多次預測缺失值,減少單次預測誤差。

  • 直接刪除缺失行/列:如果缺失比例非常高,可以考慮刪除相關樣本或特征。

  • 添加缺失值指示變量:為缺失的位置添加0/1標記,作為額外特征喂給模型。

選擇哪種方法,需要根據數據特點、業務需求、模型要求綜合判斷。


總結

場景填補方法
定量分析(數值型)平均值填補
定性分析(類別型)眾數填補
缺失復雜、相關性強建模預測填補

掌握缺失值處理的正確姿勢,可以有效提升數據質量,保證后續分析和建模的準確性。在實際工作中,建議結合探索性數據分析(EDA)對缺失情況進行全面了解后,制定最適合的填補策略。


如果你覺得本文有幫助,歡迎點贊、收藏或留言交流~

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/80682.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/80682.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/80682.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

基于千眼狼高速攝像機與三色掩模的體三維粒子圖像測速PIV技術

研究背景 航空航天、能源動力領域,測量三維瞬態流場的速度場信息對于理解流體力學行為、優化系統設計非常關鍵。 傳統三維粒子圖像測速技術如Tomo層析PIV,因依賴多相機陣列,存在系統體積、操作復雜,在封閉空間測量存在困難&#…

MongoDB 的主要優勢和劣勢是什么?適用于哪些場景?

MongoDB 的主要優勢 (Advantages) 靈活的文檔模型 (Flexible Document Model): 無需預定義模式 (Schemaless/Flexible Schema): 這是 MongoDB 最核心的優勢之一。它存儲 JSON 格式的文檔,每個文檔可以有不同的字段和結構。這使得在開發過程中修改數據結構非常容易&a…

css iconfont圖標樣式修改,js 點擊后更改樣式

背景: 在vue項目中,通過點擊/鼠標覆蓋,更改選中元素的樣式,可以通過js邏輯,也可以根據css樣式修改。包括以下內容:iconfont圖標的引入以及使用,iconfont圖標樣式修改【導入文件是純白&#xff0…

CosyVoice介紹

CosyVoice介紹 CosyVoice是阿里開源的一個多語言語音生成大模型,可應用于TTS(Text To Speech) 工具的開發。它支持內置預制語音生成、語音克隆、自然語言控制語音生成等功能。CosyVoice的另一個亮點在于它對生成語音情感和韻律的精細控制,這是通過富文本…

分布式任務調度XXL-Job

? XXL-Job 是一款輕量級、分布式的任務調度平臺,其核心設計解決了傳統任務調度(如Quartz)在分布式場景下的?任務分片?、?高可用?、?可視化管控?等痛點。以下從原理、核心架構、應用場景、代碼示例及關聯中間件展開詳解 一、主流任務…

GOOSE 協議中MAC配置

在 GOOSE(Generic Object Oriented Substation Event)協議中,主站(Publisher)發送的 MAC 地址不需要與從站(Listener)的 MAC 地址一致,其通信機制與 MAC 地址的匹配邏輯取決于 GOOSE…

交流充電樁IEC 61851-1和IEC 61851-21-2標準測試項目

交流充電樁IEC 61851-1和IEC 61851-21-2標準測試項目 立訊檢測的光儲充實驗室專注于光伏、儲能、充電設施等新能源領域的檢測與認證服務,以下是詳細介紹: ?1. 實驗室概況? ?覆蓋領域?:光伏逆變器、儲能電池系統、充電樁、便攜式儲能電…

備戰菊廠筆試2-BFS記憶化MLE?用Set去重-Set會TLE?用SortedSet剪枝

目錄 200.島嶼數量 不用getnei,直接在dfs判斷,去掉解包 如果害怕棧溢出那么可以用bfs 2617.網格圖中最少訪問的格子數 注意特判! MLE主要是因為vis占用的內存過大 用SortedSet有序剪枝 什么是SortedSet? 基本性質 導入 …

STM32H743輸出50%的占空比波形

使用cubeMX進行配置如下: 時鐘配置如下: 具體代碼如下: /* USER CODE BEGIN Header */ /********************************************************************************* file : main.c* brief : Main program b…

MYSQL 查詢去除小數位后多余的0

MYSQL 查詢去除小數位后多余的0 在MySQL中,有時候我們需要去除存儲在數據庫中的數字字段小數點后面多余的0。這種情況通常發生在處理金額或其他需要精確小數位的數據時。例如,數據庫中存儲的是decimal (18,6)類型的數據,但在頁面展示時不希望…

物理:從人體組成角度能否說明基本粒子的差異性以及組織結構的可預設性?

人類的個體差異源于粒子組合的復雜性、環境與隨機性的相互作用,而非基本粒子本身的差異性。以下分層次解析: 一、基本粒子的同質性與組合多樣性 1. 基本粒子的同一性 標準模型確認:同種類基本粒子(如電子、上夸克)具有完全相同的質量、電荷等屬性,不存在個體差異。泡利不…

應用探析|千眼狼PIV測量系統在職業病防治中的應用

1、職業病防治背景 隨著《職業病防治法》及各省市“十四五”職業病防治規劃的深入推進,工作場所粉塵危害監測與防控已成為疾控部門的核心任務。以礦山、建材、冶金、化工等行業為例,粉塵濃度、分布及傳播特性的精準測量是評估職業病風險的關鍵。 傳統的…

串口模塊詳細講解

目錄 1.串口介紹 2。STC-ISP串口功能介紹 3.接口及引腳定義 4.串口知識點 4.1 硬件電路 4.2 電平標準 4.3 相關術語 4.4 常見通信接口比較 4.5 51單片機的UART 4.6 串口參數及時序圖 4.7 串口模式圖 4.8 串口和中斷系統 4.9 串口相關寄存器 5.串口向電腦發送信息…

基于大模型的腰椎管狹窄術前、術中、術后全流程預測與治療方案研究報告

目錄 一、引言 1.1 研究背景與意義 1.2 研究目的與創新點 二、腰椎管狹窄概述 2.1 定義與分類 2.2 發病原因與機制 2.3 臨床表現與診斷方法 三、大模型技術原理與應用現狀 3.1 大模型的基本原理 3.2 在醫療領域的應用案例 3.3 選擇大模型預測腰椎管狹窄的依據 四、…

【2025年前端高頻場景題系列】使用同一個鏈接,如何實現PC打開是web應用、手機打是-個H5 應用?

面試情境與問題引入 哈嘍大家伙,我是布魯伊。在前端開發面試中,面試官經常會拋出一些看似簡單卻能考察多方面能力的問題。"如何實現同一個鏈接在PC端和移動端展示不同應用?"就是這樣一個典型問題。為什么面試官喜歡問這個問題?因為它能同時考察候選人的設備適配…

醫療實時操作系統方案:手術機器人的微秒級運動控制

一、引言 手術機器人作為現代醫療技術的重要突破,正不斷推動著外科手術向精準化、微創化和智能化的方向發展。直覺外科(Intuitive Surgical)作為手術機器人領域的領軍企業,其達芬奇手術機器人系統已被廣泛應用于全球眾多醫療機構…

數據結構基礎--藍橋杯備考

1.優缺點總述 STL中各容器對比圖 各類線性數據結構優缺點 1.數組 1.優點 1.簡單,容易理解 2.訪問快捷,只需要用下標就可以 3.有某些應用場景直接對應,例如二維數組對應平面 2.缺點 刪除和插入數據非常耗時 2.鏈表 1.優點 插入和刪…

運用數組和矩陣對數據進行存取和運算——NumPy模塊 之六

目錄 NumPy模塊介紹 3.6.1 數組之間的運算 3.6.2 算術運算 3.6.3 比較運算 3.6.4 邏輯運算 3.6.5 矩陣運算 3.6.6 廣播運算 3.6.7 聚合運算 3.6.8 三角函數與指數對數運算 3.6.9 位運算 3.6.10 條件運算 3.6.11 數組的統計運算 3.6.12 關鍵問題:數組之間的運算對數組的維度有要…

JGL066生活垃圾滾筒篩分選機實驗裝置

JGL066生活垃圾滾筒篩分選機實驗裝置 一.實驗目的 本實驗對生活垃圾滾筒分選機進行垃圾分選的實驗。通過實驗達到以下目的: 1.了解分選的原理、方法和影響分選效果的主要因素。 2.確定分選的適宜條件。 二.技術指標 1.生活垃圾分選機處理量分為0.5~2t/h。 2.運動參數…

Excelize 開源基礎庫發布 2.9.1 版本更新

Excelize 是 Go 語言編寫的用于操作 Office Excel 文檔基礎庫,基于 ECMA-376,ISO/IEC 29500 國際標準。可以使用它來讀取、寫入由 Excel、WPS、OpenOffice 等辦公軟件創建的電子表格文檔。支持 XLAM / XLSM / XLSX / XLTM / XLTX 等多種文檔格式&#xf…