數據分析_數據預處理

1 數據預處理流程

? ? ? ? ①數據清洗:處理數據缺失、數據重復、數據異常等問題,提升數據質量.

? ? ? ? ②數據轉換:涵蓋基本數據轉換、語義數據轉換、衍生數據轉換和隱私數據轉換,適配分析需求.

? ? ? ? ③數據集成:整合多源數據.

2 數據清洗

2.1 數據缺失

2.1.1 數值型數據缺失

????????數值型列的部分數值不存在,例如在員工薪資數據中個別薪資值缺失.

(1) 識別方法

? ? ? ? ①數據完整性特征分析:統計缺失值的數量和比例,能直觀地呈現數據缺失的程度.

????????②描述性統計分析:計算均值、中位數、標準差等指標,缺失值的存在可能導致均值和中位數發生較大波動,標準差異常增大.

(2) 處理方法

? ? ? ? ①填充法:計算非缺失數據的平均值、中位數進行填補,或者填充默認值.均值易受極端值影響,適用于數據分布相對均勻的情況;當數據存在極端值時,中位數更能代表數據的一般水平.

? ? ? ? ?②模型預測填補:利用其他相關特征建立機器學習模型,如線性回歸模型.以預測房屋價格為例,若部分房屋價格數據缺失,可基于房屋面積、房齡、周邊配套等特征構建模型來預測缺失的價格值.此方法能挖掘數據內在關系,但模型構建較復雜.

? ? ? ? ③刪除策略:若該列對整體分析并非關鍵,且大量缺失使其無法提供有效信息,可刪除此列;若缺失值所在記錄的其他信息價值不大,也可刪除整行記錄,但要注意可能丟失潛在信息.

2.1.2?類別型數據缺失

????????類別型數據集中部分類別信息不存在,例如在產品類別統計數據里部分產品的類別標注缺失.

(1) 識別方法

????????①分布分析:計算各分類的頻率和占比.缺失值的存在會導致某些分類的頻率異常低或占比失衡.例如在統計客戶所屬行業分布時,若某行業頻率極低,可能存在缺失值.

? ? ? ? ②合規性檢查_數據字典匹配:建立數據字典,將類別數據與字典中的合法取值進行比對,不在字典范圍內或無值的視為缺失.比如產品類別有明確規定的取值范圍,通過比對可找出缺失值.

(2) 處理方法

????????①眾數填補:找出該列出現頻率最高的類別,用眾數填補缺失值.例如在客戶職業信息中,"公司職員"出現頻率最高,缺失的職業信息可用 "公司職員"填補.

????????②單獨分類:將缺失值作為一個新的類別處理.如在商品類別數據中,將缺失的商品類別標記為 "未知類別”,在后續分析中單獨考慮.

? ? ? ? ③刪除策略:若該列對整體分析并非關鍵,且大量缺失使其無法提供有效信息,可刪除此列;若缺失值所在記錄的其他信息價值不大,也可刪除整行記錄,但要注意可能丟失潛在信息.

2.2 數據重復

2.2.1?全字段重復

????????數據集中存在完全相同的記錄.

(1) 識別方法

? ? ? ? 數據重復特征分析_基于全字段匹配:將數據集中的每一條記錄與其它所有記錄進行比較,判斷所有字段的值是否完全相同.這種方法準確性高,但計算量較大,適用于數據量較小的情況.

(2) 處理方法

????????保留一條并刪除其余:根據業務需求,通常保留首次出現的記錄,刪除后續重復的,以保證數據的唯一性,減少冗余.


2.2.2?關鍵字段重復

????????數據集中部分記錄在關鍵標識字段上的值相同,這些關鍵字段能唯一標識一條記錄的特定含義.例如在訂單數據表中,"訂單編號"是關鍵字段,若出現多條記錄的"訂單編號"相同,但其他訂單信息有差異.

(1) 識別方法

????????數據重復特征分析_基于關鍵字段匹配:根據業務邏輯確定關鍵字段,比較這些字段的值來判斷記錄是否重復.此方法計算效率較高,但需要準確選擇關鍵字段,否則可能會誤判或漏判重復數據,適用于數據量較大的情況.

(2) 處理方法

????????①數據核對與修正:對于關鍵字段重復但其他信息有差異的記錄,需進一步核對業務數據來源,確定正確的記錄內容,修正錯誤或重復的數據.

????????②合并相關信息:如果重復記錄的其他信息都有保留價值,可按照一定規則合并.比如將重復訂單記錄中的不同備注信息合并到一條記錄中,同時保證關鍵字段的唯一性.

2.3?數據值異常

2.3.1 數值型數據異常

????????數值型數據中存在與其他數據分布明顯不同的值,這些異常值可能因數據錄入錯誤、測量誤差或特殊情況產生.例如學生考試成績數據中,多數成績集中在 50 - 100 分,卻有成績為 150 分的.

(1) 識別方法

????????①異常值檢測_范圍檢查法:依據業務知識或數據經驗設定合理取值范圍.例如考試成績設定在 0 - 100 分,超出此范圍視為異常.

????????②異常值檢測_三倍標準差法(3σ 原則):利用正態分布特性,通過計算均值與標準差確定異常值范圍.計算簡便,但對極端值敏感.適用于符合或近似正態分布的數據場景.

????????③異常值檢測_四分位距法(IQR):基于數據分位數來識別異常值,計算簡單,對極端值不敏感.適用于數據分布有一定規律,需快速定位明顯異常值的場景.

(2) 處理方法

????????①調查核實:先調查異常值產生原因,如果屬于特殊情況,確認后可特殊標注保留.

????????②修正異常值:若能確定是錄入錯誤,直接修正.

????????③替代異常值:使用均值、中位數等統計量替代異常值.

? ? ? ? ④模型預測修正:借助其他相關特征構建模型預測合理值替代異常值.如結合學生平時表現、作業成績等預測考試成績,替代異常成績.

? ? ? ? ⑤刪除異常值:當異常值對分析影響極大且無法修正或替代時,可刪除該記錄,但需謹慎,以防丟失信息.


2.3.2 類別型數據異常

? ? ? ??類別型數據中出現不符合常規類別設定的值,這些異常值可能因數據錄入錯誤、測量誤差或特殊情況產生.例如在性別字段中,預定類別為"男"和"女",卻出現 "中"這樣的非法類別.

(1) 識別方法

????????①分布分析:計算各類別出現的頻率,設定頻率閾值,低于該閾值的類別視為罕見類別.

????????②合規性檢查_數據字典匹配:建立數據字典,包含所有合法類別值.將數據與字典比對,不在字典中的即為非法類別.

(2) 處理方法

????????①調查確認:先調查異常值產生原因,如果屬于特殊情況,確認后可特殊標注保留.

? ? ? ? ②修正為合法值:若能確定是錄入錯誤,直接修正.

? ? ? ? ③歸為其他類別:若無法確定正確類別,將異常類別歸為"其他"類別,以便后續分析.

? ? ? ? ④合并或刪除:對于不合理的罕見類別,可將其合并到相近類別或刪除相關記錄.

2.4 數據格式異常

2.4.1?日期格式異常

????????數據中日期的表示形式不符合統一規范或約定格式.

(1) 識別方法

????????①正則表達式匹配:使用正則表達式匹配常見日期格式,不匹配的日期數據可能存在格式異常.

????????②函數識別:嘗試將日期數據轉換為標準格式,轉換失敗的即為格式異常數據.

(2) 處理方法

????????格式轉換:根據數據整體的日期格式傾向,利用工具函數將異常格式轉換為統一標準格式.

2.4.2?數值格式異常

????????數值數據的表示方式不符合常規的數字格式規范,包括小數點位數、千位分隔符使用不當或數據類型錯誤等.例如在產品價格數據中,價格的形式有"1,000.50"、"1000.50" 、"一千元".

(1) 識別方法

????????①數據類型檢查:檢查數據列的數據類型,若應為數值型卻顯示為其他類型,則可能存在格式異常.

????????②格式匹配:對于特定格式要求的數據,使用正則表達式匹配格式,不匹配的視為格式異常.

(2) 處理方法

????????①類型轉換:將文本類型的數值轉換為合適的數值類型.

????????②格式修正:按照業務需求,統一轉成需要的格式

2.4.3?文本格式異常

????????文本數據出現不符合預期的格式,如大小寫混亂、包含多余空格、特殊字符不當使用等.

(1) 識別方法

????????①正則表達式檢查:使用正則表達式匹配規范文本格式,不匹配的文本可能存在格式異常.

????????②字符串函數判斷:通過字符串函數判斷格式異常? ? ? ?

(2) 處理方法

????????①字符串大小寫統一

????????②去除多余空格

? ? ? ? ③去除特殊字符

3 數據轉換

3.1 數據格式轉換

????????①格式轉換:統一數據類型,如字符串轉日期、整型轉浮點型

????????②規范格式:如統一小數位數和字符串長度.

????????③編碼轉換:統一字符編碼,防止數據顯示和處理亂碼.

3.2 語義數據轉換

????????依業務規則改變數據值,如標準化、離散化.

3.3 衍生數據轉換

????????①通過運算生成衍生字段:利用現有數據字段進行數學運算、邏輯運算等生成新字段.

????????②數據聚合:對數據進行匯總操作.


3.4 隱私數據轉換

????????采用掩碼處理等方式,對身份證號、手機號等加密,以保護敏感信息.

4 數據集成

4.1 數據源集成

? ? ? ? 將不同來源、不同形式的數據整合一份完整的數據.

4.2?數據格式集成

????????①結構統一:不同數據源的數據結構可能不同,例如一個數據源中客戶地址信息是單個文本字段,而另一個數據源按省、市、區等分開存儲,集成時需統一結構.

? ? ? ? ②格式規范:將不同來源的數據,統一為一種類型和標準格式.

4.3 數據語義集成

????????①消除歧義:相同的數據字段在不同數據源可能有不同含義,需要統一對字段的理解.

????????②統一編碼與標準:建立統一的編碼標準,將各數據源的編碼映射到標準編碼.

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/904879.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/904879.shtml
英文地址,請注明出處:http://en.pswp.cn/news/904879.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

vue +xlsx+exceljs 導出excel文檔

實現功能:分標題行導出數據過多,一個sheet表里表格條數有限制,需要分sheet顯示。 步驟1:安裝插件包 npm install exceljs npm install xlsx 步驟2:引用包 import XLSX from xlsx; import ExcelJS from exceljs; 步驟3&am…

ThinkPad T440P如何從U盤安裝Ubuntu24.04系統

首先制作一個安裝 U 盤。我使用的工具是 Rufus ,它的官網是 rufus.ie ,去下載最新版就可以了。直接打開這個工具,選擇自己從ubuntu官網下載Get Ubuntu | Download | Ubuntu的iso鏡像制作U盤安裝包即可。 其次安裝之前,還要對 Thi…

第十七次博客打卡

今天學習的內容是動態規劃算法。 動態規劃算法(Dynamic Programming,簡稱 DP)是一種通過將復雜問題分解為更小的子問題來求解的算法思想。它主要用于解決具有重疊子問題和最優子結構特性的問題。 一、動態規劃的基本概念 1. 最優子結構 一個復…

視覺革命來襲!ComfyUI-LTXVideo 讓視頻創作更高效

探索LTX-Video 支持的ComfyUI 在數字化視頻創作領域,視頻制作效果的提升對創作者來說無疑是一項重要的突破。LTX-Video支持的ComfyUI便是這樣一款提供自定義節點的工具集,它專為改善視頻質量、提升生成速度而開發。接下來,我們將詳細介紹其功…

Java版ERP管理系統源碼(springboot+VUE+Uniapp)

ERP系統是企業資源計劃(Enterprise Resource Planning)系統的縮寫,它是一種集成的軟件解決方案,用于協調和管理企業內各種關鍵業務流程和功能,如財務、供應鏈、生產、人力資源等。它的目標是幫助企業實現資源的高效利用…

CenOS7切換使用界面

永久切換 在開始修改之前,我們首先需要查看當前的啟動模式。可以通過以下命令來實現: systemctl get-default執行此命令后,系統會返回當前的默認啟動模式,例如graphical.target表示當前默認啟動為圖形界面模式。 獲取root權限&…

Dify使用總結

最近完成了一個Dify的項目簡單進行總結下搭建服務按照官方文檔操作就行就不寫了。 進入首頁之后由以下組成: 探索、工作室、知識庫、工具 探索: 可以展示自己創建的所有應用,一個應用就是一個APP,可以進行測試使用 工作室包含…

計網學習筆記———網絡

🌿網絡是泛化的概念 網絡是泛化的概念 🍂泛化理解 網絡的概念在生活中無處不在舉例:社交網絡、電話網路、電網、計算機網絡 🌿網絡的定義 定義: 離散的個體通過通訊手段連成群體,實現資源的共享與交流、個…

《Python星球日記》 第53天:卷積神經網絡(CNN)入門

名人說:路漫漫其修遠兮,吾將上下而求索。—— 屈原《離騷》 創作者:Code_流蘇(CSDN)(一個喜歡古詩詞和編程的Coder😊) 目錄 一、圖像表示與通道概念1. 數字圖像的本質2. RGB顏色模型3. 圖像預處理 二、卷積…

SpringBoot2集成xxl-job詳解

官方教程 搭建調度中心 Github Gitee 注:版本3.x開始要求Jdk17;版本2.x及以下支持Jdk1.8。如對Jdk版本有訴求,可選擇接入不同版本 clone源代碼執行xxl-job\doc\db\tables_xxl_job.sql # # XXL-JOB v2.4.1 # Copyright (c) 2015-present, x…

HashMap中put()方法的執行流程

HashMap 是 Java 中最常用的數據結構之一,用于存儲鍵值對。其 put() 方法是向哈希表中插入或更新鍵值對的核心操作。本文將詳細解析 put() 方法的執行過程,涵蓋哈希值計算、桶定位、沖突處理和擴容等步驟。 一、put() 方法的執行過程 put() 方法通過一系…

【Oracle認證】MySQL 8.0 OCP 認證考試英文版(MySQL30 周年版)

文章目錄 1、MySQL OCP考試介紹2、考試注冊流程3、考試復習題庫 Oracle 為慶祝 MySQL 30 周年,截止到2025.07.31 之前。所有人均可以免費考取原價245美元 (約1500)的MySQL OCP 認證。 1、MySQL OCP考試介紹 OCP考試 OCP認證是Oracle公司推…

SpringBoot框架開發網絡安全科普系統開發實現

概述 基于SpringBoot框架的網絡安全科普系統開發指南,該系統集知識科普、案例學習、在線測試等功能于一體,本文將詳細介紹系統架構設計、功能實現及技術要點,幫助開發者快速構建專業的網絡安全教育平臺。 主要內容 系統功能架構 本系統采…

瀏覽器HTTP錯誤、前端常見報錯 和 Java后端報錯

以下是 瀏覽器HTTP錯誤、前端常見報錯 和 Java后端報錯 的綜合整理,包括原因和解決方法,幫助你快速排查問題。 一、HTTP 錯誤(瀏覽器報錯) 錯誤碼原因解決方法400 Bad Request請求語法錯誤(如參數格式錯誤、請求體過…

TypeScript簡介

🌟 TypeScript入門 TypeScript 是 JavaScript 的超集,由微軟開發并維護,通過靜態類型檢查和現代語言特性,讓大型應用開發變得更加可靠和高效。 // 一個簡單的 TypeScript 示例 interface User {name: string;age: number;greet():…

[ctfshow web入門] web57

信息收集 這下把.也過濾了&#xff0c;臨時文件上傳無法使用了 //flag in 36.php if(isset($_GET[c])){$c$_GET[c];if(!preg_match("/\;|[a-z]|[0-9]|\|\|\#|\|\"|\|\%|\x09|\x26|\x0a|\>|\<|\.|\,|\?|\*|\-|\|\[/i", $c)){system("cat ".$c…

Android 移動應用開發:頁面跳轉與數據傳遞功能

目錄 ? 運行效果說明 &#x1f4c1; 文件一&#xff1a;MainActivity.java&#xff08;語言&#xff1a;Java&#xff09; &#x1f4c1; 文件二&#xff1a;Edit_MainActivity.java&#xff08;語言&#xff1a;Java&#xff09; &#x1f4c1; 文件三&#xff1a;activi…

MySQL如何優雅的執行DDL

一、概述 在MySQL中&#xff0c;DDL&#xff08;數據定義語言&#xff09;語句用于定義和管理數據庫結構&#xff0c;包括創建、修改和刪除數據庫對象&#xff08;如表、索引等&#xff09;。執行DDL操作時&#xff0c;需要謹慎處理&#xff0c;以避免對生產環境的穩定性和性能…

onenet連接微信小程序(mqtt協議)

一、關于mqtt協議 mqtt協議常用于物聯網&#xff0c;是一種輕量級的消息推送協議。 其中有三個角色&#xff0c;Publisher設備&#xff08;客戶端&#xff09;發布主題到服務器&#xff0c;其他的設備通過訂閱主題&#xff0c;獲取該主題下的消息&#xff0c;Publisher可以發…

【Unity筆記】實現支持不同渲染管線的天空盒曝光度控制組件(SkyboxExposureController)——參數化控制

寫在前面 在Unity中&#xff0c;天空盒&#xff08;Skybox&#xff09;不僅承擔視覺上的背景作用&#xff0c;更是場景環境光照與氛圍塑造的重要組成部分。不同時間、天氣、場景轉換等&#xff0c;都需要靈活調整天空的亮度。而**曝光度&#xff08;Exposure&#xff09;**就是…