使用Pandas進行數據清理的入門示例

數據清理是數據分析過程中的關鍵步驟,它涉及識別缺失值、重復行、異常值和不正確的數據類型。獲得干凈可靠的數據對于準確的分析和建模非常重要。

本文將介紹以下6個經常使用的數據清理操作:

檢查缺失值、檢查重復行、處理離群值、檢查所有列的數據類型、刪除不必要的列、數據不一致處理

第一步,讓我們導入庫和數據集。

 # Import librariesimport pandas as pd# Read data from a CSV filedf = pd.read_csv('filename.csv')

檢查缺失值

isnull()

方法可以用于查看數據框或列中的缺失值。

 # Check for missing values in the dataframedf.isnull()# Check the number of missing values in the dataframedf.isnull().sum().sort_values(ascending=False)

 # Check for missing values in the 'Customer Zipcode' columndf['Customer Zipcode'].isnull().sum()# Check what percentage of the data frame these 3 missing values ??representprint(f"3 missing values represents {(df['Customer Zipcode'].isnull().sum() / df.shape[0] * 100).round(4)}% of the rows in our DataFrame.")

Zipcode列中有3個缺失值

dropna()

可以刪除包含至少一個缺失值的任何行或列。

 # Drop all the rows where at least one element is missingdf = df.dropna()    # or df.dropna(axis=0) **(axis=0 for rows and axis=1 for columns)# Note: inplace=True modifies the DataFrame rather than creating a new onedf.dropna(inplace=True)# Drop all the columns where at least one element is missingdf.dropna(axis=1, inplace=True)# Drop rows with missing values in specific columnsdf.dropna(subset = ['Additional Order items', 'Customer Zipcode'], inplace=True)
fillna()

也可以用更合適的值替換缺失的值,例如平均值、中位數或自定義值。

 # Fill missing values in the dataset with a specific valuedf = df.fillna(0)# Replace missing values in the dataset with mediandf = df.fillna(df.median())# Replace missing values in Order Quantity column with the mean of Order Quantitiesdf['Order Quantity'].fillna(df["Order Quantity"].mean, inplace=True)

檢查重復行

duplicate()

方法可以查看重復的行。

 # Check duplicate rowsdf.duplicated()# Check the number of duplicate rowsdf.duplicated().sum()
drop_duplates()

可以使用這個方法刪除重復的行。

 # Drop duplicate rows (but only keep the first row)df = df.drop_duplicates(keep='first') #keep='first' / keep='last' / keep=False# Note: inplace=True modifies the DataFrame rather than creating a new onedf.drop_duplicates(keep='first', inplace=True)

處理離群值

異常值是可以顯著影響分析的極端值。可以通過刪除它們或將它們轉換為更合適的值來處理它們。

describe()

的maximum和mean之類的信息可以幫助我們查找離群值。

 # Get a statistics summary of the datasetdf["Product Price"].describe()

max”值:1999。其他數值都不接近1999年,而平均值是146,所以可以確定1999是一個離群值,需要處理

或者還可以繪制直方圖查看數據的分布。

 plt.figure(figsize=(8, 6))df["Product Price"].hist(bins=100)

在直方圖中,可以看到大部分的價格數據都在0到500之間。

箱線圖在檢測異常值時也很有用。

 plt.figure(figsize=(6, 4))df.boxplot(column=['Product Price'])

可以看到價格列有多個離群值數據點。(高于400的值)

檢查列的數據類型

info()

可以查看數據集中列的數據類型。

 # Provide a summary of datasetdf.info()

to_datetime()

方法將列轉換為日期時間數據類型。

 # Convert data type of Order Date column to datedf["Order Date"] = pd.to_datetime(df["Order Date"])
to_numeric()

可以將列轉換為數字數據類型(例如,整數或浮點數)。

 # Convert data type of Order Quantity column to numeric data typedf["Order Quantity"] = pd.to_numeric(df["Order Quantity"])
to_timedelta()

方法將列轉換為timedelta數據類型,如果值表示持續時間,可以使用這個函數

 # Convert data type of Duration column to timedelta typedf["Duration "] = pd.to_timedelta(df["Duration"])

刪除不必要的列

drop()

方法用于從數據框中刪除指定的行或列。

 # Drop Order Region column# (axis=0 for rows and axis=1 for columns)df = df.drop('Order Region', axis=1)# Drop Order Region column without having to reassign df (using inplace=True)df.drop('Order Region', axis=1, inplace=True)# Drop by column number instead of by column labeldf = df.drop(df.columns[[0, 1, 3]], axis=1)  # df.columns is zero-based

數據不一致處理

數據不一致可能是由于格式或單位不同造成的。Pandas提供字符串方法來處理不一致的數據。

str.lower() & str.upper()

這兩個函數用于將字符串中的所有字符轉換為小寫或大寫。它有助于標準化DataFrame列中字符串的情況。

 # Rename column names to lowercasedf.columns = df.columns.str.lower()

 # Rename values in  Customer Fname column to uppercasedf["Customer Fname"] = df["Customer Fname"].str.upper()

str.strip()

函數用于刪除字符串值開頭或結尾可能出現的任何額外空格。

 # In Customer Segment column, convert names to lowercase and remove leading/trailing spacesdf['Customer Segment'] = df['Customer Segment'].str.lower().str.strip()

replace()

函數用于用新值替換DataFrame列中的特定值。

 # Replace values in datasetdf = df.replace({"CA": "California", "TX": "Texas"})

 # Replace values in a spesific columndf["Customer Country"] = df["Customer Country"].replace({"United States": "USA", "Puerto Rico": "PR"})

mapping()

可以創建一個字典,將不一致的值映射到標準化的對應值。然后將此字典與replace()函數一起使用以執行替換。

 # Replace specific values using mappingmapping = {'CA': 'California', 'TX': 'Texas'}df['Customer State'] = df['Customer State'].replace(mapping)

rename()

函數用于重命名DataFrame的列或索引標簽。

 # Rename some columnsdf.rename(columns={'Customer City': 'Customer_City', 'Customer Fname' : 'Customer_Fname'}, inplace=True)# Rename some columnsnew_names = {'Customer Fname':'Customer_Firstname', 'Customer Fname':'Customer_Fname'}df.rename(columns=new_names, inplace=True)df.head()

總結

Python pandas包含了豐富的函數和方法集來處理丟失的數據,刪除重復的數據,并有效地執行其他數據清理操作。

使用pandas功能,數據科學家和數據分析師可以簡化數據清理工作流程,并確保數據集的質量和完整性。

https://avoid.overfit.cn/post/d594591441dd47b2b1a6264c1c71368a

作者:Python Fundamentals

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/37583.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/37583.shtml
英文地址,請注明出處:http://en.pswp.cn/news/37583.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

explicit關鍵字 和 static成員

explicit關鍵字 和 static成員 1、explicit 關鍵字2、static成員(靜態成員變量屬于類的(只有所屬這個類的對象才能修改),不同于全局變量(任何對象都能修改))2.1 定義和性質2.2 靜態成員的使用場…

opencv進階02-在圖像上繪制多種幾何圖形

OpenCV 提供了方便的繪圖功能,使用其中的繪圖函數可以繪制直線、矩形、圓、橢圓等多種幾何圖形,還能在圖像中的指定位置添加文字說明。 OpenCV 提供了繪制直線的函數 cv2.line()、繪制矩形的函數 cv2.rectangle()、繪制圓的函數cv2.circle()、繪制橢圓的…

【Quarkus技術系列】「云原生架構體系」在云原生時代下的Java“拯救者”是Quarkus,那云原生是什么呢?

云原生時代下的Java"拯救者" 在云原生時代,其實Java程序是有很大的劣勢的,以最流行的spring boot/spring cloud微服務框架為例,啟動一個已經優化好,很多bean需要lazy load的application至少需要3-4秒時間,內…

廣西一公司泄露22萬個人信息,被罰23萬

近日,廣西北海公安網安部門發現,北海某公司網站存在嚴重數據泄露問題,約22萬個人信息數據已掛在暗網售賣。 經查,涉案公司主要提供網上咨詢服務,在日常工作中收集了個人和企業等大量公民信息,但公司存放數…

【算法題】2547. 拆分數組的最小代價

題目: 給你一個整數數組 nums 和一個整數 k 。 將數組拆分成一些非空子數組。拆分的 代價 是每個子數組中的 重要性 之和。 令 trimmed(subarray) 作為子數組的一個特征,其中所有僅出現一次的數字將會被移除。 例如,trimmed([3,1,2,4,3,4…

一站式自動化測試平臺-Autotestplat

3.1 自動化平臺開發方案 3.1.1 功能需求 3.1.3 開發時間計劃 如果是剛入門、但有一點代碼基礎的測試人員,大概 3 個月能做出演示版(Demo)進行自動化測試,6 個月內勝任開展工作中項目的自動化測試。 如果是有自動化測試基礎的測試人員,大概 …

python序列化反序列化和異常處理筆記

迭代器 迭代是訪問集合元素的一種方式。迭代器是一個可以記住遍歷的位置的對象。迭代器對象從集合的第一個元素開始訪問,直到所有的元素被訪問完結束。迭代器只能往前不會后退。 1. 可迭代對象 我們已經知道可以對list、tuple、str等類型的數據使用for...in...的…

面試熱題(數組中的第K個最大元素)

給定整數數組 nums 和整數 k,請返回數組中第 k 個最大的元素。 請注意,你需要找的是數組排序后的第 k 個最大的元素,而不是第 k 個不同的元素。 輸入: [3,2,1,5,6,4] 和 k 2 輸出: 5提到數組中最大元素,我們往往想到就是先給數組…

判斷自己網絡所在的NAT類型

文章目錄 各NAT類型介紹軟件準備流程 各NAT類型介紹 NAT0: OpenInternet,沒有經過NAT地址轉換,公網IP NAT1: Full Cone NAT,動態家寬可以達到最優的狀態,外網設備可以主動發信息給NAT1網絡內的設備。 NAT2: Address-Restricted C…

什么是JavaScript中的柯里化(Currying)和偏函數應用(Partial Application)?它們在JavaScript中有哪些應用場景?

1、什么是JavaScript中的柯里化(Currying)和偏函數應用(Partial Application)?它們在JavaScript中有哪些應用場景? 柯里化(Currying)和偏函數應用(Partial Application)是函數式編程中的兩個重要概念&…

Mybatis 源碼 ④ :TypeHandler

文章目錄 一、前言二、DefaultParameterHandler1. DefaultParameterHandler#setParameters1.1 UnknownTypeHandler1.2 自定義 TypeHandler 三、DefaultResultSetHandler1. hasNestedResultMaps2. handleRowValuesForNestedResultMap2.1 resolveDiscriminatedResultMap2.2 creat…

K8S系列二:實戰入門

寫在前面 本文是K8S系列第二篇,主要面向對K8S新手同學,閱讀本文需要讀者對K8S的基本概念,比如Pod、Deployment、Service、Namespace等基礎概念有所了解。尚且不熟悉的同學推薦先閱讀本系列的第一篇文章:《K8S系列一:概…

遠程控制醫療行業應用解析:如何滿足醫院合規需求?

遠程控制醫療行業應用解析:如何滿足醫院合規需求? 作為一個起源于IT行業的技術,以遠程桌面為基礎的遠程控制技術目前在醫療領域也已經有了比較廣闊的應用前景,尤其是在醫療數字化系統/設備的遠程運維場景,已經有了一些…

如何正確下載tomcat???

親愛的小伙伴,千萬別再去找下網站下載啦,這樣詪容易攜帶病毒。 我們去官方網址下載。 Apache Tomcat - Welcome! 最后下載解壓即可。。。

正則表達式學習詳解

正則表達式 正則表達式(Regular Expression),通常簡稱為正則或正則表達式,是一種用于描述字符串模式的工具。它是由一系列字符和特殊字符組成的字符串,用于定義搜索模式或進行字符串匹配、替換、提取等操作。 正則表…

2024軟考系統架構設計師論文寫作要點

一、寫作注意事項 系統架構設計師的論文題目對于考生來說,是相對較難的題目。一方面,考生需要掌握論文題目中的系統架構設計的專業知識;另一方面,論文的撰寫需要結合考生自身的項目經歷。因此,如何將自己的項目經歷和專業知識有機…

SQL server中substring 的用法

一:substring函數是SQL中截取字段數據中的其中一部分 --列:提取abdcsef中的abc數據,使用substring實現select substring(abdcsef,1,3) --‘1’表示截取的起始位置是從第一個字符開始,‘3’表示截取后得到的字符串長度為3個字符 二&#xff1…

React源碼解析18(7)------ 實現事件機制(onClick事件)

摘要 在上一篇中,我們實現了useState的hook,但由于沒有實現事件機制,所以我們只能將setState掛載在window上。 而這一篇主要就是來實現事件系統,從而實現通過點擊事件進行setState。 而在React中,雖然我們是將事件綁…

前后端分離------后端創建筆記(07)表單驗證

1、我輸入數據,然后關閉,重新打開會發現殘存的數據仍然保留著 2、點了這個x號,數據就全部被清理了 3、點這三個地方,數據全部都清理掉 4、這里先寫一個方法 4.1 定義一個方法 4.2 這里表單的數據在哪里,就是這個 4.3 …

在 Linux 中使用 cp 命令

cp 命令是 Linux 中一個重要的命令,你可能經常會用到它。 正如名稱所示,cp 代表 復制copy,它被用于 在 Linux 命令行中復制文件和目錄。 這是一個相對簡單的命令,只有幾個選項,但你仍有必要深入了解它。 在展示 cp …