數據清理是數據分析過程中的關鍵步驟,它涉及識別缺失值、重復行、異常值和不正確的數據類型。獲得干凈可靠的數據對于準確的分析和建模非常重要。
本文將介紹以下6個經常使用的數據清理操作:
檢查缺失值、檢查重復行、處理離群值、檢查所有列的數據類型、刪除不必要的列、數據不一致處理
第一步,讓我們導入庫和數據集。
# Import librariesimport pandas as pd# Read data from a CSV filedf = pd.read_csv('filename.csv')
檢查缺失值
isnull()
方法可以用于查看數據框或列中的缺失值。
# Check for missing values in the dataframedf.isnull()# Check the number of missing values in the dataframedf.isnull().sum().sort_values(ascending=False)
# Check for missing values in the 'Customer Zipcode' columndf['Customer Zipcode'].isnull().sum()# Check what percentage of the data frame these 3 missing values ??representprint(f"3 missing values represents {(df['Customer Zipcode'].isnull().sum() / df.shape[0] * 100).round(4)}% of the rows in our DataFrame.")
Zipcode列中有3個缺失值
dropna()
可以刪除包含至少一個缺失值的任何行或列。
# Drop all the rows where at least one element is missingdf = df.dropna() # or df.dropna(axis=0) **(axis=0 for rows and axis=1 for columns)# Note: inplace=True modifies the DataFrame rather than creating a new onedf.dropna(inplace=True)# Drop all the columns where at least one element is missingdf.dropna(axis=1, inplace=True)# Drop rows with missing values in specific columnsdf.dropna(subset = ['Additional Order items', 'Customer Zipcode'], inplace=True)
fillna()
也可以用更合適的值替換缺失的值,例如平均值、中位數或自定義值。
# Fill missing values in the dataset with a specific valuedf = df.fillna(0)# Replace missing values in the dataset with mediandf = df.fillna(df.median())# Replace missing values in Order Quantity column with the mean of Order Quantitiesdf['Order Quantity'].fillna(df["Order Quantity"].mean, inplace=True)
檢查重復行
duplicate()
方法可以查看重復的行。
# Check duplicate rowsdf.duplicated()# Check the number of duplicate rowsdf.duplicated().sum()
drop_duplates()
可以使用這個方法刪除重復的行。
# Drop duplicate rows (but only keep the first row)df = df.drop_duplicates(keep='first') #keep='first' / keep='last' / keep=False# Note: inplace=True modifies the DataFrame rather than creating a new onedf.drop_duplicates(keep='first', inplace=True)
處理離群值
異常值是可以顯著影響分析的極端值。可以通過刪除它們或將它們轉換為更合適的值來處理它們。
describe()
的maximum和mean之類的信息可以幫助我們查找離群值。
# Get a statistics summary of the datasetdf["Product Price"].describe()
max”值:1999。其他數值都不接近1999年,而平均值是146,所以可以確定1999是一個離群值,需要處理
或者還可以繪制直方圖查看數據的分布。
plt.figure(figsize=(8, 6))df["Product Price"].hist(bins=100)
在直方圖中,可以看到大部分的價格數據都在0到500之間。
箱線圖在檢測異常值時也很有用。
plt.figure(figsize=(6, 4))df.boxplot(column=['Product Price'])
可以看到價格列有多個離群值數據點。(高于400的值)
檢查列的數據類型
info()
可以查看數據集中列的數據類型。
# Provide a summary of datasetdf.info()
to_datetime()
方法將列轉換為日期時間數據類型。
# Convert data type of Order Date column to datedf["Order Date"] = pd.to_datetime(df["Order Date"])
to_numeric()
可以將列轉換為數字數據類型(例如,整數或浮點數)。
# Convert data type of Order Quantity column to numeric data typedf["Order Quantity"] = pd.to_numeric(df["Order Quantity"])
to_timedelta()
方法將列轉換為timedelta數據類型,如果值表示持續時間,可以使用這個函數
# Convert data type of Duration column to timedelta typedf["Duration "] = pd.to_timedelta(df["Duration"])
刪除不必要的列
drop()
方法用于從數據框中刪除指定的行或列。
# Drop Order Region column# (axis=0 for rows and axis=1 for columns)df = df.drop('Order Region', axis=1)# Drop Order Region column without having to reassign df (using inplace=True)df.drop('Order Region', axis=1, inplace=True)# Drop by column number instead of by column labeldf = df.drop(df.columns[[0, 1, 3]], axis=1) # df.columns is zero-based
數據不一致處理
數據不一致可能是由于格式或單位不同造成的。Pandas提供字符串方法來處理不一致的數據。
str.lower() & str.upper()
這兩個函數用于將字符串中的所有字符轉換為小寫或大寫。它有助于標準化DataFrame列中字符串的情況。
# Rename column names to lowercasedf.columns = df.columns.str.lower()
# Rename values in Customer Fname column to uppercasedf["Customer Fname"] = df["Customer Fname"].str.upper()
str.strip()
函數用于刪除字符串值開頭或結尾可能出現的任何額外空格。
# In Customer Segment column, convert names to lowercase and remove leading/trailing spacesdf['Customer Segment'] = df['Customer Segment'].str.lower().str.strip()
replace()
函數用于用新值替換DataFrame列中的特定值。
# Replace values in datasetdf = df.replace({"CA": "California", "TX": "Texas"})
# Replace values in a spesific columndf["Customer Country"] = df["Customer Country"].replace({"United States": "USA", "Puerto Rico": "PR"})
mapping()
可以創建一個字典,將不一致的值映射到標準化的對應值。然后將此字典與replace()函數一起使用以執行替換。
# Replace specific values using mappingmapping = {'CA': 'California', 'TX': 'Texas'}df['Customer State'] = df['Customer State'].replace(mapping)
rename()
函數用于重命名DataFrame的列或索引標簽。
# Rename some columnsdf.rename(columns={'Customer City': 'Customer_City', 'Customer Fname' : 'Customer_Fname'}, inplace=True)# Rename some columnsnew_names = {'Customer Fname':'Customer_Firstname', 'Customer Fname':'Customer_Fname'}df.rename(columns=new_names, inplace=True)df.head()
總結
Python pandas包含了豐富的函數和方法集來處理丟失的數據,刪除重復的數據,并有效地執行其他數據清理操作。
使用pandas功能,數據科學家和數據分析師可以簡化數據清理工作流程,并確保數據集的質量和完整性。
https://avoid.overfit.cn/post/d594591441dd47b2b1a6264c1c71368a
作者:Python Fundamentals