目錄
前言
?第一點:導入模塊
第二點?:發現對象的缺失值
第二點:剔除缺少值
?第三點:填補缺失值
總結
前言
在數據處理中,經常會遇到數據中存在缺失值的情況。處理缺失值是數據清洗的一個重要環節,能夠確保數據的完整性和準確性。本文將介紹如何使用Pandas庫中的方法來處理一維和二維對象中的缺失值,包括發現缺失值、剔除缺失值和填補缺失值等操作。
?第一點:導入模塊
import pandas as pd
第二點?:發現對象的缺失值
#定義一維對象
v=[53,None,72,82]
k=['1號','2號','3號','4號']
sr=pd.Series(v,index=k)
print(sr)
# 1號 53.0
# 2號 NaN
# 3號 72.0
# 4號 82.0
# dtype: float64# 發現對象的缺失值
print(sr.isnull())
# 1號 False
# 2號 True
# 3號 False
# 4號 False
# dtype: bool# 發現無缺少值的數據
print(~sr.isnull())
# 1號 True
# 2號 False
# 3號 True
# 4號 True
# dtype: bool
第二點:剔除缺少值
# 一維對象
v=[53,None,72,82]
k=['1號','2號','3號','4號']
sr=pd.Series(v,index=k)
print(sr)
#必須賦值給新對象
sr2=sr.dropna()
print(sr2)# 二維對象
v=[[None,None],[64,None],[72,3],[82,4]]
i=['1號','2號','3號','4號']
c=['年齡','牌照']
df=pd.DataFrame(v,index=i,columns=c)
print(df)
# 年齡 牌照
# 1號 NaN NaN
# 2號 64.0 NaN
# 3號 72.0 3.0
# 4號 82.0 4.0
print(df.dropna())
# 年齡 牌照
# 3號 72.0 3.0
# 4號 82.0 4.0#某些同學認為,只要某行含有一個NaN就剔除掉該個體太過殘忍,我們可以設定一個參數,只有當該行全部是NaN,才會被剔除
print(df.dropna(how='all'))
# 年齡 牌照
# 2號 64.0 NaN
# 3號 72.0 3.0
# 4號 82.0 4.0
?第三點:填補缺失值
#一維對象
v=[53,None,72,82]
k=['1號','2號','3號','4號']
sr=pd.Series(v,index=k)
print(sr)
# 1號 53.0
# 2號 NaN
# 3號 72.0
# 4號 82.0
# dtype: float64
print(sr.fillna(0))
# 1號 53.0
# 2號 0.0
# 3號 72.0
# 4號 82.0
# dtype: float64#二維對象
v=[[None,None],[64,None],[72,3],[82,4]]
i=['1號','2號','3號','4號']
c=['年齡','牌照']
df=pd.DataFrame(v,index=i,columns=c)
print(df)
# 年齡 牌照
# 1號 NaN NaN
# 2號 64.0 NaN
# 3號 72.0 3.0
# 4號 82.0 4.0
print(df.fillna(0))
# 年齡 牌照
# 1號 0.0 0.0
# 2號 64.0 0.0
# 3號 72.0 3.0
# 4號 82.0 4.0
總結
通過本文介紹的方法,我們學習了如何利用Pandas庫來處理數據中的缺失值。我們探討了如何發現缺失值、剔除包含缺失值的數據以及填補缺失值。這些技能對于數據清洗和準備階段至關重要,能夠幫助我們更好地分析數據、訓練模型并做出準確的預測。希望本文分享的內容對您在數據處理和分析過程中有所幫助!