目錄
-
- 1. 概述
- 2. 缺失項
- 3. 分組聚合
- 4. 數據合并
- 5. 數據可視化
-
- 5.1 折線圖
- 5.2 條形圖
- 5.3 直方圖
- 5.4 散點圖
- 5.5 餅圖
1. 概述
我們在上一篇文章初識 Pandas中已經對 Pandas 作了一些基本介紹,本文我們進一步來學習 Pandas 的一些使用。
2. 缺失項
在現實中我們獲取到的數據有時會存在缺失項問題,對于這樣的數據,我們通常需要做一些基本處理,下面我們通過示例來看一下。
import numpy as np
from pandas import Series, DataFrames = Series(['1', '2', np.nan, '3'])
df = DataFrame([['1', '2'], ['3', np.nan], [np.nan, 4]])
print(s)
print(df)
# 清除缺失項
print(s.dropna())
print(df.dropna())
# 填充缺失項
print(df.fillna('9'))
print(df.fillna({0:'5', 1:'6'}))
3. 分組聚合
我們通過示例來了解一下分組、聚合操作。
from pandas import DataFramedf = DataFrame({'name':['張三', '李四', '王五', '趙六'],'gender':['男', '女', '男', '女'],'age':[22, 11, 22, 33]})
# 根據 age 分組
gp1 = df.groupby('age')
# 根據 age、gender 分組
gp2 = df.groupby(['age', 'gender'])
# 根據 gender 進行分組,將 name 作為分組的鍵
gp3 = df['gender'].groupby(df['name'])
# 查看分組
print(gp2.groups)
# 分組數量
print(gp2.count())
# 選擇分組
print(gp2.get_group((22, '男')))
print('---------')
# 聚合
gp4 = df.groupby(df['gender'])
# 和
print(gp4.sum())
# 平均值
print(gp4.mean())
# 最大值
print(gp4.max())
# 最小值
print(gp4.min())
# 同時做多個聚合運算
print(gp4.agg(['sum', 'mean']))
4. 數據合并
Pandas 具有高性能內存中連接操作,與 SQL 相似,它提供了 merge() 函數作為 DataFrame 對象之間連接操作的入口,我們通過示例來看一下。
from pandas import DataFrame
import pandas as pddf1 = DataFrame({'A':[2, 4, 5], 'B':[1, 2, 3], 'C':[2, 3, 6]})
df2 = DataFrame({'D':[1, 3, 6], 'E':[2, 5, 7], 'F':[3, 6, 8]})
df3 = DataFrame({'G':[2, 3, 6], 'H':[3, 5, 7], 'I':[4, 6, 8]})
df4 = DataFrame({'G':[1, 3, 5], 'H':[4, 6, 8], 'I':[5, 7, 9]})
# 左連接(以 d1 為基礎)
print(df1.join(df2, how='left'))
# 右連接
print(df1.join(df2, how='right'))
# 外連接
print(df1.join(df2, how='outer'))
# 合并多個 DataFrame
print(df3.join([df1, df2]))
# 指定列名進行合并
print(pd.merge(df3, df4, on='G'))
print(pd.merge(df3, df4, on=['G', 'H']))
print(pd.merge(df3, df4, how='left'))
print(pd.merge(df3, df4, how='right'))
print(pd.merge(df3, df4, how='outer'))
5. 數據可視化
Pandas 的 Series 和 DataFrame 的繪圖功能是包裝了 matplotlib 庫的 plot() 方法實現的,下面我們通過示例來看一下。
5.1 折線圖
折線圖代碼實現如下所示:
import pandas as pd, numpy as np, matplotlib.pyplot as pltdf = pd.DataFrame(np.random.randn(10,2), columns=list('AB'))
df.plot()
plt.show()
看一下效果:
5.2 條形圖
縱置條形圖代碼實現如下所示:
import pandas as pd, numpy as np, matplotlib.pyplot as pltdf = pd.DataFrame(np.random.rand(5,3), columns=list('ABC'))
df.plot.bar()
plt.show()
看一下效果:
橫置條形圖代碼實現如下所示:
import pandas as pd, numpy as np, matplotlib.pyplot as pltdf = pd.DataFrame(np.random.rand(5,3), columns=list('ABC'))
df.plot.barh()
plt.show()
看一下效果:
5.3 直方圖
直方圖代碼實現如下所示:
import pandas as pd, numpy as np, matplotlib.pyplot as pltdf = pd.DataFrame({'A':np.random.randn(800)+1, 'B':np.random.randn(800)}, columns=list('AB'))
df.plot.hist(bins=10)
plt.show()
看一下效果:
我們還可以將 A、B 分開顯示,代碼實現如下:
import pandas as pd, numpy as np, matplotlib.pyplot as pltdf = pd.DataFrame({'A':np.random.randn(800)+1, 'B':np.random.randn(800)}, columns=list('AB'))
df.hist(bins=10)
plt.show()
看一下效果:
5.4 散點圖
散點圖代碼實現如下所示:
import pandas as pd, numpy as np, matplotlib.pyplot as pltdf = pd.DataFrame(np.random.rand(20, 2), columns=list('AB'))
df.plot.scatter(x='A', y='B')
plt.show()
看一下效果:
5.5 餅圖
餅圖代碼實現如下所示:
import pandas as pd, numpy as np, matplotlib.pyplot as pltdf = pd.DataFrame([30, 20, 50], index=list('ABC'), columns=[''])
df.plot.pie(subplots=True)
plt.show()
看一下效果: