python數據處理與分析入門-pandas使用（4）

往期文章：

pandas使用1
pandas使用2
pandas使用3

pandas使用技巧

創建一個DF對象

# 首先創建一個時間序列
dates = pd.date_range('20180101', periods=6)
print(dates)# 創建DataFrame對象，指定index和columns標簽
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
print(df)

布爾型索引使用

# 用一列的值來選擇數據
print(df.A > 0)
print("-----------------------------------------------")
# 使用.isin()函數過濾數據
df2 = df.copy()
df2['E'] = ['one', 'one','two','three','four','three']
# 提取df2中'E'值屬于['two', 'four']的行
print(df2[df2['E'].isin(['two','four'])])
# 輸出
2018-01-01     True
2018-01-02     True
2018-01-03    False
2018-01-04    False
2018-01-05    False
2018-01-06     True
Freq: D, Name: A, dtype: bool
-----------------------------------------------A         B         C         D     E
2018-01-03 -0.737122 -1.018953  1.367684  0.038003   two
2018-01-05 -1.120744 -0.270765 -0.182049 -1.142167  four

# 為DataFrame創建一個新的列，其值為時間順序（與df相同）的索引值
s1 = pd.Series([1,2,3,4,5,6], index=pd.date_range('20180101', periods=6))
print(s1)df['F'] = s1# 按標簽賦值
df.at[dates[0],'A'] = 0# 按索引賦值
df.iat[0,1] = 0# 用Numpy數組賦值
df.loc[:,'D'] = np.array([5] * len(df))
print("-----------------------------------------------")
# 最終結果
print(df)
# 輸出
2018-01-01    1
2018-01-02    2
2018-01-03    3
2018-01-04    4
2018-01-05    5
2018-01-06    6
Freq: D, dtype: int64
-----------------------------------------------A         B         C  D  F
2018-01-01  0.000000  0.000000 -1.688875  5  1
2018-01-02  0.405921  0.596388  0.742552  5  2
2018-01-03 -0.737122 -1.018953  1.367684  5  3
2018-01-04 -0.356770  1.083033  0.876066  5  4
2018-01-05 -1.120744 -0.270765 -0.182049  5  5
2018-01-06  1.279730 -0.662744  0.443358  5  6

缺失數據

Pandas默認使用np.nan來代表缺失數據。Reindexing允許用戶對某一軸上的索引改/增/刪，并返回數據的副本

# 創建DataFrame對象df1，以dates[0:4]為索引，
# 在df的基礎上再加一個新的列'E'（初始均為NaN）
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])
print(df1)
print("-----------------------------------------------")
# 將'E'列的前兩個行設為1
df1.loc[dates[0]:dates[1],'E'] = 1
print(df1)
# 輸出A         B         C  D  F   E
2018-01-01  0.000000  0.000000 -1.688875  5  1 NaN
2018-01-02  0.405921  0.596388  0.742552  5  2 NaN
2018-01-03 -0.737122 -1.018953  1.367684  5  3 NaN
2018-01-04 -0.356770  1.083033  0.876066  5  4 NaN
-----------------------------------------------A         B         C  D  F    E
2018-01-01  0.000000  0.000000 -1.688875  5  1  1.0
2018-01-02  0.405921  0.596388  0.742552  5  2  1.0
2018-01-03 -0.737122 -1.018953  1.367684  5  3  NaN
2018-01-04 -0.356770  1.083033  0.876066  5  4  NaN

# 處理缺失數據
# 剔除df1中含NaN的行（只要任一一列為NaN就算）
df2 = df1.dropna(how='any')
print(df2)
print("--------------------------------------")
# 用5填充df1里的缺失值
df2 = df1.fillna(value=5)
print(df2)
print("--------------------------------------")
# 判斷df2中的值是否為缺失數據，返回True/False
print(pd.isnull(df2))
# 輸出A         B         C  D  F    E
2018-01-01  0.000000  0.000000 -1.688875  5  1  1.0
2018-01-02  0.405921  0.596388  0.742552  5  2  1.0
--------------------------------------A         B         C  D  F    E
2018-01-01  0.000000  0.000000 -1.688875  5  1  1.0
2018-01-02  0.405921  0.596388  0.742552  5  2  1.0
2018-01-03 -0.737122 -1.018953  1.367684  5  3  5.0
2018-01-04 -0.356770  1.083033  0.876066  5  4  5.0
--------------------------------------A      B      C      D      F      E
2018-01-01  False  False  False  False  False  False
2018-01-02  False  False  False  False  False  False
2018-01-03  False  False  False  False  False  False
2018-01-04  False  False  False  False  False  False

此類操作默認排除缺失數據

# 重新創建一份數據
dates = pd.date_range('20180101', periods=6)
df = pd.DataFrame(np.ones((6,4)), index=dates, columns=list('ABCD'))
s = pd.Series([2,2,2,2,2,2], index=dates)
df['E'] = s
df.head()
# 求平均值
print(df.mean())
print("------")# 一行求平均值
print(df.mean(1))
print("------")# 創建Series對象s，以dates為索引并平移2個位置
s = pd.Series([1,3,5,np.nan,6,8], index=dates).shift(2)
print(s)
print("------")# 從df中逐列減去s（若有NaN則得NaN）
print(df.sub(s, axis='index'))# 逐行累加
print(df.apply(np.cumsum))
print("------")# 每列的最大值減最小值
print(df.apply(lambda x: x.max() - x.min()))# 字符
# Series對象的str屬性具有一系列字符處理方法，可以很輕松地操作數組的每個元素。
s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])
print(s.str.lower())

更多內容請查看我的gittee倉庫： Python基礎練習

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/13144.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/13144.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/13144.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！