文章目錄
- 數據轉換——transform()方法
- 數據應用——apply()方法
數據轉換——transform()方法
使用aggregate()方法進行聚合運算已經在上一篇博客中詳細闡述,我們知道aggregate()方法返回的數據集的形狀(shape)與被分組的數據集的形狀是不同的,如果希望保持與原數據數據集形狀相同,則可以通過transfrom()方法實現。
transform(self, func, *args, **kwargs)
上述方法中只有一個func參數,表示操作Pandas對象的函數,該函數可以是內置方法也可以是自定義函數。
transform()方法返回的結果有兩種:
- 一種是可以廣播的標量值(np.mean)
- 一種可以是與分組大小相同的結果數組
通過transfrom()方法操作分組時,該方法回將func()函數應用到各個分組中,并且將結果放在適當的位置上。
下面通過實例來進一步了解該方法的具體功能。
創建測試對象:
import pandas as pd
import numpy as npdf = pd.DataFrame(np.arange(25).reshape(5, 5),index=list([0, 1, 2, 3, 4]),columns=list('abcde'))
df['key'] = pd.Series(data=list('AABBB'), name='key')
print(df)
輸出結果:
a b c d e key
0 0 1 2 3 4 A
1 5 6 7 8 9 A
2 10 11 12 13 14 B
3 15 16 17 18 19 B
4 20 21 22 23 24 B
以key列進行分組,可以將df對象拆分成A、B兩組,將mean()方法應用到每個分組中,計算每個分組中每列的平均值。
代碼如下:
df_group = df.groupby('key').transform('mean')
print(df_group)
輸出結果:
a b c d e
0 2.5 3.5 4.5 5.5 6.5
1 2.5 3.5 4.5 5.5 6.5
2 15.0 16.0 17.0 18.0 19.0
3 15.0 16.0 17.0 18.0 19.0
4 15.0 16.0 17.0 18.0 19.0
從輸出結果可以看出,每列的數據是各分組求得的平均數。操作過程是通過mean()方法算出均值(一個標準量)后將其廣播。
不難發現上述示例中,原始數據的列數與最終結果的列數是不一樣的。
如果希望原始數據的列數與最終結果的列數是一樣的。那么需要創建一個Series對象作為分組鍵,而不是將原始數據中的列作為分組鍵。
創建測試對象:
df1 = DataFrame(np.arange(20).reshape(5, 4))
print(df1)
輸出結果:
0 1 2 3
0 0 1 2 3
1 4 5 6 7
2 8 9 10 11
3 12 13 14 15
4 16 17 18 19
然后創建一個列表key,key的長度需要與df1對象的行數是一樣的,我們將key當作分組鍵,然后對每個分組執行求平均值的操作。
代碼如下:
key = ['one', 'one', 'two', 'two', 'two']
df1_group = df1.groupby(by=key).transform('mean')
print(df1_group)
輸出結果:
0 1 2 3
0 2 3 4 5
1 2 3 4 5
2 12 13 14 15
3 12 13 14 15
4 12 13 14 15
數據應用——apply()方法
apply()方法的使用十分靈活,它可以作用于DataFrame中的每一列、每一行元素,還可以在許多標準用例中代替聚合和轉換。
測試對象:
a b c d e key
0 0 1 2 3 4 A
1 5 6 7 8 9 A
2 10 11 12 13 14 B
3 15 16 17 18 19 B
4 20 21 22 23 24 B
運用apply()方法的代碼如下:
df_by_group = df.groupby('key')def plus_ten(data_frame):return data_frame.iloc[:, :5] + 10df_by_group_apply = df_by_group.apply(func=plus_ten)
print(df_by_group_apply)
輸出結果:
a b c d e
0 10 11 12 13 14
1 15 16 17 18 19
2 20 21 22 23 24
3 25 26 27 28 29
4 30 31 32 33 34
也可以用內置方法進行數據應用:
df1_by_group_apply1 = df.iloc[:, :5].apply(func='mean')
print("df1_apply:\n", df1_by_group_apply1)
輸出結果:
df1_apply:a 10.0
b 11.0
c 12.0
d 13.0
e 14.0
dtype: float64