數據轉換——transform()方法

使用aggregate()方法進行聚合運算已經在上一篇博客中詳細闡述，我們知道aggregate()方法返回的數據集的形狀（shape）與被分組的數據集的形狀是不同的，如果希望保持與原數據數據集形狀相同，則可以通過transfrom()方法實現。

transform(self, func, *args, **kwargs)

上述方法中只有一個func參數，表示操作Pandas對象的函數，該函數可以是內置方法也可以是自定義函數。

transform()方法返回的結果有兩種：

一種是可以廣播的標量值（np.mean）
一種可以是與分組大小相同的結果數組

通過transfrom()方法操作分組時，該方法回將func()函數應用到各個分組中，并且將結果放在適當的位置上。

下面通過實例來進一步了解該方法的具體功能。

創建測試對象：

import pandas as pd
import numpy as npdf = pd.DataFrame(np.arange(25).reshape(5, 5),index=list([0, 1, 2, 3, 4]),columns=list('abcde'))
df['key'] = pd.Series(data=list('AABBB'), name='key')
print(df)

輸出結果：

    a   b   c   d   e key
0   0   1   2   3   4   A
1   5   6   7   8   9   A
2  10  11  12  13  14   B
3  15  16  17  18  19   B
4  20  21  22  23  24   B

以key列進行分組，可以將df對象拆分成A、B兩組，將mean()方法應用到每個分組中，計算每個分組中每列的平均值。

代碼如下：

df_group = df.groupby('key').transform('mean')
print(df_group)

輸出結果：

      a     b     c     d     e
0   2.5   3.5   4.5   5.5   6.5
1   2.5   3.5   4.5   5.5   6.5
2  15.0  16.0  17.0  18.0  19.0
3  15.0  16.0  17.0  18.0  19.0
4  15.0  16.0  17.0  18.0  19.0

從輸出結果可以看出，每列的數據是各分組求得的平均數。操作過程是通過mean()方法算出均值（一個標準量）后將其廣播。

不難發現上述示例中，原始數據的列數與最終結果的列數是不一樣的。

如果希望原始數據的列數與最終結果的列數是一樣的。那么需要創建一個Series對象作為分組鍵，而不是將原始數據中的列作為分組鍵。

創建測試對象：

df1 = DataFrame(np.arange(20).reshape(5, 4))
print(df1)

輸出結果：

    0   1   2   3
0   0   1   2   3
1   4   5   6   7
2   8   9  10  11
3  12  13  14  15
4  16  17  18  19

然后創建一個列表key，key的長度需要與df1對象的行數是一樣的，我們將key當作分組鍵，然后對每個分組執行求平均值的操作。

代碼如下：

key = ['one', 'one', 'two', 'two', 'two']
df1_group = df1.groupby(by=key).transform('mean')
print(df1_group)

輸出結果：

    0   1   2   3
0   2   3   4   5
1   2   3   4   5
2  12  13  14  15
3  12  13  14  15
4  12  13  14  15

數據應用——apply()方法

apply()方法的使用十分靈活，它可以作用于DataFrame中的每一列、每一行元素，還可以在許多標準用例中代替聚合和轉換。

測試對象：

    a   b   c   d   e key
0   0   1   2   3   4   A
1   5   6   7   8   9   A
2  10  11  12  13  14   B
3  15  16  17  18  19   B
4  20  21  22  23  24   B

運用apply()方法的代碼如下：

df_by_group = df.groupby('key')def plus_ten(data_frame):return data_frame.iloc[:, :5] + 10df_by_group_apply = df_by_group.apply(func=plus_ten)
print(df_by_group_apply)

輸出結果：

    a   b   c   d   e
0  10  11  12  13  14
1  15  16  17  18  19
2  20  21  22  23  24
3  25  26  27  28  29
4  30  31  32  33  34

也可以用內置方法進行數據應用：

df1_by_group_apply1 = df.iloc[:, :5].apply(func='mean')
print("df1_apply:\n", df1_by_group_apply1)

輸出結果：

df1_apply:a    10.0
b    11.0
c    12.0
d    13.0
e    14.0
dtype: float64

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/443844.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/443844.shtml
英文地址，請注明出處：http://en.pswp.cn/news/443844.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！