pandas 根據列名索引多列數據_Pandas 數據聚合與分組運算[groupby+apply]速查筆記

利用Pandas將數據進行分組，并將各組進行聚合或自定義函數處理。

Pandas中Groupby分組與聚合過程

導入模塊

import pandas as pd

縮寫

df表示Dataframe對象

分組

df.groupby('col1')：根據col1列將df全部列分組（默認：axis=0行）
df['col2'].groupby('col1'): 根據col1列對df中col2列分組
- =df['col2'].groupby(df['col1'])
- =df.groupby('col1')[['col2']]
- =df.groupby('col1')['col2']
df.groupby(['col1','col2'])：根據col1,col2列將df分組

df.groupby(df.types, axis=1)：根據數據類型對df列分組
df.groupby(dict/list,axis=1):以字典或列表對df各列分組
- dict中key為列名，value為分類標簽，根據分類標簽將列分類
df.groupby(len)：計算df索引值的字符串長度，以長度值為分組及組名
df.groupby([len,list]):混和使用，層次化索引（0層：len，1層，list）
df.groupby(level='num',axis=1):層次化索引df中，以索引層名為num的列分組

聚合

>>>grouped = df.groupby('col1')

自定義函數

grouped.agg(func):以自定義的func函數聚合
- func 是以sereis為基礎的操作
- 默認聚合后的列名為func名
  - grouped.agg([(name,func)]):指定列名，不用func名
- =grouped.aggregate(func)
grouped[col].agg([func1,‘mean','std',...,funcn]): 對分組列col使用多個聚合函數
grouped[col1,col2].agg([func1,funcn]): 分組后的多列使用多個聚合函數
grouped.agg({col：func1，col2：func2})：對col1列用func1聚合，col2列用func2聚合

本質：將一維數組簡化為標量值的函數

df.pivot_table() ：透視表
- rows：行索引
- cols：列索引
- margins：總計行列數據，默認平均值
- fill_value:填補缺失值
pd.crosstab(df.col1,df.col2) : 交叉表計算分組頻率的特殊透視表

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/379013.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/379013.shtml
英文地址，請注明出處：http://en.pswp.cn/news/379013.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！