在 Pandas 中,sep參數用于指定數據中字段之間的分隔符。常見的參數包括:
逗號:,,常用于CSV文件。
制表符:\t,常用于TSV文件。
空格:’ ',用于空格分隔的數據。
分號:;,有些文件使用分號來分隔字段。
正則表達式:使用正則表達式作為分隔符。
這些是一些常見的sep參數值,具體取決于數據文件中字段之間的實際分隔符。
pandas數據處理的過程
1.data=pd.read_csv('快餐數據.tsv',sep='\t')#讀入數據,讀入tsv文件一般加\t
2.data.info()#顯示日志信息,查看有哪些存在空數據
了解數據大致情況
3.data.columns#打印全部的列名稱
了解每一列的名稱,確定要處理的數據
4.data[['item_name','quantity']].groupby(['item_name']).sum()#先將所有的項目綜合表示出來
根據題目將需要處理的數據分別找出來
5
# 通常,pandas中的groupby()方法在調用完畢之后,會將by之后的列修改為index
# 該參數是控制groupby方法是否需要將列作為新的index。默認是True,
# 為了達到上述目的,我們只需要將其設置為False即可
c=data[['item_name','quantity']].groupby(['item_name'],as_index=False).sum()
c.sort_values(['quantity'],inplace=True,ascending=False)#對quantity進行排序,inplace代表修改時是否創建新的對象,True代表直接對原數據進行修改,ascend表示如何排序true為降序
c.head()#head默認為獲取前5個數據