1.pd.read_csv('一個文件.csv')
:
從本地文件加載數據,返回一個 DataFrame
對象,這是 pandas
中用于存儲表格數據的主要數據結構
2.df.head()
:
查看數據的前五行,幫助快速了解數據的基本結構和內容
3.df.info()
:
查看數據的特征,包括每列的非空值數量、數據類型以及內存使用情況
4.df.shape
:
返回數據的行數和列數,幫助了解數據的規模
5.df.describe()
:
生成數據的描述性統計信息,如均值、標準差、最小值、最大值等,但默認只對數值型列進行統計
6.df.drop_duplicates(inplace = False)
:
刪除重復行,inplace=False
表示返回一個新的 DataFrame
,而不修改原數據
7.data.reset_index(inplace = True,drop = True)
:
重置索引,drop=True
表示丟棄舊的索引
inplace=True
:直接在原數據上修改,節省內存,但會改變原始數據。
inplace=False
:返回一個新的數據對象,原始數據保持不變
drop
:用于刪除行或列,可以通過 inplace
參數控制是否直接修改原數據
8.data.loc[data['sale_count'].isnull()].head()
和? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?data.loc[data['comment_count'].isnull()].tail()
:
分別查看 sale_count
和 comment_count
列中缺失值的前五行和后五行,幫助了解缺失數據的情況
9.data.fillna(0)
:
用 0 填補所有缺失值
10.data.isnull().any()
:
檢查數據中是否還有缺失值
11.lcut_for_search
針對搜索引擎的分詞模式,更適合提取關鍵詞
12.data.groupby('店名')['銷售額'].sum()
:
按店鋪名稱(店名
)分組,計算每個店鋪的總銷售額
13.plt.pie
:繪制餅圖
autopct='%0f%%'
:
顯示百分比格式
pctdistance=0.9
:
百分比標簽與餅圖中心的距離
14.plt.bar
:繪制柱狀圖
15.ci=0
:不顯示置信區間
16.plt.tight_layout():
自動調整子圖的布局,避免標簽重疊
17.pctdistance
pctdistance
的值小于 1,百分比標簽會顯示在餅圖內部,距離圓心越近,值越小
pctdistance
的值大于 1,百分比標簽會顯示在餅圖外部
18.ascending
ascending=True??表示按照升序排序(從小到大)
ascending=False??表示按照降序排序(從大到小)