前言
1、Python的Pandas是一個基于Python構建的開源數據分析庫,它提供了強大的數據結構和運算功能。
2、
Series:一維數組,類似于Numpy中的一維array,但具有索引標簽,可以保存不同類型的數據,如字符串、布爾值、數字等。
DataFrame:二維表格型數據結構,與SQL表或Excel工作表類似,每列可以是不同的數據類型(如數值、字符串或日期),并且具有列名和行索引。DataFrame是Pandas的核心數據結構,提供了豐富的數據操作方法。
接下來我們將逐步介紹他的用法
一、導入Pandas庫
????????簡寫為pd
import pandas as pd
二、使用Series,創建一維數組
從0開始存儲
三、index查看下標,values查看下標的值
注意:不知道標簽和下標的區別請看目錄五的解釋
1、index的輸出類似于range:
????????start代表起始標簽;stop代表結束標簽(不會到這個值,到n-1值);step代表步長。
2、valuses:
? ? ? ? 直接查看下標的值,記得是重0開始的值
四、使用index指定標簽
注意:可以看到數組中1的標簽不是默認值0了,而是標簽5,如果利用想輸出下標0,這時候會報錯,我們要使用到 “iloc“?and ”?loc“,請看五
五、iloc?and?loc的使用
解釋:
1、iloc是原下標,也就是默認值,計算機的記憶
2、loc是修改過的下標,我們把他叫作標簽,標簽是由我們自主給的,計算機并不會自己產生
可以看到計算機的下標1的值是2
可以看到我們給的標簽1的值是5
六、創建對象
1、這里的我們所理解的鍵其實就是數據的標簽,大部分的人可能會理解為這里是一個字典或者一個數組,其實都不是,是一個一維數據
2、什么是鍵?如果不知道,就需要回頭學習python基礎了。
????????鍵是字典的一個解釋,前鍵后值,稱為鍵值對,如下的:“鍵”:值
3、修改數據
使用loc,找標簽“小張”讓他的值等于95,可以看到被修改了
4、篩選數據
這里的&就是python,and的意思
七、兩個數據相加、相減、相乘、相除
1、相加——add
可以看到需要鏈接s1,如果沒有s1,那會導致數據相加錯誤,出現NaN;
這個時候,我們應該使用add:
????????在s1的基礎上add(s2,fill_value = “如果出現沒有值的情況,以0代替”)
2、相減——sub
3、相乘——mul
4、相除——div
八、求最大值、最小值、求和值、平均值
九、describe() —— 數據分析方法
十、apply() ——?定義函數判斷數據
apply()對數據批量處理
十一、DataFrame ——?創建二維數組
十二、修改標簽
標簽名要統一,否則會報錯;但是可以缺少,但數據也要缺少,一一對應
特別:標簽會自動排序好
十二、查看標簽(行屬性)
十三、查看列屬性
十四、查看數據
十五、數據顛倒——行列調換
十六、提取數據(列)
1、查看班級數據
2、查看成績數據
3、查看學號和成績,這里我們需要再加一個【】,如果不加會報錯
十七、提取數據(行)
注意:loc和iloc的區別
十八、切片操作
1、標簽切片
2、下標切片
????????注意:3是終止,并不會執行,如果想小紅到小麗,需要 [1:4]
3、行列切片——標簽
4、行列切片——下標
十九、篩選——判斷、提取數據
1、單單判斷數據,輸出布爾值
2、判斷完數據并提取數據,輸出數據
二十、查看前幾行數據——數據量龐大可使用
????????注意:如果head()不輸入任何的值,那他的默認值為5,輸出前5行數據
二十一、drop搭配axis用法
我們先導入要使用的數據
????????添加考試4的數據
drop:就是刪除的意思
axis:用來指定是行還是列
可以看到刪除了行的002和004
可以看到刪除了列的考試2和考試4
二十二、兩個數據相加
1、student的數據請看目錄二十一
2、先定于一個數據bonus,讓他們兩個相加
3、注意:運行一次相加一次;標簽要一一對應,否則會導致數據錯誤。
相加完之后不會改變原數據,如果需要改變原數據,全部都是要重新賦值
實現重新賦值,以考試4位例
二十三、案例實操——求出平均值
mean(axis=1):求平均值每一行。
這里可能會導致理解沖突,上面解釋axis=0代表行,axis=1代表列,但是mean(axis=1)為什么代表的是行???請看下面的解釋
可以理解為如果被包含,則方向相反。
????????行對列操作
????????列對行操作
二十四、案例實操——篩選出第二大的數據
1、loc[:,"考試1":"考試3"] 其實就是 loc["001":"006","考試1":"考試3"]
2、lambda x:定義匿名函數x
3、np.sort(x):使用numpy庫的sort方法,進行升序
4、np.sort(x)[-2]:升序完后提取倒數第二個值,也就是第二大的值,然后返回匿名函數x