Python學習（十四）pandas庫入門手冊

- 一、安裝與導入
- 二、核心數據結構
- - 2.1 Series 類型（一維數組）
  - 2.2 DataFrame 類型（二維數組）
- 三、數據讀取與寫入
- - 3.1 讀取 CSV 和 Excel 文件
  - 3.2 寫入數據
- 四、數據清洗與處理
- - 4.1 處理缺失值
  - 4.2 數據篩選
  - 4.3 數據排序
- 五、數據分析
- - 5.1 統計描述
  - 5.2 分組聚合
  - 5.3 數據透視表
- 六、數據可視化
- 七、高級功能
- - 7.1 合并數據
  - 7.2 處理時間序列

官網地址： https://pandas.pydata.org/

什么是pandas？

pandas 是 Python 中一個強大的 數據處理和分析庫，廣泛應用于 數據清洗、轉換、分析和 可視化 等領域。它提供了搞笑的數據結構（如 DataFrame 和 Series），使得處理結構化數據變得簡單而高效。本文將詳細介紹 pandas 的核心功能和使用方法，幫助你快速掌握這一工具。

pandas 的特點如下：

高效的數據結構： Series 和 DataFrame 提供了靈活的數據操作方式。
強大的數據處理能力： 支持數據清洗、轉換、分析和可視化。
豐富的文件格式支持： 可以輕松讀取和寫入 CSV、Excel、JSON 等文件格式。

一、安裝與導入

安裝：

在開始使用 pandas 之前，需要先進行安裝。可以通過以下命令安裝：

pip install pandas

導入：

安裝完成后，在代碼中導入 pandas：

import pandas as pd

二、核心數據結構

pandas 的主要數據結構是：Series（一維數據）和 DataFrame（二維數據）。

2.1 Series 類型（一維數組）

Series 是一個一維數組，可以 存儲任意類型的數據（如整數、字符串、浮點數等），并帶有索引。

創建 Series：

語法：pandas.Series([對象1, 對象2])

import pandas as pd# 從列表創建 Series
s = pd.Series([1, 3, 5, 7, 9])
print(s)

執行結果：

在這里插入圖片描述

訪問 Series：

# 通過索引訪問數據
print(s[0]) # 輸出 1# 通過位置訪問數據
print(s.iloc[1]) # 輸出 3

執行結果：

在這里插入圖片描述

2.2 DataFrame 類型（二維數組）

DataFrame 是一個二維表格數據結構，類似于 Excel 表格或 SQL 表。它由行和列組成，每列可以是不同的數據類型。

創建 DataFrame：

# 從字典創建 DataFrame
data = {"Name": ["Alice", "Bob", "Charlie"],"Age": [25, 30, 35],"City": ["New York", "Los Angeles", "Chicago"]
}
df = pd.DataFrame(data)
print(df)

執行結果：

在這里插入圖片描述

訪問 DataFrame：

# 訪問列
print(df["Name"]) # 輸出 Name 列
print("==============")# 訪問行
print(df.iloc[0]) # 輸出第一行

執行結果：

在這里插入圖片描述

三、數據讀取與寫入

pandas 支持從多種文件格式讀取數據，并將數據寫入這些格式。

3.1 讀取 CSV 和 Excel 文件

讀取 CSV 文件：

df = pd.read_csv("data.csv")
print(df.head())

csv內容如下：

"Name","Age","City"
Alice,25,New York
Bob,30,Los Angeles
Charlie,35,Chicago

執行結果：

在這里插入圖片描述

讀取 Excel 文件：

df = pd.read_excel("data.xlsx", sheet_name="Sheet1")
print(df.head())

Excel 內容如下：

在這里插入圖片描述

執行結果：

在這里插入圖片描述

3.2 寫入數據

寫入 CSV 文件：

df.to_csv("output.csv", index=False)

寫入 Excel 文件：

df.to_excel("output.xlsx", sheet_name="Sheet1", index=False)

四、數據清洗與處理

4.1 處理缺失值

# 檢查缺失項
print(df.isnull())# 填充缺失值
df_filled = df.fillna(0) # 用 0 填充缺失值# 刪除包含缺失值的行
df_dropped = df.ropna()

4.2 數據篩選

# 篩選 Age 大于 30 的行
df_filtered = df[df["Age"] > 30]
print(df_filtered)

執行結果：

在這里插入圖片描述

4.3 數據排序

# 按 Age 列升序排序
df_sorted = df.sort_values(by="Age")
print(df_sorted)

執行結果：

在這里插入圖片描述

五、數據分析

5.1 統計描述

# 查看數據的基本統計信息
print(df.describe())

執行結果：

在這里插入圖片描述

5.2 分組聚合

# 按 City 分組并計算平均年齡
df_grouped = df.groupby("City")["Age"].mean()
print(df_grouped)

執行結果：

在這里插入圖片描述

5.3 數據透視表

# 創建數據透視表
df_pivot = df.pivot_table(index="City", values="Age", aggfunc="mean")
print(df_pivot)

執行結果：

在這里插入圖片描述

六、數據可視化

pandas 結合 matplotlib 可以方便地進行數據可視化。

安裝命令：

pip install matplotlib

示例：繪制柱狀圖

import matplotlib.pyplot as plt# 繪制 Age 列地柱狀圖
df["Age"].plot(kind="bar")
plt.show()

執行結果：

在這里插入圖片描述

七、高級功能

7.1 合并數據

# 合并兩個 DataFrame
df1 = pd.DataFrame({"A": [1, 2], "B": [3, 4]})
df2 = pd.DataFrame({"A": [5, 6], "B": [7, 8]})
df_merged = pd.concat([df1, df2])
print(df_merged)

執行結果：

在這里插入圖片描述

7.2 處理時間序列

# 創建時間序列
dates = pd.date_range("20230101", periods=6)
df_time = pd.DataFrame({"Date": dates, "Value": [1, 2, 3, 4, 5, 6]})
print(df_time)

執行結果：

在這里插入圖片描述

整理完畢，完結撒花~ 🌻

參考地址：

1.pandas用法-全網最詳細教程，https://blog.csdn.net/Strive_For_Future/article/details/126710810

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/71396.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/71396.shtml
英文地址，請注明出處：http://en.pswp.cn/web/71396.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！