目錄
- 一、安裝與導入
- 二、核心數據結構
- 2.1 Series 類型(一維數組)
- 2.2 DataFrame 類型(二維數組)
- 三、數據讀取與寫入
- 3.1 讀取 CSV 和 Excel 文件
- 3.2 寫入數據
- 四、數據清洗與處理
- 4.1 處理缺失值
- 4.2 數據篩選
- 4.3 數據排序
- 五、數據分析
- 5.1 統計描述
- 5.2 分組聚合
- 5.3 數據透視表
- 六、數據可視化
- 七、高級功能
- 7.1 合并數據
- 7.2 處理時間序列

- 官網地址: https://pandas.pydata.org/
什么是pandas?
pandas
是 Python 中一個強大的 數據處理和分析庫,廣泛應用于 數據清洗、轉換、分析 和 可視化 等領域。它提供了搞笑的數據結構(如 DataFrame
和 Series
),使得處理結構化數據變得簡單而高效。本文將詳細介紹 pandas
的核心功能和使用方法,幫助你快速掌握這一工具。
pandas 的特點如下:
- 高效的數據結構:
Series
和DataFrame
提供了靈活的數據操作方式。 - 強大的數據處理能力: 支持數據清洗、轉換、分析和可視化。
- 豐富的文件格式支持: 可以輕松讀取和寫入 CSV、Excel、JSON 等文件格式。
一、安裝與導入
安裝:
在開始使用 pandas
之前,需要先進行安裝。可以通過以下命令安裝:
pip install pandas
導入:
安裝完成后,在代碼中導入 pandas
:
import pandas as pd
二、核心數據結構
pandas 的主要數據結構是:Series
(一維數據) 和 DataFrame
(二維數據)。
2.1 Series 類型(一維數組)
Series
是一個一維數組,可以 存儲任意類型的數據(如整數、字符串、浮點數等),并帶有索引。
創建 Series:
- 語法:pandas.Series([對象1, 對象2])
import pandas as pd# 從列表創建 Series
s = pd.Series([1, 3, 5, 7, 9])
print(s)
執行結果:
訪問 Series:
# 通過索引訪問數據
print(s[0]) # 輸出 1# 通過位置訪問數據
print(s.iloc[1]) # 輸出 3
執行結果:
2.2 DataFrame 類型(二維數組)
DataFrame
是一個二維表格數據結構,類似于 Excel 表格或 SQL 表。它由行和列組成,每列可以是不同的數據類型。
創建 DataFrame:
# 從字典創建 DataFrame
data = {"Name": ["Alice", "Bob", "Charlie"],"Age": [25, 30, 35],"City": ["New York", "Los Angeles", "Chicago"]
}
df = pd.DataFrame(data)
print(df)
執行結果:
訪問 DataFrame:
# 訪問列
print(df["Name"]) # 輸出 Name 列
print("==============")# 訪問行
print(df.iloc[0]) # 輸出第一行
執行結果:
三、數據讀取與寫入
pandas
支持從多種文件格式讀取數據,并將數據寫入這些格式。
3.1 讀取 CSV 和 Excel 文件
讀取 CSV 文件:
df = pd.read_csv("data.csv")
print(df.head())
csv內容如下:
"Name","Age","City"
Alice,25,New York
Bob,30,Los Angeles
Charlie,35,Chicago
執行結果:
讀取 Excel 文件:
df = pd.read_excel("data.xlsx", sheet_name="Sheet1")
print(df.head())
Excel 內容如下:
執行結果:
3.2 寫入數據
寫入 CSV 文件:
df.to_csv("output.csv", index=False)
寫入 Excel 文件:
df.to_excel("output.xlsx", sheet_name="Sheet1", index=False)
四、數據清洗與處理
4.1 處理缺失值
# 檢查缺失項
print(df.isnull())# 填充缺失值
df_filled = df.fillna(0) # 用 0 填充缺失值# 刪除包含缺失值的行
df_dropped = df.ropna()
4.2 數據篩選
# 篩選 Age 大于 30 的行
df_filtered = df[df["Age"] > 30]
print(df_filtered)
執行結果:
4.3 數據排序
# 按 Age 列升序排序
df_sorted = df.sort_values(by="Age")
print(df_sorted)
執行結果:
五、數據分析
5.1 統計描述
# 查看數據的基本統計信息
print(df.describe())
執行結果:
5.2 分組聚合
# 按 City 分組并計算平均年齡
df_grouped = df.groupby("City")["Age"].mean()
print(df_grouped)
執行結果:
5.3 數據透視表
# 創建數據透視表
df_pivot = df.pivot_table(index="City", values="Age", aggfunc="mean")
print(df_pivot)
執行結果:
六、數據可視化
pandas
結合 matplotlib
可以方便地進行數據可視化。
安裝命令:
pip install matplotlib
示例:繪制柱狀圖
import matplotlib.pyplot as plt# 繪制 Age 列地柱狀圖
df["Age"].plot(kind="bar")
plt.show()
執行結果:
七、高級功能
7.1 合并數據
# 合并兩個 DataFrame
df1 = pd.DataFrame({"A": [1, 2], "B": [3, 4]})
df2 = pd.DataFrame({"A": [5, 6], "B": [7, 8]})
df_merged = pd.concat([df1, df2])
print(df_merged)
執行結果:
7.2 處理時間序列
# 創建時間序列
dates = pd.date_range("20230101", periods=6)
df_time = pd.DataFrame({"Date": dates, "Value": [1, 2, 3, 4, 5, 6]})
print(df_time)
執行結果:
整理完畢,完結撒花~ 🌻
參考地址:
1.pandas用法-全網最詳細教程,https://blog.csdn.net/Strive_For_Future/article/details/126710810