視頻演示
如何通過實例學習Pandas DataFrame的創建與數據訪問
🧩 理解 Pandas DataFrame:數據分析的核心結構
Pandas 是 Python 中用于數據分析與處理的主力庫,而 DataFrame 是 Pandas 最常用的二維表格數據結構。我們可以將其想象成一個 Excel 表格,有明確的行列索引,支持多種數據類型,適合進行高效的數據清洗、選擇、轉換與分析操作。
在本教程中,我們將介紹如何使用不同方式創建 DataFrame 對象,并深入講解如何通過 `.loc[]` 與 `.iloc[]` 精準訪問數據內容。
🏗? 創建 DataFrame 的三種主流方式
1. 使用嵌套數組創建 DataFrame
這是最基礎的方式。只需要傳入一個二維列表(或嵌套列表),再指定列標題:
import pandas as pd
data = [["Google", 25], ["Baidu", 30], ["Bing", 22]]
df = pd.DataFrame(data, columns=["Site", "Age"])
print(df)
該方法創建了一個包含兩列的表格,分別為 "Site" 和 "Age",每一行為一條記錄。類似 Excel,系統會自動生成行索引 0, 1, 2。
2. 使用字典創建 DataFrame
字典創建方式更加直觀、靈活。鍵名表示列標題,鍵值為該列的所有數據:
data = {"Site": ["Google", "Baidu", "Bing"],"Age": [25, 30, 22]
}
df = pd.DataFrame(data)
print(df)
這種方法特別適合從結構化數據(如JSON、字典等)中快速創建表格。
3. 使用 NumPy 數組創建 DataFrame
若你已有 NumPy 數組進行科學計算,可直接用其作為數據源構建:
import pandas as pd
import numpy as np
arr = np.array([["Google", 25], ["Baidu", 30], ["Bing", 22]])
df = pd.DataFrame(arr, columns=["Site", "Age"])
print(df)
由于 NumPy 的內存效率更高,這種方式適合處理大型數據集。
🔍 精準訪問 DataFrame 中的數據
1. 使用 `loc[]` 訪問數據(通過標簽索引)
data = {"calories": [420, 380, 390],"duration": [50, 40, 45]
}
df = pd.DataFrame(data, index=["day1", "day2", "day3"])
print(df.loc["day2"])
這將返回 `day2` 對應的整行數據。如果你想要多行內容,可傳入列表:
print(df.loc[["day1", "day3"]])
還可以指定列:
print(df.loc[["day1", "day3"], ["calories"]])
2. 使用 `iloc[]` 訪問數據(通過整數索引)
print(df.iloc[[0, 1], [0]])
這里的 0 和 1 表示第1和第2行,另一個 0 表示第一列,適合在默認索引情況下使用。
? 總結與建議
DataFrame 是進行數據分析的基礎結構,掌握其創建方法和訪問方式能幫助你更快速高效地進行數據清洗與處理。記住:
* 使用 `loc[]` 通過“名字”訪問;
* 使用 `iloc[]` 通過“位置”訪問;
* 多種創建方式滿足不同數據來源;
* 熟練掌握后能輕松實現數據篩選、計算與可視化操作。