DataFrame是什么?
????????DataFrame 是一種用于處理和分析數據的二維標簽數據結構。它類似于Excel中的電子表格或數據庫中的表格,由行和列組成。每個列可以是不同的數據類型(如整數、浮點數、字符串等),并且可以進行各種數據操作,如過濾、聚合和可視化。
特點
- 二維結構:DataFrame 是一個二維數據結構,可以包含多種不同的數據類型(如數值、字符串、布爾值等)。
- 標簽索引:每個軸(行和列)都有標簽(即索引),這使得 DataFrame 在數據選擇和操作時非常靈活。
- 對齊操作:DataFrame 在算術運算時會自動對齊數據,確保相同標簽的數據對齊進行運算。
創建DataFrame
import pandas as pd# 從字典創建DataFrame
data = {"name": ["Alice", "Bob", "Crestina", "john"],"age": [12, 32, 38, 22],"city": ["云南", "廣西", "香港", "香港"]
}
df = pd.DataFrame(data)
print(df)
常用操作
print("--------------查看:返回前幾條數據-----------------")
print(df.head())print("--------------查看:返回后幾條數據-----------------")
print(df.tail())print("--------------查看:數據結構-----------------")
print(df.info())print("--------------查看:數據的統計信息-----------------")
print(df.describe())print("--------------選擇:單列-----------------")
print(df["name"])print("--------------選擇:多列-----------------")
print(df[["name", "age"]])print("--------------選擇:按標簽選擇行-----------------")
print(df.loc[0])print("--------------選擇:按位置選擇行-----------------")
print(df.iloc[1])print("--------------過濾:年齡大于20-----------------")
print(df[df["age"] > 20])print("--------------操作:添加列-----------------")
df["id"] = ["5", "6", "7", "9"]
print(df)print("--------------操作:刪除列-----------------")
df.drop("id", axis=1, inplace=True)
print(df)print("--------------清理:刪除缺失值-----------------")
df["id"] = ["5", "6", np.nan, np.nan]
print(df)print("--------------清理:行中有NAN,則刪除整行-----------------")
# print(df.dropna(axis= 0))print("--------------清理:列中有NAN,則刪除整列-----------------")
# print(df.dropna(axis= 1))print("--------------清理:填充NAN-----------------")
print(df.fillna("0"))print("--------------聚合:數據聚合(按city分組,計算平均值)-----------------")
print(df.groupby("city").mean())