Pandas2.2 DataFrame
Indexing, iteration
方法 | 描述 |
---|---|
DataFrame.head([n]) | 用于返回 DataFrame 的前幾行 |
DataFrame.at | 快速訪問和修改 DataFrame 中單個值的方法 |
DataFrame.iat | 快速訪問和修改 DataFrame 中單個值的方法 |
DataFrame.loc | 用于基于標簽(行標簽和列標簽)來訪問和修改 DataFrame 中的數據 |
DataFrame.iloc | 用于基于整數位置(行號和列號)來訪問和修改 DataFrame 中的數據 |
DataFrame.insert(loc, column, value[, …]) | 用于在 DataFrame 的指定位置插入一個新的列 |
DataFrame.iter() | 用于迭代 DataFrame 的列名 |
DataFrame.items() | 用于迭代 DataFrame 的列名和列數據 |
DataFrame.keys() | 返回 DataFrame 的列名 |
DataFrame.iterrows() | 用于逐行迭代 DataFrame |
DataFrame.itertuples([index, name]) | 用于逐行迭代 DataFrame |
DataFrame.pop(item) | 用于從 DataFrame 中刪除指定列 |
DataFrame.tail([n]) | 用于返回 DataFrame 的最后 n 行 |
DataFrame.xs(key[, axis, level, drop_level]) | 用于從 DataFrame 中提取一個橫截面(cross-section) |
DataFrame.get(key[, default]) | 用于從 DataFrame 中獲取指定列的數據 |
DataFrame.isin(values) | 用于檢查 DataFrame 中的每個元素是否包含在指定的值集合中 |
DataFrame.where(cond[, other, inplace, …]) | 用于根據條件篩選 DataFrame 中的元素 |
pandas.DataFrame.where()
pandas.DataFrame.where(cond, other=nan, *, inplace=False, axis=None, level=None)
方法用于根據條件篩選 DataFrame 中的元素。如果條件為 True
,則保留元素;如果條件為 False
,則用 other
參數指定的值替換該元素。
參數
cond
:布爾條件,可以是布爾值、布爾數組、布爾 DataFrame 或布爾 Series。other
:可選參數,當條件為False
時使用的值。默認為NaN
。inplace
:布爾值,如果為True
,則直接在原 DataFrame 上進行修改,否則返回一個新的 DataFrame。默認為False
。axis
:指定軸,0
或'index'
表示按行,1
或'columns'
表示按列。默認為None
。level
:如果索引是多級索引,指定要使用的級別。默認為None
。
返回值
- 如果
inplace=False
,返回一個新的 DataFrame。 - 如果
inplace=True
,返回None
。
示例
假設我們有一個 DataFrame 如下:
import pandas as pd
import numpy as npdata = {'A': [1, 2, 3, 4],'B': [5, 6, 7, 8]
}df = pd.DataFrame(data)
print("原始 DataFrame:")
print(df)
輸出:
原始 DataFrame:A B
0 1 5
1 2 6
2 3 7
3 4 8
示例 1:使用布爾條件替換值
將 A
列中大于 2 的值替換為 NaN
:
result = df.where(df['A'] <= 2)
print("\n將 A 列中大于 2 的值替換為 NaN:")
print(result)
輸出:
將 A 列中大于 2 的值替換為 NaN:A B
0 1.0 5.0
1 2.0 6.0
2 NaN NaN
3 NaN NaN
示例 2:使用布爾條件和自定義替換值
將 A
列中大于 2 的值替換為 0
:
result = df.where(df['A'] <= 2, other=0)
print("\n將 A 列中大于 2 的值替換為 0:")
print(result)
輸出:
將 A 列中大于 2 的值替換為 0:A B
0 1 5
1 2 6
2 0 0
3 0 0
示例 3:使用布爾 DataFrame 替換值
將 A
列中大于 2 的值替換為 NaN
,B
列中大于 6 的值替換為 NaN
:
cond = (df['A'] <= 2) & (df['B'] <= 6)
result = df.where(cond)
print("\n將 A 列中大于 2 的值和 B 列中大于 6 的值替換為 NaN:")
print(result)
輸出:
將 A 列中大于 2 的值和 B 列中大于 6 的值替換為 NaN:A B
0 1.0 5.0
1 2.0 6.0
2 NaN NaN
3 NaN NaN
示例 4:使用 inplace=True
直接修改原 DataFrame
將 A
列中大于 2 的值替換為 0
,直接修改原 DataFrame:
df.where(df['A'] <= 2, other=0, inplace=True)
print("\n直接修改原 DataFrame:")
print(df)
輸出:
直接修改原 DataFrame:A B
0 1 5
1 2 6
2 0 0
3 0 0
示例 5:使用多級索引
假設我們有一個多級索引的 DataFrame:
index = pd.MultiIndex.from_tuples([('a', 'x'), ('a', 'y'), ('b', 'x'), ('b', 'y')], names=['first', 'second'])
df = pd.DataFrame(data, index=index)
print("原始 DataFrame:")
print(df)
輸出:
原始 DataFrame:A B
first second
a x 1 5y 2 6
b x 0 0y 0 0
使用 where
方法并指定 level
參數:
result = df.where(df['A'] <= 2, level='first')
print("\n使用 where 方法并指定 level 參數:")
print(result)
輸出:
使用 where 方法并指定 level 參數:A B
first second
a x 1.0 5.0y 2.0 6.0
b x NaN NaNy NaN NaN
總結
pandas.DataFrame.where
方法提供了一種靈活的方式來根據條件篩選和替換 DataFrame 中的元素。你可以使用布爾條件、布爾數組或布爾 DataFrame 來指定哪些元素需要保留,哪些需要替換。通過 other
參數可以指定替換的值,默認為 NaN
。inplace
參數允許你選擇是否直接修改原 DataFrame。這對于數據清洗和預處理非常有用。