Python | 如何在Pandas中刪除常量列

在數據分析中，經常會遇到數據集中始終具有常量值的列（即，該列中的所有行包含相同的值）。這樣的常量列不提供有意義的信息，可以安全地刪除而不影響分析。

如：
在這里插入圖片描述
在本文中，我們將探索如何使用Python識別和刪除Pandas DataFrame中的常量列。

為什么要刪除常量列？

常數列不提供可變性，這意味著它們無助于區分不同的數據點。在許多機器學習模型中，這些列會引入冗余或不相關的數據，從而對性能產生負面影響。因此，通常必須刪除常量列，以便：

減少數據集的維數。
提高計算效率。
增強模型的可解釋性。

步驟1：在Pandas中識別常量列

Pandas提供了幾種識別和刪除常量列的方法。我們可以檢查唯一值的數量正好為1的列。

.nunique()函數在這方面特別有用，因為它返回每列中不同元素的數量。

import pandas as pd# Sample DataFrame with constant and non-constant columns
data = {'A': [1, 1, 1, 1],'B': [2, 3, 4, 5],'C': ['X', 'X', 'X', 'X'],'D': [10, 11, 12, 13]
}df = pd.DataFrame(data)# Identify constant columns
constant_columns = [col for col in df.columns if df[col].nunique() == 1]# Display constant columns
print("Constant columns:", constant_columns)

輸出

Constant columns: ['A', 'C']

在這種情況下，列A和列C被標識為常量，因為它們只有一個唯一值。

步驟2：刪除常量列

一旦我們確定了常量列，我們就可以使用Pandas中的.drop()函數輕松刪除它們。

# Drop constant columns
df_cleaned = df.drop(columns=constant_columns)# Display the cleaned DataFrame
print(df_cleaned)

輸出

在這里，清理后的DataFrame已刪除常量列A和C。

步驟3：刪除較大數據集中的常量列

讓我們考慮一個更大的數據集，其中某些列可能具有常量值。

import numpy as np# Create a DataFrame with random and constant columns
data = {'X1': np.random.randint(0, 100, size=100),'X2': [5] * 100,    # Constant column'X3': np.random.randint(0, 100, size=100),'X4': [3] * 100,    # Constant column
}df_large = pd.DataFrame(data)# Remove constant columns in the larger dataset
constant_columns = [col for col in df_large.columns if df_large[col].nunique() == 1]
df_large_cleaned = df_large.drop(columns=constant_columns)print("Original DataFrame Shape:", df_large.shape)
print(df_large.head())print("Cleaned DataFrame Shape:", df_large_cleaned.shape)
print(df_large_cleaned.head())

輸出
在這里插入圖片描述
在本例中，刪除了常量列X2和X4，在清理后的DataFrame中只留下X1和X3。

處理特殊情況

空DataFrame：如果DataFrame為空，則刪除常量列無效，函數應返回原始DataFrame。
包含缺失值的列：如果所有非缺失值都相同，則包含缺失值（NA）的列仍可以被視為常數。您可以使用占位符（例如，fillna()）之前確定常數列。

總結

從數據集中刪除常量列是數據預處理的關鍵步驟，特別是在機器學習和數據分析中處理大型數據集時。在這篇文章中，我們有：

定義了常數列，并解釋了它們在分析中缺乏意義。
展示了使用Pandas識別和刪除常量列的多種方法。
提供了示例，包括在較大的數據集中刪除常量列和處理特殊情況（如丟失數據）。

通過有效地刪除這些冗余列，我們可以提高模型的性能并簡化分析。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/898811.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/898811.shtml
英文地址，請注明出處：http://en.pswp.cn/news/898811.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！