鋒哥原創的Scikit-learn Python機器學習視頻教程:
2026版 Scikit-learn Python機器學習 視頻教程(無廢話版) 玩命更新中~_嗶哩嗶哩_bilibili
課程介紹
本課程主要講解基于Scikit-learn的Python機器學習知識,包括機器學習概述,特征工程(數據集,特征抽取,特征預處理,特征降維等),分類算法(K-臨近算法,樸素貝葉斯算法,決策樹等),回歸與聚類算法(線性回歸,欠擬合,邏輯回歸與二分類,K-means算法)等。
Scikit-learn Python機器學習 - 特征降維 壓縮數據 - 特征選擇 - 移除低方差特征(VarianceThreshold)
適用于移除方差低于閾值的特征,這些特征通常包含很少的信息。
VarianceThreshold 是機器學習中一個簡單但實用的特征選擇方法,它通過移除低方差特征來簡化數據集。VarianceThreshold
的主要參數是 threshold
,它決定了特征被保留與否的方差門檻。
參數名 (Parameter) | 說明 (Description) | 默認值 (Default) |
---|---|---|
threshold | 一個浮點數 (float)。指定要保留特征的最低方差閾值。訓練集中方差低于此閾值的特征將被移除。 | 0.0 |
我們來看一個示例:
from sklearn.feature_selection import VarianceThreshold
from sklearn.datasets import load_iris
?
# 加載示例數據
X, y = load_iris(return_X_y=True)
# 設置閾值,移除方差低于0.8的特征
selector = VarianceThreshold(threshold=0.8)
X_new = selector.fit_transform(X)
?
print(f"原始特征數: {X.shape[1]}")
print(f"篩選后特征數: {X_new.shape[1]}")
運行結果:
原始特征數: 4
篩選后特征數: 1
數學知識:方差
方差公式是一個數學公式,是數學統計學中的重要公式,應用于生活中各種事情,方差越小,代表這組數據越穩定,方差越大,代表這組數據越不穩定
若x1,x2,x3......xn的平均數為M,則方差公式可表示為: