在變量篩選中,通過衡量特征所包含信息量大小,決定是否刪除特征,常用的指標有單一值占比、缺失值占比和方差值大小。單一值或缺失值占比越高,表示特征包含信息量越少,不同公司設置不同閾值,一般單一值、缺失值占比高于95%,建議刪除。方差值越小,代表特征包含信息量越小。接下來詳細闡述方差值的原理和Python計算代碼。
文章目錄
- 一、什么是方差?
- 二、方差的計算公式
- 三、方差計算示例
- 四、方差計算Python函數
??
一、什么是方差?
??
方差:衡量一組數據離散程度的統計量,它表示每個數據與這組數據平均數的差的平方的平均數。
??
方差越大,說明這組數據的離散程度越大。
??
??
二、方差的計算公式
??
假設有一組數據x1,x2,……,xn,這組數據的方差計算步驟如下:
??
step1:計算平均數(均值),首先,計算這組數據的平均數(均值),公式為
其中,n是數據量,Σ是求和符號。
??
step2:計算方差: 然后,利用平均數,計算方差,公式為
表示每個數與平均數的差的平方之和,再除以n得