龍源期刊網
http://www.qikan.com.cn
基于
EM
算法數據單變量缺失處理方法研究
作者:黃鉉
來源:《科技傳播》
2015
年第
20
期
摘
要
數據分析方法大都針對完整數據,而實際上由于一些原因,觀測數據常存在缺失。
本文采用
EM
算法對正態分布下的隨機缺失數據的參數進行估計。實驗結果表明
EM
算法對正
態分布下的單變量缺失數據有效果,但缺失數據比例過大時該方法處理欠佳,對大比例變量缺
失的情況有待研究。
關鍵詞
EM
;缺失數據;正態分布
中圖分類號
TP39
文獻標識碼
A
文章編號
1674-6708
(
2015
)
149-0153-02
近年來數據庫及計算機技術的發展推動了數據挖掘技術廣泛地應用于各個領域。目前,對
數據進行處理的各種數據挖掘方法幾乎都是以假設數據完整為前提條件。然而實際情況是數據
庫里的數據往往不完整,數據缺失的情況時常發生。引起數據缺失的原因很多,比如:傳感器
故障、數據傳輸中斷、監測方式改變又或者人為因素等。如果直接對包含缺失數據的數據集進
行分析,結果會產生偏差會直接影響到后續的決策,因此對數據進行分析前對缺失數據的處理
尤為重要。
目前國內外學者針對缺失數據的研究很多,也取得了一定的成果。其中,
Rubin
(
1976
)
將缺失機制分為三類:完全隨機缺失(
MCAR
)是指變量出現缺失值的可能性與模型中其他變
量無關,與該變量自身也無關,完全隨機缺失機制中缺失數據的分布與完整數據分布一致。隨
機缺失(
MAR
)是指變量出現缺失值的可能性與模型中某些觀測變量有關而與該變量自身無
關。對于隨機缺失機制,缺失數據可以通過完整數據來估計。非隨機缺失(
MNAR
)是指變量
的缺失值僅與自身相關。單變量缺失是指數據集中只有某個變量出現信息不完整的情況,此時
對缺失值處理首要考慮數據缺失機制,不同的缺失機制有不同的處理方法。比如成列刪除或者
成對刪除的方法,如果數據為
MCAR
,減少的樣本其實是原樣本的一個隨機樣本,因此刪除
后對剩下的數據進行處理是無偏差的;但如果數據為
MAR
,那么這種處理方法則會產生有偏
差的估計值。
本文主要研究數據單變量隨機缺失的情況。
實驗結果表明采用
EM
算法對不完整的數據進行處理可以用已知數據的條件期望代替缺失
數據。通過比較可見
EM
方法對缺失數據處理比不考慮缺失數據直接進行計算精度高,因而這
種方法處理缺失數據是有效果的,但通過不同缺失值得情況對比分析,對于正態分布數據,當
缺失數據比例低于
30%
時
EM
方法處理效果良好,當缺失數據比例不斷增大缺失數據較多的時
候,對缺失數據參數估計效果欠佳。
EM
方法可以達到收斂到后驗密度函數的穩定點,但不保
證結果是收斂到極大值點;另外初始值的選擇對結果有一定影響,不同的初始值得到不同的估
計結果,因此選擇不同的初始值進行迭代可以減輕初值對結果的影響。如果增大數據個數
EM