em模型補缺失值_基于EM算法數據單變量缺失處理方法研究

龍源期刊網

http://www.qikan.com.cn

基于

EM

算法數據單變量缺失處理方法研究

作者:黃鉉

來源:《科技傳播》

2015

年第

20

數據分析方法大都針對完整數據,而實際上由于一些原因,觀測數據常存在缺失。

本文采用

EM

算法對正態分布下的隨機缺失數據的參數進行估計。實驗結果表明

EM

算法對正

態分布下的單變量缺失數據有效果,但缺失數據比例過大時該方法處理欠佳,對大比例變量缺

失的情況有待研究。

關鍵詞

EM

;缺失數據;正態分布

中圖分類號

TP39

文獻標識碼

A

文章編號

1674-6708

(

2015

)

149-0153-02

近年來數據庫及計算機技術的發展推動了數據挖掘技術廣泛地應用于各個領域。目前,對

數據進行處理的各種數據挖掘方法幾乎都是以假設數據完整為前提條件。然而實際情況是數據

庫里的數據往往不完整,數據缺失的情況時常發生。引起數據缺失的原因很多,比如:傳感器

故障、數據傳輸中斷、監測方式改變又或者人為因素等。如果直接對包含缺失數據的數據集進

行分析,結果會產生偏差會直接影響到后續的決策,因此對數據進行分析前對缺失數據的處理

尤為重要。

目前國內外學者針對缺失數據的研究很多,也取得了一定的成果。其中,

Rubin

(

1976

)

將缺失機制分為三類:完全隨機缺失(

MCAR

)是指變量出現缺失值的可能性與模型中其他變

量無關,與該變量自身也無關,完全隨機缺失機制中缺失數據的分布與完整數據分布一致。隨

機缺失(

MAR

)是指變量出現缺失值的可能性與模型中某些觀測變量有關而與該變量自身無

關。對于隨機缺失機制,缺失數據可以通過完整數據來估計。非隨機缺失(

MNAR

)是指變量

的缺失值僅與自身相關。單變量缺失是指數據集中只有某個變量出現信息不完整的情況,此時

對缺失值處理首要考慮數據缺失機制,不同的缺失機制有不同的處理方法。比如成列刪除或者

成對刪除的方法,如果數據為

MCAR

,減少的樣本其實是原樣本的一個隨機樣本,因此刪除

后對剩下的數據進行處理是無偏差的;但如果數據為

MAR

,那么這種處理方法則會產生有偏

差的估計值。

本文主要研究數據單變量隨機缺失的情況。

實驗結果表明采用

EM

算法對不完整的數據進行處理可以用已知數據的條件期望代替缺失

數據。通過比較可見

EM

方法對缺失數據處理比不考慮缺失數據直接進行計算精度高,因而這

種方法處理缺失數據是有效果的,但通過不同缺失值得情況對比分析,對于正態分布數據,當

缺失數據比例低于

30%

EM

方法處理效果良好,當缺失數據比例不斷增大缺失數據較多的時

候,對缺失數據參數估計效果欠佳。

EM

方法可以達到收斂到后驗密度函數的穩定點,但不保

證結果是收斂到極大值點;另外初始值的選擇對結果有一定影響,不同的初始值得到不同的估

計結果,因此選擇不同的初始值進行迭代可以減輕初值對結果的影響。如果增大數據個數

EM

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/396224.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/396224.shtml
英文地址,請注明出處:http://en.pswp.cn/news/396224.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

流媒體協議介紹(rtp/rtcp/rtsp/rtmp/mms/hls)

RTP 參考文檔 RFC3550/RFC3551 Real-time Transport Protocol)是用于Internet上針對多媒體數據流的一種傳輸層協議。RTP協議詳細說明了在互聯網上傳遞音頻和視頻的標準數據包格式。RTP協議常用于流媒體系統(配合RTCP協議),視…

我從#100DaysOfCode中學到的東西

by E. Wilson由E. Wilson 我從#100DaysOfCode中學到的東西 (What I learned from #100DaysOfCode) I made it up to Day 95 before officially ending my #100DaysOfCode challenge. Check out my GitHub repo and see for yourself.在正式結束#100Days…

mysql 表ful,你所不知的table is full那些事

當我們要寫入新數據而發生“The table is full”告警錯誤時,先不要著急,按照下面的思路來逐步分析即可:1、查看操作系統以及MySQL的錯誤日志文件確認操作系統的文件系統沒有報錯,并且MySQL的錯誤日志文件中是否有一些最直觀的可見…

Calendar、Date、long類型的時間,三者之間如何轉化

1. Calendar類型轉化為Date類型和long類型 Calendar calendarCalendar.getInstance(); Date datecalendar.getTime(); long timecalendar.getTimeInMillis(); 2.Date類型轉化為Calendar類型和long類型 Date datenew Date(System.currentTimeMillis()100000000); Calendar calen…

sit是什么環境_軟件環境常識 --dev sit uat

DEV環境:DEV顧名思義就是develop,即代碼開發的環境。SIT環境:System Integration Test系統集成測試,開發人員自己測試流程是否走通。UAT環境:User Acceptance Test用戶驗收測試,由專門的測試人員驗證&#…

python基礎數據類型的相關知識點

1、字符串的函數join >>> s "Hello" >>> s1 s.join("你好")#將字符串Hello插入到你好中 >>> s1 你Hello好 >>> s2 "Tanxu".join("你好嗎")#將字符串Tanxu插入到你好嗎中 >>> s2 你Ta…

(轉載)JDOM/XPATH編程指南

JDOM/XPATH編程指南 本文分別介紹了 JDOM 和 XPATH,以及結合兩者進行 XML 編程帶來的好處。 前言 XML是一種優秀的數據打包和數據交換的形式,在當今XML大行于天下,如果沒有聽說過它的大名,那可真是孤陋寡聞了。用XML描述數據的優勢…

谷歌跟oracle_誰贏得了Google VS Oracle? 開發人員贏了。

谷歌跟oracleGoogle has successfully defended itself from a $9 billion lawsuit from Oracle. In doing so, Google’s lawyers have prevented a dangerous precedent that would have given old copyright-hoarding tech companies a way to sue lots of startups and ope…

php上下屬對應關系,由主分類 ID 取出(多個)下級子分類所對應的項,有沒有什么好的辦法?(其實似乎和 PHP 沒什么直接關系?)...

有一個表結構比如:項目:項目ID項目名分類ID...還有一個多級分類結構:分類1 分類1.1 分類1.1.1 分類1.1.1.1 分類1.1.1.2 分類1.2分類2...假定我現在有分類1的序號,現在想通過這個序號取出對應分類1及其子項中的所有項目的列表&…

最長無重復字符子串?

2019獨角獸企業重金招聘Python工程師標準>>> 題目要求: 給定一個字符串S,在該字符串中找到一個最長的沒有重復字符的子串。 轉載于:https://my.oschina.net/datacube/blog/875545

history of Program

1951 – Regional Assembly Language  1952 – Autocode  1954 – IPL (LISP語言的祖先)  1955 – FLOW-MATIC (COBOL語言的祖先)  1957 – FORTRAN (第一個編譯型語言) 1957 – COMTRAN (COBOL語言的祖先)  1958 – LISP  1958 – ALGOL 58  1959 – FACT (COBO…

銷售探討_讓我們一起探討編程資源的領域

銷售探討by Quincy Larson昆西拉爾森(Quincy Larson) 讓我們一起探討編程資源的領域 (Let’s explore the universe of programming resources together) 有很多免費的編程資源。 (There are a lot of free programming resources out there.) Here’s a list of more than a …

利用yii2 gridview實現批量刪除案例

作者:白狼 出處:http://www.manks.top/article/yii2_gridview_deleteall本文版權歸作者,歡迎轉載,但未經作者同意必須保留此段聲明,且在文章頁面明顯位置給出原文連接,否則保留追究法律責任的權利。 今天仍…

php中tp框架的坑,tp5框架遇到的一些坑

最近這個項目確實是問題多多!新項目的上線到測試,基本都是一個人去弄!面對40多萬條的數據,mysql跑起來確實沒有那么快!首先來介紹一下我的項目吧!其實項目比較簡單 主要就是在已有的平臺開放類似于百家號&…

BZOJ 4811 樹鏈剖分+線段樹

思路: 感覺這題也可神了.. (還是我太弱) 首先發現每一位不會互相影響,可以把每一位分開考慮,然后用樹鏈剖分或者LCT維護這個樹 修改直接修改,詢問的時候算出來每一位填0,1經過這條鏈的變換之后得…

selenium框架安裝及webdriver安裝

本文介紹的是selenium安裝及webdriver安裝、小實例 1、selenium介紹 selenium是一個用于web應用程序測試的工具。 Selenium測試直接運行在瀏覽器,就向真正的用戶操作一樣。 支持的瀏覽器包括IE(7,8,9,10,11),Mazilla Firefox,Safari,Google Chrome,OperaL瀏覽器 這個…

idead斷點調試_IDEA---斷點調試Debug

Debug調試程序:可以讓代碼逐行執行,查看代碼執行的過程,調試程序中出現的bug使用方式:在行號的右邊,鼠標左鍵單擊,添加斷點(每個方法的第一行,哪里有bug添加到哪里)右鍵,選擇Debug執行程序程序就會停留在添加的第一個斷點處執行程序:f8:逐行執行程序f7:進入到方法中shiftf8:跳出…

svd medium_我們剛剛放棄了Medium博客。 您可能也應該這樣做。

svd mediumOur blog helped our open source community reach an early critical mass.我們的博客幫助我們的開源社區達到了早期的臨界質量。 In the 18 months since we launched our blog, it’s been viewed half a million times.自我們發布博客以來的18個月里&#xff0c…

寫文件 追加和換行

file_put_contents("log.txt", "Hello world everyone.".PHP_EOL, FILE_APPEND); 轉載于:https://www.cnblogs.com/yixi978/p/5422504.html

突然想到了王自如

剛剛不知道為什么突然想到了王自如。可能是因為下午在騰訊視頻首頁看到了老羅羅永浩的一個訪談節目,然后神經元一短路的原因吧。 想到王自如不禁又聯想到了王自如和羅永浩的那場著名的撕逼之戰。場面上王自如是被羅老師教做人的一個結果。然后就很長時間沒有聽到關于…