自我價值感缺失的表現_不同類型的缺失價值觀和應對方法

自我價值感缺失的表現

Before handling the missing values, we must know what all possible types of it exists in the data science world. Basically there are 3 types to be found everywhere on the web, but in some of the core research papers there is one more type of it. Let me introduce you with all of them very briefly-

在處理缺失值之前,我們必須知道數據科學世界中存在所有可能的類型。 基本上,在網絡上到處都可以找到3種類型,但是在一些核心研究論文中,還有另外一種類型。 讓我簡單地向大家介紹一下-

  1. Structurally Missing Data- Let me tell you an example where we have the results of the students of a university of a particular semester and out of the entire data, some of the result values were missing. This may happen when either of the students have dropped out before exams or maybe were absent. So, this is a structurally missing value. In this case, the best possible solution is to deduce by inserting 0 at those missing places.

    結構上缺失的數據-讓我告訴你一個例子,其中我們有特定學期大學學生的成績,而在全部數據中,有些結果值丟失了。 當任何一個學生在考試前輟學或缺席時,可能會發生這種情況。 因此,這是結構上缺失的值。 在這種情況下,最好的解決方案是在那些丟失的位置插入0來推斷。

  2. MCAR (Missing Completely at Random)- When missing values are randomly distributed over entire dataset, MCAR occurs in instances where missing data is not related to the scores on the variables in the question and is not related to the scores on any other variables under analysis. For example, when data are missing for respondents for which their questionnaire was lost. Say you have complete data of 15 questions and incomplete data of 10. In this case, we compare these two datasets by some testing say t-test and if we don’t find any difference in means between the two samples of data, we can assume the data to be MCAR.

    MCAR(完全隨機缺失)-當缺失值隨機分布在整個數據集中時,MCAR發生在以下情況下:缺失數據與問題中變量的分數無關,并且與分析中任何其他變量的分數均無關。 例如,當丟失了問卷的受訪者的數據丟失時。 假設您有15個問題的完整數據,有10個問題的不完整數據。在這種情況下,我們通過一些測試(例如t檢驗)比較了這兩個數據集,如果我們發現兩個數據樣本之間的均值沒有任何差異,我們可以假設數據為MCAR。

  3. MAR (Missing at Random)- Data is not missing randomly across entire dataset but is missing randomly only within sub samples of data. When the probability of missing data on a variable is related to some other measured variable in the model, but not to the value of the variable with missing value itself is MAR. For example, in an IQ dataset, only older people have missing value. Thus, the probability of missing data on IQ is related to age. Also, to assume this as MAR is difficult because there is no way of testing it.

    MAR(隨機丟失)-數據在整個數據集中并不是隨機丟失的,而是僅在子數據樣本內隨機丟失的。 當變量上缺失數據的概率與模型中其他一些測量變量相關,而與缺失值本身無關的變量值則為MAR。 例如,在IQ數據集中,只有老年人的價值缺失。 因此,丟失智商數據的可能性與年齡有關。 而且,很難將其假定為MAR,因為沒有辦法對其進行測試。

  4. NMAR (Not Missing at Random)- When the missing data has no structure to it, we can’t treat it as missing at random. It may be the case where we can’t make conclusions to the missing value.

    NMAR(隨機丟失)-當丟失的數據沒有結構時,我們不能將其視為隨機丟失。 在某些情況下,我們無法得出缺失值的結論。

Some Common Approaches to deal with such type of missing data:

處理此類丟失數據的一些常用方法

  1. Simple one: Drop the corresponding Column/ Row-

    簡單一:刪除相應的Column / Row-

pd.Dataframe.isnull().dropna() 

If your data size is large and corresponding count of missing values in column/rows are comparatively quite low, then we use this approach.

如果您的數據量很大,并且列/行中缺失值的相應計數相對較低,那么我們可以使用這種方法。

2. Imputation- It fills the missing value with some number. The imputed value won’t be exactly right in most cases, but it usually leads to more accurate models than you would get from dropping the column/row entirely. We can name some of the imputation techniques as below:

2.插補-用一些數字填充缺失值。 在大多數情況下,推算的值并不完全正確,但是與完全刪除列/行相比,推導的值通常會導致更準確的模型。 我們可以將一些插補技術命名為:

a) Mean/Median Imputation: As the name suggests, in this we replace missing values by mean or median of the total. We use this approach when the number of missing observations is low.

a)均值/中位數插補:顧名思義,在此我們將缺失值替換為總數的均值或中位數。 當缺少的觀察次數很少時,我們使用這種方法。

b) Multivariate Imputation by Chained Equations (MICE): It assumes that the missing data are Missing at Random (MAR). It imputes data on a variable-by-variable basis by specifying an imputation model per variable. It uses all the variables in the data for predictions.

b)鏈式方程多元估計(MICE):它假定丟失的數據是隨機丟失(MAR)。 通過為每個變量指定插補模型,它可以逐變量插補數據。 它使用數據中的所有變量進行預測。

3. Random Forest- Yes, it is also a non-parametric imputation method that works well with both data missing at random and not missing at random. It uses multiple decision trees to estimate missing values and outputs OOB (out of bag) imputation error estimates.

3.隨機森林-是的,它也是一種非參數插補方法,可以很好地處理隨機丟失的數據和隨機丟失的數據。 它使用多個決策樹來估計缺失值,并輸出OOB(袋外)估算誤差估計。

However, there are various other efficient methods to handle the missing values as per the given scenario and the type of data. I have discussed here the most common ones with you. Hope it was helpful, thanks for reading! Good luck!! Be safe!!

但是,根據給定方案和數據類型,還有各種其他有效的方法來處理缺失值。 我在這里與您討論了最常見的問題。 希望對您有所幫助,感謝您的閱讀! 祝好運!! 注意安全!!

翻譯自: https://medium.com/analytics-vidhya/different-types-of-missing-values-approaches-to-deal-with-them-1f67c617374c

自我價值感缺失的表現

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/392087.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/392087.shtml
英文地址,請注明出處:http://en.pswp.cn/news/392087.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

[收藏轉載]C# GDI+ 簡單繪圖(一)

最近對GDI這個東西接觸的比較多,也做了些簡單的實例,比如繪圖板,仿QQ截圖等. 廢話不多說了,我們先來認識一下這個GDI,看看它到底長什么樣. GDI:Graphics Device Interface Plus也就是圖形設備接…

mybaties總結+hibernate總結

一、對原生態jdbc程序中問題總結 1.1 jdbc程序 需求:使用jdbc查詢mysql數據庫中用戶表的記錄 statement:向數據庫中發送一個sql語句 預編譯statement:好處:提高數據庫性能。 預編譯statement向數據庫中發送一個sql語句,數據庫編譯…

客戶旅程_我如何充分利用freeCodeCamp的旅程

客戶旅程by Catherine Vassant (aka Codingk8)由凱瑟琳瓦森(Catherine Vassant)(又名Codingk8) 我如何充分利用freeCodeCamp的旅程 (How I made the most out of my freeCodeCamp journey) 我的路線圖? ?超越課程范圍的reeCodeCamp (My road map ?? to freeCode…

Python14 函數

函數 面向對象編程: 類----class 面向過程編程:過程---def 函數式編程:函數---def def test(x):描述x 1return x#def是定義函數的關鍵字#test是函數名稱#(x)是參數#x1是 函數體,是一段邏輯代碼#return 定義…

學習sql注入:猜測數據庫_面向數據科學家SQL:學習簡單方法

學習sql注入:猜測數據庫We don’t pick a hammer and look for nails — that would be an unusual way of solving problems. The usual way of doing business is to identify the problem first, then look for appropriate tools.我們不用錘子找釘子,那是解決問…

android 百度地圖3.0,android 百度地圖3.0

一:為地圖設置事件注意新版本中要有一個getMapmMapView.getMap().setOnMapStatusChangeListener(listener);OnMapStatusChangeListener listener newOnMapStatusChangeListener() {/*** 手勢操作地圖,設置地圖狀態等操作導致地圖狀態開始改變。* param s…

(摘錄)sockaddr與sockaddr_in,sockaddr_un結構體詳細講解

struct sockaddr { unsigned short sa_family; /* address family, AF_xxx */ char sa_data[14]; /* 14 bytes of protocol address */ }; sa_family是地址家族,一般都是“AF_xxx”的形式。好像通常大多用的是都是AF_INET。 sa_data是14字節協議…

數據挖掘—K-中心點聚類算法(Java實現)

K-中心點聚類算法 (1)任意選擇k個對象作為初始的簇中心點 (2)指派每個剩余對象給離他最近的中心點所表示的簇 (3)選擇一個未被選擇的中心點直到所有的中心點都被選擇過 (4)選擇一個…

使用akka構建高并發程序_如何使用Akka Cluster創建簡單的應用程序

使用akka構建高并發程序If you read my previous story about Scalachain, you probably noticed that it is far from being a distributed system. It lacks all the features to properly work with other nodes. Add to it that a blockchain composed by a single node is…

pandas之數值計算與統計

數值計算與統計 對于DataFrame來說,求和、最大、最小、平均等統計方法,默認是按列進行統計,即axis 0,如果添加參數axis 1則會按照行進行統計。 如果存在空值,在統計時默認會忽略空值,如果添加參數skipna …

python自動化數據報告_如何:使用Python將實時數據自動化到您的網站

python自動化數據報告This tutorial will be helpful for people who have a website that hosts live data on a cloud service but are unsure how to completely automate the updating of the live data so the website becomes hassle free. For example: I host a websit…

一顆站在技術邊緣的土豆

2012年開始上專業課,2013年打了一年游戲,年底專業課忘光了,但是蒙混過關沒掛科,2014年7月份畢業,對這個社會充滿向往。2014年9月份——方正代理商做網絡安全公司。2015年3月份跳槽到一家vmware代理商公司。2016年6月&a…

leetcode 839. 相似字符串組(并查集)

如果交換字符串 X 中的兩個不同位置的字母,使得它和字符串 Y 相等,那么稱 X 和 Y 兩個字符串相似。如果這兩個字符串本身是相等的,那它們也是相似的。 例如,“tars” 和 “rats” 是相似的 (交換 0 與 2 的位置); “r…

android intent參數是上次的結果,【Android】7.0 Intent向下一個活動傳遞數據、返回數據給上一個活動...

1.0 可以利用Intent吧數據傳遞給上一個活動,新建一個叫“hellotest01”的項目。新建活動FirstActivity,勾選“Generate Layout File”和“Launcher Activity”。image修改AndroidMainifest.xml中的內容:android:name".FirstActivity&quo…

實習一年算工作一年嗎?_經過一年的努力,我如何找到軟件工程工作

實習一年算工作一年嗎?by Andrew Ngo通過安德魯恩戈 經過一年的努力,我如何找到軟件工程工作 (How I landed a software engineering job after a year of hard work) Many of us think the path to becoming a software engineer requires years of education an…

學習深度學習需要哪些知識_您想了解的有關深度學習的所有知識

學習深度學習需要哪些知識有關深層學習的FAU講義 (FAU LECTURE NOTES ON DEEP LEARNING) Corona was a huge challenge for many of us and affected our lives in a variety of ways. I have been teaching a class on Deep Learning at Friedrich-Alexander-University Erlan…

參加開發競賽遇到的問題【總結】

等比賽完就寫。 轉載于:https://www.cnblogs.com/jiangyuanjia/p/11261978.html

html5--3.16 button元素

html5--3.16 button元素 學習要點 掌握button元素的使用button元素 用來建立一個按鈕從功能上來說,與input元素建立的按鈕相同button元素是雙標簽,其內部可以配置圖片與文字,進行更復雜的樣式設計不僅可以在表單中使用,還可以在其…

如何注冊鴻蒙id,鴻蒙系統真機調試證書 和 設備ID獲取

鴻蒙系統真機調試創建項目創建項目創建應用創建鴻蒙應用(注意,測試階段需要發郵件申請即可)關聯應用項目進入關聯 添加引用準備調試使用的 p12 和證書請求 csr使用以下命令// 別名"test"可以修改,但必須前后一致,密碼請自行修改key…

Java—實現 IOC 功能的簡單 Spring 框架

編寫一個實現 IOC 功能的簡單 Spring 框架,包含對象注冊、對象管理、及暴 露給外部獲取對象的功能,并編寫測試程序。擴展注冊器的方式,要求采用 XML 和 txt 文件。 源代碼 package myspring;import java.lang.reflect.Method; import java.…