圖像離群值_什么是離群值?

圖像離群值

你是! (You are!)

Actually not. This is not a text about you.

其實并不是。 這不是關于您的文字。

But, as Gladwell puts it in Outliers, if you find yourself being that type of outlier, you’re quite lucky. And rare.

但是,正如Gladwell在“ 離群值”中所說的那樣,如果您發現自己屬于這種離群值,那么您很幸運。 和罕見。

實際上是什么離群值? (What is actually an outlier?)

Image for post
Photo by Daniel Reche from Pexels
Pexels的Daniel Reche 攝

According to Meriam-Webster, an outlier is:

根據Meriam-Webster的估計,離群值是:

“a statistical observation that is markedly different in value from the others of the sample”

“統計觀察值與樣本中其他值明顯不同”

But you’re not here for that, are you?

但是,您不是在這里嗎?

Let’s simply explain when a data point is considered an outlier, why that might happen, and what you can do about it.

讓我們簡單地解釋一下何時將數據點視為異常值,為什么會發生這種異常以及您可以采取什么措施。

什么時候? (When?)

There are multiple ways with which we can identify and highlight outliers but our goal here is to keep it short and simple, so let’s discuss the easiest way. You can find other ways here.

我們可以使用多種方法來識別和突出顯示離群值,但是我們的目標是使其簡短而簡單,因此讓我們討論最簡單的方法。 您可以在這里找到其他方法。

Any observed value is considered an outlier if it falls beyond the range of 1stQuartile-1.5 x IQR to 3rdQuartile + 1.5 x IQR.

如果任何觀測值超出1stQuartile-1.5 x IQR到3rdQuartile + 1.5 x IQR的范圍,則將其視為異常值。

Image for post
Source: giphy.com
資料來源:giphy.com

Stay here!

留在這兒!

I promised it will be easy, so it will. We just have to fix what this IQR (inter-quartile-range) means.

我保證這會很容易,所以會。 我們只需要解決此IQR(四分位間距)的含義即可。

Let’s consider you’re meeting your highschool colleagues, 9 people. All coming in cars. For the purpose of this explanation, let’s image we collect data on the horsepower of all your cars in ascending order.

讓我們考慮一下您正在與9位高中生見面。 都進來的車。 為了便于說明,讓我們想象一下,我們以升序收集有關您所有汽車的馬力的數據。

105 | 133 | 146 | 183 | 190 | 195 | 210 | 220 | 510 ← values collected

105 | 133 | 146 | 183 | 190 | 195 | 210 | 220 | 510←收集的值

Now if you know a bit of statistics, we have what is called quartiles. If you don’t remember please look here and then come back.

現在,如果您知道一些統計信息,我們就有所謂的四分位數。 如果您不記得了,請看這里然后再回來。

IQR = 3rdQuartile - 1stQuartile = 215–139.5 = 75.5

IQR =第三四分位數-1stQuartile = 215–139.5 = 75.5

Now, coming back to what is considered an outlier in our example, we need to calculate Q1-1.5 x IQR and Q3+1.5 x IQR.

現在,回到示例中被認為是異常值的地方,我們需要計算Q1-1.5 x IQR和Q3 + 1.5 x IQR。

  • Q1 - 1.5 x IQR = 139.5–75.5 = 64 (Q1 — first quartile)

    Q1-1.5 x IQR = 139.5–75.5 = 64 ( Q1- 第一個四分位數)

  • Q3 + 1.5 x IQR = 215 + 75.5 = 290.5 (Q3 — third quartile)

    Q3 + 1.5 x IQR = 215 + 75.5 = 290.5 (Q3-第三四分位數)

We’re very close. STAY HERE!

我們非常接近。 留在這里

As mentioned before starting the calculation, any observed value that is outside the interval [64;290.5] is considered an outlier. An extreme value compared to the collected data. Question is, are there any values outside the interval in our data? That’s right, 510 is. (Let’s assume that’s you, you have a new BMW M5).

如開始計算之前所述,在間隔[64; 290.5]之外的任何觀測值都被視為異常值。 與收集的數據相比的極值。 問題是,我們的數據間隔之外是否還有其他值? 是的, 510是。 (假設您是您,您有新的BMW M5)。

And here we are, that is the very easy way of calculating outliers out of a set of simple collected data.

這就是從一組簡單的收集數據中計算離群值的非常簡單的方法。

為什么? (Why?)

There are multiple reasons outliers might end up in a set of data. Both good and bad.

有多種原因可能導致離群值出現在一組數據中。 好與壞。

Data entry errors → instead of 510 you wanted to type 210 and thus the value became an outlier;

數據輸入錯誤 →您想輸入210而不是510,因此該值成為異常值;

Measurement errors → you’ve measured your car’s power at a service center that is well known for inflating the numbers. That 510 is not real;

測量誤差 →您已經在服務中心測量了汽車的功率,該服務中心以數字夸大而聞名。 那510不是真實的;

Experimental errors → one of your colleagues, the one with 105 told you the value in kw not in horsepower, the misunderstanding is an experimental error;

實驗錯誤→您的一位同事,有105個告訴您以kw表示的值而不是馬力,誤解是實驗錯誤;

Intentional → you’re putting your colleagues to the test and tell them a value that is not real;

故意 →您正在對同事進行測試,并告訴他們一個不真實的價值;

Natural → and that is where we are, you’re really a hustler and your M5 power is not experimental measurement BS, you really are an outlier.

自然→這就是我們的位置,您真的是騙子,您的M5功率不是實驗測量BS,您確實是一個異常值。

什么? (What?)

Now that you know what they are, how you find them, and what may cause them, what can be done to make use or get rid of them?

現在,您知道它們是什么,如何找到它們以及可能導致它們的原因,可以采取哪些措施來利用或擺脫它們?

  1. If you want to brag about how great the average of hp in your class is, keep the values. Consider that the average is not representative as it is influenced by the outlier. You.

    如果您要吹噓班級中的平均功率是多少, 請保留這些值 。 考慮到平均值沒有代表性,因為它受到異常值的影響。 您。

  2. If you think your car is very different and you’re an exception to the other cars, take your value out.

    如果您認為自己的汽車與眾不同,并且是其他汽車的例外,那么請充分利用自己的價值。

  3. If you feel like there are other highschool colleagues with powerful cars but did not show up, make another meeting and treat your group as a different one.

    如果您覺得還有其他高中生有高功率汽車,但沒有露面,請舉行另一次會議并將您的小組視為另一小組

That was it.

就是這樣

Image for post
Source: giphy.com
資料來源:giphy.com

This is, as always, an oversimplistic and humoristic approach to explaining rather complex statistical concepts.

與往常一樣,這是一種過于簡單和幽默的方法,用于解釋相當復雜的統計概念。

If you like my work, consider reading other posts of mine, I try to publish weekly:

如果您喜歡我的作品,請考慮閱讀我的其他文章,我嘗試每周發布一次:

翻譯自: https://towardsdatascience.com/what-is-an-outlier-26888fd9870d

圖像離群值

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/388965.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/388965.shtml
英文地址,請注明出處:http://en.pswp.cn/news/388965.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

混合模型和EM---混合高斯

2019獨角獸企業重金招聘Python工程師標準>>> 混合高斯 最大似然 用于高斯混合模型的EM 轉載于:https://my.oschina.net/liyangke/blog/2986520

永恒python地速_立竿見影地把你的 Python 代碼提速7倍

之前曾經測試計算斐波那契數列的幾種方法,其中基于遞歸的方法是速度最慢的,例如計算第 40 項的值,需要 36 秒。如下圖所示。要提高運算速度,根本辦法當然是改進算法。不過算法的提高是一個長期積累加上靈機一動的過程。我們今天要…

頂尖大學實驗室的科研方法_這是來自頂尖大學的5門免費自然語言處理課程

頂尖大學實驗室的科研方法Data Science continues to be a hot topic, but more specifically, Natural Language Processing (NLP) is increasing in demand.數據科學仍然是一個熱門話題,但更具體地說,自然語言處理(NLP)的需求正在增長。 Broadly spea…

Python學習---django知識補充之CBV

Django知識補充之CBV Django: url --> def函數 FBV[function based view] 用函數和URL進行匹配 url --> 類 CBV[function based view] 用類和URL進行匹配 POSTMAN插件 http://blog.csdn.net/zzy1078689276/article/details/77528249 基于CBV的登…

「CH2101」可達性統計 解題報告

CH2101 可達性統計 描述 給定一張N個點M條邊的有向無環圖,分別統計從每個點出發能夠到達的點的數量。N,M≤30000。 輸入格式 第一行兩個整數N,M,接下來M行每行兩個整數x,y,表示從x到y的一條有向邊。 輸出格式 共N行,表示每個點能夠…

藍圖解鎖怎么用_[UE4藍圖][Materials]虛幻4中可互動的雪地材質完整實現(一)

不說廢話,先上個演示圖最終成果(腳印,雪地可慢慢恢復,地形可控制)主要原理(白話文):假如你頭上是塊白色并且可以透視的平地,來了個非洲兄弟踩上面,你拿起單反…

數據預處理工具_數據預處理

數據預處理工具As the title states this is the last project from Udacity Nanodegree. The goal of this project is to analyze demographics data for customers of a mail-order sales company in Germany.如標題所示,這是Udacity Nanodegree的最后一個項目。…

這幾日英文大匯

int > 整數. 主要?用來進?行行數學運算 str > 字符串串, 可以保存少量量數據并進?行行相應的操作 bool>判斷真假, True, False list> 存儲?大量量數據.?用[ ]表?示 tuple> 元組, 不可以發?生改變 ?用( )表?示 dict>字典,保存鍵值對,?一樣可以…

在網上收集了一部分關于使用Google API進行手機定位的資料和大家分享

在網上收集了一部分關于使用Google API進行手機定位的資料和大家分享:關于基站定位方面的介紹:http://tech.c114.net/164/a140837.html開發方面的幫助:http://www.dotblogs.com.tw/kylin/archive/2009/08/09/9964.aspxhttp://code.google.com…

background圖片疊加_css怎么讓兩張圖片疊加,不用background只用img疊加

展開全部css層疊圖片代碼://這個層為外面的父層,只需設置相對位置樣式即可//這個為里e69da5e887aa3231313335323631343130323136353331333431363030面要疊加的層,只需設置絕對樣式//這個為層里面的內容圖片//這個為父層內容或者:擴…

“入鄉隨俗,服務為主” 發明者量化兼容麥語言啦!

5年時光 我們裹挾前行。發明者量化從篳路藍縷到步履蹣跚,從以“區塊鏈資產交易”為陣地,再到以“內外盤商品期貨”為依托。再到今天全面兼容“麥語言”。每一步,我們始終都在為建立一個優秀的量化交易平臺而努力。 什么是麥語言? …

自考數據結構和數據結構導論_我跳過大學自學數據科學

自考數據結構和數據結構導論A few months back, I decided I wanted to learn data science. In order to do this, I skipped an entire semester of my data science major.幾個月前,我決定要學習數據科學。 為此, 我跳過了數據科學專業的整個學期。 …

爬取LeetCode題目——如何發送GraphQL Query獲取數據

前言 GraphQL 是一種用于 API 的查詢語言,是由 Facebook 開源的一種用于提供數據查詢服務的抽象框架。在服務端 API 開發中,很多時候定義一個接口返回的數據相對固定,因此要獲得更多信息或者只想得到某部分信息時,基于 RESTful AP…

python中的thread_Python中的thread

測試代碼import threadingimport timedef do_thread_test():print start thread time:, time.strftime(%H:%M:%S)time.sleep(5)print stop thread time:, time.strftime(%H:%M:%S)threads []for i in range(2):thread1 threading.Thread(targetdo_thread_test)thread1.setDae…

--附加數據庫失敗

--附加數據庫失敗1.產生失敗的原因比如有個數據庫,名叫HIMS,它的數據文件HIMS_Data.mdf和日志文件HIMS_Log.ldf,都放在路徑c:/Program Files/Microsoft SQL Server/MSSQL/data/下。但是這個數據庫天天跑日志,會產生上G的日志,現在通過企業管理…

十三、原生爬蟲實戰

一、簡單實例 1、需求:爬取熊貓直播某類主播人氣排行 2、了解網站結構 分類——英雄聯盟——"觀看人數" 3、找到有用的信息 二、整理爬蟲常規思路 1、使用工具chrome——F12——element——箭頭——定位目標元素 目標元素:主播名字&#xff0c…

歸一化 均值歸一化_歸一化折現累積收益

歸一化 均值歸一化Do you remember the awkward moment when someone you had a good conversation with forgets your name? In this day and age we have a new standard, an expectation. And when the expectation is not met the feeling is not far off being asked “w…

sqlserver垮庫查詢_Oracle和SQLServer中實現跨庫查詢

一、在SQLServer中連接另一個SQLServer庫數據在SQL中,要想在本地庫中查詢另一個數據庫中的數據表時,可以創建一個鏈接服務器:EXEC master.dbo.sp_addlinkedserver server N別名, srvproductN庫名,providerNSQLOLEDB, datasrcN服務器地址EXEC…

Angular2+ typescript 項目里面用require

在typescript里面怎么使用require方法呢? const jQuery require(jquery); const fip require( fonticonpicker/fonticonpicker )( jQuery ); 如果什么都不做,直接在項目里面使用,會得到以下錯誤: Cannot find name require 以下…

機器學習實踐三---神經網絡學習

Neural Networks 在這個練習中,將實現神經網絡BP算法,練習的內容是手寫數字識別。Visualizing the data 這次數據還是5000個樣本,每個樣本是一張20*20的灰度圖片fig, ax_array plt.subplots(nrows10, ncols10, figsize(6, 4))for row in range(10):fo…