python異常值處理實例_利用Python進行異常值分析實例代碼

前言

異常值是指樣本中的個別值，也稱為離群點，其數值明顯偏離其余的觀測值。常用檢測方法3σ原則和箱型圖。其中，3σ原則只適用服從正態分布的數據。在3σ原則下，異常值被定義為觀察值和平均值的偏差超過3倍標準差的值。P(|x?μ|>3σ)≤0.003，在正太分布假設下，大于3σ的值出現的概率小于0.003，屬于小概率事件，故可認定其為異常值。

異常值分析是檢驗數據是否有錄入錯誤以及含有不合常理的數據。忽視異常值的存在是十分危險的，不加剔除地把異常值包括進數據的計算分析過程中，對結果會產生不良影響；重視異常值的出現，分析其產生的原因，常常成為發現問題進而改進決策的契機。

異常值是指樣本中的個別值，其數值明顯偏離其余的觀測值。異常值也稱為離群點，異常值的分析也稱為離群點分析。

（1）簡單統計量分析

可以先對變量做一個描述性統計，進而查看哪些數據是不合理的。最常用的統計量是最大值和最小值，用來判斷這個變量的取值是否超出了合理的范圍。如客戶年齡的最大值為199歲，則該變量的取值存在異常。

（2）3原則

如果數據服從正態分布，在3原則下，異常值被定義為一組測定值中與平均值的偏差超過3倍標準差的值。在正態分布的假設下，距離平均值3之外的值出現的概率為P（｜x-｜>3）≤0.003，屬于極個別的小概率事件。

如果數據不服從正態分布，也可以用遠離平均值的多少倍標準差來描述。

（3）箱型圖分析

箱型圖提供了識別異常值的一個標準：異常值通常被定義為小于QL－1.5IQR或大于QU＋1.5IQR的值。QL稱為下四分位數，表示全部觀察值中有四分之一的數據取值比它小；QU稱為上四分位數，表示全部觀察值中有四分之一的數據取值比它大；IQR稱為四分位數間距，是上四分位數QU與下四分位數QL之差，其間包含了全部觀察值的一半。

箱型圖依據實際數據繪制，沒有對數據作任何限制性要求（如服從某種特定的分布形式），它只是真實直觀地表現數據分布的本來面貌；另一方面，箱型圖判斷異常值的標準以四分位數和四分位距為基礎，四分位數具有一定的魯棒性：多達25%的數據可以變得任意遠而不會很大地擾動四分位數，所以異常值不能對這個標準施加影響。由此可見，箱型圖識別異常值的結果比較客觀，在識別異常值方面有一定的優越性，如圖3-1所示。

如下數據：

日期 2015/2/10 2015/2/11 2015/2/12 2015/2/13 2015/2/14

銷量額 2742.8 3014.3 865 3036.8

我們對其進行異常值分析

import pandas as pd

catering_sale = 'data2.xls' #餐飲數據

data = pd.read_excel(catering_sale, index_col = u'日期') #讀取數據，指定“日期”列為索引列

import matplotlib.pyplot as plt #導入圖像庫

plt.rcParams['font.sans-serif'] = ['SimHei'] #用來正常顯示中文標簽

plt.rcParams['axes.unicode_minus'] = False #用來正常顯示負號

plt.figure() #建立圖像

p = data.boxplot() #畫箱線圖，直接使用DataFrame的方法

x = p['fliers'][0].get_xdata() # 'flies'即為異常值的標簽

y = p['fliers'][0].get_ydata()

y.sort() #從小到大排序，該方法直接改變原對象

#用annotate添加注釋

#其中有些相近的點，注解會出現重疊，難以看清，需要一些技巧來控制。

#以下參數都是經過調試的，需要具體問題具體調試。

for i in range(len(x)):

if i>0:

plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.05 -0.8/(y[i]-y[i-1]),y[i]))

else:

plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.08,y[i]))

plt.show()

結果如下：

總結

以上就是這篇文章的全部內容了，希望本文的內容對大家的學習或者工作具有一定的參考學習價值，如果有疑問大家可以留言交流，謝謝大家對我們的支持。

時間： 2017-12-05

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/396962.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/396962.shtml
英文地址，請注明出處：http://en.pswp.cn/news/396962.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！