異常檢測算法之HBOS

前言

HBOS(Histogram-based Outlier Score)核心思想:將樣本按照特征分成多個區間,樣本數少的區間是異常值的概率大。

原理

該方法為每一個樣本進行異常評分,評分越高越可能是異常點。評分模型為:
在這里插入圖片描述
假設樣本p第 i 個特征的概率密度為Pi ,則p的概率密度可以計算為(多個特征的概率密度的乘積):
在這里插入圖片描述
兩邊取對數:
在這里插入圖片描述
概率密度越大,異常評分越小,則兩邊乘以“-1”:
在這里插入圖片描述
即:
在這里插入圖片描述
如何計算概率密度,特別是對于連續型數據?最簡單的方法是對連續數據進行離散化。離散化的基本思想是設置“斷點”,將數據分割成若干個區間。其中,“斷點”的設置可以是靜態的,也可以是動態的。
對于樣本集D,設置合適的“斷點”集合,將特征的取值分割成若干個區間。統計區間的樣本數,可以構建一個頻數直方圖H。假設第 i 個特征分割成m 個區間,每個區間統計的樣本個數分別為
在這里插入圖片描述
頻率(概率)分布表
在這里插入圖片描述
明顯,根據頻數直方圖H可以計算出所有特征的頻率分布。
為什么頻率越大,異常評分越小?
在這里插入圖片描述
上圖是特征c的樣本分布例圖。直觀上,B樣本是異常點,A點是正常點。由于,樣本A(樣本B)關于特征c的概率密度估計可以用特征c在相應區間的頻率來近似。顯然,特征的取值頻率越大,樣本的關于該特征的異常評分越小

優缺點

優點:
算法原理簡單,復雜度低。

缺點:
1、難以確定最佳的帶寬(即每個區間的長度)。
2、高維情形下的效果不佳。
3、特征相互獨立的條件比較強。

適用場景

適用于樣本維度低的大數據場景。

參數詳解

from pyod.models.hbos import HBOS
HBOS(n_bins=10, alpha=0.1, tol=0.5, contamination=0.1)n_bins:樣本劃分為多少個區間。默認10。contamination:污染度

總結

該算法針對大數據場景特別好用,但是異常識別的效果一般,且針對特征間比較獨立的場景。直白點講該算法就是把數據劃分為多個區間,然后根據每個區間的頻次根據概率密度函數轉化為對應的出現概率,在將這個概率轉化為異常分數,以此來區分異常數據。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/456303.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/456303.shtml
英文地址,請注明出處:http://en.pswp.cn/news/456303.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

字典和json 的區別 和轉換

前言:字典和json非常像。接下來比較一下兩者的異同 先看一下字典的寫法: a {a:1,b:2,c:3} 再看一下json的寫法: {"studentInfo":{"id":123456,"stu_name":"Dorra"} } 從形式上看,都是…

Struts2的工作原理及工作流程

眾所周知,Struts2是個非常優秀的開源框架,我們能用Struts2框架進行開發,同時能 快速搭建好一個Struts2框架,但我們是否能把Struts2框架的工作原理用語言表達清楚,你表達的原理不需要說出底層是怎么實現的,我…

正則表達式采坑

[a-zA-Z]匹配大小寫字符 \w 匹配字母、數字、下劃線 {5,7} 表示前面的字符(即:\w)必須至少出現 5 次最多出現 7 次. 合起來就是 >6 少于8個的字符 [a-zA-Z]\w{6,12} --------------》》 就是要輸入七位數到十三位&#x…

easyui動態顯示和隱藏表頭

為什么80%的碼農都做不了架構師?>>> var _bt{date:日期,subtime:填寫時間,xz:小組,uname:操作人,qdbh:渠道編號,mt:媒體,zh:賬戶,sjd:時間段,tfwz:投放位置,tfh:投放號,td:團隊,sjje:實際金額,jxs:進線數,cb:成本,yxzyjx:有效資源進線,yxzyl:有效資源率…

物聯網

如果要說未來什么技術正在或將徹底改變人類生活、工作和娛樂的方式,那必須是物聯網。小到各種可穿戴產品,大到汽車、工廠和樓宇,物聯網能使一切設備互聯并具備智慧。物聯網也正改變著產業的格局,索尼、夏普、東芝等日本傳統電子設…

理解:復雜度是O(log^n) 就是二分法

冒昧問一下,為什么二分法查找的復雜度是O(log^n)?這是怎么計算的? 你要從1,2,3,4,5,6,7,8里面找到3,分成幾步? 第一步,…

淺談管理數據平臺的一些想法

前言: 對于任何使用大數據技術的公司來說,大數據平臺特別是Hive來說,維護其高效快速的運行,對整個公司的運作來說至關重要。比如說:某個調度任務失敗了造成業務部門的某些報表無法正常產出;hive平臺最近速…

MongoDB誤刪表恢復

一、場景描述公司某工程師執行db.giveget_card.drop(),誤將線上表刪除。幸好每天都有做備份,這個時候就體現了備份的重要性了,哈哈哈。。。二、模擬故障過程備份數據大小:rs_test01:PRIMARY> use ycsb switched to db ycsb rs_…

linux下kill某個應用

linux命令行與桌面切換快捷鍵CtrAltF1,CtrAltF7 ps -e | grep abc sudo kill xyz 轉載于:https://www.cnblogs.com/cj2014/p/6512354.html

flask中數據庫的基本操作-增刪改查【備忘】

1.增加數據(就相當于增加一個實例對象) user1 User(namelong,email1006550026qq.com,password123456,role_id1) db.session.add(user1) db.session.commit() 2.修改數據 修改用戶表里面的name為long的姓名為:fang 首先查詢到名為…

兩個文件比較之comm命令

comm命令可用于兩個文件之間的比較。它有很多不錯的選項可用來調整輸出,以便我們執行交集、求差(difference)以及差集操作。? 交集:打印出兩個文件所共有的行。? 求差:打印出指定文件所包含的且互不相同的那些行。?…

【轉】error while loading shared libraries: xxx.so.x 錯誤的原因和解決辦法

原博客地址:http://www.cnblogs.com/Anker/p/3209876.html#undefined error while loading shared libraries: xxx.so.x" 錯誤的原因和解決辦法 今天在執行一個protobuf程序時,提示error while loading shared libraries: libprotobuf.so.8: cannot…

Flask學習記錄之Flask-SQLAlchemy

Flask-SQLAlchemy庫讓flask更方便的使用SQLALchemy,是一個強大的關系形數據庫框架,既可以使用orm方式操作數據庫,也可以使用原始的SQL命令. Flask-Migrate 是一個數據遷移框架,需要通過Flask-script庫來操作. 一.配置Flask-SQLAlchemy 程序使用的數據庫地址需要配置在SQLALCH…

Postico —— OS X 上的免費 PostgreSQL 客戶端

Postico 是 OS X 下的一個 PostgreSQL 客戶端管理工具。要求 OS X 10.8 或者更新版本。 文章轉載自 開源中國社區 [http://www.oschina.net]

hdu 1760 A New Tetris Game(搜索博弈)

題目鏈接&#xff1a;hdu 1760 A New Tetris Game 題意&#xff1a; 給你一個矩陣&#xff0c;0表示可以放格子&#xff0c;現在給你2*2的格子&#xff0c;lele先放&#xff0c;問是否能贏。 題解&#xff1a; 爆搜。具體看代碼 1 #include<bits/stdc.h>2 #define F(i,a,…

flask-restful接口

同flask一樣&#xff0c;flask-restful同樣支持返回任一迭代器&#xff0c;它將會被轉換成一個包含原始 Flask 響應對象的響應&#xff1a; class ArticleApi(Resource):def get(self):return {"hello":"world"},201&#xff0c;{"course":&quo…

如約而至 Nexus 6 的 Android 7.1.1 已經上線

經過近一個月的等待&#xff0c;Google 已正式為 Nexus 6 推送 Android 7.1.1 更新&#xff0c;本次更新版本號為 N6F26Q&#xff0c;可以點擊這里下載完整系統鏡像或者下載 OTA 升級包。 相比其他 Nexus 和 Pixel 設備&#xff0c;Nexus 6 已經發布了超過兩年之久&#xff0c;…

關于jedis2.4以上版本的連接池配置,及工具類

jedis.propertise 注意以前版本的maxAcitve和maxWait有所改變&#xff0c;JVM根據系統環境變量ServerType中的值 取不同的配置&#xff0c;實現多環境&#xff08;測試環境、生產環境&#xff09;集成。 redis.pool.maxTotalredis.pool.maxActive.${ServerType} redis.pool.max…

關于response格式轉換

調用圖靈機器人api實例&#xff1a; class RobotHandler(WebSocketHandler):def open(self):# print("WebSocket opened",self.request.remote_ip)robot_set.add(self)# 獲取websocket的發過來的信息def on_message(self, message):urlhttp://openapi.tuling123.com/…

微軟老兵 Antoine LeBlond 將正式離職

Antoine LeBlond (安東勒布朗)是微軟眾高管之一,他在微軟工作將近25年之久,然而他將在下周一,也就是他在微軟的第9000天正式離職. 在發給微軟眾同事的郵件中,勒布朗表示他希望"探索微軟之外的世界". 勒布朗在微軟Office部門度過了他在微軟的前20年時光,并與前微軟高管…