【機器學習筆記 Ⅲ】3 異常檢測算法

異常檢測算法（Anomaly Detection）詳解

異常檢測是識別數據中顯著偏離正常模式的樣本（離群點）的技術，廣泛應用于欺詐檢測、故障診斷、網絡安全等領域。以下是系統化的解析：

1. 異常類型

類型	描述	示例
點異常	單個樣本明顯異常	信用卡交易中的天價消費
上下文異常	在特定上下文中異常（如時間序列）	夏季氣溫突降至零下
集體異常	一組相關樣本聯合表現為異常	網絡流量中突然的DDOS攻擊流量

2. 常用算法

(1) 基于統計的方法

Z-Score（標準差法）：
- 計算樣本與均值的標準差距離，超出閾值（如3σ）判為異常。
- 公式：
  [
  z = \frac{x - \mu}{\sigma}
  ]
- 代碼實現：
```
from scipy import stats
z_scores = stats.zscore(data)
anomalies = np.where(np.abs(z_scores) > 3)
```

IQR（四分位距法）：

定義異常值為低于Q1-1.5×IQR或高于Q3+1.5×IQR。

代碼實現：

Q1, Q3 = np.percentile(data, [25, 75])
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
anomalies = data[(data < lower_bound) | (data > upper_bound)]

(2) 基于距離的方法

KNN（K近鄰）：

計算每個樣本到最近K個鄰居的平均距離，距離過大則為異常。

代碼實現：

from sklearn.neighbors import NearestNeighbors
knn = NearestNeighbors(n_neighbors=5)
knn.fit(X)
distances, _ = knn.kneighbors(X)
anomaly_scores = distances.mean(axis=1)

(3) 基于密度的方法

LOF（局部離群因子）：

比較樣本的局部密度與鄰居的密度，密度顯著偏低則為異常。

代碼實現：

from sklearn.neighbors import LocalOutlierFactor
lof = LocalOutlierFactor(n_neighbors=20, contamination=0.01)
anomalies = lof.fit_predict(X)  # 返回-1表示異常

(4) 基于聚類的方法

DBSCAN：

將不屬于任何簇的樣本（噪聲點）標記為異常。

代碼實現：

from sklearn.cluster import DBSCAN
dbscan = DBSCAN(eps=0.5, min_samples=5)
labels = dbscan.fit_predict(X)
anomalies = X[labels == -1]  # 噪聲點即異常

(5) 基于樹的方法

Isolation Forest（孤立森林）：

異常點因特征值特殊，容易被隨機樹快速隔離。

代碼實現：

from sklearn.ensemble import IsolationForest
iso_forest = IsolationForest(contamination=0.01)
anomalies = iso_forest.fit_predict(X)  # 返回-1表示異常

(6) 基于深度學習的方法

自編碼器（Autoencoder）：

正常數據重建誤差低，異常數據誤差高。

代碼實現：

from tensorflow.keras import layers, Model
# 構建自編碼器
encoder = layers.Dense(32, activation='relu')(input_layer)
decoder = layers.Dense(64, activation='sigmoid')(encoder)
autoencoder = Model(input_layer, decoder)
autoencoder.compile(optimizer='adam', loss='mse')
# 訓練后計算重建誤差
reconstructions = autoencoder.predict(X)
mse = np.mean(np.square(X - reconstructions), axis=1)
anomalies = mse > threshold

3. 算法選擇指南

場景	推薦算法	理由
單維數據，分布已知	Z-Score / IQR	計算簡單高效
高維數據，無標簽	Isolation Forest / LOF	無需假設數據分布
時間序列異常	LSTM-Autoencoder	捕捉時序依賴關系
圖像異常檢測	Variational Autoencoder (VAE)	學習潛在特征空間

4. 評估指標

有標簽時：
- 精確率（Precision）、召回率（Recall）、F1-Score。
- AUC-ROC（異常檢測常偏重召回率）。
無標簽時：
- 人工驗證（如Top-N異常樣本是否合理）。
- 聚類指標（如輪廓系數）間接評估。

5. 關鍵挑戰

樣本不平衡：異常樣本極少（如0.1%），需使用過采樣或調整損失函數。
動態環境：正常模式隨時間變化（需在線學習或滑動窗口）。
解釋性：需提供異常原因（如SHAP值解釋）。

6. 應用案例

金融：信用卡欺詐交易識別。
工業：生產線設備故障預警。
醫療：心電圖異常心跳檢測。
網絡安全：入侵行為檢測。

7. 總結

核心目標：區分正常模式與異常，而非精確預測。
算法選擇：取決于數據維度、分布和異常類型。
落地要點：
1. 結合領域知識定義“異常”。
2. 處理樣本不平衡（如加權損失或過采樣）。
3. 模型需持續監控和更新（概念漂移問題）。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/90189.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/90189.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/90189.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！