異常值檢測-值域法頭歌代碼解釋

這關做得不是很明白，如果有清楚的同志可以在評論區里面討論

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.neighbors import LocalOutlierFactor
# 導入數據
abc = pd.read_csv('deaths.csv')
## 只分析其中的Population和Lat兩個變量
abc = abc[["Population","Lat"]]###begin#### 使用LocalOutlierFactor對數據集進行異常檢測
lof = LocalOutlierFactor(n_neighbors=10)  # 設置參數，n_neighbors表示鄰居數量，contamination為異常值比例估計
# 計算樣本的LOF得分（-1表示異常點）
abc_scores = lof.fit_predict(abc)# 獲取異常值索引
outliers_index = np.where(abc_scores == -1)[0]
print("檢測出的異常值數量為:",len(outliers_index))###end####

這一關中背景知識沒有提很多函數的使用，需要大家在網上查找相應函數的用法。

LocalOutlierFactor（）的參數使用

LocalOutlierFactor?是 scikit-learn 庫中的一個用于局部離群值檢測（LOF，Local Outlier Factor）的類。它通過比較數據點與其鄰居的數據密度來識別潛在的異常點。以下是?LocalOutlierFactor?類的一些關鍵參數及其使用解釋：

n_neighbors?(默認=20)：
這個參數指定了計算 LOF 分數時要考慮的鄰居數量（k近鄰）。更多的鄰居可能會提供更穩定的結果，但計算成本也會更高。選擇合適的 k 值對于算法的表現至關重要。

contamination?(默認="auto")：
它表示數據集中被認為是離群點的比例估計。如果設置為 "auto"，算法會嘗試自動確定異常點比例；若給定一個浮點數（例如 0.1 表示 10% 的樣本是離群點），則按照這個比例計算閾值。

algorithm?(默認="auto"):
指定搜索最近鄰的算法，可以是 "auto", "ball_tree", "kd_tree", "brute" 或 "metric"。根據輸入數據和可用內存情況，scikit-learn會選擇最佳實現。

leaf_size?(默認=30):
當使用樹型結構（如 BallTree 或 KDTree）時，這是構建樹時的葉節點大小。較小的 leaf_size 可以提高精度，但會增加內存消耗和計算時間。

metric?(默認="minkowski"):
距離度量方法。它可以是一個字符串指定內置的距離度量，也可以是一個可調用對象，該對象接受兩個向量并返回它們之間的距離。

p?(默認=2):
如果 metric 設置為 "minkowski"，則 p 參數用于定義 Minkowski 距離的冪指數。當 p=2 時，Minkowski 距離就是歐氏距離；當 p=1 時，它是曼哈頓距離。

** novelty** (默認=False):
是否啟用新穎性檢測模式。如果設置為 True，則在訓練后可以對新樣本進行離群值檢測。

metric_params?(default=None):
傳遞給所選距離度量函數的額外關鍵字參數字典。

這是我在網上通過chat找到的一些解答。說實話看不出來?n_neighbors要設置為10，設置為20的時候答案是26。如果知道的同志，歡迎在評論區中討論交流。

除以上方法外還可以采用print，輸出答案。（沒有辦法的辦法）

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/716535.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/716535.shtml
英文地址，請注明出處：http://en.pswp.cn/news/716535.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！