目錄
一? 文章動機
二? TSAD 領域內的兩類缺陷
三? 數據集的構建
四? 實驗結果及結論
項目宣傳鏈接:TSB-AD
代碼鏈接:?TheDatumOrg/TSB-AD: TSB-AD: Towards A Reliable Time-Series Anomaly Detection Benchmark
原作者解讀:NeurIPS 2024 | 時序異常檢測基準 TSB-AD - 知乎?
TSB - AD 與其他TSAD基準的全面對比:
一? 文章動機
1.?長期以來,由于使用含缺陷的基準數據集、存在偏見的評估方法、不一致的基準實踐,TSAD 領域面臨諸多困擾;
2.?Wu & Keogh 發起對 TSAD 數據集含缺陷的討論:triviality, anomaly density, mislabeling, and
run-to-failure bias(異常標注瑣碎、異常密度、標簽錯誤、運行失敗偏差);
3. UCR 數據集雖近期收到較多推崇,但仍存在重大缺陷:① 它忽視了某些時序異常區域;② 它通過 “人為引入” 時序異常;
4.??“everyone wants to do the model work instead of the data work”, resulting in limited new efforts to produce a large-scale, high-quality dataset.(典中典的問題)
5.?存在偏見的評估方法(尤其指:“點調整” 后的指標):隨機分數、噪音輸入、“嘈雜” 輸入會造成“進步錯覺”:(*此處補充?SimAD 的示意圖進行說明,不屬于原文內容)
6. “模型預處理” 及 “模型評測方式” 的不一致,也會造成不合理的 TSAD 模型質量評估;
7. 指標推薦:VUS - PR、VUS - ROC 等;
二? TSAD 領域內的兩類缺陷
① 基準數據集的缺陷:
(a) 漏標、誤標:數據集標注者被許可訪問并接觸 “額外的、未批露的數據”,因此 “不顯著” 的時序異常標記是合理的;然而數據集內存在?“相似” 時序被賦予 “不同” 標簽,則不合理;TSB - AD 對其進行修正;
(b) 偏差現象:Yahoo 數據集通常在數據末端標注異常,使結果不合理地傾向將末端數據點預測為異常的算法;UCR 數據集僅標注最顯著的異常現象,忽略對潛在異常的標注,此外,單變量時序不符合真實世界場景;
(c) 可行性、實用性:為 “分類” 任務設計的數據集被不恰當用于 “異常檢測”,僅僅簡單地將少數類重新分類為 “異常”;然而,“少數類” 的占比超出了 “異常” 的占比,不切實際的異常比率違反 “異常不應頻繁發生” 的基本原則,與異常檢測器的設計原則相悖;
② 評估指標的缺陷:
(a)?AUC - ROC 不適配針對 “不平衡分類任務” 的模型評估,AUC - PR 更優;
(b) 基于點的一系列評估指標,對 “靠前或滯后(lag)” 檢測到異常的行為過分敏感,懲罰力度過大,不夠合理;
(c)?點調整(PA)假設檢測到異常段內的任何點都被視為檢測到該段內的所有點。然而,該指標傾向于支持 “有噪聲” 的預測,隨機分數也有機會預測真實異常序列中的點,性能與SOTA相當。隨機生成的預測在點調整下甚至優于SOTA方法;異常平均長度增加時,點調整后的F分數接近1。
三? 數據集的構建
四? 實驗結果及結論
1. 各類模型在 "TSB?- AD - U"(單變量)及?"TSB?- AD - M"(多變量)數據集上的整體實驗結果:
2. 對 各類“模型評測指標”? 的評估實驗:
3. 部分有價值的結論:?
1. 統計方法表現出穩健的性能,而神經網絡方法并未表現出通常被認為的優勢。然而,神經網絡和基礎模型在檢測點異常以及處理多變量場景時仍展現了較大的潛力;
2. 簡單的架構(如:CNN 和 LSTM)通常優于更復雜的設計(如:高級 Transformer 架構);
3. 基礎模型在檢測基于點的異常方面表現出色,但在處理序列異常時表現較弱,主要原因在于其預測機制僅基于有限的回溯窗口逐步估算新的值。當面對長序列異常時,受限的時間上下文往往導致性能下降和噪聲較大的得分。此外,使用有缺陷的點調整技術(偏向這些噪聲得分)進一步加劇了問題,導致進展的假象;
4. 時間序列基礎模型的表現展現出極大潛力:它們在微調后不僅能取得良好表現,還在零樣本能力上優于大多數現有的統計方法和神經網絡方法。然而,基礎模型的主要擔憂是由于預訓練數據規模龐大,可能導致數據污染,因此在實際部署時需謹慎;
5. 將大型語言模型(LLM)應用于時間序列異常檢測的努力結果并不令人滿意,表明該領域仍存在顯著的研究空白;
6. 在表現最佳的方法中,Sub-PCA 和 KShapeAD 表現出色,盡管它們多年來一直被忽視為基本基線,且未在先前的廣泛評估研究中被發現。CNN 和 OmniAnomaly 在多變量場景中的強勁表現 — 與之前的基準結果相反,當時 KMeansAD 被認為更優 — 表明多變量時間序列中的復雜場景需要更高的建模能力,通常超出統計方法的范圍。