Unsupervised Out-of-Distribution Detection with Diffusion Inpainting
- 摘要
- 1.介紹
- 2 背景
- 3 3. Lift, Map, Detect
摘要
無監督的異常分布檢測(OOD)旨在通過僅從未標記的域內數據中學習來識別域外數據。我們提出了一種用于此任務的新方法——提升、映射、檢測(LMD),該方法利用了擴散模型的最新進展。擴散模型是一類生成模型。其核心在于學習一種迭代的去噪過程,逐漸將噪聲圖像映射到其訓練流形上。LMD 利用這一直覺來進行 OOD 檢測。具體而言,LMD 通過擾亂圖像將其從原始流形上提升出來,然后使用擴散模型將其映射到域內流形上。對于域外圖像,映射后的圖像會與其原始流形有較大的距離,LMD 會相應地將其識別為 OOD。通過大量實驗,我們展示了 LMD 在各種數據集上實現了具有競爭力的性能。代碼可以在 https://github.com/zhenzhel/lift_map_detect 找到。
1.介紹
OOD 檢測旨在分類數據點是否屬于特定的領域。這尤其重要,因為機器學習模型通常假設測試時的樣本來自與訓練數據相同的分布。如果測試數據不符合訓練分布,它們可能會無意中產生無意義的結果。在高風險領域,如醫學(Hamet & Tremblay, 2017)和刑事司法(Rigano, 2019)中,機器學習模型的使用增加了OOD檢測的重要性。例如,如果醫生錯誤地將胸部X光片輸入到腦瘤檢測器中,模型可能仍然會返回一個預測 - 這將是無意義的,可能會產生誤導。
以往的研究已經在不同的設置下研究了 OOD 檢測:有監督和無監督。在有監督的設置中,監督可以來自不同的來源。在最知情的設置中,人們假設可以訪問代表性的超出領域的樣本。這些樣本允許人們訓練一個OOD檢測器作為一個分類器,區分領域內和領域外的數據,并達到高性能(Hendrycks等人,2018; Ruff等人,2019) - 只要超出領域的數據不偏離假設的超出領域的分布。然而,在許多實際應用中,這樣的知識是無法獲得的。事實上,超出領域的數據可能非常多樣化和不可預測。
一個明顯更寬松的假設是只需要訪問領域內的分類器或類標簽。在這個設置下,像Hendrycks & Gimpel (2016); Liang等人(2017); Lee等人(2018); Huang等人(2021); Wang等人(2022)的方法已經取得了有競爭力的性能。盡管信息較少,但這個設置依賴于兩個隱含的假設:領域內的數據有明確定義的類別,且有足夠多的帶有類注釋的數據。然而在實踐中,這些假設往往不能滿足。未標記的數據不需要昂貴的人工注釋,因此通常可以大量地方便地獲得。理想情況下,人們希望構建一個OOD檢測器,該檢測器在訓練期間只需要未標記的