標題:Attentive Eraser: Unleashing Diffusion Model’s Object Removal Potential via Self-Attention Redirection Guidance
Source:https://arxiv.org/pdf/2412.12974?
收錄:AAAI '25
作者單位:浙工商,字節(杭州),阿里(杭州)
1. 總結
-
提供了一種無需調參的方法,使得預訓練的擴散模型在目標擦除任務上實現sota效果。
-
作者發現,自注意力圖會影響生成圖像的結構和紋理細節
-
作者提出ASS模塊(attention activation and suppression),基于給定蒙版,調用語言訓練擴散模型的自監督機制,在逆生成過程中實現背景相對于前景的優先處理
2. 有哪些相關研究?如何歸類?誰是這一課題在領域內值得關注的研究員?
2.1 用于目標擦除的擴散模型
2.2 Sampling guidance
-
Classifier guidance: 使用額外的預訓練分類器提供監督信號
-
Classifier-free guidance: 構建一個隱式分類器來引導生成過程
-
Self-attention guidance: 使用或者調整自監督模塊來引導生成過程
-
SAG: Hong et al., 2023
-
PAG: Ahn et al., 2024
-
3. 論文試圖解決什么問題?
擴散模型作為一種生成式模型,在目標去除任務(object removal tasks)上,會輸出帶有隨機artifacts和前景物體區域生成不自然的問題。
4. 這篇文章要驗證一個什么學科假設?
為前景物體區域提供背景標簽,而其他區域在生成過程中保證標簽不變,即可消除生成不自然的問題。
5. 論文中提到的解決方案之關鍵是什么?
-
作者發現不同層不同時間步的自監督圖代表了圖像各組成部分的語義信息。自監督圖中代表前景和背景的部分有明顯區分。
-
一種直覺的生成方案就是將前景自注意力信號與背景的相混合。相應地,蒙版內區域相較于背景的自注意力信號要提升,而相對自己的要下降。背景區域的信號要被固定且不受生成過程的影響。因此,背景相較于前景的注意力信號需要下降。
6. 論文中的實驗是如何設計的?
無需微調,直接替換attention模塊。在基于擴散模型的inpainting框架上驗證效果可行性:SIP (stochastic inpainting pipeline) 和 DIP (deterministic inpainting pipeline)。
7. 用于定量評估的數據集是什么?代碼有沒有開源?
測試:從OpenImages V5的測試集中隨機抽取一萬組數據,包含原始圖,對應的蒙版,分割的外接框,和分割類別標簽。
評估指標:
-
整體效果:FID, LPIPS,
-
局部效果:Local-FID,
-
一致多樣性:CLIP consensus,和
-
目標擦除度:CLIP score,越高,說明擦除得越真實,擦除度越高。
代碼已開源:https://github.com/Anonym0u3/AttentiveEraser?tab=readme-ov-file