【論文筆記】Attentive Eraser

標題:Attentive Eraser: Unleashing Diffusion Model’s Object Removal Potential via Self-Attention Redirection Guidance

Source:https://arxiv.org/pdf/2412.12974?

收錄:AAAI '25

作者單位:浙工商,字節(杭州),阿里(杭州)

1. 總結

  • 提供了一種無需調參的方法,使得預訓練的擴散模型在目標擦除任務上實現sota效果。

  • 作者發現,自注意力圖會影響生成圖像的結構和紋理細節

  • 作者提出ASS模塊(attention activation and suppression),基于給定蒙版,調用語言訓練擴散模型的自監督機制,在逆生成過程中實現背景相對于前景的優先處理

2. 有哪些相關研究?如何歸類?誰是這一課題在領域內值得關注的研究員?

2.1 用于目標擦除的擴散模型

2.2 Sampling guidance

  • Classifier guidance: 使用額外的預訓練分類器提供監督信號

  • Classifier-free guidance: 構建一個隱式分類器來引導生成過程

  • Self-attention guidance: 使用或者調整自監督模塊來引導生成過程

    • SAG: Hong et al., 2023

    • PAG: Ahn et al., 2024

3. 論文試圖解決什么問題?

擴散模型作為一種生成式模型,在目標去除任務(object removal tasks)上,會輸出帶有隨機artifacts和前景物體區域生成不自然的問題。

4. 這篇文章要驗證一個什么學科假設?

為前景物體區域提供背景標簽,而其他區域在生成過程中保證標簽不變,即可消除生成不自然的問題。

5. 論文中提到的解決方案之關鍵是什么?

  • 作者發現不同層不同時間步的自監督圖代表了圖像各組成部分的語義信息。自監督圖中代表前景和背景的部分有明顯區分。

  • 一種直覺的生成方案就是將前景自注意力信號與背景的相混合。相應地,蒙版內區域相較于背景的自注意力信號要提升,而相對自己的要下降。背景區域的信號要被固定且不受生成過程的影響。因此,背景相較于前景的注意力信號需要下降。

6. 論文中的實驗是如何設計的?

無需微調,直接替換attention模塊。在基于擴散模型的inpainting框架上驗證效果可行性:SIP (stochastic inpainting pipeline) 和 DIP (deterministic inpainting pipeline)。

7. 用于定量評估的數據集是什么?代碼有沒有開源?

測試:從OpenImages V5的測試集中隨機抽取一萬組數據,包含原始圖,對應的蒙版,分割的外接框,和分割類別標簽。

評估指標:

  • 整體效果:FID, LPIPS,

  • 局部效果:Local-FID,

  • 一致多樣性:CLIP consensus,和

  • 目標擦除度:CLIP score,越高,說明擦除得越真實,擦除度越高。

代碼已開源:https://github.com/Anonym0u3/AttentiveEraser?tab=readme-ov-file

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/72681.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/72681.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/72681.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【powerjob】 powerjobserver注冊服務IP錯誤

1、問題:powerjobserver 4.3.6 的服務器上有多個網卡對應多個ip,示例 eth0 :IP1 ,docker0:IP2 和worker 進行通信時 正確的應該時IP1 但是注冊顯示獲取的確實IP2,導致 worker 通過ip2和server通信,網絡不通,注冊不上 2、解決方案 …

視頻錄像機視頻通道是指什么

視頻錄像機的視頻通道是指攝像機在監控矩陣或硬盤錄像機設備上的視頻輸入的物理位置。 與攝像頭數量關系:在視頻監控系統中,有多少個攝像頭就需要多少路視頻通道,通道數量決定了視頻錄像機可接入攝像頭的數量,一般硬盤錄像機有4路…

面試150,數組 / 字符串

27. 移除元素 class Solution:def removeElement(self, nums: List[int], val: int) -> int:# 把不等于 val 的值移動到前面n len(nums)left 0for right in range(n):if nums[right] ! val:nums[left] nums[right]left 1return left26. 刪除有序數組中的重復項 只保留 1…

【江科大STM32】TIM輸入捕獲模式PWMI模式測頻率

一、輸入捕獲測頻率 接線圖: 測信號的輸入引腳為PA6,信號從PA6進來,待測的PWM信號也是STM32自己生成的,輸出引腳是PA0,所以接線這里直接用一根線將PA0引到PA6就可以了。 如果有信號發生器的話,也可以設置成…

湖倉一體化及冷、熱、實時三級存儲

一、湖倉一體化(Lakehouse) 湖倉一體化(Lakehouse)是數據湖(Data Lake)與數據倉庫(Data Warehouse)的結合,旨在解決傳統數據架構中數據孤島、存儲冗余、計算性能不足等問…

go切片定義和初始化

1.簡介 切片是數組的一個引用,因此切片是引用類型,在進行傳遞時,遵守引用傳遞的機制。切片的使用和數組類似,遍歷切片、訪問切片的元素和切片的長度都一樣。。切片的長度是可以變化的,因此切片是一個可以動態變化的數…

游戲引擎學習第138天

倉庫:https://gitee.com/mrxiao_com/2d_game_3 資產:game_hero_test_assets_003.zip 發布 我們的目標是展示游戲運行時的完整過程,從像素渲染到不使用GPU的方式,我們自己編寫了渲染器并完成了所有的工作。今天我們開始了一些新的內容&#…

畢業項目推薦:基于yolov8/yolov5/yolo11的暴力行為檢測識別系統(python+卷積神經網絡)

文章目錄 概要一、整體資源介紹技術要點功能展示:功能1 支持單張圖片識別功能2 支持遍歷文件夾識別功能3 支持識別視頻文件功能4 支持攝像頭識別功能5 支持結果文件導出(xls格式)功能6 支持切換檢測到的目標查看 二、數據集三、算法介紹1. YO…

docker中kibana啟動后,通過瀏覽器訪問,出現server is not ready yet

問題:當我在瀏覽器訪問kibana時,瀏覽器給我報了server is not ready yet. 在網上試了很多方法,都未能解決,下面是我的方法: 查看kibana日志: docker logs -f kibana從控制臺打印的日志可以發現&#xff…

在 Docker 中,無法直接將外部多個端口映射到容器內部的同一個端口

Docker 的端口映射是一對一的,即一個外部端口只能映射到容器內部的一個端口。 1. 為什么不能多對一映射? 端口沖突: 如果外部多個端口映射到容器內部的同一個端口,Docker 無法區分外部請求應該轉發到哪個內部端口,會…

游戲引擎學習第120天

倉庫:https://gitee.com/mrxiao_com/2d_game_3 上次回顧:周期計數代碼 我們正在進行一個項目的代碼優化工作,目標是提高性能。當前正在優化某個特定的代碼片段,已經將其執行周期減少到48個周期。為了實現這一目標,我們設計了一個…

C++中的.h文件一般是干什么的?

在C中,.h 文件通常是 頭文件(Header File),它們的主要作用是聲明類、函數、常量、宏以及其他在多個源文件(.cpp文件)之間共享的元素。頭文件提供了一個接口,使得不同的源文件能夠訪問這些共享的…

基礎算法總結

基礎算法總結 1、模擬1.1 什么是模擬算法1.2 算法題1.2.1 多項式輸出1.2.2 蛇形方陣 2 高精度算法2.1 什么是高精度算法2.2 算法題2.2.1 高精度加法 2.2.2 高精度乘法 3 普通枚舉3.1 算法題3.1.1 鋪地毯 3.1.2 回文日期 4 前綴和算法4.1 什么是前綴和4.2 算法題4.2.1 最大子段和…

密碼學(哈希函數)

4.1 Hash函數與數據完整性 數據完整性: 檢測傳輸消息(加密或未加密)的修改。 密碼學Hash函數: 構建某些數據的簡短“指紋”;如果數據被篡改,則該指紋(以高概率)不再有效。Hash函數…

游戲引擎學習第135天

倉庫:https://gitee.com/mrxiao_com/2d_game_3 回顧 game_asset.cpp 的創建 在開發過程中,不使用任何現成的游戲引擎或第三方庫,而是直接基于 Windows 進行開發,因為 Windows 目前仍然是游戲的標準平臺,因此首先在這個環境中進行…

Linux:文件描述符與重定向

目錄 一、文件描述符 1.文件內核對象 2.文件描述符分配原則 二、文件重定向 1.重定向的現象 輸出重定向 輸入重定向 dup2 2.重定向的使用 三、標準輸出和標準錯誤 繼上篇文章中,我們了解了fd打印的值為文件描述符,那么它還有什么作用呢&…

白盒測試(3):PCB阻抗測試方法

PCB阻抗測試是確保信號完整性的關鍵,通過測量走線的特性阻抗,驗證其是否符合設計目標。常用方法包括時域反射法(TDR)、網絡分析儀法和仿真軟件法。TDR通過分析反射信號定位阻抗異常,網絡分析儀通過S參數計算阻抗&#…

CentOS 7 安裝Nginx-1.26.3

無論安裝啥工具、首先認準了就是官網。Nginx Nginx官網下載安裝包 Windows下載: http://nginx.org/download/nginx-1.26.3.zipLinxu下載 wget http://nginx.org/download/nginx-1.26.3.tar.gzLinux安裝Nginx-1.26.3 安裝之前先安裝Nginx依賴包、自行選擇 yum -y i…

筆記:如何使用XAML Styler以及在不同的開發環境中使用一致

一、目的:分享如何使用XAML Styler以及在不同的開發環境中使用一致 XAML Styler 是一個 Visual Studio 擴展,用于自動格式化和整理 XAML 文件。它可以幫助開發者保持一致的代碼風格,提高代碼的可讀性和可維護性。以下是如何在 Visual Studio …

分布式存儲學習——HBase概述

1.1 HBase概述 1.1.1 理解大數據背景 1.1.2 HBase是什么 1.1.3 HBase與Hadoop的關系 1.1.4 HBase的核心功能模塊 1.1.5 HBase的應用場景和經典案例 1.1.6 小結 本文參考于學校《HBase應用于開發》教材 1.1 HBase概述 本節將介紹大數據背景和HBase的基本概念&#xff0c…