圖像擦除論文-2:SmartEraser、Erase Diffusion、OmniEraser

圖像生成模型應用系列——圖像擦除:
圖像擦除論文-1:PixelHacker、PowerPanint等
圖像擦除論文-2:擦除類型數據集構建(1)

Erase Diffusion

Erase Diffusion: Empowering Object Removal Through Calibrating Diffusion Pathways
https://github.com/longtaojiang/SmartEraser
CVPR-2025

1、模型結構

論文出發點主要為:1、動態圖像組合:區別常規的圖像去除實驗target image就是我們的去除內容之后的圖片,在該文中將其替換為: x t m i x = ( 1 ? λ t ) x 0 o r i + λ t x 0 o b j x_t^{mix} = (1-\lambda_t)x_0^{ori}+ \lambda_t x_0^{obj} xtmix?=(1?λt?)x0ori?+λt?x0obj? 也就是隨著解噪過程(t逐漸減小)圖片中所添加的實體( x 0 o b j x^{obj}_0 x0obj?)所占的權重越來越小,同時將 input image也替換為動態的過程: x t m i n = α t x t m i n + 1 ? α t ? x_t^{min}=\sqrt{\alpha_t}x_t^{min}+ \sqrt{1- \alpha_t}\epsilon xtmin?=αt? ?xtmin?+1?αt? ??;2、改變模型的預測過程:上面兩部分公式處理之后那么得到的輸入圖像是一個“圖像鏈”輸出圖像也是一個“圖像鏈”,那么模型需要做的就是將對應“圖像鏈”之間的loss進行計算。

3、改進注意力計算方式:這部分比較容易理解在計算注意力過程中將mask加入到計算也就是: Q K T ? M a s k QK^T\bigodot Mask QKT?Mask

SmartEraser

SmartEraser: Remove Anything from Images using Masked-Region Guidance
CVPR-2025

1、數據集構建

合成數據集構建思路上使用思路是:實體過濾背景檢測而后將兩部分進行組合。Step-1:實體過濾:直接通過語義分割模型(如SAM等)分割出實體之后,通過CLIP計算實體的score并且過濾掉過大/小的分割實體(保留5%-95%)進而獲得需要粘貼的實體;Step-2:過濾背景圖片:直接通過計算分辨率等從COCONut 和SAM-1B數據集中挑選出合適圖片背景;Step-3:圖片組合:首先將實體和背景圖像中相同實體大小保持一致,而后通過計算我分割實體 c 1 c_1 c1? 以及背景中的實體 c i c_i ci?之間的IoU: R 1 R_1 R1?,以及保證需要粘貼實體在整個背景中的位置(保證不超出背景圖片): R 2 R_2 R2?而后取兩部分交集得到圖像應該插入的合理位置。最后通過 alpha blending將兩部分圖像(實體+背景)進行組合。

2、模型結構測試效果

論文主要就是將模型的輸入進行改進:將模型圖像輸入由 [ m a s k , i m a g e ? ( 1 ? m a s k ) ] [mask, image\bigodot (1-mask)] [mask,image?(1?mask)] 改為 [ m a s k , i m a g e ] [mask, image] [mask,image],除此之外將DF模型的condition改進(將圖像編碼嵌入到文本編碼中): [ CLIP-TextEncoder(text) , MLP ( Image ? Mask ) ] [\text{CLIP-TextEncoder(text)}, \text{MLP}(\text{Image}\bigodot \text{Mask})] [CLIP-TextEncoder(text),MLP(Image?Mask)]。除此之外就是將mask由“規則”(實體分割是規則的)變為“不規則”(將實體分割mask進行額外處理如膨脹處理等)最后測試效果是:

ME:將mask變不規則;RG:改變模型輸入;VG:將圖像編碼嵌入到clip文本編碼中

微調測試效果
55_000000138891.jpg
sa_324589.jpg
sa_326708.jpg
sa_324873.jpg
sa_5278781.jpg

值得注意的是,在其合成的數據里面,合成得到結果很粗糙(感覺就像是隨機貼圖),因此感覺數據可用性不高
image.png
image.png

OmniEraser

https://pris-cv.github.io/Omnieraser/

1、數據集構建

通過視頻來獲取(mask-image)數據集,具體操作流程如下:

image.png

首先獲取一段視頻 V \mathbf{V} V 通過 混合高斯算法(MOG)去檢查視頻中移動的物體以及靜止的物體這樣一來就可以得到兩部分內容:Background和Foreground而后通過計算兩部分之間的MSE( M S E ( V i f g , V j b g ) MSE(V_i^{fg}, V_j^{bg}) MSE(Vifg?,Vjbg?))就可以得到source-image和 target-image對。對于mask內容直接通過 GroundDINO+SAM2 算法來構建mask這樣一來就可以得到:foreground-image,mask,background-image。模型算法這是直接去微調 FLUX.1-dev

2、模型結構測試效果

image.png

實際測試效果(使用prompt為:'There is nothing here.'

原圖Mask結果測試細節
sa_324952.jpgsa_324952-0.jpgsa_324952.jpg
sa_325886.jpgsa_325886-1.jpgsa_325886.jpg
sa_324501.jpgsa_324501-2.jpgsa_324501.jpg
sa_324930.jpgsa_324930-1.jpgsa_324930.jpgimage.png

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/87150.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/87150.shtml
英文地址,請注明出處:http://en.pswp.cn/web/87150.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

九識無人車陜西運營中心展廳啟幕 打造智能城配物流新標桿

7月1日,九識無人車陜西運營中心展廳正式開業,全國業務版圖再添重要一子。這座展廳是九識在陜西省的首家展廳,由九識第一位正式提車的客戶、首位代理商伙伴孫朋奇先生打造。展廳集產品展示與技術體驗于一體,成為西北地區城配領域自…

AI智能體|扣子(Coze)搭建【沉浸式歷史故事解說視頻】工作流

主包講解歷史對我們的好處,純個人觀點! 這個世界是存在一些規律的,很多東西并不能夠通過自己的聰明去創新,去改變的。 無論你怎么樣創新,你都會回到哪個規律中去,比如很多人做一些商業模式的創新&#xff0…

Softhub軟件下載站實戰開發(十):實現圖片視頻上傳下載接口

文章目錄 Softhub軟件下載站實戰開發(十):實現圖片視頻上傳下載接口 🖼?🎥系統架構圖核心功能設計 🛠?1. 文件上傳流程2. 關鍵技術實現2.1 雪花算法2.2 文件校驗機制 ?2.3 文件去重機制 🔍2.…

[JS逆向] 喜馬拉雅登錄案例 -- 補環境

博客配套代碼發布于github:喜馬拉雅登錄 (歡迎順手Star一下?) 相關知識點:webpack 補環境 相關爬蟲專欄:JS逆向爬蟲實戰 爬蟲知識點合集 爬蟲實戰案例 逆向知識點合集 此案例目標為逆向成功對應的參數&#xff0c…

大語言模型推理系統綜述

摘要 近年來,隨著 ChatGPT 等服務推動大語言模型(LLM)的快速普及,一批專門面向 LLM 推理的系統相繼涌現,如 vLLM、SGLang、Mooncake 和 DeepFlow。這些系統設計工作的核心動因是 LLM 請求處理過程中所特有的自回歸特性…

用Firecrawl輕松獲取網站數據,提升AI應用的效率!

🔥 Firecrawl:助力AI應用的強大工具! 在數字化信息爆炸的時代,如何高效地從海量網頁中提取有用數據變得尤其重要。Firecrawl的問世,為我們揭開了一種便捷的方法來應對這一挑戰。它不僅能夠將整個網站的數據轉化為適用…

【王陽明代數講義】谷歌編程智能體Gemini CLI 使用指南、架構詳解與核心框架分析

Gemini CLI 使用指南、架構詳解與核心框架分析 Gemini CLI 使用指南、架構詳解與核心框架分析Gemini CLI 使用指南Gemini CLI 架構詳解Gemini CLI 核心框架總結 Gemini CLI 使用指南、架構詳解與核心框架分析 Gemini CLI 使用指南 1. 安裝與配置 環境要求: Node.…

camera調試:安卓添加xml注冊

對接安卓的平臺時,需要注冊對應的camera設備,供安卓標準api進行操作,rk的平臺需要在HAL層配置camera3_profiles.xml文件,適配驅動的信息,進行注冊camera設備。該xml對應的內容很多,很多CTS測試問題都是該文…

使用 Ansys Discovery 為初學者準備幾何結構

介紹 設計幾何體通常會包含一些特征,使其無法直接導入我們的仿真工具,例如 Ansys Mechanical、LS-DYNA、Fluent 等。有些干擾或錯位雖然適合制造,但在我們的仿真工具中卻會造成問題。有時,一些小特征(例如孔或圓角&am…

推客系統全棧開發指南:從架構設計到商業化落地

一、推客系統概述 推客系統(TuiKe System)是一種結合社交網絡與內容分發的創新型平臺,旨在通過用戶間的相互推薦機制實現內容的高效傳播。這類系統通常包含用戶關系管理、內容發布、智能推薦、數據分析等核心模塊,廣泛應用于電商…

大數據開發實戰:如何做企業級的數據服務產品

1.背景 數據服務通常以解決方案的形式進行組織,面向一個應用場景的所有數據需求或數據內容可以通過一個解決方案進行封裝,統一對外服務。一個數據需求或數據接口以一個數據服務實例的形式存在于解決方案之下。 下游消費方可以通過統一API進行數據消費&…

基于IndexTTS的零樣本語音合成

IndexTTS 項目采用模塊化設計,將 BPE 文本編碼、GPT 單元預測、dVAE 語音特征抽取和 BigVGAN 音頻生成串聯為完整的語音合成流程。系統通過統一的配置文件和模型目錄規范,實現高效的文本到語音轉換,支持命令行與 Web 界面雙模式操作&#xff…

基于go-zero的短鏈生成系統

go-zero框架 gozero(又稱go-zero)是一款由知名開發者kevwan設計的Golang微服務框架,專注于高性能、低延遲和易用性。其核心目標是簡化分布式系統的開發,提供開箱即用的工具鏈,涵蓋API網關、RPC服務、緩存管理、數據庫…

Linux-修改線上MariaDB服務端口號

準備工作(很重要!!!): 提前做好Linux服務器快照 提前做好數據庫數據備份 1. 修改配置文件 首先,我們需要找到MariaDB的配置文件。通常情況下,這個文件位于以下位置:…

Spring Cloud 微服務(負載均衡策略深度解析)

📌 摘要 在微服務架構中,負載均衡是實現高可用、高性能服務調用的關鍵機制之一。Spring Cloud 提供了基于客戶端的負載均衡組件 Ribbon,結合 Feign 和 OpenFeign,實現了服務間的智能路由與流量分配。 本文將深入講解 Spring Clo…

HTML/CSS基礎

1.html:超文本標記語言。它是一種標識性的語言,非編程語言,不能使用邏輯運算。通過標簽將網絡上的文本格式進行統一,使用分散網絡資源鏈接為一個邏輯整體,屬于標記語言。 超文本:就是指頁面內可以包含圖片&#xff0…

C# 事件驅動編程的核心:深度解析發布者_訂閱者模式

適用場景:GUI交互、消息隊列、微服務通信等需要解耦事件生產與消費的系統 🧩 模式核心組件解析 發布者(Publisher) 作用:定義事件并管理訂閱者列表關鍵行為: 提供和-運算符注冊/注銷訂閱者通過Invoke()方…

華為云Flexus+DeepSeek征文 | 從零開始搭建Dify-LLM應用開發平臺:華為云全流程單機部署實戰教程

華為云FlexusDeepSeek征文 | 從零開始搭建Dify-LLM應用開發平臺:華為云全流程單機部署實戰教程 前言一、華為云Dify-LLM平臺介紹1. Dify-LLM解決方案簡介2. Dify-LLM解決方案地址3. Dify-LLM單機架構介紹4. 預估成本說明 二、華為云Maas平臺介紹1. 華為云ModelArts …

oracle集合三嵌套表(Nested Table)學習

嵌套表 嵌套表(Nested Table)是Oracle中的一種集合數據類型,它允許在表中存儲多值屬性,類似于在表中嵌套另一個表。 嵌套表具有以下特點: 是Oracle對象關系特性的一部分 可以看作是一維數組,沒有最大元素數量限制 存儲在單獨…

Python學習之——單例模式

Python學習之——單例模式 參考1 利用__metaclass__實現單例super的用法class Singleton(type)元類 2 重載__new__方法實現單例模式3 利用裝飾器實現單例考慮一個類如果繼承一個單例類的問題 參考 python之metaclasssingleton(一) python之metaclasssin…