LazyDiffusion:革新交互式圖像編輯的擴散模型

Adobe Research和特拉維夫大學的研究人員聯合開發了一種名為LazyDiffusion的新型擴散變換器,它能夠高效地生成部分圖像更新,特別適用于交互式圖像編輯。該模型通過創新的編碼器-解碼器架構,顯著提升了圖像編輯的效率,同時保持了與全尺寸圖像生成相媲美的質量。

技術突破:

LazyDiffusion的核心在于兩個階段的工作流程:首先,上下文編碼器處理當前畫布和用戶遮罩,生成一個緊湊的全局上下文;其次,擴散解碼器基于這個上下文“懶惰”地合成遮罩像素,即僅生成遮罩區域的像素。這種方法避免了傳統擴散模型在每次迭代中處理整個圖像的需要,從而顯著減少了計算量和時間。

上下文編碼器(Context Encoder)

全局上下文生成:

  • 上下文編碼器的目的是將當前畫布的全局信息和用戶的編輯意圖(通過遮罩定義)整合起來。
  • 輸入包括兩部分:一是用戶希望修改的圖像區域(通過遮罩表示),二是遮罩外的背景或上下文區域。
  • 編碼器處理這兩部分信息,生成一個包含整個圖像上下文的緊湊表示,但重點是為遮罩區域生成內容。

信息壓縮:

  • 為了減少計算量,上下文編碼器將豐富的圖像信息壓縮成一個較小的上下文碼。
  • 這個上下文碼是編碼器輸出的一組特征或“tokens”,它們高效地編碼了遮罩區域需要的全局信息。
  • 通過這種方式,上下文編碼器確保了后續的解碼器只需要關注小范圍的遮罩區域,而不是整個大尺寸的圖像。

擴散解碼器(Diffusion Decoder)

遮罩區域生成:

  • 擴散解碼器的任務是根據上下文編碼器提供的全局上下文碼來生成遮罩區域內的像素。
  • 與傳統的擴散模型不同,解碼器不需要對整個圖像進行迭代處理,而是只關注用戶指定的遮罩區域。
  • 這種“懶惰”的生成方式顯著減少了不必要的計算,從而加快了圖像編輯的速度。

迭代去噪:

  • 擴散解碼器采用迭代去噪的方法,逐步精細化遮罩區域的像素。
  • 在每次迭代中,解碼器都會使用當前的上下文碼來指導遮罩區域內像素的生成,確保新生成的像素與整體圖像風格一致。
  • 這個過程從一個噪聲圖像開始,逐步去除噪聲,直到生成高質量的圖像內容。

LazyDiffusion模型在計算效率方面的顯著提升,主要得益于其對遮罩大小的依賴性以及上下文編碼器的一次性編碼特性。在傳統的擴散模型中,每次迭代都需要處理整個圖像,這不僅增加了計算負擔,也延長了處理時間。與之相對,LazyDiffusion的解碼器僅針對用戶定義的遮罩區域進行像素生成,這意味著運行時間與遮罩區域的大小成正比,而非整個圖像的尺寸。對于局部編輯任務,這種設計大幅減少了不必要的計算,使得模型能夠快速響應用戶的編輯需求。

上下文編碼器的設計也極大優化了計算過程。該編碼器一次性處理整個圖像和遮罩,生成一個緊湊的全局上下文,之后在多次迭代中復用這一上下文,避免了對同一圖像重復編碼的需要。這種設計不僅提高了計算效率,還減少了內存占用和整體的計算延遲。

LazyDiffusion通過智能地壓縮和利用圖像上下文信息,以及僅對圖像的特定區域進行迭代處理,實現了計算效率的大幅提升。這使得模型特別適合于交互式圖像編輯,為用戶提供了接近實時的反饋和高度靈活的編輯體驗。在圖像編輯領域,尤其是在需要快速迭代和精細調整的場景中,LazyDiffusion展現了其巨大的潛力和應用價值。

實驗與結果

實驗設置 (Experimental Setup)

  1. 數據集: 研究人員使用了一個內部數據集,包含2.2億張高質量的1024×1024分辨率的圖像。這些圖像涵蓋了多種對象和場景,為模型提供了豐富的訓練材料。

  2. 掩碼和文本提示生成: 采用實體分割模型對圖像中的每個對象進行分割,并使用BLIP-2為每個實體生成描述性文本。為了模擬用戶創建的粗糙和不準確的掩碼,研究人員對實體掩碼進行了隨機膨脹處理。

  3. 基線比較: 將LazyDiffusion與兩種圖像修復基線方法進行比較,分別是RegenerateImage和RegenerateCrop。RegenerateImage處理整個圖像,而RegenerateCrop僅處理掩碼周圍的緊湊區域。

推理時間 (Inference Time)

  1. 性能對比: 研究人員展示了LazyDiffusion與基線方法在推理時間上的性能對比。LazyDiffusion的運行時間與掩碼的大小成比例,而基線方法則在固定大小的張量上運行,導致LazyDiffusion在處理小掩碼時具有顯著的速度優勢。

  2. 速度提升: 在掩碼覆蓋圖像10%的情況下,LazyDiffusion實現了比RegenerateImage快10倍的速度提升。

逐步生成 (Progressive Generation)

  1. 交互式編輯: LazyDiffusion顯著加快了局部圖像編輯的速度,使得擴散模型更適合于用戶參與其中的交互式應用。

  2. 生成示例: 論文中展示了LazyDiffusion在圖像編輯和生成中的迭代過程,從空白畫布開始,逐步添加圖像內容。

圖像修復質量 (Inpainting Quality)

  1. 定量評估: 使用零樣本FID(Fréchet Inception Distance)和CLIPScore進行定量評估,這些指標估計了圖像與真實圖像的相似度以及文本-圖像對齊的質量。

  2. 用戶研究: 通過用戶研究評估模型在生成高度上下文相關的圖像修復任務中的性能。用戶在給定的掩碼輸入圖像、文本提示和兩種結果(LazyDiffusion和基線)中選擇整體看起來最好的圖像。

  3. 質量比較: LazyDiffusion在保持圖像全局一致性的同時,即使在壓縮上下文的情況下,也能產生與RegenerateImage和SDXL相當的修復結果。

草圖引導的圖像修復 (Sketch-guided Inpainting)

  1. 多樣化條件: LazyDiffusion不僅依賴掩碼和文本提示,還能適應其他形式的條件,如草圖和邊緣圖。

  2. 靈活性展示: 論文中通過使用用戶提供的粗略彩色草圖來引導圖像生成,展示了模型的靈活性。

實驗結果證明了LazyDiffusion在交互式圖像編輯任務中的有效性和效率,為未來的圖像編輯工具和應用提供了新的可能性。

盡管LazyDiffusion在交互式圖像編輯領域展現出巨大潛力,但研究人員也指出了一些局限性,例如在處理極高分辨率圖像時可能遇到的挑戰。未來的工作將致力于解決這些挑戰,進一步提升模型的可擴展性和適用性。

論文鏈接:https://arxiv.org/abs/2404.12382

GitHub 地址:https://lazydiffusion.github.io/

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/10155.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/10155.shtml
英文地址,請注明出處:http://en.pswp.cn/web/10155.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

QML 本地存儲(Setting,sqlite)

Qt hello - 專注于Qt的技術分享平臺 QML 原生的儲存方有兩種: 1,Settings 跟QWidget 中的QSettings 一樣,可以簡單的存儲一些配置。 2,Sqlite sqlite數據庫。可以存儲一些復雜的數據。 一,Settings 我們以一個按鈕的位…

鴻蒙DevEco Studio 4.1 Release-模擬器啟動方式錯誤

軟件版本:DevEco Studio 4.1 Release 報錯提示: 沒有權限查看處理指導 Size on Disk 顯示1.0MB 嘗試方案(統統無效): 1、“windows虛擬機監控程序平臺”、"虛擬機平臺"已開啟 啟用CPU虛擬化 2、C…

DIY可視化軟件環境準備

DIY官網可視化工具做好的可視化拖拽開發工具無須編程、零代碼基礎、所見即所得設計工具支持輕松在線可視化導出微信小程序、支付寶小程序、頭條小程序、H5、WebApp、UNIAPP等源碼 支持組件庫,高顏值,卡片,列表,輪播圖,導航欄,按鈕,標簽,表單,單選,復選,下拉選擇,多層選擇,級聯選…

【大華可見光攝像頭】ffmpeg獲取視頻流并下載mp4 報錯‘subtype‘ 不是內部或外部命令,也不是可運行的程序

我現在要通過ffmpeg獲取大華攝像頭視頻流并下載成mp4,但我在cmd窗口運行下面命令的時候,發現報錯: D:\Java\ffmpeg\ffmpeg-master-latest-win64-gpl\bin\ffmpeg.exe -y -i rtsp://admin:123xxx.xxx.xxx.xxx/cam/realmonitor?channel1&s…

springboot 連接hive的坑

本地運行時倒是沒啥問題,一上線啟動接連報錯。網上各種找答案,本質上還是依賴沖突報錯,不知道使用哪個具體類 Caused by: java.lang.NoSuchMethodError: javax.servlet.ServletContext.getVirtualServerName()Ljava/lang/String;The followi…

代碼隨想錄-算法訓練營day36【貪心算法06:單調遞增的數字、監控二叉樹、總結】

代碼隨想錄-035期-算法訓練營【博客筆記匯總表】-CSDN博客 第八章 貪心算法 part06● 738.單調遞增的數字 ● 968.監控二叉樹 ● 總結 詳細布置 738.單調遞增的數字 https://programmercarl.com/0738.%E5%8D%95%E8%B0%83%E9%80%92%E5%A2%9E%E7%9A%84%E6%95%B0%E5%AD%97.html…

Qt Tab鍵切換焦點順序:setTabOrder()

使用這個方法setTabOrder(),設置使得焦點的順序從前到后依次是: ui->lineEdit》 ui->lineEdit_2》ui->lineEdit_3 》ui->lineEdit_4 焦點先在ui->lineEdit上,當按下Tab鍵時,焦點跑到ui->lineEdit_2上。。。按…

同步假設 - 同步方法對實時控制系統的抽象

同步假設是如SCADE、Lustre等同步語言所基于的基礎。這些假設是對實時系統環境的一種抽象。對本文討論涉及到的內容,可進一步參考《Representation and Analysis of Reactive Behaviors: A Synchronous Approach》(SyncCharts, 1996)。 同步方法采用了一種理想化的抽…

通過顏色學習css

文章目錄 1.生成html2.添加css鏈接3.將h1標簽text-align元素4.添加div標簽4.1、為類marker添加元素4.2、添加兩個新的div標簽4.3、修改div標簽的類型并修改css元素4.4、為類container添加元素4.5、以數字形式添加顏色4.5、container添加padding屬性4.6、組合css中的顏色屬性4.7…

【Matlab】Matlab之美,抓緊來膜拜大神的創星之作(附2024Matlab教程+代碼)

軟件介紹 MATLAB是一款商業數學軟件,用于算法開發、數據可視化、數據分析以及數值計算的高級技術計算語言和交互式環境,主要包括MATLAB和Simulink兩大部分,可以進行矩陣運算、繪制函數和數據、實現算法、創建用戶界面、連接其他編程語言的程序…

自回歸模型的優缺點及改進方向

在學術界和人工智能產業中,關于自回歸模型的演進與應用一直是一個引發深入討論和多方觀點交鋒的熱門議題。尤其是Yann LeCun,這位享譽全球的AI領域學者、圖靈獎的獲得者,以及被譽為人工智能領域的三大巨擘之一,他對于自回歸模型持…

Rust:函數封裝,struct 還是 mod?

在Rust中,是否將一組功能相關的靜態函數組織到一個結構體(struct)中,或者直接利用模塊(mod)機制來組織,主要取決于你的具體需求和設計考慮。以下是一些指導原則: 使用結構體封裝靜態…

華為與達夢數據簽署全面合作協議

4月26日,武漢達夢數據庫股份有限公司(簡稱“達夢數據”)與華為技術有限公司(簡稱“華為”)在達夢數據武漢總部簽署全面合作協議。 達夢數據總經理皮宇、華為湖北政企業務總經理呂曉龍出席并見證簽約;華為湖…

MySQL優化方向

MySQL優化手段 數據庫設計層面 范式設計 減少數據冗余提高數據一致性 索引策略 選擇合適的索引類型 (BTREE, HASH)覆蓋索引索引選擇性 表結構優化 使用合適的數據類型避免使用NULL 分區表 水平分區垂直分區 SQL查詢優化 EXPLAIN分析 識別慢查詢 避免全表掃描 使用索引優化…

LeetCode 212.單詞搜索II

https://leetcode.cn/problems/word-search-ii/description/?envTypestudy-plan-v2&envIdtop-interview-150 文章目錄 題目描述解題思路代碼實現 題目描述 給定一個 m x n 二維字符網格 board 和一個單詞(字符串)列表 words, 返回所有二…

#OD314. 解密犯罪時間

題目描述 警察在偵破一個案件時,得到了線人給出的可能犯罪時間,形如 “HH:MM” 表示的時刻。 根據警察和線人的約定,為了隱蔽,該時間是修改過的, 解密規則為:利用當前出現過的數字,構造下一個…

geotrust dv通配符證書800

Geotrust是成立時間較久的正規CA認證機構,在過去的幾十年間頒發了無數的SSL證書,這些SSL證書被各個開發者使用,受到大多數瀏覽器的信任。而Geotrust旗下的DV通配符證書因其廣泛的應用范圍受到了用戶的青睞。今天就隨SSL盾小編了解Geotrust旗下…

Ardupilot Rpanion iperf網絡性能測試

Ardupilot Rpanion iperf網絡性能測試 1. 源由2. 分析3. 安裝4. 測試4.1 第一次測試4.1.1 iperf測試參數A4.1.1.1 測試鏈路14.1.1.2 測試鏈路24.1.1.3 測試鏈路3 4.1.2 iperf測試參數B - 測試鏈路34.1.2.1 測試數據4.1.2.2 數據簡單分析4.1.2.3 數據深入分析4.1.2.4 模擬測試網…

Vue 中使用 el-date-picker 限制只能選擇當天、當天之前或當天之后日期的方法詳解

網上很多都是不完整的,我這里發布一個完整的 - 8.64e7 表示可選擇當天時間(注:小于當前時間,- 8.64e7 則是禁用日期不包含當前日,若大于當前日期, 8.64e7 則是禁用日期包含當前日) time.getTi…

c++ 讀寫鎖的理解

1.概要 讀寫鎖的理解 讀的時候,只要是讀的線程都不受限制,但不能寫。 寫的時候,線程獨占,任何寫和讀的線程都不可以。 最初我以為,只有限制寫就可以了,讀完全不受現在,但是有可能讀到不完整的…