【AI論文】SuperEdit:修正并促進基于指令的圖像編輯的監督信號

摘要:由于手動收集準確的編輯數據存在挑戰,現有的數據集通常使用各種自動化方法構建,導致編輯指令和原始編輯圖像對之間不匹配導致監督信號出現噪聲。 最近的研究試圖通過生成更高質量的編輯圖像、在識別任務上進行預訓練或引入視覺語言模型(VLM)來改進編輯模型,但未能解決這一根本問題。 在本文中,我們通過為給定的圖像對構建更有效的編輯指令,提供了一種新的解決方案。 這包括修正編輯指令,使其更好地與原始編輯圖像對保持一致,并使用對比編輯指令進一步提高其有效性。 具體而言,我們發現編輯模型在不同的推理步驟中表現出特定的生成屬性,與文本無關。 基于這些先驗屬性,我們為VLM定義了一個統一的指南來糾正編輯指令。 然而,有一些具有挑戰性的編輯場景,僅靠糾正指令無法解決。 為此,我們進一步構建了具有正負指令的對比監督信號,并將其引入使用三元組損失的模型訓練中,從而進一步促進監督的有效性。 我們的方法不需要VLM模塊或之前工作中使用的預訓練任務,提供了一種更直接、更有效的方式來提供更好的監督信號,并為基于指令的圖像編輯提供了一種新穎、簡單、有效的解決方案。 多個基準測試的結果表明,我們的方法明顯優于現有的方法。 與之前的SOTA SmartEdit相比,我們在Real-Edit基準測試中實現了9.19%的改進,訓練數據減少了30倍,模型大小縮小了13倍。Huggingface鏈接:Paper page,論文鏈接:2505.02370

研究背景和目的

研究背景

隨著深度學習和擴散模型在圖像生成領域的快速發展,基于文本指令的圖像編輯技術逐漸成為研究熱點。這類技術允許用戶通過自然語言描述來修改圖像,而無需手動繪制掩碼或進行復雜的圖像處理操作。然而,現有的基于指令的圖像編輯方法面臨一個核心挑戰:由于訓練數據的自動生成過程中存在噪聲,導致編輯指令與原始-編輯圖像對之間的對齊不準確,從而產生噪聲監督信號。這種噪聲監督信號會嚴重影響圖像編輯模型的性能,限制其在實際應用中的效果。

為了解決這一問題,現有研究嘗試通過多種途徑改進圖像編輯模型,包括生成更高質量的編輯圖像、在識別任務上進行預訓練,或引入視覺語言模型(VLMs)來增強對編輯指令的理解。然而,這些方法要么引入了顯著的計算開銷,要么未能從根本上解決噪聲監督信號的問題。因此,如何從數據層面直接提升監督信號的質量,成為當前基于指令的圖像編輯研究中亟待解決的關鍵問題。

研究目的

本文的研究目的在于提出一種新的方法,通過優化監督信號來提升基于指令的圖像編輯模型的性能。具體而言,本研究旨在:

  1. 改進監督信號質量:通過修正編輯指令,使其更好地與原始-編輯圖像對對齊,從而減少噪聲監督信號的影響。

  2. 引入對比監督信號:通過構造正例和負例編輯指令,利用三重損失函數(triplet loss)進一步增強監督信號的有效性,使模型能夠從正負樣本中學習到更豐富的編輯知識。

  3. 驗證方法有效性:在多個基準測試集上驗證所提方法的有效性,并與現有最先進的方法進行比較,展示所提方法在減少訓練數據需求和模型參數的同時,能夠顯著提升圖像編輯的性能。

研究方法

方法概述

本文提出的方法名為SuperEdit,其核心在于通過兩個關鍵步驟來改進基于指令的圖像編輯模型的監督信號質量:

  1. 監督信號修正:利用擴散模型的先驗知識和視覺語言模型(VLMs)來修正編輯指令,使其更好地與原始-編輯圖像對對齊。

  2. 對比監督信號引入:通過構造正例和負例編輯指令,并利用三重損失函數來增強監督信號的有效性,使模型能夠學習到更豐富的編輯知識。

具體實現
  1. 監督信號修正

    • 擴散模型先驗:通過分析擴散模型在不同推理階段的行為,發現不同階段對應于圖像生成的不同屬性(如全局布局、局部對象屬性、圖像細節和風格變化)。基于這一發現,本文提出了一種統一的修正指南,用于指導VLMs修正編輯指令。

    • 指令修正過程:將原始-編輯圖像對輸入到VLMs(如GPT-4o)中,要求其根據擴散模型的先驗知識描述編輯圖像相對于原始圖像的變化,并據此修正編輯指令。

  2. 對比監督信號引入

    • 正負例構造:基于修正后的編輯指令,通過替換數量、空間位置和對象類型等屬性來構造負例指令,同時保留原始指令作為正例。

    • 三重損失函數:將正例和負例指令分別輸入到編輯模型中,預測噪聲,并利用三重損失函數來最小化正例指令預測噪聲與真實噪聲之間的距離,同時最大化負例指令預測噪聲與真實噪聲之間的距離。

研究結果

實驗設置

為了驗證所提方法的有效性,本文在Real-Edit基準測試集上進行了廣泛實驗。該基準測試集包含高分辨率圖像,并使用GPT-4o進行評分,評估指標包括準確性(%)和得分(從0到5),分別評估編輯圖像是否遵循編輯指令(Following)、圖像結構是否得到保留(Preserving)以及編輯圖像的整體質量/美觀度是否下降(Quality)。

定量結果

在Real-Edit基準測試集上,SuperEdit方法在所有三個評估指標(Following、Preserving、Quality)上均取得了最佳性能。具體而言,與現有最先進的方法SmartEdit相比,SuperEdit在整體得分上提升了11.4%,在Following、Preserving和Quality三個指標上的準確率分別提升了3%、7%和11%。此外,SuperEdit在訓練數據需求和模型參數方面均顯著優于現有方法,僅使用了40K高質量編輯數據和1.1B模型參數,即實現了顯著的性能提升。

定性結果

通過可視化比較,SuperEdit方法在多個編輯任務上均展現出了卓越的性能。例如,在“將老虎替換為獅子,保持在水中的相同位置”這一指令下,SuperEdit方法能夠準確地完成替換操作,并保持獅子的位置不變;而SmartEdit方法則未能完全遵循指令,導致獅子的位置發生了偏移。此外,在“將背景更改為沙灘,遠處有海洋”這一復雜指令下,SuperEdit方法也能夠生成高質量的編輯圖像,而SmartEdit方法則未能完全理解指令意圖,導致編輯結果不理想。

研究局限

盡管SuperEdit方法在基于指令的圖像編輯任務上取得了顯著的性能提升,但仍存在一些局限性:

  1. 復雜指令理解困難:當原始圖像中包含多個對象且指令僅修改其中一個對象時,編輯模型仍難以準確執行編輯操作。此外,預訓練的文本到圖像擴散模型本身存在的困難(如理解數量、位置或對象關系)也會影響編輯模型的性能。

  2. 計算開銷:雖然SuperEdit方法在訓練數據需求和模型參數方面優于現有方法,但仍需要使用VLMs(如GPT-4o)來修正編輯指令,這可能會引入額外的計算開銷。

  3. 數據集偏差:盡管本文在多個基準測試集上驗證了SuperEdit方法的有效性,但這些基準測試集可能仍存在偏差,無法完全反映實際應用中的復雜情況。

未來研究方向

針對SuperEdit方法的局限性和當前基于指令的圖像編輯研究中的挑戰,未來的研究可以從以下幾個方面展開:

  1. 改進指令理解能力:探索更先進的方法來提升編輯模型對復雜指令的理解能力,例如引入更強大的VLMs或開發專門的指令解析模塊。

  2. 降低計算開銷:研究如何降低使用VLMs修正編輯指令的計算開銷,例如通過模型壓縮、知識蒸餾或開發更高效的修正算法。

  3. 擴展數據集和評估指標:構建更多樣化的基準測試集,并開發更全面的評估指標,以更準確地評估圖像編輯模型在實際應用中的性能。

  4. 結合多模態信息:探索如何結合圖像、文本和語音等多模態信息來進一步提升圖像編輯模型的性能,使其能夠更準確地理解用戶意圖并生成更符合期望的編輯結果。

  5. 探索可解釋性:研究如何提升圖像編輯模型的可解釋性,使其能夠向用戶解釋其編輯決策的依據和過程,從而增強用戶對模型的信任度和滿意度。

通過以上研究方向的探索,有望進一步推動基于指令的圖像編輯技術的發展,使其在實際應用中發揮更大的作用。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/79771.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/79771.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/79771.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

關于大疆紅外圖片提取溫度方法 python 方法

思路 紅外圖片需要是黑白圖片 提取紅外圖片最高和最低溫度 溫度圖例 根據最高溫度31.2攝氏度 最低溫度19.9攝氏度 那中間的值在 0到255 之間 那有這個值之后。就可以獲取到圖片里面 每個點或者面的值 實現方式 def find_Gray(self, t_max, t_min, c_temp):"""…

金融小知識

📉 一、“做空”是啥? 通俗說法:押“它會跌”,賺錢! ? 舉個例子: 有一天老王的包子漲價到 10 塊一個,張三覺得這價格肯定撐不住,未來會跌到 5 塊。于是他: 向朋友借了…

JavaScript 數據存儲全攻略:從 Cookie 到 IndexedDB

1. Cookie:傳統的輕量級存儲 Cookie 是最早的客戶端存儲解決方案之一,最初設計用于服務器和客戶端之間的狀態保持。 基本用法 javascript 復制 下載 // 設置cookie document.cookie "usernameJohnDoe; expiresThu, 18 Dec 2025 12:00:00 UTC…

Leetcode 刷題記錄 09 —— 鏈表第三彈

本系列為筆者的 Leetcode 刷題記錄,順序為 Hot 100 題官方順序,根據標簽命名,記錄筆者總結的做題思路,附部分代碼解釋和疑問解答,01~07為C語言,08及以后為Java語言。 01 合并 K 個升序鏈表 /*** Definitio…

如何利用 Elastic Load Balancing 提升應用性能與可用性?

當今云計算的快速發展中,隨著應用需求的增加,如何確保系統能夠高效、穩定地處理不斷增長的流量成為了每個技術團隊關注的焦點。Elastic Load Balancing(ELB)作為一種強大的工具,能夠幫助開發者和運維人員輕松應對流量波…

Word如何制作三線表格

1.需求 將像這樣的表格整理成論文中需要的三線表格。 2.直觀流程 選中表格 --> 表格屬性中的邊框與底紋B --> 在設置中選擇無(重置表格)–> 確定 --> 選擇第一行(其實是將第一行看成獨立表格了,為了設置中線&…

JVM的雙親委派模型

引言 Java類加載機制中的雙親委派模型通過層層委托保證了核心類加載器與應用類加載器之間的職責分離和加載安全性,但其單向的委托關系也帶來了一些局限性。尤其是在核心類庫需要訪問或實例化由應用類加載器加載的類時,雙親委派模型無法滿足需求&#xf…

6.4.高并發設計

目錄 一、高并發系統設計基礎理論 CAP定理與高可用性權衡 ? 一致性(C) vs 可用性(A)在電商、社交場景的取舍 ? 分區容錯性(P)的實踐意義:異地多活與腦裂處理 性能指標與評估模型 ? QPS、TP…

工程師轉型算法工程師 深入淺出理解transformer-手搓板

編碼器 以下部分引用臺灣大學李宏毅教授的ppt 自己理解解釋一遍(在youtobe 上可以搜索李宏毅即可) 首先先來看transformer的架構圖 Embedding 我們先從Imput Embedding 跟 OutPutEmbedding 開始,讓我們用 bert 模型來做一個解釋 從huggingface上下載的bert-base…

軟件工程學概述

一、軟件危機 (一)軟件危機的介紹 1. 基本思想與定義 軟件危機(Software Crisis)是指在計算機軟件的開發和維護過程中所遇到的一系列嚴重問題,這些問題既包括技術層面的挑戰,也涉及管理層面的困境。其核心…

【ArcGIS Pro微課1000例】0068:Pro原來可以制作演示文稿(PPT)

文章目錄 一、新建演示文稿二、插入頁面1. 插入地圖2. 插入空白文檔3. 插入圖像4. 插入視頻三、播放與保存一、新建演示文稿 打開軟件,新建一個地圖文檔,再點擊【新建演示文稿】: 創建的演示文檔會默認保存在目錄中的演示文稿文件夾下。 然后可以對文檔進行簡單的設計,例如…

[吾愛出品][Windows] 產品銷售管理系統2.0

[Windows] 產品銷售管理系統 鏈接:https://pan.xunlei.com/s/VOPej1bHMRCHy2np9w3TBOyKA1?pwdgjy7# 使用方法:1、先設置一下圖片保存路徑 2、維護產品。客戶等基礎信息。例如:銷售類型:一次性 銷售編碼:RCX。 3、銷…

MySQL數據庫高可用(MHA)詳細方案與部署教程

一:MHA簡介 核心功能 二:MHA工作原理 三:MHA組件 四:MHA 架構與工具 MHA架構 Manager關鍵工具 Node工具 五:工作原理與流程 1: 故障檢測 2: 故障切換(Failover) 3 : 切換模式 六&a…

華為設備鏈路聚合實驗:網絡工程實戰指南

鏈路聚合就像為網絡搭建 “并行高速路”,既能擴容帶寬,又能保障鏈路冗余,超實用! 一、實驗拓撲速覽 圖中兩臺交換機 LSW1 和 LSW2,PC1、PC2 歸屬 VLAN 10,PC3 歸屬 VLAN 30。LSW1 與 LSW2 通過 GE0/0/1、…

數組和集合

數組和集合的區別: 1、數組是固定長度的數據結構,一旦創建長度就無法改變,集合是動態長度數據結構,可根據需求動態增加或減少元素。 2、數組包含基本數據類型和對象,而集合只能包含對象。 3、數組可以直接訪問元素&…

WPF MVVM進階系列教程(一、對話框)

🍠 WPF MVVM進階系列教程 一、對話框 在前面的文章中,我們介紹了MVVM開發的一些基礎知識。 對于日常開發來說,基本已經足夠應付大部分場景。 從這里開始,介紹的都是在MVVM模式開發中,提升程序可維護性、靈活性、健壯…

【AI News | 20250507】每日AI進展

AI Repos 1、CFWorkerACME SSL證書助手是一個免費開源的平臺,基于Cloudflare Worker運行,旨在自動化SSL證書的申請和下發,尤其適用于多服務器或內網環境。它通過自動化的CNAME和DNS操作完成域名驗證,支持Let’s Encrypt、ZeroSSL…

5 分鐘用滿血 DeepSeek R1 搭建個人 AI 知識庫(含本地部署)

最近很多朋友都在問:怎么本地部署 DeepSeek 搭建個人知識庫。 老實說,如果你不是為了研究技術,或者確實需要保護涉密數據,我真不建議去折騰本地部署。 為什么呢? 目前 Ollama 從 1.5B 到 70B 都只是把 R1 的推理能力提煉到 Qwen 和 Llama 的蒸餾版本上。 雖說性能是提升…

極狐GitLab 分支管理功能介紹

極狐GitLab 是 GitLab 在中國的發行版,關于中文參考文檔和資料有: 極狐GitLab 中文文檔極狐GitLab 中文論壇極狐GitLab 官網 分支 (BASIC ALL) 分支是項目工作樹的一個版本。分支是項目開發的基礎。當你創建一個新的項目時,極狐GitLab 會為…

基于ASP.NET+MySQL實現待辦任務清單系統

基于ASP.NET的ToDoList的設計與實現 一、前言 1.1 實驗目的 使學生綜合使用所學過的ASP.NET網絡編程知識,掌握網絡環境程序設計的基本概念;結合實際的操作和設計,鞏固課堂學習內容,掌握網絡環境編程的特點、原理和技術&#xf…