【AI論文】SuperEdit：修正并促進基于指令的圖像編輯的監督信號

摘要：由于手動收集準確的編輯數據存在挑戰，現有的數據集通常使用各種自動化方法構建，導致編輯指令和原始編輯圖像對之間不匹配導致監督信號出現噪聲。最近的研究試圖通過生成更高質量的編輯圖像、在識別任務上進行預訓練或引入視覺語言模型（VLM）來改進編輯模型，但未能解決這一根本問題。在本文中，我們通過為給定的圖像對構建更有效的編輯指令，提供了一種新的解決方案。這包括修正編輯指令，使其更好地與原始編輯圖像對保持一致，并使用對比編輯指令進一步提高其有效性。具體而言，我們發現編輯模型在不同的推理步驟中表現出特定的生成屬性，與文本無關。基于這些先驗屬性，我們為VLM定義了一個統一的指南來糾正編輯指令。然而，有一些具有挑戰性的編輯場景，僅靠糾正指令無法解決。為此，我們進一步構建了具有正負指令的對比監督信號，并將其引入使用三元組損失的模型訓練中，從而進一步促進監督的有效性。我們的方法不需要VLM模塊或之前工作中使用的預訓練任務，提供了一種更直接、更有效的方式來提供更好的監督信號，并為基于指令的圖像編輯提供了一種新穎、簡單、有效的解決方案。多個基準測試的結果表明，我們的方法明顯優于現有的方法。與之前的SOTA SmartEdit相比，我們在Real-Edit基準測試中實現了9.19%的改進，訓練數據減少了30倍，模型大小縮小了13倍。Huggingface鏈接：Paper page，論文鏈接：2505.02370

研究背景和目的

研究背景

隨著深度學習和擴散模型在圖像生成領域的快速發展，基于文本指令的圖像編輯技術逐漸成為研究熱點。這類技術允許用戶通過自然語言描述來修改圖像，而無需手動繪制掩碼或進行復雜的圖像處理操作。然而，現有的基于指令的圖像編輯方法面臨一個核心挑戰：由于訓練數據的自動生成過程中存在噪聲，導致編輯指令與原始-編輯圖像對之間的對齊不準確，從而產生噪聲監督信號。這種噪聲監督信號會嚴重影響圖像編輯模型的性能，限制其在實際應用中的效果。

為了解決這一問題，現有研究嘗試通過多種途徑改進圖像編輯模型，包括生成更高質量的編輯圖像、在識別任務上進行預訓練，或引入視覺語言模型（VLMs）來增強對編輯指令的理解。然而，這些方法要么引入了顯著的計算開銷，要么未能從根本上解決噪聲監督信號的問題。因此，如何從數據層面直接提升監督信號的質量，成為當前基于指令的圖像編輯研究中亟待解決的關鍵問題。

研究目的

本文的研究目的在于提出一種新的方法，通過優化監督信號來提升基于指令的圖像編輯模型的性能。具體而言，本研究旨在：

改進監督信號質量：通過修正編輯指令，使其更好地與原始-編輯圖像對對齊，從而減少噪聲監督信號的影響。
引入對比監督信號：通過構造正例和負例編輯指令，利用三重損失函數（triplet loss）進一步增強監督信號的有效性，使模型能夠從正負樣本中學習到更豐富的編輯知識。
驗證方法有效性：在多個基準測試集上驗證所提方法的有效性，并與現有最先進的方法進行比較，展示所提方法在減少訓練數據需求和模型參數的同時，能夠顯著提升圖像編輯的性能。

研究方法

方法概述

本文提出的方法名為SuperEdit，其核心在于通過兩個關鍵步驟來改進基于指令的圖像編輯模型的監督信號質量：

監督信號修正：利用擴散模型的先驗知識和視覺語言模型（VLMs）來修正編輯指令，使其更好地與原始-編輯圖像對對齊。
對比監督信號引入：通過構造正例和負例編輯指令，并利用三重損失函數來增強監督信號的有效性，使模型能夠學習到更豐富的編輯知識。

具體實現

監督信號修正
- 擴散模型先驗：通過分析擴散模型在不同推理階段的行為，發現不同階段對應于圖像生成的不同屬性（如全局布局、局部對象屬性、圖像細節和風格變化）。基于這一發現，本文提出了一種統一的修正指南，用于指導VLMs修正編輯指令。
- 指令修正過程：將原始-編輯圖像對輸入到VLMs（如GPT-4o）中，要求其根據擴散模型的先驗知識描述編輯圖像相對于原始圖像的變化，并據此修正編輯指令。
對比監督信號引入
- 正負例構造：基于修正后的編輯指令，通過替換數量、空間位置和對象類型等屬性來構造負例指令，同時保留原始指令作為正例。
- 三重損失函數：將正例和負例指令分別輸入到編輯模型中，預測噪聲，并利用三重損失函數來最小化正例指令預測噪聲與真實噪聲之間的距離，同時最大化負例指令預測噪聲與真實噪聲之間的距離。

研究結果

實驗設置

為了驗證所提方法的有效性，本文在Real-Edit基準測試集上進行了廣泛實驗。該基準測試集包含高分辨率圖像，并使用GPT-4o進行評分，評估指標包括準確性（%）和得分（從0到5），分別評估編輯圖像是否遵循編輯指令（Following）、圖像結構是否得到保留（Preserving）以及編輯圖像的整體質量/美觀度是否下降（Quality）。

定量結果

在Real-Edit基準測試集上，SuperEdit方法在所有三個評估指標（Following、Preserving、Quality）上均取得了最佳性能。具體而言，與現有最先進的方法SmartEdit相比，SuperEdit在整體得分上提升了11.4%，在Following、Preserving和Quality三個指標上的準確率分別提升了3%、7%和11%。此外，SuperEdit在訓練數據需求和模型參數方面均顯著優于現有方法，僅使用了40K高質量編輯數據和1.1B模型參數，即實現了顯著的性能提升。

定性結果

通過可視化比較，SuperEdit方法在多個編輯任務上均展現出了卓越的性能。例如，在“將老虎替換為獅子，保持在水中的相同位置”這一指令下，SuperEdit方法能夠準確地完成替換操作，并保持獅子的位置不變；而SmartEdit方法則未能完全遵循指令，導致獅子的位置發生了偏移。此外，在“將背景更改為沙灘，遠處有海洋”這一復雜指令下，SuperEdit方法也能夠生成高質量的編輯圖像，而SmartEdit方法則未能完全理解指令意圖，導致編輯結果不理想。

研究局限

盡管SuperEdit方法在基于指令的圖像編輯任務上取得了顯著的性能提升，但仍存在一些局限性：

復雜指令理解困難：當原始圖像中包含多個對象且指令僅修改其中一個對象時，編輯模型仍難以準確執行編輯操作。此外，預訓練的文本到圖像擴散模型本身存在的困難（如理解數量、位置或對象關系）也會影響編輯模型的性能。
計算開銷：雖然SuperEdit方法在訓練數據需求和模型參數方面優于現有方法，但仍需要使用VLMs（如GPT-4o）來修正編輯指令，這可能會引入額外的計算開銷。
數據集偏差：盡管本文在多個基準測試集上驗證了SuperEdit方法的有效性，但這些基準測試集可能仍存在偏差，無法完全反映實際應用中的復雜情況。