論文閱讀筆記——Step1X-Edit: A Practical Framework for General Image Editing

Step1X-Edit 論文
當前圖像編輯數據集規模小,質量差,由此構建了如下數據構造管線。
在這里插入圖片描述
高質量三元組數據(源圖像、編輯指令、目標圖像)。

  • 主體添加與移除:使用 Florence-2 對專有數據集標注,然后使用 SAM2 進行分割,再使用 ObjectRemovalAlpha 進行修復。編輯指令結合 Step-1o 和 GPT-4o 生成,然后人工審查有效性。
  • 主體替換與背景更改:使用 Florence-2 對專有數據集標注,然后使用 SAM2 進行分割,再使用 Qwen-2.5VL 和 Recognize-Anything Model 識別目標對象和關鍵詞,使用 Flux-Fill 進行內容感知修復。指令由 Step-1o 生成并人工審查。
  • 色彩更改與材質修改:在圖像中檢測到對象后,使用 Zeodepth 深度估計,使用帶擴散模型的 ControlNet 生成新圖像。
  • 文本修改:使用 PPOCR 識別字符,以及 Step-1o 模型區分文本正確、錯誤區域。同樣生成編輯指令。
  • 運動變化:使用 Koala-36M 的視頻,提取幀作為輸入,使用 BiRefNet 和 RAFT 進行前景-背景和光流估計,再用 GPT-4o 標記幀間運動變化作為編輯指令。
  • 人像編輯與美化:對于動畫風格和真實圖像,先提取邊緣,再利用 ControlNet 進行風格遷移。
  • 采用上下文、雙語標注。

在這里插入圖片描述
之前的模態融合,FLUX-Fill 使用通道連接,但面對圖像編輯指令不夠靈活(難以處理局部調整、缺乏語義對齊、難以處理復雜指令);SeedEdit 引入額外的因果自注意力,但會犧牲圖像細粒度;DreamEngine 利用 Qwen 對圖像和文本模態對齊,建立了共享表征空間,難以完全捕捉圖像細粒度(更關注語義對齊)。
Step1X-Edit

  • 輸入的編輯指令和參考圖像首先通過MLLM進行處理。為了隔離和強調與編輯任務相關的語義元素,選擇性地丟棄與系統前綴相關的標記嵌入,僅保留與編輯信息直接對齊的嵌入。
  • 提取的嵌入被輸入到輕量級的連接器模塊,重構為更緊湊的多模態特征表示,然后作為輸入傳遞給下游的DiT網絡。采用標記連接(token concatenation)的方式,平衡對編輯指令的響應性與對細粒度圖像細節的保留。這種方法比通道連接或額外的自注意力機制更有效。
  • 在訓練過程中,聯合優化連接器模塊和下游的DiT,僅使用擴散損失進行訓練,確保穩定訓練而不依賴掩碼損失技巧。(采用 Rectified Flow 方式)
  • 并且對 VLLM 輸出的有效嵌入計算均值,將其作為 DiT 的引導。

實驗

團隊從互聯網上收集了超過1K的用戶編輯實例,構建了GEdit-Bench,包含606個真實用戶編輯指令,覆蓋11類任務。為確保隱私,所有圖像經過去標識化處理。與其他基準(如EditBench和MagicBrush)相比,GEdit-Bench更貼近實際需求。
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述

疑問:本文僅在自己構建的測試集上評估,并缺乏消融實驗驗證架構設計。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/82834.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/82834.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/82834.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

使用Python在PyCharm中進行交通工程數據分析的完整流程,包括數據清洗、挖掘、關聯、可視化和應用整合等各個階段

交通工程領域數據分析流程 下面我將詳細介紹使用Python在PyCharm中進行交通工程數據分析的完整流程,包括數據清洗、挖掘、關聯、可視化和應用整合等各個階段。 1. 數據準備與清洗 1.1 導入必要庫 import pandas as pd import numpy as np import matplotlib.pyplot as plt…

《軟件工程》第 2 章 -UML 與 RUP 統一過程

在軟件工程領域,UML(統一建模語言)與 RUP(統一過程)是進行面向對象軟件開發的重要工具和方法。接下來,我們將深入探討第 2 章的內容,通過案例和代碼,幫助大家理解和掌握相關知識。 …

Vue收集表單數據

在 Web 開發中,表單是用戶與系統交互的重要方式。無論是注冊、登錄、提交評論還是其他操作,都需要通過表單獲取用戶輸入的數據。Vue.js 提供了強大的響應式系統和指令,使得表單數據的收集變得簡單而高效。本文將詳細介紹如何在 Vue 中實現表單…

R基于多元線性回歸模型實現汽車燃油效率預測及SHAP值解釋項目實戰

說明:這是一個機器學習實戰項目(附帶數據代碼文檔視頻講解),如需數據代碼文檔視頻講解可以直接到文章最后關注獲取。 1.項目背景 在全球環保意識日益增強和技術進步的推動下,汽車燃油效率成為了汽車行業關注的核心指標…

解決Window10上IP映射重啟失效的問題

問題 在實際網絡搭建過程中,大家有可能會遇到在局域網范圍內,在自己本機上搭建一個網站或者應用時,其他設備通過本機的IP地址無法訪問的問題,這個問題可以通過設置IP映射來解決,但是通過netsh interface命令設置的IP映射&#xf…

一臺手機怎樣實現多IP上網?方法有多種

在數字時代,多IP上網已成為許多手機用戶的剛需。本文將詳細介紹如何通過不同技術手段實現手機多IP上網,幫助讀者根據實際需求選擇適合的解決方案。 一、為什么一臺手機要實現多IP上網 手機實現多IP上網的典型場景包括: ①防止同一IP操作多個…

git子模塊--常見操作

克隆倉庫 標準化克隆流程 基本命令git clone <父倉庫遠程URL> [本地文件名] cd <本地倉庫名> git submodule init # 初始化子模塊配置 git submodule update # 拉取子模塊內容一次性完成克隆和初始化流程 基本命令git clone --recurse-submodules <父倉庫遠…

ceph 剔除 osd

剔除 osd 參考官網文檔 Removing OSDs (Manual) Removing the OSD 你得周期性地維護集群的子系統、或解決某個失敗域的問題(如一機架)。如果你不想在停機維護 OSD 時讓 CRUSH 自動重均衡,提前設置 noout ceph osd set nooutid=1# OSD 通常在從集群中移除之前處于 up in 在…

MySQL推出全新Hypergraph優化器,正式進軍OLAP領域!

在剛剛過去的 MySQL Summit 2025 大會上&#xff0c;Oracle 發布了一個用于 MySQL 的全新 Hypergraph&#xff08;超圖&#xff09;優化器&#xff0c;能夠為復雜的多表查詢生成更好的執行計劃&#xff0c;從而優化查詢性能。 這個功能目前只在 MySQL HeatWave 云數據庫中提供&…

破能所,入不二

一、緣起&#xff1a;從“聞所聞盡”到性相不二 《楞嚴經》觀世音菩薩耳根圓通法門的核心教義——“初于聞中&#xff0c;入流亡所&#xff1b;所入既寂&#xff0c;動靜二相&#xff0c;了然不生。如是漸增&#xff0c;聞所聞盡”&#xff0c;揭示了從凡夫二元認知躍升至究竟…

網站每天幾點更新,更新頻率是否影響網站收錄

1. 每天幾點更新網站最合適&#xff1f;總怕時間選錯影響收錄&#xff1f; 剛開始搞網站的時候&#xff0c;是不是老糾結啥時候更新合適&#xff1f;早上剛上班&#xff1f;半夜沒人的時候&#xff1f;選不對時間&#xff0c;總擔心搜索引擎爬蟲來了沒抓到新內容&#xff0c;影…

使用workvisual對庫卡機器人進行程序備份

1&#xff0c;將電腦網卡設置自動獲取&#xff0c;用網線將電腦與庫卡機器人控制柜上的網口連接 2&#xff0c;打開軟件后&#xff0c;會出現項目打開對話框&#xff0c;點擊瀏覽按鈕&#xff0c;會出現機器人站項目 3&#xff0c;點擊項目前面的?&#xff0c;展開菜單&…

2025.5.22 Axure 基礎與線框圖制作學習筆記

一、Axure 基礎 - 界面及相關了解 界面布局 工具欄 &#xff1a;位于軟件上方&#xff0c;包含新建、打開、保存等常用文件操作按鈕&#xff0c;以及撤銷、重做、剪切、復制、粘貼等編輯功能按鈕&#xff0c;方便快速執行相關操作。 元件面板 &#xff1a;在左側&#xff0c;提…

Python訓練打卡Day36

復習日&#xff1a; 回顧神經網絡的相關信息 1. 梯度下降的思想 梯度下降的本質是一種迭代優化算法&#xff0c;用于尋找函數的極小值點&#xff08;比如損失函數的最小值&#xff09;其關鍵的要素如下 梯度&#xff1a;函數在某點變化率最大方向學習率&#xff1a;每一步的…

【Android】System分區應用自帶庫與原生庫同名問題分析

System分區應用自帶庫與原生庫同名問題分析 問題背景 某系統應用發生必現崩潰問題。崩潰log如下 0*-** **:**:**.** 66666 66666 E ***** aar error:: java.lang.UnsatisfiedLinkError: dlopen failed: cannot locate symbol "_TTT_TTT_TTT" referenced by &quo…

計算機網絡中的單播、組播與廣播

文章目錄 前言一、單播&#xff08;Unicast&#xff09;1.1 定義與工作原理1.2 優點1.3 缺點1.4 典型應用場景 二、廣播&#xff08;Broadcast&#xff09;2.1 定義與工作原理2.2 優點2.3 缺點2.4 典型應用場景 三、組播&#xff08;Multicast&#xff09;3.1 定義與工作原理3.…

ASP.NET MVC添加新控制器示例

ASP.NET MVC高效構建Web應用- 商品搜索 - 京東 控制器&#xff08;Controllers&#xff09;是一個協調視圖和模型直接關系的特殊類。它響應用戶輸入&#xff0c;與模型進行對話&#xff0c;并決定呈現哪個視圖&#xff08;如果有的話&#xff09;。在ASP.NET MVC中&#xff0c…

Escrcpy(安卓手機投屏軟件) v1.29.6 中文綠色版

在數字設備日益普及的今天&#xff0c;用戶對于設備的控制和管理需求也在不斷增加。對于Android設備用戶來說&#xff0c;Escrcpy這款強大的工具無疑是一個福音。它不僅提供了直觀的圖形化界面&#xff0c;讓用戶能夠輕松顯示和控制自己的Android設備&#xff0c;還以完全免費開…

Python爬蟲實戰:研究Goose框架相關技術

一、引言 隨著互聯網的迅速發展,網絡上的信息量呈爆炸式增長。從海量的網頁中提取有價值的信息成為一項重要的技術。網絡爬蟲作為一種自動獲取網頁內容的程序,在信息收集、數據挖掘、搜索引擎等領域有著廣泛的應用。本文將詳細介紹如何使用 Python 的 Goose 框架構建一個完整…

【Linux 學習計劃】-- 馮諾依曼體系 | 操作系統的概念與定位,以及其如何管理軟件

目錄 馮諾依曼體系結構 操作系統是干什么的&#xff1f; 理解操作系統中的管理 對OS&#xff08;操作系統&#xff09;宏觀、整體的分析 總結 結語 馮諾依曼體系結構 首先我們來看這樣一張圖&#xff0c;這就是大名鼎鼎的馮諾依曼體系 在日常生活中&#xff0c;所有的計…