Gen4Gen:多概念個性化圖像生成的數據驅動革新

個性化文本到圖像生成模型在用戶控制生成過程方面取得了重要進展。這些模型能夠通過少量訓練樣本學習并合成包含新穎個性化概念的圖像,例如用戶的寵物或特定物品。然而,現有技術在處理多概念個性化時存在局限性,尤其是在生成包含多個相似概念的復雜場景時。來自加州大學戴維斯分校的研究團隊及其合作者提出了Gen4Gen,一個半自動化的數據集創建管道,它利用生成模型將個性化概念組合成具有復雜構成的真實場景,并配以詳細的文本描述,形成了MyCanvas數據集。這一數據集在不修改模型架構或訓練算法的情況下,顯著提高了多概念個性化性能。

Gen4Gen 數據集創建管道如何將少量代表多個概念的源圖像(每個概念后面帶有星號*標記)組合成具有復雜構成的真實場景,并配以詳細的文本描述,即 MyCanvas 數據集

方法

研究者首先提出了三個關鍵原則以確保MyCanvas數據集的質量和有效性:

  • 詳細文本描述和圖像配對:文本必須與相應圖像良好對齊,為前景和背景對象提供信息。
  • 合理的對象布局和背景生成:確保對象在圖像中的共存和位置在現實生活中是可能的,并且布局合理。
  • 高分辨率:確保數據集能夠滿足生成高質量多概念個性化圖像的最終目標。

創建MyCanvas數據集主要分三個階段。整個Gen4Gen管道的設計旨在通過自動化和半自動化的方法,高效地生成具有高度個性化和現實感的圖像及其配套文本描述。

Gen4Gen創建MyCanvas數據集的流程

Figure 2 展示了 Gen4Gen 管道的概覽,該管道是創建 MyCanvas 數據集的核心過程。這一過程分為三個主要階段,利用了圖像前景提取、大型語言模型(LLMs)、多模態大型語言模型(MLLMs)以及圖像修復技術,以生成真實、個性化的圖像及其配套的文本描述。

第一階段:對象關聯與前景分割 (1)

  • 在這一階段,首先從包含多個概念的源圖像中,使用類別無關的顯著性對象檢測器來分割前景對象。這里的“類別無關”意味著檢測器不依賴于特定類別的先驗知識,能夠處理各種不同的對象。

  • 給定一組對象組合 O′,檢測器將每個對象的前景分割出來,形成前景圖像 D(X′)?及其對應的掩碼 M(D(X′))。

第二階段:LLM 引導的對象組合 (2)

  • 接下來,研究者利用大型語言模型(LLM)的零樣本學習能力,請求模型提供給定對象集合O′?的可能邊界框組合。
  • 根據 LLM 提供的邊界框,將分割出的前景對象放置在適當的位置,形成復合的前景圖像 ?及其掩碼
  • 同時,LLM 還被用來生成一組背景提示,描述O′?可能存在的潛在場景,這有助于后續階段的背景重繪。

第三階段:背景重繪與圖像重新描述 (3)

  • 在最后階段,使用擴散修復模型將復合前景圖像?嵌入從互聯網上獲取的背景圖像???中,生成最終的圖像?
  • 為了提高文本描述的多樣性同時保持與圖像的對齊,研究者使用多模態大型語言模型(MLLM,例如 LLaVA)為的一部分組合提供詳細的描述。
  • 這一步驟不僅增加了描述的豐富性,而且通過限制單詞數量(以適應 CLIP 的上下文限制)來確保文本與圖像緊密對應。

MyCanvas 數據集收集了150個對象,并創建了41種可能的組合,生成了超過10K圖像,并手動篩選至2684張最佳質量圖像。

MyCanvas數據集的統計信息。a) 餅狀圖顯示了MyCanvas中大約30%的圖像與超過20個單詞的文本描述配對。b) 詞云展示了數據集中使用的各種對象類別。c) 和 d) 詞云展示了訓練和推理過程中頻繁使用的描述,以確保比較的公平性

為了進一步提升模型在訓練階段的性能和圖像生成的準確性,研究者采取了一系列創新的文本提示策略。他們引入了“全局組合標記”,這一策略使得模型能夠更好地理解和描述復雜的場景布局,從而增強了對整體圖像結構的把控能力。

為了確保圖像中包含所有指定的概念,并且在生成過程中不遺漏任何細節,研究者實施了“重復概念標記提示”的方法,這有助于模型更加準確地捕捉和再現每個概念。最后通過“合并背景提示”,研究者優化了模型對前景對象和背景的區分能力,鼓勵模型專注于學習對象的身份特征,同時避免對象特征與背景特征在特征空間中發生混淆,這些策略共同提升了模型對多概念個性化圖像生成任務的泛化和特化能力。

MyCanvas數據集中的一些示例

為了全面評估多概念個性化圖像生成任務的性能,研究者提出了兩個創新的度量標準:CP-CLIP(Composition-Personalization-CLIP)分數和TI-CLIP(Text-Image alignment CLIP)分數。CP-CLIP分數專注于評估圖像生成在組合和個性化方面的準確性,它通過檢查文本中提及的每個個性化概念是否都能在生成的圖像中得到準確反映,并且這些概念的視覺表現是否與其原始對象保持一致性。

這種度量方式確保了生成圖像不僅在視覺上忠實于源數據,而且在概念層面上也與文本描述相匹配。而TI-CLIP分數則作為評估模型泛化能力的一種手段,通過比較生成圖像與用于生成它的文本提示之間的一致性,來檢測模型是否對訓練數據出現過擬合。一個理想的個性化圖像生成模型應該在提高CP-CLIP分數的同時,保持TI-CLIP分數的穩定,這表明模型在生成高質量圖像的同時,還能夠適應不同的文本描述,展現出良好的泛化能力。這兩個度量標準的提出,為多概念個性化圖像生成的研究提供了更為精確和全面的評價工具。

實驗

基線:研究者首先使用Custom Diffusion模型作為基線,這是一個可復現的代碼基礎,用于與先前的方法進行廣泛比較。

實現細節:對于每種組合,研究者訓練了上述方法的模型(訓練細節在附錄中)。評估時,他們選擇了每個組合的最佳檢查點。使用與訓練期間不同的、獨特的提示,以更好地分析每個模型的泛化能力。

三種不同設置下使用我們的度量標準(CP-CLIP和TI-CLIP)測量的定量性能

表1所示,研究者通過量化的方法來評估Gen4Gen管道和MyCanvas數據集對于提升多概念個性化圖像生成性能的具體影響。他們使用了一系列預定義的文本提示來生成圖像,并通過比較不同實驗設置下生成的246張圖像的性能,來展示MyCanvas數據集的優越性。實驗結果表明,與僅使用原始源圖像的Custom Diffusion相比,結合MyCanvas數據集的方法在CP-CLIP分數上實現了顯著提升,這表明了在圖像生成中個性化概念的準確性和完整性得到了增強。同時,TI-CLIP分數的穩定性驗證了性能提升并非由過擬合所致,從而證明了MyCanvas數據集在提高多概念個性化生成任務中的有效性和泛化能力。

多概念組合的定性結果。呈現了四組結果,按組合難度(更多的個性化概念)遞增順序排列

圖5中,四組結果根據組合難度遞增排序,每組展示了在不同訓練策略下的圖像生成效果。使用Custom Diffusion模型結合原始源圖像的結果作為基線,展示了模型在沒有額外數據集支持時的生成能力。當引入MyCanvas數據集后,模型在區分潛在空間中相似對象(如貓和獅子,兩種拖拉機)方面表現出顯著的改進。進一步應用提示策略后,模型在生成過程中對文本描述的遵循程度更高,確保了所有概念都被準確反映在圖像中,即使在涉及多個概念的復雜場景中也是如此。這些定性結果突出了MyCanvas數據集和提示策略在提升圖像生成質量和與文本描述一致性方面的重要作用。

為了深入理解Gen4Gen管道生成圖像的質量,并探究訓練數據規模與模型性能之間的關系,研究者開展了一系列消融實驗:

MyCanvas生成質量評估:開發了一個過濾工具來評估Gen4Gen管道生成的800張圖像的質量。基于包含個性化概念、它們的正確放置和排除視覺偽影的標準,對每個圖像進行評分。

訓練數據大小與概念數量:提供了一個分析,展示了使用1到100張圖像進行訓練時的性能。當訓練涉及4個以上概念時,穩定表現需要10到50張圖像。

得分分布:表2顯示了質量評估的得分分布。只有被評為4/5的圖像被添加到MyCanvas數據集中。

MyCanvas生成質量的質量評估

通過這些實驗,研究者展示了Gen4Gen方法在創建數據集和提高多概念個性化圖像生成質量方面的有效性。實驗結果支持了他們的觀點,即通過改進數據集的質量,可以在不修改模型架構或訓練算法的情況下顯著提高性能。

論文鏈接:https://arxiv.org/abs/2402.15504

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/42562.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/42562.shtml
英文地址,請注明出處:http://en.pswp.cn/web/42562.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

連接與隔離:Facebook在全球化背景下的影響力

在當今全球化的背景下,Facebook作為全球最大的社交網絡平臺,不僅連接了世界各地的人們,還在全球社會、經濟和文化中發揮著深遠的影響。本文將深入探討Facebook在全球化進程中的作用,以及其對個體和社會之間連接與隔離的雙重影響。…

【續集】Java之父的退休之旅:從軟件殿堂到多彩人生的探索

Java之父的退休之旅:從軟件殿堂到多彩人生的探索-CSDN博客 四、科技領袖退休后的行業影響 4.1 傳承與啟迪 Gosling等科技領袖的退休,為行業內部年輕一代提供了更多的發展機會和成長空間。他們的退休不僅意味著權力和責任的交接,更是一種精…

等保測評新趨勢:應對數字化轉型中的安全挑戰

隨著信息技術的飛速發展,數字化轉型已成為企業提升競爭力、優化運營效率的重要手段。然而,這一轉型過程中,企業也面臨著前所未有的安全挑戰。等保測評(信息安全等級保護測評)作為保障信息系統安全的重要手段&#xff0…

html5路由如何在nginx上部署(vite+vue3)

我們知道前端常用的有Hash 模式和html5模式的路由,hash模式在nginx上部署不需要額外的操作,而html5模式則需要額外設置,這里介紹下如何在nginx根地址(location / {})下部署和在非根地址上(location /admin{…

【MATLAB源碼-第232期】基于matlab的 (204,188) RS編碼解碼仿真,采用QPSK調制輸出誤碼率曲線。

操作環境: MATLAB 2022a 1、算法描述 Reed-Solomon碼(RS碼)是一類廣泛應用于數字通信和存儲系統中的糾錯碼,尤其在光盤、衛星通信和QR碼等領域有著重要作用。RS碼是一種非二進制的糾刪碼,由Irving S. Reed和Gustave…

當CNN遇上Mamba,高性能與高效率通通拿下!

傳統視覺模型在處理大規模或高分辨率圖像時存在一定限制,為解決這個問題,研究者們就最近依舊火熱的Mamba,提出了Mamba結合CNN的策略。 這種結合可以讓Mamba在處理長序列數據時既能夠捕捉到序列中的時間依賴關系,又能夠利用CNN的局…

思維+并查集,1670C - Where is the Pizza?

一、題目 1、題目描述 2、輸入輸出 2.1輸入 2.2輸出 3、原題鏈接 1670C - Where is the Pizza? 二、解題報告 1、思路分析 考慮兩個數組a,b的每個位置只能從a,b中挑一個 不妨記posa[x]為x在a中位置,posb同理 我們假如位置i挑選a[i]&a…

【JS+H5+CSS實現煙花特效】

話不多說直接上代碼 注意:背景圖路徑是picture/star.jpg&#xff0c;自己在同級目錄先創鍵picture目錄再下載一張圖片命名為star.jpg HTML: <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"vi…

【LLM】三、open-webui+ollama搭建自己的聊天機器人

系列文章目錄 往期文章回顧&#xff1a; 【LLM】二、python調用本地的ollama部署的大模型 【LLM】一、利用ollama本地部署大模型 目錄 前言 一、open-webui是什么 二、安裝 1.docker安裝 2.源碼安裝 三、使用 四、問題匯總 總結 前言 前面的文章&#xff0c;我們已經…

探索Qt的QVariant:靈活的數據交換機制

&#x1f60e; 作者介紹&#xff1a;歡迎來到我的主頁&#x1f448;&#xff0c;我是程序員行者孫&#xff0c;一個熱愛分享技術的制能工人。計算機本碩&#xff0c;人工制能研究生。公眾號&#xff1a;AI Sun&#xff08;領取大廠面經等資料&#xff09;&#xff0c;歡迎加我的…

VMware使用技巧

目錄 1. 系統快照 1.1 拍攝快照 1.2 查看快照 1.3 應用/刪除快照 2. 克隆虛擬機 3. 刪除虛擬機 1. 系統快照 1.1 拍攝快照 將當前系統的狀態保存下來&#xff0c;如果將來系統出現不可修復的故障&#xff0c;使用快照可以恢復操作系統&#xff1b; CentOS7——拍照—…

【開源】基于RMBG的一鍵摳圖與證件照制作系統【含一鍵啟動包】

《博主簡介》 小伙伴們好&#xff0c;我是阿旭。專注于人工智能、AIGC、python、計算機視覺相關分享研究。 ?更多學習資源&#xff0c;可關注公-仲-hao:【阿旭算法與機器學習】&#xff0c;共同學習交流~ &#x1f44d;感謝小伙伴們點贊、關注&#xff01; 《------往期經典推…

【Linux】System V信號量詳解以及semget()、semctl()和semop()函數講解

&#x1f490; &#x1f338; &#x1f337; &#x1f340; &#x1f339; &#x1f33b; &#x1f33a; &#x1f341; &#x1f343; &#x1f342; &#x1f33f; &#x1f344;&#x1f35d; &#x1f35b; &#x1f364; &#x1f4c3;個人主頁 &#xff1a;阿然成長日記 …

Kotlin構造函數

目錄 構造函數類型 主構造函數 成員變量設置 私有化操作 次級構造函數 構造函數類型 主構造函數&#xff08;主構造器&#xff09;——只能有一個次構造函數&#xff08;次構造器&#xff09;——可以是多個 主構造函數 構造器 constructor關鍵字前 無注解或修飾符作用&…

性能監控的革命:Eureka引領分布式服務監控新紀元

性能監控的革命&#xff1a;Eureka引領分布式服務監控新紀元 引言 在微服務架構中&#xff0c;服務的分布式性能監控對于維護系統健康和優化用戶體驗至關重要。Eureka作為Netflix開源的服務發現框架&#xff0c;為服務的注冊與發現提供了強大支持&#xff0c;而結合其他工具&…

數字化轉型:企業法務管理的未來發展 ???

在數字化浪潮的推動下&#xff0c;企業法務管理正經歷著前所未有的變革。傳統的法務工作模式在數據處理、合同審查、風險評估等方面逐漸顯得力不從心。面對這一挑戰&#xff0c;企業法務管理的數字化轉型成為提升效率、保障合規、優化法律服務的必然選擇。 數字化轉型涉及到法…

HTML(30)——動畫

動畫 實現步驟 定義動畫 keyframes 動畫名稱{ from{} to{} } keyframes 動畫名稱{ 0%{} 10%{} .... 100%{} } 2.使用動畫 animation:動畫名稱 動畫花費時間; 示例&#xff1a;盒子的寬度從200變到400px&#xff0c;兩個狀態一般用from to的形式 <style>.box {width: …

解析Xml文件并修改QDomDocument的值

背景&#xff1a; 我需要解決一個bug&#xff0c;需要我從xml中讀取數據到QDomDocument&#xff0c;然后獲取到我想要的目標信息&#xff0c;然后修改該信息。 ---------------------------------------------------------------------------------------------------------…

各大常用代碼編輯器的快捷鍵集合

visualstudio2017 快捷鍵 多行注釋 crtl / 取消多行注釋crtl Q 代碼跳轉返回 crtl /- visualcode快捷鍵 代碼跳轉返回 crtl 左鍵/右鍵 androidstudio快捷鍵 代碼跳轉返回 crtl alt 左鍵/右鍵

VUE中ECharts提示框tooltip自動切換

目錄 前言1導入插件2定義參數3 插件API 前言 使用VUE開發的數據大屏統計&#xff0c;又需要將 echarts的提示框 tooltip 實現自動切換&#xff0c;網上有個很簡單的插件&#xff08;echarts-tooltip-auto-show&#xff09;&#xff0c;使用教程簡單分享給大家。 自動每隔幾秒切…