個性化文本到圖像生成模型在用戶控制生成過程方面取得了重要進展。這些模型能夠通過少量訓練樣本學習并合成包含新穎個性化概念的圖像,例如用戶的寵物或特定物品。然而,現有技術在處理多概念個性化時存在局限性,尤其是在生成包含多個相似概念的復雜場景時。來自加州大學戴維斯分校的研究團隊及其合作者提出了Gen4Gen,一個半自動化的數據集創建管道,它利用生成模型將個性化概念組合成具有復雜構成的真實場景,并配以詳細的文本描述,形成了MyCanvas數據集。這一數據集在不修改模型架構或訓練算法的情況下,顯著提高了多概念個性化性能。

方法
研究者首先提出了三個關鍵原則以確保MyCanvas數據集的質量和有效性:
- 詳細文本描述和圖像配對:文本必須與相應圖像良好對齊,為前景和背景對象提供信息。
- 合理的對象布局和背景生成:確保對象在圖像中的共存和位置在現實生活中是可能的,并且布局合理。
- 高分辨率:確保數據集能夠滿足生成高質量多概念個性化圖像的最終目標。
創建MyCanvas數據集主要分三個階段。整個Gen4Gen管道的設計旨在通過自動化和半自動化的方法,高效地生成具有高度個性化和現實感的圖像及其配套文本描述。

Figure 2 展示了 Gen4Gen 管道的概覽,該管道是創建 MyCanvas 數據集的核心過程。這一過程分為三個主要階段,利用了圖像前景提取、大型語言模型(LLMs)、多模態大型語言模型(MLLMs)以及圖像修復技術,以生成真實、個性化的圖像及其配套的文本描述。
第一階段:對象關聯與前景分割 (1)
-
在這一階段,首先從包含多個概念的源圖像中,使用類別無關的顯著性對象檢測器來分割前景對象。這里的“類別無關”意味著檢測器不依賴于特定類別的先驗知識,能夠處理各種不同的對象。
-
給定一組對象組合 O′,檢測器將每個對象的前景分割出來,形成前景圖像 D(X′)?及其對應的掩碼 M(D(X′))。
第二階段:LLM 引導的對象組合 (2)
- 接下來,研究者利用大型語言模型(LLM)的零樣本學習能力,請求模型提供給定對象集合O′?的可能邊界框組合。
- 根據 LLM 提供的邊界框,將分割出的前景對象放置在適當的位置,形成復合的前景圖像
?及其掩碼
。
- 同時,LLM 還被用來生成一組背景提示,描述O′?可能存在的潛在場景,這有助于后續階段的背景重繪。
第三階段:背景重繪與圖像重新描述 (3)
- 在最后階段,使用擴散修復模型將復合前景圖像?
嵌入從互聯網上獲取的背景圖像?
??中,生成最終的圖像?
。
- 為了提高文本描述的多樣性同時保持與圖像的對齊,研究者使用多模態大型語言模型(MLLM,例如 LLaVA)為
的一部分組合提供詳細的描述。
- 這一步驟不僅增加了描述的豐富性,而且通過限制單詞數量(以適應 CLIP 的上下文限制)來確保文本與圖像緊密對應。
MyCanvas 數據集收集了150個對象,并創建了41種可能的組合,生成了超過10K圖像,并手動篩選至2684張最佳質量圖像。

為了進一步提升模型在訓練階段的性能和圖像生成的準確性,研究者采取了一系列創新的文本提示策略。他們引入了“全局組合標記”,這一策略使得模型能夠更好地理解和描述復雜的場景布局,從而增強了對整體圖像結構的把控能力。
為了確保圖像中包含所有指定的概念,并且在生成過程中不遺漏任何細節,研究者實施了“重復概念標記提示”的方法,這有助于模型更加準確地捕捉和再現每個概念。最后通過“合并背景提示”,研究者優化了模型對前景對象和背景的區分能力,鼓勵模型專注于學習對象的身份特征,同時避免對象特征與背景特征在特征空間中發生混淆,這些策略共同提升了模型對多概念個性化圖像生成任務的泛化和特化能力。

為了全面評估多概念個性化圖像生成任務的性能,研究者提出了兩個創新的度量標準:CP-CLIP(Composition-Personalization-CLIP)分數和TI-CLIP(Text-Image alignment CLIP)分數。CP-CLIP分數專注于評估圖像生成在組合和個性化方面的準確性,它通過檢查文本中提及的每個個性化概念是否都能在生成的圖像中得到準確反映,并且這些概念的視覺表現是否與其原始對象保持一致性。
這種度量方式確保了生成圖像不僅在視覺上忠實于源數據,而且在概念層面上也與文本描述相匹配。而TI-CLIP分數則作為評估模型泛化能力的一種手段,通過比較生成圖像與用于生成它的文本提示之間的一致性,來檢測模型是否對訓練數據出現過擬合。一個理想的個性化圖像生成模型應該在提高CP-CLIP分數的同時,保持TI-CLIP分數的穩定,這表明模型在生成高質量圖像的同時,還能夠適應不同的文本描述,展現出良好的泛化能力。這兩個度量標準的提出,為多概念個性化圖像生成的研究提供了更為精確和全面的評價工具。
實驗
基線:研究者首先使用Custom Diffusion模型作為基線,這是一個可復現的代碼基礎,用于與先前的方法進行廣泛比較。
實現細節:對于每種組合,研究者訓練了上述方法的模型(訓練細節在附錄中)。評估時,他們選擇了每個組合的最佳檢查點。使用與訓練期間不同的、獨特的提示,以更好地分析每個模型的泛化能力。

表1所示,研究者通過量化的方法來評估Gen4Gen管道和MyCanvas數據集對于提升多概念個性化圖像生成性能的具體影響。他們使用了一系列預定義的文本提示來生成圖像,并通過比較不同實驗設置下生成的246張圖像的性能,來展示MyCanvas數據集的優越性。實驗結果表明,與僅使用原始源圖像的Custom Diffusion相比,結合MyCanvas數據集的方法在CP-CLIP分數上實現了顯著提升,這表明了在圖像生成中個性化概念的準確性和完整性得到了增強。同時,TI-CLIP分數的穩定性驗證了性能提升并非由過擬合所致,從而證明了MyCanvas數據集在提高多概念個性化生成任務中的有效性和泛化能力。

圖5中,四組結果根據組合難度遞增排序,每組展示了在不同訓練策略下的圖像生成效果。使用Custom Diffusion模型結合原始源圖像的結果作為基線,展示了模型在沒有額外數據集支持時的生成能力。當引入MyCanvas數據集后,模型在區分潛在空間中相似對象(如貓和獅子,兩種拖拉機)方面表現出顯著的改進。進一步應用提示策略后,模型在生成過程中對文本描述的遵循程度更高,確保了所有概念都被準確反映在圖像中,即使在涉及多個概念的復雜場景中也是如此。這些定性結果突出了MyCanvas數據集和提示策略在提升圖像生成質量和與文本描述一致性方面的重要作用。
為了深入理解Gen4Gen管道生成圖像的質量,并探究訓練數據規模與模型性能之間的關系,研究者開展了一系列消融實驗:
MyCanvas生成質量評估:開發了一個過濾工具來評估Gen4Gen管道生成的800張圖像的質量。基于包含個性化概念、它們的正確放置和排除視覺偽影的標準,對每個圖像進行評分。
訓練數據大小與概念數量:提供了一個分析,展示了使用1到100張圖像進行訓練時的性能。當訓練涉及4個以上概念時,穩定表現需要10到50張圖像。
得分分布:表2顯示了質量評估的得分分布。只有被評為4/5的圖像被添加到MyCanvas數據集中。

通過這些實驗,研究者展示了Gen4Gen方法在創建數據集和提高多概念個性化圖像生成質量方面的有效性。實驗結果支持了他們的觀點,即通過改進數據集的質量,可以在不修改模型架構或訓練算法的情況下顯著提高性能。
論文鏈接:https://arxiv.org/abs/2402.15504