以人物為中心的主體到圖像的高保真合成,CVPR2024
code:CodeGoat24/Face-diffuser: [CVPR2024] Official implementation of High-fidelity Person-centric Subject-to-Image Synthesis.
paper:2311.10329?
背景
-
研究問題:這篇文章要解決的問題是當前以人物為中心的圖像生成方法在生成高保真人物圖像時遇到的挑戰。具體來說,這些方法在微調預訓練的擴散模型時,會導致語義場景的先驗知識丟失,并且在聯合學習場景和人物生成時,會犧牲生成質量。
-
研究難點:該問題的研究難點包括:生成高質量的人物圖像需要充分微調預訓練模型,但這會導致模型忘記豐富的語義場景先驗;此外,聯合學習場景和人物生成也會導致生成質量下降。
-
相關工作:現有的以人物為中心的圖像生成方法,如Fastcomposer和Subject-diffusion,雖然能夠生成個性化圖像,但在長時間訓練后,模型會過擬合文本描述,忘記豐富的語義場景先驗,導致生成質量下降。
方法
這篇論文提出了Face-diffuser,一種有效的協作生成管道,用于解決現有方法中的訓練不平衡和質量妥協問題。具體來說,
-
預訓練模型:首先,獨立微調兩個基于Stable Diffusion的預訓練擴散模型,分別用于場景生成(TDM)和人物生成(SDM)。
? -
采樣過程:采樣過程分為三個階段:語義場景構建、人物-場景融合和人物增強。
- 語義場景構建:使用TDM構建初始語義場景。
- 人物-場景融合:通過一個新的高效機制——顯著性自適應噪聲融合(SNF),實現TDM和SDM的協作。SNF利用無分類器指導(CFG)響應,自動在顯著性感知的方式下融合兩個模型的預測噪聲。
- 人物增強:使用SDM進一步細化生成的人物質量。
- 顯著性自適應噪聲融合(SNF):SNF的關鍵在于觀察到無分類器指導響應與生成圖像的顯著性之間存在穩健的聯系。具體公式如下:
其中,?表示空條件,s表示指導權重,RT?和RS?分別表示語義場景條件和參考圖像條件的噪聲差異。
實驗
- 數據集:使用FFHQ-face數據集進行訓練,該數據集包含70,000個樣本,其中60,000個用于訓練,10,000個用于測試。另一個數據集是Single-benchmark數據集,包含15個主題,每個主題有30個文本提示。
- 訓練配置:基于預訓練的Stable Diffusion v1-5模型進行訓練。SDM的圖像編碼器使用OpenAI的clip-vit-large-patch14視覺模型。對SDM進行450k步訓練,對TDM進行250k步訓練,使用4個NVIDIA A100 GPU,設置恒定學習率為1e-5,批量大小為8。
- 評估:使用身份保留(IP)和提示一致性(PC)兩個指標評估單主題和多主題生成質量。IP通過MTCNN進行面部檢測,并使用FaceNet計算面部相似度。PC通過CLIP-L/14圖像-文本相似度進行評估。
結果
-
定量結果:Face-diffuser在單主題和多主題圖像生成方面均表現出顯著優勢。與現有的最先進模型Fastcomposer相比,Face-diffuser在多主題生成方面的身份保留提高了0.132,提示一致性提高了0.084。
-
定性結果:Face-diffuser在生成與給定參考圖像和語義場景一致的人物圖像方面優于其他基線方法。例如,在生成一個男孩拿著紙的場景時,Fastcomposer和CustomDiffusion未能成功生成該場景。
? -
對比分析:與Fastcomposer和Subject-diffusion的樣本進行對比,Face-diffuser在高保真圖像生成方面表現更優。
?
結論
本文提出的Face-diffuser有效地解決了現有以人物為中心的圖像生成方法中的訓練不平衡和質量妥協問題。通過獨立微調兩個預訓練擴散模型,并利用顯著性自適應噪聲融合機制,Face-diffuser能夠在不同場景中生成高保真的人物圖像。廣泛的實驗驗證了Face-diffuser在生成高質量圖像方面的有效性和魯棒性。
- 打破訓練不平衡和質量妥協:Face-diffuser提出了一種有效的協作生成管道,解決了現有以人為中心的圖像生成方法中存在的訓練不平衡和質量妥協問題。
- 獨立模型和協作機制:開發了兩個獨立的預訓練擴散模型(TDM和SDM),分別用于場景和人物生成,并提出了一種高效的協作機制——基于顯著性的自適應噪聲融合(SNF)。
- 三階段采樣過程:將采樣過程分為三個階段:語義場景構建、人物-場景融合和人物增強,確保每個階段的任務明確且高效。
- 顯著性自適應噪聲融合:通過分類器自由指導(CFG)響應,自動在每一步中按顯著性進行噪聲空間的空間混合,充分利用每個模型的優勢。
- 高質量圖像生成:廣泛的實驗驗證了Face-diffuser在生成描繪多個未見人物的多樣場景的高保真圖像方面的顯著有效性和魯棒性。
關鍵問題
問題1:Face-diffuser在生成高保真人物圖像時,如何解決現有方法中的訓練不平衡和質量妥協問題?
Face-diffuser通過獨立微調兩個預訓練擴散模型來解決訓練不平衡和質量妥協問題。具體來說,它開發了兩個專門的預訓練擴散模型:文本驅動擴散模型(TDM)和主體增強擴散模型(SDM)。TDM用于場景生成,而SDM用于人物生成。通過將采樣過程分為三個階段——語義場景構建、人物-場景融合和人物增強,Face-diffuser能夠在不同階段充分利用每個模型的優勢。特別是,通過顯著性自適應噪聲融合(SNF)機制,Face-diffuser在人物-場景融合階段實現了TDM和SDM的無縫協作,從而生成高保真的人物圖像。
問題2:顯著性自適應噪聲融合(SNF)機制是如何實現TDM和SDM的有效協作的?
顯著性自適應噪聲融合(SNF)機制通過無分類器指導(CFG)響應來實現TDM和SDM的有效協作。具體步驟如下:
- 計算顯著性圖:首先,根據TDM和SDM的CFG響應計算兩個顯著性圖ΩT和ΩS。這兩個圖分別表示語義場景條件和參考圖像條件對每個像素的影響。
- 生成融合掩碼:然后,通過比較這兩個顯著性圖生成一個融合掩碼M,該掩碼決定了每個像素由哪個模型負責生成。
- 融合噪聲:最后,根據融合掩碼M,將TDM和SDM的預測噪聲進行融合,得到最終的噪聲ε^。公式如下:
其中,⊙表示Hadamard積。
問題3:Face-diffuser在實驗中如何評估其生成的高質量圖像?
Face-diffuser通過身份保留(IP)和提示一致性(PC)兩個指標來評估其生成的高質量圖像。具體評估方法如下:
- 身份保留(IP):通過MTCNN進行面部檢測,并使用FaceNet計算參考圖像和生成圖像之間的面部相似度,從而評估身份保留能力。
- 提示一致性(PC):通過CLIP-L/14圖像-文本相似度評估生成圖像與給定文本提示的一致性。
此外,Face-diffuser還在單主題和多主題生成任務上進行了廣泛的實驗,并與現有的最先進模型(如Fastcomposer和Subject-diffusion)進行了對比,進一步驗證了其生成高質量圖像的有效性和魯棒性。