在最新的研究進展中,由Xuanhua He及其團隊提出的ID-Animator技術,為個性化視頻生成領域帶來了突破性的創新。這項技術的核心在于其零樣本(zero-shot)人物視頻生成方法,它允許研究者和開發者根據單一的參考面部圖像生成具有特定身份特征的視頻,而無需進行額外的訓練步驟。
ID-Animator的設計基于兩個主要組件:一個預訓練的文本到視頻(Text-to-Video, T2V)擴散模型,以及一個輕量級的面部適配器。
ID-Animator技術的基礎是一個預訓練的文本到視頻擴散模型,該模型能夠根據文本提示生成視頻。然而,這種通用的視頻生成模型并不擅長于生成特定身份人物的視頻。為了解決這一問題,研究者們引入了一個面部適配器,以增強模型對特定身份特征的捕捉能力。
面部適配器是ID-Animator框架的關鍵部分,它負責編碼與身份相關的嵌入。這一適配器通過學習面部潛在查詢來獲取身份相關的特征,并將這些特征嵌入到視頻生成過程中。面部適配器的設計是輕量級的,這意味著它不會顯著增加模型的計算負擔。
為了提高模型在視頻生成中對身份信息的提取效率,研究者們構建了一個以身份為導向的數據集。這個流程包括以下幾個步驟:
-
解耦的人類視頻字幕生成:研究者們設計了一種新的字幕重寫技術,將字幕分解為兩個部分:描述人物屬性的“人類屬性字幕”和描述人物動作的“人類動作字幕”。這兩種字幕分別由不同的模型生成,然后通過一個大型語言模型整合成一個統一的、全面的字幕。
-
面部圖像池的構建:與以往直接使用視頻幀作為參考圖像的方法不同,ID-Animator從視頻中提取面部區域作為身份參考圖像。這種策略減少了與身份無關特征對視頻生成的影響。
為了減少參考圖像中與身份無關特征的影響,研究者們開發了一種隨機面部參考訓練方法。在訓練過程中,模型不是使用與生成目標相同的圖像作為條件,而是隨機選擇面部圖像池中的圖像作為參考。這種方法有效地將ID相關的特征與圖像中的其他內容解耦,使得適配器能夠專注于與身份相關的特征。
在實現ID-Animator時,研究者們采取了以下步驟:
-
模型選擇:選擇AnimateDiff作為基礎的文本到視頻生成模型。
-
數據預處理:對訓練數據進行裁剪、中心裁剪和調整大小,以適應模型的輸入要求。
-
訓練策略:在訓練過程中,只有面部適配器的參數會被更新,而預訓練的文本到視頻模型參數保持不變。
-
優化技術:應用分類器自由引導技術,通過一定概率使用空文本嵌入來替代原始文本嵌入,以增強生成性能。
在實驗部分,研究者們使用了開源的AnimateDiff作為文本到視頻生成模型的基礎,并在NVIDIA A100 GPU上進行了訓練。
實驗的基礎是使用開源的AnimateDiff模型作為文本到視頻生成的核心。為了適應ID-Animator的需要,研究者們對模型進行了適當的修改,特別是在面部適配器部分。訓練數據集來源于CelebV,經過預處理,包括裁剪到16幀、中心裁剪到512x512像素等步驟,以確保數據的一致性和模型的輸入要求。
在訓練ID-Animator時,只有面部適配器的參數會被更新,而預訓練的文本到視頻模型則保持固定。這樣的設計旨在減少訓練成本,同時保持模型的視頻生成能力。訓練過程中,使用了單個NVIDIA A100 GPU,并采用了1e-4的學習率。為了進一步提升生成性能,研究者們還采用了分類器自由引導技術,通過一定概率使用空文本嵌入來替代原始文本嵌入。
研究者們對ID-Animator進行了定性評估,將其生成的視頻與幾個現有的方法進行了比較。他們選擇了名人和普通個體的圖像作為測試案例,并通過大型語言模型(LLM)隨機生成了六個與人類語言風格一致的提示。這些提示用于評估模型遵循指令的能力。結果顯示,ID-Animator在面部結構、動作豐富性以及遵循文本指令的能力上均優于對比方法。
ID-Animator的應用潛力在多個方面得到了展示。研究者們展示了模型在重新情境化方面的應用,即在保持人物身份的同時改變視頻的上下文信息。這包括改變人物的發型、服裝、背景、執行特定動作以及調整年齡或性別。此外,模型還能夠混合不同人物的身份特征,生成具有混合特征的視頻。這證明了面部適配器在學習能力上的高效性。
ID-Animator還展示了與現有模型的兼容性。研究者們將其與ControlNet結合,展示了如何通過單幀或多幀控制圖像生成具有特定身份特征的視頻。此外,ID-Animator還能夠與社區模型(如Lyriel和Raemumxi)結合使用,即使這些模型從未在ID-Animator的訓練中使用過。這些實驗結果表明,ID-Animator不僅能夠生成高質量的個性化視頻,還能夠無縫地與現有的視頻生成框架集成。
通過這些實驗,研究者們證明了ID-Animator在生成特定身份人物視頻方面的優越性能。模型能夠生成穩定且具有高度身份保真度的視頻,同時保持與文本提示的一致性。此外,ID-Animator的訓練方法和數據集構建流程為零樣本個性化視頻生成提供了一個有效的解決方案,展示了其在實際應用中的廣泛潛力。
論文鏈接:https://arxiv.org/abs/2404.15275
GitHub 地址:https://github.com/ID-Animator/ID-Animator