Index-AniSora模型論文速讀：基于人工反饋的動漫視頻生成

Aligning Anime Video Generation with Human Feedback

一、引言

論文開頭指出，盡管視頻生成模型不斷涌現，但動漫視頻生成面臨動漫數據稀缺和運動模式異常的挑戰，導致生成視頻存在運動失真和閃爍偽影等問題，難以滿足人類偏好。現有獎勵模型主要針對現實世界視頻，無法捕捉動漫的獨特外觀和一致性要求。為此，作者提出利用人類反饋對動漫視頻生成進行對齊的流程，包括構建首個動漫視頻多維獎勵數據集、開發AnimeReward獎勵模型，以及引入Gap-Aware Preference Optimization（GAPO）訓練方法，在實驗中展示這些方法對提升動漫視頻質量的有效性。

二、研究背景與挑戰

數據稀缺性 ：動漫數據相較于現實世界數據更為稀缺，導致預訓練的視頻模型在生成動漫視頻時傾向于輸出更符合現實風格的內容，難以滿足動漫視頻的生成需求。
運動模式差異 ：動漫視頻的運動模式與現實視頻不同，現有模型在處理動漫視頻時會出現運動失真和閃爍偽影等問題，影響生成質量。
現有獎勵模型局限性 ：早期方法依賴圖像獎勵模型提供反饋信號，但忽視了視頻中的時間因素，如運動動態和時間連貫性。后續研究采用視頻評估系統，但這些評估指標通常較為客觀，缺乏足夠的區分能力來有效區分好壞視頻，難以準確捕捉主觀偏好。最近的研究收集大規模視頻偏好數據集并訓練視覺 - 語言模型作為視頻獎勵模型，但這些模型主要針對文本到視頻（T2V）任務，由于領域差異，在評估動漫視頻時與實際人類偏好存在偏差。

三、研究方法

（一）構建動漫視頻獎勵數據集

數據收集 ：選擇 5000 個帶有動作標簽的動漫視頻，涵蓋多種常見動作類別。使用 Qwen2-VL 對視頻進行字幕標注，并提取視頻的第三幀作為初始圖像。基于這些提示和圖像，利用 5 種先進的開源或閉源圖像到視頻生成模型生成動漫視頻，與 5000 個真實視頻一起構建 30000 個動漫視頻數據集，用于獎勵模型訓練。此外，還構建了包含 6000 個動漫視頻的驗證集。
人工標注 ：從視覺外觀和視覺一致性兩個方面對生成視頻進行評估。視覺外觀包括視覺流暢度、視覺運動和視覺吸引力；視覺一致性包括文本 - 視頻一致性、圖像 - 視頻一致性和角色一致性。雇傭 6 名標注員對數據集進行評分，最終每個維度的偏好分數取所有標注員的平均值。

（二）開發 AnimeReward 獎勵模型

AnimeReward 是一個多維動漫獎勵系統，專門用于學習動漫視頻的人類偏好。它包含視覺外觀和視覺一致性兩個方面的六個維度，針對不同維度使用專門的視覺 - 語言模型進行訓練，通過獎勵分數回歸來更好地擬合人類偏好。

視覺外觀
- 視覺流暢度 ：微調基于 VLM 的模型的視覺編碼器，并添加回歸頭，以學習人類對視頻流暢度的偏好并識別動漫視頻中的失真。
- 視覺運動 ：基于 ActionCLIP 框架訓練運動評分模型，將動漫視頻剪輯及其對應的運動字幕分為六個運動幅度級別，通過計算設計的運動提示與目標視頻之間的相似性分數來得到運動分數。
- 視覺吸引力 ：從視頻中提取關鍵幀，訓練回歸模型以學習人類美學標準，從而評估視頻生成的基本質量。
視覺一致性
- 文本 - 視頻一致性 ：微調視覺和文本編碼器模塊并添加回歸頭，使用動漫文本 - 視頻對進行訓練。
- 圖像 - 視頻一致性 ：在圖像到視頻設置中，使用視覺編碼器和回歸頭計算生成視頻與輸入圖像之間的風格一致性分數。
- 角色一致性 ：設計包括檢測、分割和識別的系統流程，利用 GroundingDINO、SAM 和跟蹤工具提取每個視頻幀的角色掩碼，微調基于 BLIP 的模型建立掩碼與動漫 IP 角色之間的關聯，通過計算生成角色特征與存儲特征之間的余弦相似性來衡量角色一致性。

（三）引入 Gap-Aware Preference Optimization（GAPO）訓練方法

直接偏好優化（DPO）的局限性 ：DPO 只關注對每對偏好樣本對的概率進行建模，忽略了勝利樣本和失敗樣本之間的偏好差距。
GAPO 的提出 ：為了解決這一問題，GAPO 明確將偏好差距納入優化過程。首先定義每個視頻的獎勵增益，對于每對偏好樣本，使用勝利樣本和失敗樣本的獎勵增益之差作為差距因子，反饋到 DPO 損失函數中，從而放大具有較大偏好差距的樣本對在訓練中的影響，減少差異較小的樣本對的影響，提高動漫視頻對齊的效率，使模型更好地捕捉人類偏好差異。

四、實驗

（一）實驗設置

數據集 ：使用開源的 CogVideoX-5B 模型作為對齊實驗的基線模型。按照論文中的數據收集策略，構建包含 2000 個原始動漫圖像及其對應提示的初始訓練集。基于這些數據，使用基線模型為每個數據實例生成 4 個動漫視頻，并利用 AnimeReward 對所有生成視頻進行評估和分配獎勵分數，從每組四個視頻中選擇得分最高和最低的視頻組成偏好對，形成包含 2000 個偏好樣本對的訓練數據。
訓練設置 ：在對齊實驗中，微調所有變壓器塊以更好地使模型與人類偏好對齊。全局批量大小設置為 8，學習率為 5e ? 6。DPO 超參數 β 為 5000，GAPO 超參數 α 為 2。所有實驗在 8 個 A800 GPU 上進行，生成的視頻為 49 幀、16 fps，分辨率為 480 × 720。
評估指標 ：采用自動化評估和人工評估兩種方法。自動化評估包括 VBenchI2V、VideoScore 和 AnimeReward 三種方法；人工評估則由三名標注員對樣本進行評估，根據多數意見確定視頻優劣。

（二）實驗結果

定量結果 ：在 VBench-I2V 評估中，作者提出的偏好對齊方法總分最高，幾乎在所有指標上都優于基線模型，并且在大多數情況下超過 SFT 模型，尤其在 “I2V 主體” 和 “主體一致性” 方面表現出顯著改進，表明在保持動漫角色一致性方面能力更強。在 AnimeReward 評估中，除視覺運動外，作者的方法在所有指標上均有顯著提升，與人類偏好在視覺外觀和一致性方面更好地對齊。對于 VideoScore，對齊策略在三個維度上超越基線和 SFT 模型，顯示出更好的時間穩定性和內容保真度。盡管在 “動態程度”（即 “視覺運動”）方面表現不如基線和 SFT 方法，但作者認為動態程度較高的視頻更容易出現失真和偽影，從而降低整體視覺質量并影響人類偏好評分。
定性結果 ：從圖 3 的視覺比較結果可以看出，與基線模型和 SFT 模型相比，作者的方法顯著減少了生成視頻中的失真和偽影，實現了更高的運動穩定性和角色一致性，視覺質量大大提高。此外，作者的方法在文本一致性方面也優于其他方法，例如在第二個案例中，提示說明一個穿紫色長袍的老年男子正在安慰一個年輕男子，而基線和 SFT 方法生成的結果中老年男子看起來像是在威脅或恐嚇年輕男子，年輕男子表現出害怕的表情，而作者的方法正確地生成了老年男子拍年輕男子肩膀以示安慰的畫面。
消融實驗
- GAPO 與 DPO 的比較 ：在相同的實驗設置下，GAPO 在所有三個評估指標上均優于 DPO，表明 GAPO 可以提高偏好對齊效率，并引導模型生成更符合人類偏好的動漫視頻。
- 獎勵模型比較 ：使用 VideoScore 作為獎勵模型進行實驗，結果顯示使用 AnimeReward 訓練的模型在兩個評估標準上優于 VideoScore，進一步驗證了 AnimeReward 能為動漫視頻提供更準確的人類偏好評饋。
- 獎勵分數的不同權重策略比較 ：除了平均加權策略外，還評估了其他幾種權重分配方案。結果表明平均加權策略在 VBench-I2V 和 AR 上得分最高，而增加運動分數權重的策略在 VS 上表現最好，但在其他維度上的表現不如平均加權策略。視覺比較結果也顯示，平均加權策略在完成相應動作的同時保持了視覺美學和流暢的運動，而增加運動權重的策略可能導致視頻中出現奇怪的偽影和角色面部嚴重失真。

五、結論

論文提出了一種名為 AnimeReward 的函數，通過精心設計的六個感知維度對動漫視頻生成進行全面評估。借助 AnimeReward，構建了一種名為 Gap-Aware Preference Optimization（GAPO）的新穎訓練技術，將偏好差距明確納入優化過程，以進一步提升對齊性能。實驗結果表明，僅使用基線模型生成的數據，作者提出的對齊流程顯著提升了動漫生成的質量，更好地與人類偏好對齊。