Index-AniSora模型論文速讀:基于人工反饋的動漫視頻生成

Aligning Anime Video Generation with Human Feedback

一、引言

論文開頭指出,盡管視頻生成模型不斷涌現,但動漫視頻生成面臨動漫數據稀缺和運動模式異常的挑戰,導致生成視頻存在運動失真和閃爍偽影等問題,難以滿足人類偏好。現有獎勵模型主要針對現實世界視頻,無法捕捉動漫的獨特外觀和一致性要求。為此,作者提出利用人類反饋對動漫視頻生成進行對齊的流程,包括構建首個動漫視頻多維獎勵數據集、開發AnimeReward獎勵模型,以及引入Gap-Aware Preference Optimization(GAPO)訓練方法,在實驗中展示這些方法對提升動漫視頻質量的有效性。

二、研究背景與挑戰

  1. 數據稀缺性 :動漫數據相較于現實世界數據更為稀缺,導致預訓練的視頻模型在生成動漫視頻時傾向于輸出更符合現實風格的內容,難以滿足動漫視頻的生成需求。

  2. 運動模式差異 :動漫視頻的運動模式與現實視頻不同,現有模型在處理動漫視頻時會出現運動失真和閃爍偽影等問題,影響生成質量。

  3. 現有獎勵模型局限性 :早期方法依賴圖像獎勵模型提供反饋信號,但忽視了視頻中的時間因素,如運動動態和時間連貫性。后續研究采用視頻評估系統,但這些評估指標通常較為客觀,缺乏足夠的區分能力來有效區分好壞視頻,難以準確捕捉主觀偏好。最近的研究收集大規模視頻偏好數據集并訓練視覺 - 語言模型作為視頻獎勵模型,但這些模型主要針對文本到視頻(T2V)任務,由于領域差異,在評估動漫視頻時與實際人類偏好存在偏差。

三、研究方法

(一)構建動漫視頻獎勵數據集

  1. 數據收集 :選擇 5000 個帶有動作標簽的動漫視頻,涵蓋多種常見動作類別。使用 Qwen2-VL 對視頻進行字幕標注,并提取視頻的第三幀作為初始圖像。基于這些提示和圖像,利用 5 種先進的開源或閉源圖像到視頻生成模型生成動漫視頻,與 5000 個真實視頻一起構建 30000 個動漫視頻數據集,用于獎勵模型訓練。此外,還構建了包含 6000 個動漫視頻的驗證集。

  2. 人工標注 :從視覺外觀和視覺一致性兩個方面對生成視頻進行評估。視覺外觀包括視覺流暢度、視覺運動和視覺吸引力;視覺一致性包括文本 - 視頻一致性、圖像 - 視頻一致性和角色一致性。雇傭 6 名標注員對數據集進行評分,最終每個維度的偏好分數取所有標注員的平均值。

(二)開發 AnimeReward 獎勵模型

AnimeReward 是一個多維動漫獎勵系統,專門用于學習動漫視頻的人類偏好。它包含視覺外觀和視覺一致性兩個方面的六個維度,針對不同維度使用專門的視覺 - 語言模型進行訓練,通過獎勵分數回歸來更好地擬合人類偏好。

  1. 視覺外觀

    • 視覺流暢度 :微調基于 VLM 的模型的視覺編碼器,并添加回歸頭,以學習人類對視頻流暢度的偏好并識別動漫視頻中的失真。

    • 視覺運動 :基于 ActionCLIP 框架訓練運動評分模型,將動漫視頻剪輯及其對應的運動字幕分為六個運動幅度級別,通過計算設計的運動提示與目標視頻之間的相似性分數來得到運動分數。

    • 視覺吸引力 :從視頻中提取關鍵幀,訓練回歸模型以學習人類美學標準,從而評估視頻生成的基本質量。

  2. 視覺一致性

    • 文本 - 視頻一致性 :微調視覺和文本編碼器模塊并添加回歸頭,使用動漫文本 - 視頻對進行訓練。

    • 圖像 - 視頻一致性 :在圖像到視頻設置中,使用視覺編碼器和回歸頭計算生成視頻與輸入圖像之間的風格一致性分數。

    • 角色一致性 :設計包括檢測、分割和識別的系統流程,利用 GroundingDINO、SAM 和跟蹤工具提取每個視頻幀的角色掩碼,微調基于 BLIP 的模型建立掩碼與動漫 IP 角色之間的關聯,通過計算生成角色特征與存儲特征之間的余弦相似性來衡量角色一致性。

(三)引入 Gap-Aware Preference Optimization(GAPO)訓練方法

  1. 直接偏好優化(DPO)的局限性 :DPO 只關注對每對偏好樣本對的概率進行建模,忽略了勝利樣本和失敗樣本之間的偏好差距。

  2. GAPO 的提出 :為了解決這一問題,GAPO 明確將偏好差距納入優化過程。首先定義每個視頻的獎勵增益,對于每對偏好樣本,使用勝利樣本和失敗樣本的獎勵增益之差作為差距因子,反饋到 DPO 損失函數中,從而放大具有較大偏好差距的樣本對在訓練中的影響,減少差異較小的樣本對的影響,提高動漫視頻對齊的效率,使模型更好地捕捉人類偏好差異。

四、實驗

(一)實驗設置

  1. 數據集 :使用開源的 CogVideoX-5B 模型作為對齊實驗的基線模型。按照論文中的數據收集策略,構建包含 2000 個原始動漫圖像及其對應提示的初始訓練集。基于這些數據,使用基線模型為每個數據實例生成 4 個動漫視頻,并利用 AnimeReward 對所有生成視頻進行評估和分配獎勵分數,從每組四個視頻中選擇得分最高和最低的視頻組成偏好對,形成包含 2000 個偏好樣本對的訓練數據。

  2. 訓練設置 :在對齊實驗中,微調所有變壓器塊以更好地使模型與人類偏好對齊。全局批量大小設置為 8,學習率為 5e ? 6。DPO 超參數 β 為 5000,GAPO 超參數 α 為 2。所有實驗在 8 個 A800 GPU 上進行,生成的視頻為 49 幀、16 fps,分辨率為 480 × 720。

  3. 評估指標 :采用自動化評估和人工評估兩種方法。自動化評估包括 VBenchI2V、VideoScore 和 AnimeReward 三種方法;人工評估則由三名標注員對樣本進行評估,根據多數意見確定視頻優劣。

(二)實驗結果

  1. 定量結果 :在 VBench-I2V 評估中,作者提出的偏好對齊方法總分最高,幾乎在所有指標上都優于基線模型,并且在大多數情況下超過 SFT 模型,尤其在 “I2V 主體” 和 “主體一致性” 方面表現出顯著改進,表明在保持動漫角色一致性方面能力更強。在 AnimeReward 評估中,除視覺運動外,作者的方法在所有指標上均有顯著提升,與人類偏好在視覺外觀和一致性方面更好地對齊。對于 VideoScore,對齊策略在三個維度上超越基線和 SFT 模型,顯示出更好的時間穩定性和內容保真度。盡管在 “動態程度”(即 “視覺運動”)方面表現不如基線和 SFT 方法,但作者認為動態程度較高的視頻更容易出現失真和偽影,從而降低整體視覺質量并影響人類偏好評分。

  2. 定性結果 :從圖 3 的視覺比較結果可以看出,與基線模型和 SFT 模型相比,作者的方法顯著減少了生成視頻中的失真和偽影,實現了更高的運動穩定性和角色一致性,視覺質量大大提高。此外,作者的方法在文本一致性方面也優于其他方法,例如在第二個案例中,提示說明一個穿紫色長袍的老年男子正在安慰一個年輕男子,而基線和 SFT 方法生成的結果中老年男子看起來像是在威脅或恐嚇年輕男子,年輕男子表現出害怕的表情,而作者的方法正確地生成了老年男子拍年輕男子肩膀以示安慰的畫面。

  3. 消融實驗

    • GAPO 與 DPO 的比較 :在相同的實驗設置下,GAPO 在所有三個評估指標上均優于 DPO,表明 GAPO 可以提高偏好對齊效率,并引導模型生成更符合人類偏好的動漫視頻。

    • 獎勵模型比較 :使用 VideoScore 作為獎勵模型進行實驗,結果顯示使用 AnimeReward 訓練的模型在兩個評估標準上優于 VideoScore,進一步驗證了 AnimeReward 能為動漫視頻提供更準確的人類偏好評饋。

    • 獎勵分數的不同權重策略比較 :除了平均加權策略外,還評估了其他幾種權重分配方案。結果表明平均加權策略在 VBench-I2V 和 AR 上得分最高,而增加運動分數權重的策略在 VS 上表現最好,但在其他維度上的表現不如平均加權策略。視覺比較結果也顯示,平均加權策略在完成相應動作的同時保持了視覺美學和流暢的運動,而增加運動權重的策略可能導致視頻中出現奇怪的偽影和角色面部嚴重失真。

五、結論

論文提出了一種名為 AnimeReward 的函數,通過精心設計的六個感知維度對動漫視頻生成進行全面評估。借助 AnimeReward,構建了一種名為 Gap-Aware Preference Optimization(GAPO)的新穎訓練技術,將偏好差距明確納入優化過程,以進一步提升對齊性能。實驗結果表明,僅使用基線模型生成的數據,作者提出的對齊流程顯著提升了動漫生成的質量,更好地與人類偏好對齊。

六、核心技術表格匯總

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/81795.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/81795.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/81795.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

第 4 章:網絡與總線——CAN / Ethernet / USB-OTG

本章目標: 深入理解三種關鍵通信總線(CAN、Ethernet、USB-OTG)的協議架構、硬件接口與軟件驅動 掌握 STM32(或同類 MCU)中各總線的寄存器配置、中斷/DMA 驅動框架 通過實戰案例,實現基于 CAN 總線的節點通信、基于 Ethernet 的 TCP/IP 通信,以及基于 USB-OTG 的虛擬串口…

數據結構-DAY05

一、棧的概念 1.棧是限定僅在表尾進行插入和刪除操作的線性表。先進后出、后進先出 棧頂:允許操作的一端 棧底:不允許操作的一端入棧,出棧。 棧分為:順序棧 鏈式棧 2.棧結構是在堆區創建的 3.優先級就是通過棧來解決的 先進后出…

leetcode 153. Find Minimum in Rotated Sorted Array

題目描述 分析 可以發現一個規律: 假如整個數組最后一個元素是x。 最小值左側(不含最小值自己)的元素全部大于x。 最小值右側(包含最小值自己,不包含x)的元素全部小于x。 如果整個數組是有序的&#x…

如何在 AOSP 中判斷一個源文件屬于哪個模塊(以 CameraService 為例)

如何在 AOSP 中判斷一個源文件屬于哪個模塊(以 CameraService 為例) 在 AOSP 開發中,經常需要修改底層 C 代碼(如 CameraService.cpp),但很多人會遇到一個問題: 我修改了某個 .cpp 文件&#x…

云原生主要架構模式

云原生(Cloud Native)是一種利用云計算的優勢來構建和運行可擴展、彈性和高效應用程序的方法。它不僅僅是技術的集合,更是一種架構和設計理念。本文將圍繞你提出的幾部分,深入探討云原生主要的架構模式,幫助你理解如何利用這些模式構建現代化的應用。 1. 服務化架構模式(…

深入理解MySQL結構與執行流程

標題:深入理解MySQL結構與執行流程 MySQL以其開源、靈活性和強大的功能成為了最受歡迎的關系型數據庫管理系統之一。無論是初創公司還是大型企業,都廣泛使用MySQL來存儲和管理數據。為了幫助大家更好地理解和優化MySQL的性能,本文將詳細講解…

Python web 開發 Flask HTTP 服務

Flask 是一個輕量級的 Web 應用框架,它基于 Python 編寫,特別適合構建簡單的 Web 應用和 RESTful API。Flask 的設計理念是提供盡可能少的約定和配置,從而讓開發者能夠靈活地構建自己的 Web 應用。 https://andi.cn/page/622189.html

BMVC2023 | 多樣化高層特征以提升對抗遷移性

Diversifying the High-level Features for better Adversarial Transferability 摘要-Abstract引言-Introduction相關工作-Related Work方法-Methodology實驗-Experiments結論-Conclusion 論文鏈接 GitHub鏈接 本文 “Diversifying the High-level Features for better Adve…

虛幻引擎5-Unreal Engine筆記之攝像頭camera

虛幻引擎5-Unreal Engine筆記之攝像頭camera code review! 目錄 第一部分:攝像頭的基礎概念 1.1 UE5 中攝像頭的定義與作用1.2 UE5 中攝像頭的類型與分類 第二部分:攝像頭的代碼結構與分類 2.1 攝像頭是類還是組件?2.2 組件的本質&#xff…

【大數據】MapReduce 編程-- PageRank--網頁排名算法,用于衡量網頁“重要性”-排序網頁

PageRank 是 Google 創始人拉里佩奇(Larry Page)和謝爾蓋布林(Sergey Brin)在 1998 年提出的一種網頁排名算法,用于衡量網頁“重要性”的一種方式。它是搜索引擎中用于排序網頁的一種基礎算法 一個網頁越是被其他重要…

React Flow 數據持久化:Django 后端存儲與加載的最佳實踐(含詳細代碼解析)

在構建 React Flow 應用時,前端呈現的節點與連線構成的可視化流程只是冰山一角,其背后的數據持久化與靈活調取才是確保應用穩定運行、支持用戶數據回溯與協作的關鍵。因此,后端存儲與加載 React Flow 信息的環節,就如同整個應用的…

深度學習中的歸一化:提升模型性能的關鍵因素

📌 友情提示: 本文內容由銀河易創AI(https://ai.eaigx.com)創作平臺的gpt-4-turbo模型輔助完成,旨在提供技術參考與靈感啟發。文中觀點或代碼示例需結合實際情況驗證,建議讀者通過官方文檔或實踐進一步確認…

Pandas:Series和DataFrame的概念、常用屬性和方法

本文目錄: 一、Series和Dataframe的概念二、創建Series對象三、創建Dataframe對象(一)Series1.Series的常用屬性總結如下:2.Series的常用方法總結如下: (二)Dataframe1.Dataframe的常用屬性2.Da…

數據中心Overlay解決方案

文檔圍繞數據中心 Overlay 解決方案展開,指出數據中心向大集中、虛擬化、云業務演進,傳統架構存在網絡規劃復雜、彈性不足、業務擴展受限等問題。Overlay 網絡在物理網絡上構建虛擬網絡,實現名址分離、網絡與物理解耦,支持業務靈活部署。方案采用VXLAN 技術(如 SDN 控制模…

SpringBoot 項目實現操作日志的記錄(使用 AOP 注解模式)

本文是博主在做關于如何記錄用戶操作日志時做的記錄,常見的項目中難免存在一些需要記錄重要日志的部分,例如權限和角色設定,重要數據的操作等部分。 博主使用 Spring 中的 AOP 功能,結合注解的方式,對用戶操作過的一些…

以太聯 - Intellinet 閃耀臺北 SecuTech 國際安全科技應用博覽會

2025 年 5 月 7 日至 9 日,臺北 SecuTech 國際安全科技應用博覽會現場熱鬧非凡,以太聯 - Intellinet 攜旗下前沿產品與解決方案精彩亮相,成為展會上一道亮麗的風景線,吸引了眾多業內人士的目光,收獲了廣泛關注與高度認…

【華為鴻蒙電腦】首款鴻蒙電腦發布:MateBook Fold 非凡大師 MateBook Pro,擎云星河計劃啟動

文章目錄 前言一、HUAWEI MateBook Fold 非凡大師(一)非凡設計(二)非凡顯示(三)非凡科技(四)非凡系統(五)非凡體驗 二、HUAWEI MateBook Pro三、預熱&#xf…

OSA快速上手

我第一次接觸OSA,第一感覺就是龐雜,相關的文檔和資料基本都是英文,運行下示例場景,效果和效率確實很香。本文僅針對初次接觸OSA、望而卻步的朋友們進行快速運用的引導。 首先,找個安裝包,導入項目后&#…

RK3568下編譯解決未定義符號而報錯終止鏈接

現象:我從rk3568板子上導出來了一個 libsqlite3.so 然后編譯連接就會報這樣的錯誤 解決辦法有多種,以前我遇到這種情況,我都是使用sqlite3源碼從新編譯一份使用,并替換到板子上。 現在我是用另一種方法:增加編譯參數 …

LSTM-Attention混合模型:美債危機與黃金對沖效率研究

摘要:本文依托多維度量化分析框架,結合自然語言處理(NLP)技術對地緣文本的情緒挖掘,構建包含宏觀因子、風險溢價因子及技術面因子的三階定價模型,對當前黃金市場的波動特征進行歸因分析。實證結果顯示&…