HunyuanCustom:文生視頻框架論文速讀

《HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation》論文講解

一、引言

本文提出了 HunyuanCustom,這是一個基于多模態驅動的定制化視頻生成框架。該框架旨在解決現有視頻生成模型在身份一致性(identity consistency)和輸入模態多樣性方面的不足。HunyuanCustom 支持圖像、音頻、視頻和文本等多種條件輸入,能夠生成具有特定主題身份的視頻,廣泛應用于虛擬人廣告、虛擬試穿、唱歌頭像和視頻編輯等領域。

二、相關工作

(一)視頻生成模型

近年來,擴散模型推動了視頻生成技術的發展,從靜態圖像合成進化到動態時空建模。現有方法主要集中在文本引導的視頻生成或基于單一參考圖像的視頻生成,但在生成內容的精細控制和概念驅動編輯方面仍存在不足。

(二)視頻定制化

1. 實例特定視頻定制化

這種方法通過使用與目標身份相同的多張圖像對預訓練的視頻生成模型進行微調,每種身份單獨訓練。例如,Textual Inversion 和 DreamBooth 將圖像身份信息嵌入文本空間,實現與文本的有效交互。然而,這些方法依賴于實例特定優化,難以實現實時或大規模視頻定制化。

2. 端到端視頻定制化

這種方法通過訓練額外的條件網絡將目標圖像的身份信息注入視頻生成模型,使模型在推理階段能夠泛化到任意身份圖像輸入。一些工作專注于保持面部身份,如 ID-Animator 和 ConsisID 等。但現有方法在處理多個主題身份的維護和交互時仍有較大提升空間。

三、方法

(一)概述

HunyuanCustom 以 Hunyuan Video 生成框架為基礎,通過引入基于 LLaVA 的文本 - 圖像融合模塊和圖像 ID 增強模塊,實現對文本和圖像的交互理解,增強模型對身份信息的把握。此外,為支持音頻和視頻條件注入,分別設計了音頻和視頻的特定注入機制。

(二)多模態任務

HunyuanCustom 支持以下四類任務:

  1. 文本驅動視頻生成:基于 HunyuanVideo 的文本 - 視頻生成能力,根據文本提示生成對應視頻。

  2. 圖像驅動視頻定制:以輸入圖像提取身份信息,結合文本描述生成對應視頻,支持人類和非人類身份以及多身份輸入。

  3. 音頻驅動視頻定制:在圖像驅動定制基礎上融入音頻,在文本描述場景中使主題與音頻同步行動。

  4. 視頻驅動視頻定制:實現基于身份定制的對象替換或插入,可將目標身份插入背景視頻。

(三)多模態數據構建

數據來源廣泛,涵蓋人類、動物、植物等八大類別。數據處理包括過濾和預處理、主體提取、視頻分辨率標準化、視頻標注和掩碼數據增強等步驟,確保數據質量以提升模型性能。

1. 數據過濾和預處理

利用 PySceneDetect 分割視頻為單鏡頭剪輯,使用 textbpn-plusplus 過濾含過多文本的剪輯,對視頻進行裁剪和對齊,并通過 koala-36M 模型進一步優化。

2. 主體提取
  • 單主體提取:使用 Qwen7B 模型標記幀中所有主體并提取 ID,用 Union-Find 算法計算 ID 出現頻率,選擇最高頻 ID 作為目標主體。利用 YOLO11X 和 InsightFace 分別進行人體分割和面部檢測。

  • 非人類主體提取:使用 QwenVL 提取視頻主體關鍵詞,并通過 GroundingSAM2 生成掩碼和邊界框。

  • 多主體提取:使用 QwenVL 和 Florence2 提取邊界框,再通過 GroundingSAM2 進行主體提取,并進行聚類以去除不包含所有主體的幀。

(四)圖像驅動視頻定制

  1. 基于 LLaVA 的文本 - 圖像交互:通過設計圖像嵌入模板和圖像追加模板,利用 LLaVA 的多模態交互理解能力,實現文本和圖像的有效融合。

  2. 身份增強:通過時間軸拼接圖像特征,并利用視頻模型在時間維度上的高效信息傳遞能力,增強視頻身份一致性。

  3. 多主體定制化:在單主體定制模型基礎上進行微調,為每個條件圖像分配不同的時間索引,以區分不同身份圖像。

(五)多模態主體中心視頻生成

1. 音頻驅動視頻定制

提出身份解耦音頻網(Identity-disentangled AudioNet),提取音頻特征并通過空間交叉注意力機制將其注入視頻特征,實現層次化音頻 - 視頻對齊。

2. 視頻驅動視頻定制

采用高效的視頻條件注入策略,先通過預訓練的因果 3D-VAE 對條件視頻進行編碼和壓縮,再通過特征對齊將其與視頻潛在表示融合,最后直接將對齊后的特征添加到視頻潛在表示中。

四、實驗

(一)實驗設置

使用以下指標評估視頻定制性能:

  • 身份一致性:使用 Arcface 檢測并提取參考人臉和生成視頻各幀的嵌入,計算平均余弦相似度。

  • 主體相似性:使用 YOLOv11 檢測并分割人類,再計算參考與結果的 DINO-v2 特征相似度。

  • 文本 - 視頻對齊:使用 CLIP-B 評估文本提示與生成視頻的對齊程度。

  • 時間一致性:使用 CLIPB 模型計算各幀與其相鄰幀及第一幀的相似度。

  • 動態程度:根據 VBench 測量物體的運動程度。

(二)單主體視頻定制化比較

1. 基線方法

將 HunyuanCustom 與包括商業產品(Vidu 2.0、Keling 1.6、Pika 和 Hailuo)和開源方法(Skyreels-A2 和 VACE)在內的多種先進視頻定制方法進行比較。

2. 定性比較

HunyuanCustom 在保持身份一致性的同時,具有更好的視頻質量和多樣性。

3. 定量比較

HunyuanCustom 在身份一致性和主體相似性方面表現最佳,與其他指標表現相當。

(三)多主體視頻定制化實驗和應用

1. 定性比較

HunyuanCustom 有效捕捉人類和非人類主體身份,生成符合提示的視頻,且視覺質量高、穩定性好。

2. 虛擬人廣告

HunyuanCustom 能夠生成具有良好互動性的廣告視頻,保持人物身份和產品細節,使視頻符合提示。

(四)音頻驅動視頻定制化實驗

1. 音頻驅動單主體定制化

HunyuanCustom 實現了在文本描述的場景和姿勢中,使角色說出相應音頻,生成多樣化的視頻。

2. 音頻驅動虛擬試穿

結合文本提示和音頻,生成具有指定服裝的人物視頻,同時保持身份一致性。

(五)視頻驅動視頻定制化實驗

在視頻主體替換任務中,與 VACE 和 Keling 相比,HunyuanCustom 有效避免邊界偽影,實現與視頻背景的無縫融合,并保持強烈的身份保護。

(六)消融研究

比較完整模型與三種消融模型(無 LLaVA、無身份增強、通過通道級拼接進行身份增強)的性能,結果表明 LLaVA 不僅傳遞提示信息,還提取關鍵身份特征;身份增強模塊在細化身份細節方面有效;時間拼接有助于通過強大的時間建模先驗有效捕捉目標信息,并最大限度地減少對生成質量的影響。

五、結論

HunyuanCustom 是一種新穎的多模態定制視頻生成模型,能夠實現主體一致的視頻生成,并支持圖像、音頻和視頻與文本驅動條件的結合。通過整合文本 - 圖像融合模塊、圖像 ID 增強模塊和高效的音頻及視頻特征注入過程,確保生成的視頻符合用戶特定要求,達到高保真度和靈活性。大量實驗證明,HunyuanCustom 在各項任務中均優于現有方法,在身份一致性、真實性和視頻 - 文本對齊方面表現出色,是可控視頻定制領域的領先解決方案,為未來可控視頻生成研究鋪平了道路,并拓展了人工智能生成內容(AIGC)在創意產業及其他領域的潛在應用。

六、核心技術匯總表格

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/80431.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/80431.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/80431.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

tryhackme——Enumerating Active Directory

文章目錄 一、憑據注入1.1 RUNAS1.2 SYSVOL1.3 IP和主機名 二、通過Microsoft Management Console枚舉AD三、通過命令行net命令枚舉四、通過powershell枚舉 一、憑據注入 1.1 RUNAS 當獲得AD憑證<用戶名>:<密碼>但無法登錄域內機器時&#xff0c;runas.exe可幫助…

Web3 學習全流程攻略

目錄 ?? Web3 學習全流程攻略 ?? 第一階段:打好基礎(Web3 入門) ?? 目標: ?? 學習內容: ? 推薦資源: ????? 第二階段:技術棧搭建(成為 Web3 開發者) ?? 目標: ?? 學習內容: ? 推薦資源: ?? 第三階段:構建完整 DApp(去中心化應用)…

Python程序打包為EXE文件的全面指南

Python程序打包為EXE文件的全面指南 Python程序打包為EXE文件是解決程序分發和環境依賴問題的有效方法。通過將Python腳本及其所有依賴項整合為單一可執行文件&#xff0c;用戶無需安裝Python解釋器即可直接運行程序&#xff0c;極大提升了應用的便攜性和用戶體驗。本文將深入…

22、城堡防御工事——React 19 錯誤邊界與監控

一、魔法護盾&#xff1a;錯誤邊界機制 1. 城墻結界&#xff08;Error Boundary&#xff09; // 客戶端錯誤邊界use client function useErrorBoundary() {const [error, setError] useState(null);?const handleError useCallback((error, errorInfo) > {setError(erro…

深入理解 Istio 的工作原理 v1.26.0

解讀最新版本的 Istio 源碼確實是一項龐大的工程&#xff0c;但我可以為你梳理出一個清晰的脈絡&#xff0c;并指出關鍵模塊和代碼路徑&#xff0c;幫助你深入理解 Istio 的工作原理。 我們主要關注 Istio 的核心組件 Istiod 和數據平面的 Envoy Proxy。 前提&#xff1a; Go…

Flask 調試的時候進入main函數兩次

在 Flask 開啟 Debug 模式時&#xff0c;程序會因為自動重載&#xff08;reloader&#xff09;的機制而啟動兩個進程&#xff0c;導致if __name__ __main__底層的程序代碼被執行兩次。以下說明其原理與常見解法。 Flask Debug 模式下自動重載機制 Flask 使用的底層服務器 Wer…

CSS--圖片鏈接垂直居中展示的方法

原文網址&#xff1a;CSS--圖片鏈接垂直居中展示的方法-CSDN博客 簡介 本文介紹CSS圖片鏈接垂直居中展示的方法。 圖片鏈接 問題復現 源碼 <html xml:lang"cn" lang"cn"><head><meta http-equiv"Content-Type" content&quo…

雷賽伺服L7-EC

1電子齒輪比&#xff1a; 0x608F-01 只讀&#xff0c;編碼器圈脈沖【0x20000】【131072】 //Er1B1齒輪比錯誤 ----------------------------------- 0x6092-01 圈脈沖 //重新使能生效【pa008必須是0】值越小&#xff0c;轉的越多 -----------------------…

在js中大量接口調用并發批量請求處理器

并發批量請求處理器 ? 設計目標 該類用于批量異步請求處理&#xff0c;支持&#xff1a; 自定義并發數請求節拍控制&#xff08;延時&#xff09;失敗重試機制進度回調通知 &#x1f527; 構造函數參數 new BulkRequestHandler({dataList, // 要處理的數據列表r…

K8S擴縮容及滾動更新和回滾

目錄&#xff1a; 1、滾動更新1、定義Deployment配置2、應用更新 2、版本回滾1. 使用kubectl rollout undo命令 3、更新暫停與恢復1、暫停更新2、更新鏡像&#xff08;例如&#xff0c;使用kubectl set image命令&#xff09;3、恢復更新 4、彈性擴縮容1、擴容命令2、縮容命令3…

力扣-24.兩兩交換鏈表中的結點

題目描述 給你一個鏈表&#xff0c;兩兩交換其中相鄰的節點&#xff0c;并返回交換后鏈表的頭節點。你必須在不修改節點內部的值的情況下完成本題&#xff08;即&#xff0c;只能進行節點交換&#xff09;。 class Solution { public:ListNode* swapPairs(ListNode* head) {i…

對遺傳算法思想的理解與實例詳解

目錄 一、概述 二、實例詳解 1&#xff09;問題描述與分析 2&#xff09;初始化種群 3&#xff09;計算種群適應度 4&#xff09;遺傳操作 5&#xff09;基因交叉操作 6&#xff09;變異操作 三、計算結果 四、總結 一、概述 遺傳算法在求解最優解的問題中最為常用&a…

計算機圖形學編程(使用OpenGL和C++)(第2版) 學習筆記 07.光照

1. 光照 1.1. 光源 光源類型特點優點缺點環境光整個場景均勻受光&#xff0c;無方向和位置。模擬全局光照&#xff0c;避免完全黑暗的區域。缺乏方向性和真實感&#xff0c;無法產生陰影。平行光光線方向平行&#xff0c;無位置&#xff0c;僅有方向。計算簡單&#xff0c;適…

Python在大數據機器學習模型的多模態融合:深入探索與實踐指南

一、多模態融合的全面概述 1.1 多模態融合的核心概念 多模態融合(Multimodal Fusion)是指將來自不同傳感器或數據源(如圖像、文本、音頻、視頻、傳感器數據等)的信息進行有效整合,以提升機器學習模型的性能和魯棒性。在大數據環境下,多模態融合面臨著獨特的挑戰和機遇: 數…

【PostgreSQL數據分析實戰:從數據清洗到可視化全流程】6.4 時間序列分析(窗口函數處理時間數據)

&#x1f449; 點擊關注不迷路 &#x1f449; 點擊關注不迷路 &#x1f449; 點擊關注不迷路 文章大綱 PostgreSQL時間序列分析&#xff1a;窗口函數處理時間數據實戰一、時間序列分析核心場景與窗口函數優勢1.1 業務場景需求1.2 窗口函數核心優勢 二、窗口函數基礎&#xff1a…

window 顯示驅動開發-配置內存段類型

視頻內存管理器&#xff08;VidMm&#xff09;和顯示硬件僅支持某些類型的內存段。 因此&#xff0c;內核模式顯示微型端口驅動程序&#xff08;KMD&#xff09;只能配置這些類型的段。 KMD 可以配置內存空間段和光圈空間段&#xff0c;其中不同&#xff1a; 內存空間段由保存…

筆記,麥克風的靈敏度

麥克風的“靈敏度&#xff08;Sensitivity&#xff09;”決定了它捕捉聲音細節的能力。想象麥克風是一只有耳朵的生物。高靈敏度麥克風像長著“超級順風耳”的精靈&#xff0c;能聽見花瓣飄落的聲音、遠處樹葉的沙沙聲&#xff0c;甚至你心跳的微弱震動。適合錄音棚里捕捉歌手的…

lvm詳細筆記

LVM簡介 邏輯卷管理器&#xff0c;是Linux 系統中用于管理磁盤儲存的關鍵技術。 LVM 則打破了磁盤分區一旦確定&#xff0c;其大小調整往往較為復雜&#xff0c;且難以靈活應對業務變化這種限制&#xff0c;它允許用戶將多個物理分區組合卷組。例如&#xff0c;系統中的多個物…

rust-candle學習筆記10-使用Embedding

參考&#xff1a;about-pytorch candle-nn提供embedding()初始化Embedding方法: pub fn embedding(in_size: usize, out_size: usize, vb: crate::VarBuilder) -> Result<Embedding> {let embeddings vb.get_with_hints((in_size, out_size),"weight",cr…

Python小酷庫系列:Munch,用對象的訪問方式訪問dict

Munch&#xff0c;用對象的訪問方式訪問dict 基本使用1、創建一個 Munch 對象2、使用字典初始化3、訪問不存在的字段4、嵌套結構支持5、合并操作6、應用場景說明 進階功能1、嵌套寫入&#xff1a;創建不存在的子對象2、序列化&#xff08;轉回 dict&#xff09;3、深度拷貝結構…