MultiTalk 是一種音頻驅動的多人對話視頻生成模型

TL;DR:MultiTalk 是一種音頻驅動的多人對話視頻生成。它支持多人對話💬、唱🎤歌、交互控制和👬卡通🙊的視頻創建。

視頻演示

?001.mp4?

?004.mp4?

?003.mp4?

?002.mp4?

?005.mp4?

?006.mp4?

?003.mp4?

?002.mp4?

?003.mp4?

? 主要特點

我們提出了?MultiTalk?,一種用于音頻驅動的多人對話視頻生成的新穎框架。給定一個多流音頻輸入、一個參考圖像和一個提示,MultiTalk 會生成一個視頻,其中包含跟隨提示的交互,并與音頻保持一致的嘴唇動作。

  • 💬?真實的對話?- 支持單人和多人生成
  • 👥?交互式角色控制?- 通過提示引導虛擬人
  • 🎤?泛化表演?- 支持生成卡通人物和歌唱
  • 📺?分辨率靈活性:任意縱橫比下的480p和720p輸出
  • ???長視頻生成:支持最長 15 秒的視頻生成

🧱模型準備

1. 模型下載
模型下載鏈接筆記
廣域網2.1-I2V-14B-480P🤗?擁抱臉基本模型
中文-WAV2VEC2-基🤗?擁抱臉音頻編碼器
美原-MultiTalk🤗?擁抱臉我們的音頻條件權重

使用 huggingface-cli 下載模型:

huggingface-cli download Wan-AI/Wan2.1-I2V-14B-480P --local-dir ./weights/Wan2.1-I2V-14B-480P
huggingface-cli download TencentGameMate/chinese-wav2vec2-base --local-dir ./weights/chinese-wav2vec2-base
huggingface-cli download MeiGen-AI/MeiGen-MultiTalk --local-dir ./weights/MeiGen-MultiTalk
2. 將 MultiTalk 模型鏈接或復制到 wan2.1-I2V-14B-480P 目錄

鏈接方式:

mv weights/Wan2.1-I2V-14B-480P/diffusion_pytorch_model.safetensors.index.json weights/Wan2.1-I2V-14B-480P/diffusion_pytorch_model.safetensors.index.json_old
sudo ln -s {Absolute path}/weights/MeiGen-MultiTalk/diffusion_pytorch_model.safetensors.index.json weights/Wan2.1-I2V-14B-480P/
sudo ln -s {Absolute path}/weights/MeiGen-MultiTalk/multitalk.safetensors weights/Wan2.1-I2V-14B-480P/

或者,通過以下方式復制:

mv weights/Wan2.1-I2V-14B-480P/diffusion_pytorch_model.safetensors.index.json weights/Wan2.1-I2V-14B-480P/diffusion_pytorch_model.safetensors.index.json_old
cp weights/MeiGen-MultiTalk/diffusion_pytorch_model.safetensors.index.json weights/Wan2.1-I2V-14B-480P/
cp weights/MeiGen-MultiTalk/multitalk.safetensors weights/Wan2.1-I2V-14B-480P/

🔑 快速推理

我們的型號兼容 480P 和 720P 分辨率。當前代碼僅支持 480P 推理。720P 推理需要多個 GPU,我們將很快提供更新。

一些提示

  • 唇形同步精度: 音頻 CFG 在 3-5 之間效果最佳。增加音頻 CFG 值以獲得更好的同步。
  • 視頻剪輯長度:該模型以 25 FPS 的速度在 81 幀視頻上進行訓練。為了獲得最佳的提示跟隨性能,請在 81 幀處生成剪輯。最多可以生成 201 幀,但較長的剪輯可能會降低提示跟隨性能。
  • 長視頻生成:音頻 CFG 會影響各段落之間的色調一致性。將此值設置為 3 可減輕色調變化。
  • 采樣步驟:如果你想快速生成視頻,你可以將采樣步驟減少到 10 個甚至 10 個,這不會損害嘴唇同步的準確性,但會影響動作和視覺質量。采樣步驟越多,視頻質量越好。
1. 單人
1) 生成一個 1 塊的短視頻
python generate_multitalk.py --ckpt_dir weights/Wan2.1-I2V-14B-480P \--wav2vec_dir 'weights/chinese-wav2vec2-base' --input_json examples/single_example_1.json --sample_steps 40 --frame_num 81 --mode clip --save_file single_exp
2) 長視頻生成
python generate_multitalk.py --ckpt_dir weights/Wan2.1-I2V-14B-480P \--wav2vec_dir 'weights/chinese-wav2vec2-base' --input_json examples/single_example_1.json --sample_steps 40 --mode streaming --save_file single_long_exp
2. 多人
1) 生成一個 1 塊的短視頻
python generate_multitalk.py --ckpt_dir weights/Wan2.1-I2V-14B-480P \--wav2vec_dir 'weights/chinese-wav2vec2-base' --input_json examples/multitalk_example_1.json --sample_steps 40 --frame_num 81 --mode clip --save_file multi_exp
2) 長視頻生成
python generate_multitalk.py --ckpt_dir weights/Wan2.1-I2V-14B-480P \--wav2vec_dir 'weights/chinese-wav2vec2-base' --input_json examples/multitalk_example_2.json --sample_steps 40 --mode streaming --save_file multi_long_exp

MultiTalk,這是一種用于音頻驅動的多人對話視頻生成的新穎框架。給定一個多流音頻輸入、一個參考圖像和一個提示,MultiTalk 會生成一個視頻,其中包含跟隨提示的交互,并與音頻保持一致的嘴唇動作。

生成卡通視頻

生成歌唱視頻

生成遵循指令的視頻

在一個舒適、溫暖的房間里,尼克·王爾德(Nick Wilde)——一只帶著調皮的笑容的狐貍——坐在朱迪·霍普斯(Judy Hopps)對面,朱迪·霍普斯(Judy Hopps)是一只表情堅定的兔子。 兩人都穿著休閑;Nick 穿著綠色襯衫和條紋領帶,Judy 穿著藍色衣服,耳機放在桌子上。 他們之間的木桌上放著一個迪士尼品牌的杯子。 背景以質樸的內飾為特色,配有燈、窗戶和各種家居用品,營造出溫馨的氛圍。 當 Nick 拿起杯子并輕輕觸摸 Judy 的頭部時,一個中景鏡頭捕捉到了他們的互動,暗示了一段友情和聯系。

一男一女坐在戶外的桌子旁,正在進行交談。 這位女士身穿淺粉色上衣和白色開衫,手里拿著一個紅色的罩杯 咖啡,啜飲一口,然后將其放回碟子上。那個男人,穿著 一件條紋襯衫套在一件白色 T 恤上,全神貫注地看著他的智能手機 專心致志地向下。桌子上裝飾著兩杯紅色咖啡和一個盤子 配羊角面包。背景是一條迷人的歐洲街道,色彩柔和。 建筑物、綠色植物和一把半開著的綠色傘。場景捕獲 一個隨意的日常時刻,擁有溫暖、誘人的氛圍。

兩個人坐在工作室的白色桌子旁,工作室里有藍白相間的吸音墻板。 左邊的一名男子穿著深色休閑上衣,手里拿著一個咖啡杯。 右邊的女人身邊放著一副錄音室耳機。 男人在說話,而女人在聽,偶爾點頭。 女人拿起黑色耳機。大型壁掛式電視顯示技術接口。 該場景暗示了在明亮的工作室環境中配備專業視聽設備的協作工作空間。

More creative videos

Abstract

Audio-driven human animation methods, such as talking head and talking body generation, have made remarkable progress in generating synchronized facial movements and appealing visual quality videos. However, existing methods primarily focus on single human animation and struggle with multi-stream audio inputs, facing incorrect binding problems between audio and persons. Additionally, they exhibit limitations in instruction-following capabilities. To solve this problem, in this paper, we propose a novel task: Multi-Person Conversational Video Generation, and introduce a new framework, MultiTalk, to address the challenges during multi-person generation. Specifically, for audio injection, we investigate several schemes and propose the Label Rotary Position Embedding (L-RoPE) method to resolve the audio and person binding problem. Furthermore, during training, we observe that partial parameter training and multi-task training are crucial for preserving the instruction-following ability of the base model. MultiTalk achieves superior performance compared to other methods on several datasets, including talking head, talking body, and multi-person datasets, demonstrating the powerful generation capabilities of our approach.

Method

In this work, we propose MultiTalk, an audio-driven video generation framework. Our framework incorporates an additional audio cross-attention layer to support audio conditions. To achieve multi-person conversational video generation, we propose a Label Rotary Position Embedding (L-RoPE) for multi-stream audio injection.

    MultiTalk,一個音頻驅動的視頻生成框架。 我們的框架包含一個額外的音頻交叉注意力層來支持音頻條件。 為了實現多人對話視頻的生成,我們提出了一種用于多流音頻注入的標簽旋轉位置嵌入 (L-RoPE)。

    本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
    如若轉載,請注明出處:http://www.pswp.cn/web/83580.shtml
    繁體地址,請注明出處:http://hk.pswp.cn/web/83580.shtml
    英文地址,請注明出處:http://en.pswp.cn/web/83580.shtml

    如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

    相關文章

    實現無縫連接:EtherNet/IP轉CANopen網關助力汽車制造智能化未來

    在如今這個高度自動化的汽車制造行業,設備之間的互操作性變得越來越重要,在一條自動化裝配線上,貝加萊的PLC和CANopen伺服驅動器以及通過EtherNet/IP轉CANopen網關(穩聯技術的WL-EIP-COP)緊密合作,帶來了精…

    音視頻之H.264的句法和語義

    系列文章: 1、音視頻之視頻壓縮技術及數字視頻綜述 2、音視頻之視頻壓縮編碼的基本原理 3、音視頻之H.264/AVC編碼器原理 4、音視頻之H.264的句法和語義 在編碼器輸出的碼流中,數據的基本單位是句法元素。每個句法元素由若干比特組成,它表…

    M - 中位數

    Description 給定一個長度為 NN 的非負整數序列 AA,對于前奇數項求中位數。 Input 第一行一個正整數 NN。 第二行 NN 個正整數 A1…NA1…N?。 Output 共 ?N12??2N1?? 行,第 ii 行為 A1…2i?1A1…2i?1? 的中位數。 Sample 1 InputcopyOu…

    醫療耗材領域LCS4110R加密芯片應用

    醫療器械和醫美器械應用廣泛,需求增加,發展迅速。醫療器械和醫美器械的使用關系到人民群眾的健康安全,以至于生命安全。假冒偽劣器械產品的混入導致對患者的健康危害,同時也損害了設備廠商的利益。防復制加密認證芯片LCS4110R應用…

    數據結構與算法:貪心(一)

    前言 有一說一貪心的題目真的ex,想不到就是想不到…… 一、貪心 貪心就是通過在過程中每次達到局部最優,從而在最后實現整體最優。貪心的題目經常要用到排序和堆。 越打cf越能感受到貪心的奇妙,很吃狀態和靈感。解題的過程中往往依賴舉大量例子,然后進行總結和歸納,然…

    5、Spring AI(MCPServer+MCPClient+Ollama)開發環境搭建_第一篇

    前言: 該開發環境是在 3、后端持久化(SpringBoot3.5.0MybatisPlus3.5.5mysql8.4.0)環境搭建 上進行改造的,用到了后端持久化,主要改造的地方為數據庫把email字段改為height(身高),…

    個典型的 Java 泛型在反序列化場景下“類型擦除 + 無法推斷具體類型”導致的隱性 Bug

    今天遇到一個問題:一個典型的 Java 泛型在反序列化場景下“類型擦除 無法推斷具體類型”導致的隱性 Bug,尤其是在 RPC(如 Dubbo、Feign 等)和 本地 JVM 內直連調用共存時,這種問題會顯現得非常明顯。 A 服務暴露了一…

    開發指南121-微服務的彈性伸縮

    平臺的后臺服務表現形式就是各種各樣的微服務。微服務可以部署在不同的機器上。單一服務的伸縮很簡單: 部署在不同機器上,直接啟動關閉即可。 部署在同一機器上,可以復制為多個不同目錄,其中jar包,啟動文件是完全一樣…

    【C++特殊工具與技術】優化內存分配(六):運行時類型識別

    目錄 一、RTTI 的核心機制與設計背景 1.1 RTTI 的設計目標 1.2 RTTI 的啟動條件 二、dynamic_cast:動態類型轉換 2.1 語法與核心特性 2.2 轉換場景詳解 2.3 引用類型轉換與異常處理 2.4 性能注意事項 三、typeid:類型信息查詢 3.1 語法與核心特…

    USB串口通信、握手協議、深度學習等技術要點

    基于OpenMV的智能車牌識別系統:從硬件到算法的完整實現 前言 本文將詳細介紹一個基于OpenMV微控制器的智能車牌識別系統的設計與實現。該系統集成了嵌入式視覺處理、串口通信協議、深度學習OCR識別等多種技術,實現了從圖像采集到車牌識別的完整流程。 …

    獵板PCB:手機主板pcb需要做哪些可靠性測試

    在智能手機高度普及的今天,一塊指甲蓋大小的主板承載著通信、計算、影像等核心功能。當消費者為新機性能歡呼時,鮮少有人關注到主板PCB(印刷電路板)在幕后經歷的嚴苛考驗。這些隱藏在金屬外殼下的精密線路,需要經過多輪…

    Java并發編程實戰 Day 21:分布式并發控制

    【Java并發編程實戰 Day 21】分布式并發控制 文章簡述: 在高并發和分布式系統中,傳統的線程級鎖已無法滿足跨節點的同步需求。本文深入講解了分布式并發控制的核心概念與技術方案,包括分布式鎖、一致性算法(如Paxos、Raft&#x…

    C語言文件操作與預處理詳解

    目錄 文件操作文件基本概念文件指針文件打開模式文件讀取操作字符讀取字符串讀取格式化讀取二進制讀取 文件寫入操作字符寫入字符串寫入格式化寫入二進制寫入 文件定位操作文件錯誤處理 預處理預處理基本概念常見預處理指令文件包含指令宏定義簡單宏帶參數的宏字符串化操作符(#…

    水庫大壩安全監測之滲流監測

    水庫大壩的滲流狀況直接關系到其結構穩定性與安全運行。滲流可能引發壩體內部土體的滲透變形,如管涌、流土等現象,削弱壩體強度,嚴重時甚至導致大壩垮塌,威脅下游人民生命財產安全。通過滲流監測,能夠實時掌握壩體及壩…

    windows使用命令行查看進程信息

    在 Windows 操作系統中,您可以使用多種命令行工具來查看進程信息。以下是幾種常用方法: 1. 使用 tasklist 命令(最常用) 查看所有進程的基本信息: tasklist輸出示例: 映像名稱 PID…

    【C#】多級緩存與多核CPU

    多級緩存(如CPU的L1/L2/L3緩存)與多核處理器之間存在緊密的協同與競爭關系,直接影響系統性能。以下是關鍵影響及優化策略: 一、緩存層級與多核的協作機制 緩存結構 L1緩存 私有緩存:每個CPU核心獨享,容量小…

    PostgreSQL的擴展adminpack

    PostgreSQL的擴展adminpack adminpack 是 PostgreSQL 提供的一個管理擴展,它包含多個實用函數,幫助數據庫管理員執行文件系統操作和維護任務。這個擴展通常由數據庫超級用戶使用,提供了一些服務器端的文件訪問功能。 一、adminpack 擴展概述…

    Unity | AmplifyShaderEditor插件基礎(第九集:旗子進階版)

    目錄 一、👋🏻前言 二、準備工作 1.下載安裝插件ProBuilder 2.下載安裝插件Polybrush 3.固定原理 4.旗子 三、頂點上色 1.創建一個可以頂點上色的材質 2.開始上色 a.上色功能說明 b.全部上色 c.調整刷子 四、shader的設置 1.幅度添加 2.頂…

    Java 實現 Excel 轉化為 PDF

    引言 在實際開發中,將 Excel 文件轉化為 PDF 格式是一項常見需求。例如在需要共享數據報表時,PDF 格式具有更好的兼容性和安全性。GrapeCity Documents for Excel(GcExcel)為 Java 開發者提供了強大的工具,可輕松實現…

    Spring Boot3批式訪問Dify聊天助手接口

    Spring Boot3批式訪問Dify聊天助手接口 前言 之前已經配置好Dify1.4.1及LM Studio集成: https://lizhiyong.blog.csdn.net/article/details/148607462 現在就可以借助Spring Boot3去訪問Dify的后端接口,讓前端展示大模型的返回內容。這是我等大數據資…