中山大學美團港科大提出首個音頻驅動多人對話視頻生成MultiTalk,輸入一個音頻和提示,即可生成對應唇部、音頻交互視頻。

由中山大學、美團、香港科技大學聯合提出的MultiTalk是一個用于音頻驅動的多人對話視頻生成的新框架。給定一個多流音頻輸入和一個提示,MultiTalk 會生成一個包含提示所對應的交互的視頻,其唇部動作與音頻保持一致。

相關鏈接

  • 論文:https://arxiv.org/pdf/2505.22647

  • 主頁:https://meigen-ai.github.io/multi-talk/

  • 代碼:https://github.com/MeiGen-AI/MultiTalk

論文介紹

音頻驅動的人體動畫方法,例如說話頭部和說話身體生成,在生成同步面部動作和引人入勝的視覺質量視頻方面取得了顯著進展。然而,現有方法主要側重于單人動畫,難以處理多流音頻輸入,存在音頻與人物綁定不正確的問題。此外,它們在指令遵循能力方面也存在局限性。

為了解決這一問題,本文提出了一項新的任務:多人對話視頻生成,并引入了一個新框架 MultiTalk 來應對多人生成過程中的挑戰。具體來說,對于音頻注入,我們研究了多種方案,并提出了標簽旋轉位置嵌入 (L-RoPE) 方法來解決音頻和人物綁定問題。此外,在訓練過程中,我們觀察到部分參數訓練和多任務訓練對于保持基礎模型的指令遵循能力至關重要。MultiTalk 在多個數據集(包括說話頭部、說話身體和多人數據集)上取得了優于其他方法的性能,證明了我們方法強大的生成能力。

方法

論文提出了一個音頻驅動的視頻生成框架 MultiTalk。該框架新增了一個音頻交叉注意力層,以支持音頻條件。為了實現多人對話視頻生成,論文提出了一種用于多流音頻注入的標簽旋轉位置嵌入 (L-RoPE)。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/82849.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/82849.shtml
英文地址,請注明出處:http://en.pswp.cn/web/82849.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

iOS 門店營收表格功能的實現

iOS 門店營收表格功能實現方案 核心功能需求 數據展示:表格形式展示門店/日期維度的營收數據排序功能:支持按營收金額、增長率等排序篩選功能:按日期范圍/門店/區域篩選交互操作:點擊查看詳情、數據刷新數據可視化:關…

怎么解決cesium加載模型太黑,程序崩潰,不顯示,位置不對模型太大,Cesium加載gltf/glb模型后變暗

有時候咱們cesium加載模型時候型太黑,程序崩潰,不顯示,位置不對模型太大怎么辦 需要處理 可以聯系Q:424081801 謝謝 需要處理 可以聯系Q:424081801 謝謝

移植driver_monitoring_system里的MobileNet到RK3588

根據下面的內容寫一篇技術博客,要求增加更多的解釋,讓普通讀者也能了解為什么這樣做,具體怎么做 移植driver_monitoring_system里的MobileNet到RK3588 一、背景二、操作步驟2.1 下載源碼2.2 Tensorflow轉成ONNX2.2.1 在x86上創建容器,安裝依賴2.2.2 保存為saved-model2.2.3 sav…

低代碼平臺前端頁面表格字段綁定與后端數據傳輸交互主要有哪些方式?華為云Astro在這方面有哪些方式?

目錄 ?? 一、低代碼平臺中常見的數據綁定與交互方式 1. 接口綁定(API 調用) 2. 數據源綁定(DataSource) 3. 變量中轉(臨時變量 / 頁面狀態) 4. 數據模型綁定(模型驅動) ?? 二、華為云 Astro 輕應用的實現方式 ? 1. 數據源綁定(API服務+API網關) ? 2. 變…

《doubao-lite-32k 模型緩存機制使用指南》

doubao-lite-32k 模型緩存機制使用指南 一、緩存概述 1. 緩存作用 doubao-lite-32k 模型的緩存(Session 緩存)主要用于多輪對話場景,實現以下功能: 存儲歷史對話信息(Token),避免重復傳輸上下文,減少計算資源消耗。 優化長上下文(最長 32K Token)處理效率,提升多…

量子計算突破:新型超導芯片重構計算范式

??2024年IBM 1281量子比特超導芯片實現0.001%量子錯誤率,計算速度達經典超算2.5億倍??。本文解析: ??物理突破??:鉭基超導材料使量子相干時間突破??800μs??(提升15倍)??架構革命??:十字形…

云計算 Linux Rocky day03(which、快捷鍵、mount、家目錄、ls、alias、mkdir、rm、mv、cp、grep)

云計算 Linux Rocky day03(which、快捷鍵、mount、家目錄、ls、alias、mkdir、rm、mv、cp、grep) 目錄 云計算 Linux Rocky day03(which、快捷鍵、mount、家目錄、ls、alias、mkdir、rm、mv、cp、grep)1.which找到命令所對應的程序…

負載均衡LB》》HAproxy

Ubuntu 22.04 安裝HA-proxy 官網 資料 # 更新系統包列表: sudo apt update # 安裝 HAproxy sudo apt install haproxy -y # 驗證安裝 haproxy -v # 如下圖配置 Haproxy ##### 基于IP的訪問控制 acl ctrl_ip src 172.25.254.1 172.25.254.20 192.168.0.0/24 #…

輕創業技術方案:基于格行雙目攝像頭的代理系統設計!低成本創業項目有哪些?2025輕資產創業項目排行榜前十名!0成本創業項目推薦!格行代理項目靠譜嗎?

沒本金,沒資源,沒人脈,想掙錢且有持續穩定的現金流,只有一條路就是輕創業!這里說個表哥的真實創業故事。 我表哥90后,普通農村人,中專畢業跟朋友一起外出打工,剛開始也是吃喝玩樂不…

【推薦算法】Embedding+MLP:TensorFlow實現經典深度學習推薦模型詳解

EmbeddingMLP:TensorFlow實現經典深度學習模型詳解 1. 算法邏輯模型結構和工作流程關鍵組件 2. 算法原理與數學推導Embedding層原理MLP前向傳播反向傳播與優化 3. 模型評估常用評估指標評估方法 4. 應用案例:推薦系統CTR預測問題描述模型架構性能優化 5.…

黑馬點評【基于redis實現共享session登錄】

目錄 一、基于Session實現登錄流程 1.發送驗證碼: 2.短信驗證碼登錄、注冊: 3.校驗登錄狀態: 4.session共享問題 4.1為什么會出現 Session 集群共享問題? 4.2常見解決方案 1. 基于 Cookie 的 Session(客戶端存儲&#xff0…

Python讀取阿里法拍網的html+解決登錄cookie

效果圖 import time from selenium import webdriver from selenium.webdriver.chrome.options import Options from selenium.webdriver.chrome.service import Service from webdriver_manager.chrome import ChromeDriverManager from lxml import etreedef get_taobao_auct…

【win | docker開啟遠程配置】使用 SSH 隧道訪問 Docker的前操作

在主機A pycharm如何連接遠程主機B win docker? 需要win docker配置什么? 快捷配置-主機B win OpenSSH SSH Server https://blog.csdn.net/z164470/article/details/121683333 winR,打開命令行,輸入net start sshd,啟動SSH。 或者右擊我的電腦&#…

Cursor生成Java的架構設計圖

文章目錄 整體說明一、背景二、前置條件三、生成 Promt四、結果查看五、結果編輯 摘要: Cursor生成Java的架構設計圖 關鍵詞: Cursor、人工智能 、開發工具、Java 架構設計圖 整體說明 Cursor 作為現在非常好用的開發工具,非常的火爆&#…

1Panel運行的.net程序無法讀取系統字體(因為使用了docker)

問題來源 我之前都是使用的寶塔面板,之前我也部署過我的程序,就沒有什么問題,但是上次我部署我的程序的時候,就提示無法找到字體Arial。 我的程序中使用該字體生成驗證碼。 我多次安裝了微軟的字體包,但是依舊沒有效…

面試總結。

一、回流(重排)與重繪(Repaint) 優化回答: 概念區分: 回流(Reflow/Relayout):當元素的幾何屬性(如寬高、位置、隱藏 / 顯示)發生改變時&#xff…

TensorFlow深度學習實戰(20)——自組織映射詳解

TensorFlow深度學習實戰(20)——自組織映射詳解 0. 前言1. 自組織映射原理2. 自組織映射的優缺點3. 使用自組織映射實現顏色映射小結系列鏈接 0. 前言 自組織映射 (Self-Organizing Map, SOM) 是一種無監督學習算法,主要用于高維數據的降維、…

Go內存泄漏排查與修復最佳實踐

一、引言 即使Go語言擁有強大的垃圾回收機制,內存泄漏仍然是我們在生產環境中經常面臨的挑戰。與傳統印象不同,垃圾回收并不是萬能的"記憶清道夫",它只能處理那些不再被引用的內存,而無法識別那些仍被引用但實際上不再…

LeetCode刷題 -- 542. 01矩陣 基于 DFS 更新優化的多源最短路徑實現

LeetCode刷題 – 542. 01矩陣 基于 DFS 更新優化的多源最短路徑實現 題目描述簡述 給定一個 m x n 的二進制矩陣 mat,其中: 每個元素為 0 或 1返回一個同樣大小的矩陣 ans,其中 ans[i][j] 表示 mat[i][j] 到最近 0 的最短曼哈頓距離 算法思…

MySQL用戶遠程訪問權限設置

mysql相關指令 一. MySQL給用戶添加遠程訪問權限1. 創建或者修改用戶權限方法一:創建用戶并授予遠程訪問權限方法二:修改現有用戶的訪問限制方法三:授予特定數據庫的特定權限 2. 修改 MySQL 配置文件3. 安全最佳實踐4. 測試遠程連接5. 撤銷權…