音頻驅動數字人人臉模型

1.LatentSync: Taming Audio-Conditioned Latent Diffusion Models for Lip Sync with SyncNet Supervision 字節 2024

文章地址:https://arxiv.org/pdf/2412.09262

代碼地址:https://github.com/bytedance/LatentSync? ? 訓練推理都有

2.wan2.2-s2v 阿里通義 20250826

文章:[2508.18621] Wan-S2V: Audio-Driven Cinematic Video Generation

代碼:https://github.com/Wan-Video/Wan2.2?只有推理

3.Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation 中山大學an美團20250528

文章:https://arxiv.org/pdf/2505.22647

代碼:https://github.com/MeiGen-AI/MultiTalk?只有推理

4.Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency

字節and浙大?支持Singing

文章:https://arxiv.org/pdf/2409.02634? ?ICLR2025

代碼:只有demo?Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency

5.EchoMimic: Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditioning

AAAI 2025 20240711 螞蟻?Pretrained models with better sing performance to be released

項目EchoMimic: Lifelike Audio-Driven Portrait Animations

文章[2407.08136] EchoMimic: Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditions

代碼https://github.com/antgroup/echomimic?只有推理

EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation.?GitHub

20250227?CVPR 2025

EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation.?GitHub? 20250708

6.EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions 20250227 阿里 ECCV2024

項目EMO

文章:[2402.17485] EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

代碼:沒內容GitHub - HumanAIGC/EMO: Emote Portrait Alive: Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

EMO2: End-Effector Guided Audio-Driven Avatar Video Generation 20250118阿里

項目:EMO2。支持Singing

文章:[2501.10687] EMO2: End-Effector Guided Audio-Driven Avatar Video Generation

7.VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

Microsoft Research Asia 20240416?NeurIPS 2024 (Oral)?

項目:https://www.microsoft.com/en-us/research/project/vasa-1/

文章:[2404.10667] VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

8.FaceFormer: Speech-Driven 3D Facial Animation with Transformers,?CVPR 2022.

文章:https://arxiv.org/pdf/2112.05329

代碼:https://github.com/EvelynFan/FaceFormer?tab=readme-ov-file?有訓練代碼

9.SkyReels-Audio: Omni Audio-Conditioned Talking Portraits in Video Diffusion Transformers MimicMotion? ??SkyReels Team, Skywork AI 20250601 支持唱歌

項目SkyReels-Audio

文章https://arxiv.org/pdf/2506.00830

代碼https://skyworkai.github.io/skyreels-audio.github.io/?僅推理

SkyReels-A1: Expressive Portrait Animation in Video Diffusion Transformers

SkyReels-A2: Compose Anything in Video Diffusion Transformers

SkyReels-A3:Towards Ultra-Long Audio-Conditioned Video Generation

10.InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing

20250819 多家單位

項目InfiniteTalk

文章[2508.14033] InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing

代碼:只有推理GitHub - MeiGen-AI/InfiniteTalk: ??Unlimited-length talking video generation?? that supports image-to-video and video-to-video generation

11.MusicFace: Music-driven expressive singing face synthesis

20240201 廈大 沒開源

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10897677&tag=1[2508.14033] InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing

12.FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis

阿里 MM2025

文章https://arxiv.org/pdf/2504.04842

代碼 https://github.com/Fantasy-AMAP/fantasy-talking只有推理

13.HHunyuanVideo-Avatar: High-Fidelity Audio-Driven Human Animation for Multiple Characters騰訊混元 20250603

文章https://arxiv.org/pdf/2505.20156

代碼https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar?只有推理

14.DiffSynth-Studio

開源項目GitHub - modelscope/DiffSynth-Studio: Enjoy the magic of Diffusion models!

15.SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation??

CVPR2023

文章[2211.12194] SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation

代碼 僅推理GitHub - OpenTalker/SadTalker: [CVPR 2023] SadTalker:Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation

16.Speech2Vid

17.Wav2Lip

18.DeepFaceLive

19.Easy-Wav2

20.VideoReTalking

21.UniTalker: Conversational Speech-Visual Synthesis

20250807 MM2025

文章

代碼https://github.com/AI-S2-Lab/UniTalker?沒內容

數據集

1.VOCASET?VOCA

2.BIWI dataset?Biwi 3D Audiovisual Corpus of Affective Communication

3.Flow-guided One-shot Talking Face Generation with a High-resolution Audio-visual Dataset? 2021CVPR 網易伏羲

4.MMhead MM2025?https://openreview.net/pdf?id=L99kOQk12i

專門唱歌

1.SingAvatar: High-fidelity Audio-driven Singing Avatar Synthesis

ICME2024

文章https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10687925

說是會開源,實際沒開源

2.MusicFace: Music-driven Expressive?Singing?Face Synthesis 上面有 沒開源

數據集

1.SingingHead: A Large-scale 4D Dataset for Singing Head Animation

20240714 上海交大?https://openreview.net/profile?id=~Sijing_Wu1

文章https://arxiv.org/pdf/2312.04369

地址GitHub - wsj-sjtu/SingingHead: Official implentation of SingingHead: A Large-scale 4D Dataset for Singing Head Animation. (TMM 25)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/921709.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/921709.shtml
英文地址,請注明出處:http://en.pswp.cn/news/921709.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

CentOS部署ELK Stack完整指南

文章目錄🚀 ELK Stack 部署詳解(CentOS 7/8)📦 一、環境準備1. 關閉防火墻(或開放端口)2. 關閉 SELinux3. 安裝基礎依賴4. 驗證 Java🔽 二、下載并安裝 ELK 組件1. 導入 Elastic GPG 密鑰2. 創建…

Spring Boot 攔截器(Interceptor)與過濾器(Filter)有什么區別?

在 Spring Boot 項目中,我們經常會遇到需要在請求處理前后執行一些通用邏輯的場景,比如記錄日志、權限校驗、全局異常處理等。此時,我們通常會面臨兩種選擇:過濾器(Filter) 和 攔截器(Intercept…

【技術教程】如何將文檔編輯器集成至基于Java的Web應用程序

在如今的企業協作場景中,“文檔” 早已不是簡單的文字載體!從項目需求文檔的多人實時修改,到財務報表的在線批注,再到合同草案的版本追溯,用戶越來越需要在 Web 應用內直接完成 “編輯 - 協作 - 存儲” 全流程。 但很…

多模態大模型Keye-VL-1.5發布!視頻理解能力更強!

近日,快手正式發布了多模態大語言模型Keye-VL-1.5-8B。 與之前的版本相比,Keye-VL-1.5的綜合性能實現顯著提升,尤其在基礎視覺理解能力方面,包括視覺元素識別、推理能力以及對時序信息的理—表現尤為突出。Keye-VL-1.5在同等規模…

洗完頭后根據個人需求選擇合適的自然風干 | 電吹風 (在保護發質的同時,也能兼顧到生活的便利和舒適。)

文章目錄 引言 I 選合適的方式讓頭發變干 時間充裕,不需要做造型,選擇自然風干 使用電吹風,比較推薦的做法 II 自然風干 天冷可能刺激頭皮 III 電吹風吹干 容易造型 影響頭皮健康 損傷發質 科普 頭皮的微觀結構 頭發絲 引言 吹風吹干:容易造型,但損傷發質、影響頭皮健康 …

GPS汽車限速器有哪些功能?主要運用在哪里?

GPS 汽車限速器是一種結合全球衛星定位(GPS)技術、車速采集技術與車輛控制 / 預警邏輯的設備,核心目標是通過技術手段限制車輛行駛速度,減少超速引發的交通事故,并輔助車輛管理。其功能與應用場景高度匹配不同用戶的 “…

Python從入門到精通_01_python基礎

1 源代碼格式在python文件的第一行,輸入以下語句,可以將python文件的編碼格式設置為utf-8#-*- coding:utf-8 -*-2 輸入輸出input():輸入,無論輸入的是什么類型數據,最后都是字符串類型print(*args, sep , end\n, fileNone, flushF…

使用CI/CD部署項目(前端Nextjs)

寫在前面:在github上使用CI/CD部署Nextjs項目,具體配置可以按照自己的實際的修改 這是我的項目配置,僅供參考 后端項目可以參考:使用CI/CD部署后端項目 正文開始 項目名(PROJECT_NAME)- CI/CD 部署指南…

Java全棧工程師面試實錄:從基礎到實戰的全面解析

Java全棧工程師面試實錄:從基礎到實戰的全面解析 面試官:李明(資深技術負責人) 應聘者:張宇(28歲,碩士學歷,5年開發經驗) 第一輪:Java語言與JVM基礎 李明&…

C#中解析XML時遇到注釋節點報錯

在C#中解析XML時遇到注釋節點報錯的問題&#xff0c;這是因為XML注釋節點&#xff08;<!-- -->&#xff09;是特殊的節點類型。當遍歷XML節點時&#xff0c;注釋節點也會被包含在內&#xff0c;但它們不能像普通元素節點那樣處理。 解決方案 方法1&#xff1a;跳過注釋節…

9.3深度循環神經網絡

目前為止&#xff0c;只討論了具有一個單向隱藏層的循環神經網絡&#xff0c;其中隱變量和觀測值域具體的函數形式的交互方式是相當隨意的。只要交互類型建模具有足夠的靈活性&#xff0c;不是一個單問題。然而&#xff0c;對一個單層來說&#xff0c;可能具有相當的挑戰性。之…

CSS in JS 的演進:Styled Components, Emotion 等的深度對比與技術選型指引

CSS in JS 的演進&#xff1a;Styled Components, Emotion 等的深度對比與技術選型指引在現代前端開發中&#xff0c;組件化思維已成為主流&#xff0c;而如何科學、高效地管理組件的樣式&#xff0c;也隨之成為了一個重要議題。CSS in JS&#xff08;JS中的CSS&#xff09;應運…

【正則表達式】 正則表達式的分組和引用

?? 個人主頁:(時光煮雨) ?? 高質量專欄:vulnhub靶機滲透測試 ?? 希望得到您的訂閱和支持~ ?? 創作高質量博文(平均質量分95+),分享更多關于網絡安全、Python領域的優質內容!(希望得到您的關注~) ??目錄?? 前言 ??一、基本語法 ??二、分組類型 ??2.1.…

Grafana 導入儀表盤失敗:從日志排查到解決 max\_allowed\_packet 問題

問題背景 近期在為項目搭建一套基于 Prometheus 和 Grafana 的可觀測性體系。在完成基礎部署后&#xff0c;我準備導入一個功能相對復雜的官方儀表盤模板&#xff0c;以便快速監控各項指標。然而&#xff0c;當上傳儀表盤的 JSON 文件并點擊保存時&#xff0c;Grafana 界面卻反…

java對接物聯網設備(一)——使用okhttp網絡工具框架對接標準API接口

當前無論是在互聯網領域&#xff0c;還是物聯網項目下&#xff0c;亦或者各類應用類軟件&#xff0c;基于http標準接口的對接是目前市面上最常見也是最簡單的數據交互方式之一&#xff0c;甚至可以說是最流行的&#xff0c;因為它不依賴的各種插件或者服務。 開發者或者提供服…

版本管理系統與平臺(權威資料核對、深入解析、行業選型與國產平臺補充)

本文是一篇基于公開權威資料&#xff08;官方文檔、產品頁、廠商技術文章與技術社區討論&#xff09;重新檢索、核對后撰寫的詳盡博文。內容覆蓋&#xff1a;版本控制基礎、主流 VCS 工具深度比較、常見托管/協作平臺&#xff08;含中國本土平臺&#xff1a;Gitee / GitCode / …

計算機畢設選題:基于Python+Django的B站數據分析系統的設計與實現【源碼+文檔+調試】

精彩專欄推薦訂閱&#xff1a;在 下方專欄&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb; &#x1f496;&#x1f525;作者主頁&#xff1a;計算機畢設木哥&#x1f525; &#x1f496; 文章目錄 一、項目介紹二…

Easy ES技術詳解

從Java代碼示例到高級特性 框架介紹 Easy-Es 是一款以 “簡化 Elasticsearch 操作的 ORM 框架” 為核心定位的開源工具&#xff0c;旨在通過低代碼設計降低 Elasticsearch 的使用門檻。作為國內 Top1 Elasticsearch 搜索引擎框架&#xff0c;其最顯著的優勢在于大幅縮減代碼量…

【51單片機】【protues仿真】基于51單片機停車場的車位管理系統

目錄 一、主要功能 二、使用步驟 三、硬件資源 四、軟件設計 五、實驗現象 一、主要功能 1、LCD1602液晶顯示 2、統計并顯示停車場現有車輛數和已停放過車輛數 3、按鍵設置總車位數以及剩余車位數 4、統計并顯示累計駛入和累計駛出車輛數 5、用16個LED燈模擬停車位 6、車…

【Python】S1 基礎篇 P4 if 語句指南

目錄簡單示例條件測試檢查是否相等與不等檢查多個條件檢查特定的值是否在/不在列表中布爾表達式if語句簡單的if語句if-else語句if-elif-else語句使用if語句處理列表檢查特殊元素確定列表非空使用多個列表總結if 語句是Python編程中最基本也是最重要的控制結構之一。它允許程序根…