阿里聯合北大開源數字人項目FantasyTalking,輸出內容更加動態化~

簡介

在這里插入圖片描述

FantasyTalking 的核心目標是從單一靜態圖像、音頻(以及可選的文本提示)生成高保真、連貫一致的說話肖像。研究表明,現有方法在生成可動畫化頭像時面臨多重挑戰,包括難以捕捉細微的面部表情、整體身體動作以及動態背景的協調性。該項目旨在解決這些問題,通過先進的 AI 技術實現更高質量的生成。

挑戰與動機

現有方法往往在面部表情的細膩度和身體動作的自然性上表現不佳,尤其是在動態背景的整合上。

FantasyTalking 的動機是提供一個統一的框架,能夠生成不僅限于唇部動作的動態肖像,包括表情和身體動作的控制。

模型架構

在這里插入圖片描述

FantasyTalking 的技術結構基于先進的機器學習模型和算法,具體包括以下核心組件:

核心模型

基于預訓練的視頻擴散變換器模型 Wan2.1-I2V-14B-720P,用于生成高保真的視頻內容。

音頻編碼器使用 Wav2Vec2-base-960h 處理音頻輸入,確保音頻與視頻的同步性。

在這里插入圖片描述

音視頻對齊策略

在這里插入圖片描述

  • 雙階段訓練

    • 第一階段(片段級):通過對整個場景(包括頭像、背景對象和背景)進行音頻驅動的動態對齊,實現全局動作的連貫性。
    • 第二階段(幀級):使用唇形追蹤掩碼(lip-tracing mask)精細調整唇部動作,以確保與音頻信號的精確同步。
  • 這一策略確保了生成視頻的整體流暢性和音頻-視頻的精確匹配。

身份保留:

  • 采用面部專注的交叉注意力模塊(facial-focused cross-attention module),替代傳統的參考網絡。

  • 這一模塊在保持面部一致性的同時,不限制動作的靈活性,避免了身份信息丟失的問題。

動作控制

  • 集成了動作強度調制模塊(motion intensity modulation module),允許用戶顯式控制面部表情和身體動作的強度。

  • 這一模塊支持生成更動態的肖像,例如通過調整參數可以控制手勢、頭部轉動等動作。

性能

在單個 A100 GPU 上(512x512 分辨率,81 幀):

  • 使用 torch.bfloat16 時,速度為 15.5s/幀,VRAM 占用 40G。

  • 通過限制持久參數數量,可以降低 VRAM 占用至 5G,但速度降低至 42.6s/幀。

以下是性能對比表:
在這里插入圖片描述

性能對比

在這里插入圖片描述

在這里插入圖片描述

看看效果

相關文獻

github項目地址:https://github.com/Fantasy-AMAP/fantasy-talking
官方地址:https://fantasy-amap.github.io/fantasy-talking/
在線體驗地址:https://huggingface.co/spaces/acvlab/FantasyTalking
技術報告:https://arxiv.org/pdf/2504.04842

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/904534.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/904534.shtml
英文地址,請注明出處:http://en.pswp.cn/news/904534.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

基于nnom的多選擇器

核心組件 元件類型目的接口STM32F103CB微控制器主處理單元-MPU60506 軸 IMU移動偵測I2C 接口W25Q64 系列閃存信號和配置存儲SPI 系列按鈕用戶輸入模式選擇和激活GPIO (通用輸出)搭載了LED用戶反饋系統狀態指示GPIO (通用輸出)RT6…

Redis中6種緩存更新策略

Redis作為一款高性能的內存數據庫,已經成為緩存層的首選解決方案。然而,使用緩存時最大的挑戰在于保證緩存數據與底層數據源的一致性。緩存更新策略直接影響系統的性能、可靠性和數據一致性,選擇合適的策略至關重要。 本文將介紹Redis中6種緩…

項目優先級頻繁變動,如何應對?

項目優先級頻繁變動是許多公司和團隊在工作中常遇到的挑戰。 這種情況通常由業務需求變化、市場壓力或高層決策調整等因素引起,常常讓團隊成員感到困惑和不安。首先,制定明確的優先級管理框架是應對項目優先級變動的基礎, 通過清晰的優先級排…

屏蔽力 | 在復雜世界中從內耗到成長的轉變之道

注:本文為“屏蔽力”相關文章合輯。 略作重排,未全整理。 世上的事再復雜,不外乎這三種 原創 小鹿 讀者 2022 年 12 月 02 日 18 : 27 甘肅 文 / 小鹿 在這世上,每天都有大事小事、瑣事煩事。我們總為世事奔波忙碌,…

[數據處理] 3. 數據集讀取

👋 你好!這里有實用干貨與深度分享?? 若有幫助,歡迎:? 👍 點贊 | ? 收藏 | 💬 評論 | ? 關注 ,解鎖更多精彩!? 📁 收藏專欄即可第一時間獲取最新推送🔔…

IIS配置SSL

打開iis 如果搜不到iis,要先開 再搜就打得開了 cmd中找到本機ip 用http訪問本機ip 把原本的http綁定刪了 再用http訪問本機ip就不行了 只能用https訪問了

RabbitMQ的交換機

一、三種交換機模式 核心區別對比?? ??特性????廣播模式(Fanout)????路由模式(Direct)????主題模式(Topic)????路由規則??無條件復制到所有綁定隊列精確匹配 Routing Key通配符匹配…

(2025,AR,NAR,GAN,Diffusion,模型對比,數據集,評估指標,性能對比)文本到圖像的生成和編輯:綜述

【本文為我在去年完成的綜述,因某些原因未能及時投稿,但本文仍能為想要全面了解文本到圖像的生成和編輯的學習者提供可靠的參考。目前本文已投稿 ACM Computing Surveys。 完整內容可在如下鏈接獲取,或在 Q 群群文件獲取。 中文版為論文初稿&…

MCU怎么運行深度學習模型

Gitee倉庫 git clone https://gitee.com/banana-peel-x/freedom-learn.git項目場景: 解決面試時遺留的問題,面試官提了兩個問題:1.單片機能跑深度學習的模型嗎? 2.為什么FreeRTOS要采用SVC去觸發第一個任務,只用Pend…

多模態學習(一)——從 Image-Text Pair 到 Instruction-Following 格式

前言 在多模態任務中(例如圖像問答、圖像描述等),為了使用指令微調(Instruction Tuning)提升多模態大模型的能力,我們需要構建成千上萬條**指令跟隨(instruction-following)**格式的…

MySQL基礎關鍵_011_視圖

目 錄 一、說明 二、操作 1.創建視圖 2.創建可替換視圖 3.修改視圖 4.刪除視圖 5.對視圖內容的增、刪、改 (1)增 (2)改 (3)刪 一、說明 只能將 DQL 語句創建為視圖;作用: …

『深夜_MySQL』數據庫操作 字符集與檢驗規則

2.庫的操作 2.1 創建數據庫 語法: CREATE DATABASE [IF NOT EXISTS] db_name [create_specification [,create_specification]….]create_spcification:[DEFAULT] CHARACTER SET charset_nam[DEFAULT] COLLATE collation_name說明: 大寫的表示關鍵字 …

Spark jdbc寫入崖山等國產數據庫失敗問題

隨著互聯網、信息產業的大發展、以及地緣政治的變化,網絡安全風險日益增長,網絡安全關乎國家安全。因此很多的企業,開始了國產替代的腳步,從服務器芯片,操作系統,到數據庫,中間件,逐步實現信息技術自主可控,規避外部技術制裁和風險。 就數據庫而言,目前很多的國產數據…

數字化轉型-4A架構之應用架構

系列文章 數字化轉型-4A架構(業務架構、應用架構、數據架構、技術架構)數字化轉型-4A架構之業務架構 前言 應用架構AA(Application Architecture)是規劃支撐業務的核心系統與功能模塊,實現端到端協同。 一、什么是應…

格雷狼優化算法`GWO 通過模擬和優化一個信號處理問題來最大化特定頻率下的功率

這段代碼是一個Python程序,它使用了多個科學計算庫,包括`random`、`numpy`、`matplotlib.pyplot`、`scipy.signal`和`scipy.signal.windows`。程序的主要目的是通過模擬和優化一個信號處理問題來最大化特定頻率下的功率。 4. **定義類`class_model`**: - 這個類包含了信號…

中級網絡工程師知識點1

1.1000BASE-CX:銅纜,最大傳輸距離為25米 1000BASE-LX:傳輸距離可達3000米 1000BASE-ZX:超過10km 2.RSA加密算法的安全性依賴于大整數分解問題的困難性 3.網絡信息系統的可靠性測度包括有效性,康毀性,生存性 4.VLAN技術所依據的協議是IEEE802.1q IEEE802.15標準是針…

2025年五一數學建模A題【支路車流量推測】原創論文講解

大家好呀,從發布賽題一直到現在,總算完成了2025年五一數學建模A題【支路車流量推測】完整的成品論文。 給大家看一下目錄吧: 摘 要: 一、問題重述 二.問題分析 2.1問題一 2.2問題二 2.3問題三 2.4問題四 2.5 …

性能優化實踐:渲染性能優化

性能優化實踐:渲染性能優化 在Flutter應用開發中,渲染性能直接影響用戶體驗。本文將從渲染流程分析入手,深入探討Flutter渲染性能優化的關鍵技術和最佳實踐。 一、Flutter渲染流程解析 1.1 渲染流水線 Flutter的渲染流水線主要包含以下幾…

linux基礎學習--linux磁盤與文件管理系統

linux磁盤與文件管理系統 1.認識linux系統 1.1 磁盤組成與分區的復習 首先了解磁盤的物理組成,主要有: 圓形的碟片(主要記錄數據的部分)。機械手臂,與在機械手臂上的磁頭(可擦寫碟片上的內容)。主軸馬達,可以轉動碟片,讓機械手臂的磁頭在碟片上讀寫數據。 數據存儲…

DIFY教程第五彈:科研論文翻譯與SEO翻譯應用

科研論文翻譯 我可以在工作流案例中結合聊天大模型來實現翻譯工具的功能,具體的設計如下 在開始節點中接收一個輸入信息 content 然后在 LLM 模型中我們需要配置一個 CHAT 模型,這里選擇了 DeepSeek-R1 64K 的聊天模型,注意需要在這里設置下…