EMO2:基于末端執行器引導的音頻驅動虛擬形象視頻生成

今天帶來EMO2(全稱End-Effector Guided Audio-Driven Avatar Video Generation)是阿里巴巴智能計算研究院研發的創新型音頻驅動視頻生成技術。該技術通過結合音頻輸入和靜態人像照片,生成高度逼真且富有表現力的動態視頻內容,值得一提的是目前阿里并沒有開源這個項目,所以今天內容僅供學習(阿里的EMO一代到目前都還沒有開源,所以等項目開源那是遙遙無期)歡迎大家再評論區討論

  • 項目官網: https://humanaigc.github.io/emote-portrait-alive-2/carxiv
  • 技術論文: https://arxiv.org/pdf/2501.10687

1. 動機與問題

1.1 問題1:如何實現富有表現力的音畫同步人體視頻生成

  • 研究背景:音頻驅動人體視頻生成技術旨在創建音畫同步的面部表情與肢體動作,盡管在音頻驅動面部表情生成和以人物為中心的視頻合成方面已取得顯著成果,但在實現富有表現力的音畫同步人體視頻生成,尤其是伴隨語音的視頻生成方面仍存在挑戰
  • 現狀與挑戰:現有方法主要聚焦于面部區域,忽略了上半身尤其是手部動作的建模,現有方法難以生成 富有表現力,語義一致的全身動作

1.2 問題2:存在肢體動作豐富度不足或泛化能力有限等缺陷

  • 分析原因:
    1. 人體是一個具有高自由度的復雜多關節系統,其運動具有高度的時間依賴性與多樣性。
    2. 在像素空間或顯式坐標空間中從音頻直接預測全身動作,而音頻與不同身體關節之間的相關性存在顯著差異,所以容易出現動作僵硬、同步性不足等問題
      解決方案:
    3. 借鑒機器人控制系統的“末端執行器”和機器人逆向運動學降低自由度,改進逆向運動學,提出“像素先于逆運動學”,這種方法能夠重建完整人物角色,實現音頻與嘴唇運動的同步,同時保持人體結構的合理性,從而生成連貫、自然的共語視頻。
    4. 不再直接從音頻預測全身動作,專注于將音頻映射到手部姿態,充分利用音頻與手部動作的強相關性。

2. 創新點

  1. 受到機械臂和人形機器人等控制系統常通過仿生設計來模擬人類行為的啟發,將手部動作看作日常生活的"末端執行器"簡化人體自由度
  2. 提出音頻特征與全身動作之間的對應關系比較弱是當前方法的關鍵限制,驗證了音頻信號與手部動作的強相關性(所以這篇文章是由音頻輸入先生成手部姿態,再將手部姿態看作“末端執行器”來生成全身動作)
  3. 提出一種簡化的兩段音頻驅動手勢生成框架
  4. 引入基于擴散模型的生成方法,能夠從生成的手部姿態合成逼真的面部表情與身體動作

3. 方法

EMO2 提出了一個創新的音頻驅動視頻生成框架,結合末端執行器引導機制,在音畫同步的基礎上,顯著提升了生成動作的自然性、協調性和表現力。該方法的整體架構由音頻解碼器、末端執行器預測網絡、視頻合成模塊、運動控制模塊四個主要模塊組成
論文原圖

3.1 音頻編碼器

音頻編碼器接收時序音頻信號作為輸入,提取其局部語義信息和全局情緒特征。EMO2利用 wav2vec2.0 預訓練模型來提取高維語音表示,捕捉音頻中的語音節奏、語調、強度等潛在驅動因素。
輸出包括:

  • 逐幀語音特征(Frame-level audio embedding)
  • 韻律與情感信息(Global prosody vector)

3.2 末端執行器預測網絡(手部動作生成)

EMO2 的核心創新點在于引入末端執行器引導機制,該機制首次應用于音頻驅動的人體生成任務中。將手部動作作為末端執行器,利用上半身的預定義關鍵點,作為視頻生成的弱監督信號,采用的是 Diffusion Transformer(DiT ) 作為主干網絡,利用交叉注意力機制聯結音頻特征和噪聲運動潛變量,并嵌入時間步。
基于音頻特征,通過注意力機制,生成與語音節奏一致的MANO手部系數, 從而獲得符合語音語調和節奏的手勢。為了保證連續片段之間的平滑過渡,前一片段的運動序列的最后幾幀被拼接到當前運動序列中,確保動作的流暢性和連貫性。

3.3 視頻生成模塊(Video Renderer / Image Synthesizer )

視頻生成模塊基于EMO,骨干網絡接收多幀噪聲潛在輸入,并在每個時間步中嘗試去噪,生成連續的視頻幀。該框架可以分為四個部分:
在這里插入圖片描述

  1. 去噪:骨干網絡是一個去噪的2D-UNet,并集成了來自AnimateDiff 間模塊。這個網絡負責在每個時間步中逐步去除噪聲,并生成連續的視頻幀。
  2. 幀參考:為了保持角色的身份,我們將ReferenceNet與骨干網絡并行部署,輸入參考圖像和運動幀,以獲取2D圖像特征。這些特征通過跨注意力機制分別注入骨干網絡的空間和時間維度。
  3. 音頻驅動:為了通過音頻驅動角色,第一階段共享的音頻特征通過跨注意力機制與骨干網絡的潛在特征相結合,從而實現音頻與角色動作的同步。
  4. 運動引導:第一階段生成的MANO映射和關鍵點映射被按通道拼接,并與潛在特征一起集成,以調節身體運動,從而實現更加自然且精準的動作生成。

3.4 運動控制模塊

  1. 運動控制模塊利用末端執行器預測網絡生成的MANO映射引導角色的運動。這些映射明確描述了生成幀中的手部運動,涵蓋形狀、大小和姿勢等方面。 并使用MANO手部檢測的置信度分數。這些分數在遇到顯著遮擋或運動模糊的情況下可能會降低,作為條件輸入來增強生成的手部質量。
  2. 初步實現使用了僅手部控制信號,使得其他身體部位可以與音頻信號和手部運動同步。然而,MANO手部信號的大幅度運動通常與靜止的軀干不兼容,導致視頻中的表現顯得不自然(所以說文章提出的改進逆向運動學其實效果也不怎么好?)。為了解決這一問題,EMO2引入了關節關鍵點來補充運動驅動方法,這些關鍵點映射表示了手臂和腿部關節的二維位置。

4. 實驗

4.1 數據集

MOSEI 簡介:
數據類型:

  • 視頻(包含人臉、語音和文本信息)
  • 對象為網絡中真實人物的訪談、演講等短視頻片段

標注:

  • 情感極性評分([-3, 3],例如:-3為非常負面,3為非常正面)
  • 情緒標簽(7類:快樂、憤怒、驚訝、厭惡、悲傷、恐懼、中性)

AVSpeech 簡介
數據類型:

  • 來自 YouTube 的講話者視頻(“in-the-wild”)
  • 每個片段包含:清晰人臉視頻 + 對應的干凈語音

數據特點:

  • 僅包含一個人說話的片段,背景干擾較少
  • 沒有轉錄文本,僅提供音頻和視頻模態

EMTD簡介

  • 用于音頻驅動的人體上半身表達生成任務的多模態數據集。它的目標是推動真實感強、表達豐富的音頻驅動人體動畫技術的發展,特別關注于面部表情、手勢動作與語音內容的自然匹配與同步。

數據類型: 視頻、音頻、3D人體關鍵點、文本轉錄、情感標簽和動作標簽
標注:面部動作、手部動作、上半身姿勢動作都有具體標注

4.2 評價指標

手部動作生成評價指標

  1. DIV(Diversity,多樣性)
    計算多個生成樣本之間的歐式距離或分布距離,較高的 DIV 表示模型具有更強的表達能力,能生成更多樣、 生動且不重復的動作;較低的 DIV 可能說明模型模式崩潰或生成內容單一。
  2. BA(Beat Alignment,節拍對齊):
    計算節拍位置與“運動峰值”的對齊度,較高的 BA 表示生成的手勢、身體動作等能更好地跟隨語音節奏,增強自然性和表現力。
  3. PCK(Percentage of Correct Keypoints):
    較高的 PCK 說明生成動作在空間上更接近真實數據,通常用于檢測動作是否合理、逼真。
  4. FGD(Fréchet Gesture Distance)
    較低的 FGD 表明生成動作的風格、動態特征更接近真實分布,是衡量“自然性”的重要指標。

視頻生成評價指標

  1. FID
    FID度量生成圖像與真實圖像之間的距離 , 基于Fréchet距離,衡量生成樣本的特征分布與真實樣本的特征分布的差異。數值越低,表示生成圖像的質量越接近真實圖像。
  2. 結構相似性指數(SSIM
    SSIM度量圖像的結構相似性,考慮了亮度、對比度和結構信息的影響。其計算方式是將圖像分成小塊,分別計算每個塊的SSIM值,然后綜合得出圖像的整體SSIM值,值越高說明生成的圖像與參考圖像在結構上越相似。
  3. 峰值信噪比(PSNR)
    PSNR用于評估圖像重建的誤差,它通過計算圖像的最大像素值與均方誤差(MSE)之間的關系來衡量質量。PSNR的值越高,表示圖像的質量越好。
  4. Fréchet Video Distance(FVD)
    FVD是通過計算生成視頻和真實視頻的Fréchet距離來度量它們之間的差異,值越高說明生成視頻與真實視頻之間的差異越大,即生成視頻的質量越差。

4.3 實驗結論

手部動作生成對比實驗結果

在這里插入圖片描述

在對比實驗中,EMO2基于 MANO 模型,相較于其他基于 SMPL 的方法,在多個指標上展現了顯著優勢:

  1. DIV(多樣性):文章的MANO 方法在 DIV 指標上遙遙領先,顯示了更高的手部動作生動性和表現力。其他基于 SMPL 的方法往往生成單調、重復的動作,即使起始手勢不同,手部動作也傾向于維持在胸前或停留在初始位置,缺乏多樣性。
  2. BA(節拍對齊):在 BA 指標上,文章的 MANO 方法同樣表現優越,能夠更好地與音頻節奏同步。這兩個指標(DIV 和 BA)在生成生動且富有表現力的共語驅動信號方面至關重要,有助于提升下一階段視頻生成的質量。
  3. PCK 和 FGD:盡管在 PCK(接近真實動作的比例)和 FGD(生成動作分布與真實動作分布之間的距離)上,文章的方法得分較低可以預見(文章沒有給出這兩個指標結果)。其他基于 SMPL 的方法通過正向運動學計算手部動作,容易生成與真實動作更為接近的結果,而我們的 MANO 方法則具有更大的自由度,可以生成與真實動作有所不同的手部運動,導致這些指標的得分較低。

視頻生成對比試驗結果

在這里插入圖片描述

  1. 圖像質量:從 FID、SSIM 和 PSNR 指標的提升可以看出,此文章的方法在生成單幀圖像質量方面優于其他方法。特別是在使用原始姿態作為驅動(“w/o motion gen”)的實驗設置中,由于與真實標簽更加一致,進一步提升了生成圖像和視頻的質量。
  2. 動作多樣性:盡管“w/o motion gen”設定下圖像質量提升明顯,但相對較低的 HKV 值表明動作缺乏變化。相比之下,文章的完整方法具備更高的 HKV 值,顯示出在保持合理性的前提下能夠生成更豐富、更具表現力的動作序列。
  3. 身份一致性與面部表現力:文章的方法能夠更好地保持人物身份一致性,這從更高的 CSIM 值中得到驗證。同時,更低的 EFID 值也證明了EMO2能生成更生動、自然的面部表情。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/83236.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/83236.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/83236.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

[Redis] Redis:高性能內存數據庫與分布式架構設計

標題:[Redis] 淺談分布式系統 水墨不寫bug 文章目錄 一、什么是Redis?一、核心定位二、核心優勢三、典型應用場景四、Redis vs 傳統數據庫 二、架構選擇與設計1、單機架構(應用程序 數據庫服務器)2、應用程序和數據庫服務器分離3…

HTML5 視頻播放器:從基礎到進階的實現指南

在現代Web開發中,視頻播放功能是許多網站的重要組成部分。無論是在線教育平臺、視頻分享網站,還是企業官網,HTML5視頻播放器都扮演著不可或缺的角色。本文將從基礎到進階,詳細介紹如何實現一個功能完善的HTML5視頻播放器&#xff…

牛客小白月賽117

前言:solveABCF相對簡單,D題思路簡單但是實現麻煩,F題郭老師神力b( ̄▽ ̄)。 A. 好字符串 題目大意:給定字符串s,里面的字母必須大小寫同時出現。 【解題】:沒什么好說的&#xff0…

特倫斯 S75 電鋼琴:重構演奏美學的極致表達

在數字音樂時代,電鋼琴正從功能性樂器升級為融合藝術、科技與生活的美學載體。特倫斯 S75 電鋼琴以極簡主義哲學重構產品設計,將專業級演奏體驗與現代家居美學深度融合,為音樂愛好者打造跨越技術邊界的沉浸式藝術空間。 一、極簡主義的視覺敘…

GpuGeek 618大促引爆AI開發新體驗

隨著生成式AI技術迅猛發展,高效可靠的算力資源已成為企業和開發者突破創新瓶頸的戰略支點。根據賽迪顧問最新發布的《2025中國AI Infra平臺市場發展研究報告》顯示,2025年中國生成式人工智能企業應用市場規模將達到629.0億元,作為AI企業級應用…

第二十章 文本處理

第二十章 文本處理 所有類UNIX系統都嚴重依賴于文本文件來存儲數據,所以存在大量文本操作工具也在情理之中。 相關命令: cat:拼接文件。sort:排序文本行。uniq:報告或忽略重復的行。cut:從每行中刪除部分內容。past…

Reactor 和 Preactor

Reactor 和 Preactor 是兩個在工業控制、生產調度和事件驅動系統中非常重要的設計模式或框架,不少人會用這兩個名詞來描述不同的編程思想或技術架構。 一、Reactor 模式(反應器模式) 1. 概述 Reactor 模式其實是一種I/O事件通知的設計思想…

siglip2(2) Naflex模型的動態分辨率原理

動態分辨率的圖片縮放行為 操作辦法: 操作1。修改preprocessor_config.json,設置"max_num_patches": 256,可從256(1616)改為196(1414)。 操作2。在預處理圖片時,可按照如下方式傳入參數max_num_patches。 inputs = self.processor(images=videos, **{"ima…

??技術深度解析:《鴻蒙5.0+:無感續航的智能魔法》?

??引言:從“充電焦慮”到“無感續航”?? ??用戶痛點??: 刷短視頻時電量暴跌、夜間待機掉電快、多設備切換耗電失控——傳統系統無法平衡性能與功耗。??鴻蒙5.0突破??: 通過??方舟引擎3.0??(編譯級能效優化&#…

振動力學的三類基本問題

振動問題的分類依賴于分類的出發點,本文從系統論的角度來分析振動問題的分類。如圖1,一個振動系統,包括三個方面:輸入、系統特性(或稱為系統模型)、輸出。其中,輸入指外界載荷,包括力…

過濾攻擊-聚合數據

公開的聚合數據是通過對原始細粒度數據進行匯總、統計或轉換后發布的,旨在提供群體層面的洞察而非個體信息。它們具有以下關鍵特征: 1. 去標識性(De-identification) 表現: 直接標識符(姓名、身份證號、手機…

小紅書 發評論 分析 x-s x-t

聲明: 本文章中所有內容僅供學習交流使用,不用于其他任何目的,抓包內容、敏感網址、數據接口等均已做脫敏處理,嚴禁用于商業用途和非法用途,否則由此產生的一切后果均與作者無關! 逆向過程 部分Python代碼 ck jso…

pycharm找不到高版本conda問題

pycharm找不到高版本conda問題 高版本的condaPycharm不能自動識別,需要手動添加。 首先打開你要添加的conda環境win的話在conda終端輸入 where conda查找conda的可執行文件位置 進入Pycharm設置,點擊添加解釋器,點擊加載環境,…

C56-親自實現字符串拷貝函數

一 strcpy簡介 功能:將源字符串(包括 \0)復制到目標地址。 原型: char *strcpy(char *dest, const char *src);參數: dest:目標地址(需足夠大)。src:源字符串&#xf…

設計模式——適配器設計模式(結構型)

摘要 本文詳細介紹了適配器設計模式,包括其定義、核心思想、角色、結構、實現方式、適用場景及實戰示例。適配器模式是一種結構型設計模式,通過將一個類的接口轉換成客戶端期望的另一個接口,解決接口不兼容問題,提高系統靈活性和…

java 開發中 nps的內網穿透 再git 遠程訪問 以及第三放支付接口本地調試中的作用

在Java開發中,NPS內網穿透、Git遠程訪問和第三方支付接口的本地調試結合使用,可以有效提升開發效率和調試能力。以下是它們的具體作用及協作場景: 第一:為什么需要nps內網穿透 1. NPS內網穿透的作用 NPS(內網穿透工具…

換ip是換網絡的意思嗎?怎么換ip地址

在數字化時代,IP地址作為我們在網絡世界的"身份證",其重要性不言而喻。許多人常將"換IP"與"換網絡"混為一談,實際上兩者雖有聯系卻存在本質區別。本文將澄清這一概念誤區,并詳細介紹多種更換IP地址…

云游戲混合架構

云游戲混合架構通過整合本地計算資源與云端能力,形成了靈活且高性能的技術體系,其核心架構及技術特征可概括如下: 一、混合架構的典型模式 分層混合模式? 前端應用部署于公有云(如渲染流化服務),后端邏輯…

Docker常用命令操作指南(一)

Docker常用命令操作指南-1 一、Docker鏡像相關命令1.1 搜索鏡像(docker search)1.2 拉取鏡像(docker pull)1.3 查看本地鏡像(docker images)1.4 刪除鏡像(docker rmi) 二、Docker容器…

軟件性能之CPU

性能是個宏大而駁雜話題,從代碼,到網絡,到實施,方方面面都會涉及到性能問題,網上對性能講解的文章多如牛毛,從原理到方法再到工具都有詳細的介紹,本文雖不能免俗,但期望能從另外一個…