DreamTalk:單張圖像即可生成逼真人物說話頭像動畫,助力AI數字人落地

DreamTalk: When Expressive Talking Head Generation Meets Diffusion Probabilistic Models

DreamTalk是一個基于擴散的音頻驅動的富有表現力的說話頭生成框架,可以生成不同說話風格的高質量的說話頭視頻。DreamTalk對各種輸入表現出強大的性能,包括歌曲、多語言語音、噪聲音頻和域外肖像。

項目主頁:https://dreamtalk-project.github.io/

論文地址:https://arxiv.org/pdf/2312.09767.pdf

Github地址:https://github.com/ali-vilab/dreamtalk

摘要

DreamTalk利用擴散模型生成表情豐富的說話頭像。該框架包括三個關鍵組件:去噪網絡、風格感知的唇部專家和風格預測器。去噪網絡能夠生成高質量的音頻驅動面部動作,唇部專家能夠提高唇部運動的表現力和準確性,風格預測器能夠直接從音頻中預測目標表情,減少對昂貴的風格參考的依賴。實驗結果表明,DreamTalk能夠生成逼真的說話頭像,超越現有的最先進的對手。

簡介

音頻驅動的說話頭生成是一種將肖像與語音音頻動畫化的技術,它在視頻游戲、電影配音和虛擬化身等領域引起了廣泛關注。生成逼真的面部表情對于增強說話頭的真實感至關重要。目前,生成對抗網絡(GANs)在表達性說話頭生成方面處于領先地位,但其存在的模式崩潰和不穩定訓練問題限制了其在不同說話風格上的高性能表現。擴散模型是一種新的生成技術,近年來在圖像生成、視頻生成和人體動作合成等領域取得了高質量的結果。然而,目前的擴散模型在表達性說話頭生成方面仍存在問題,如幀抖動問題。因此,如何充分發揮擴散模型在表達性說話頭生成方面的潛力是一個有前景但尚未開發的研究方向。

DreamTalk是一個表情豐富的說話頭生成框架,利用擴散模型提供高性能和減少對昂貴的風格參考的依賴。它由去噪網絡、風格感知的嘴唇專家和風格預測器組成。去噪網絡利用擴散模型產生具有參考視頻指定的說話風格的音頻驅動的面部動作。風格感知的嘴唇專家確保準確的嘴唇動作和生動的表情。風格預測器通過音頻直接預測個性化的說話風格。DreamTalk能夠在各種說話風格下一致生成逼真的說話頭,并最小化對額外風格參考的需求。它還能夠靈活地操縱說話風格,并在多語言、嘈雜音頻和領域外肖像等各種輸入下展現出強大的泛化能力。通過全面的定性和定量評估,證明了DreamTalk相比現有的最先進方法的優越性。

相關工作

兩種人工智能生成人物頭像的方法:音頻驅動和表情驅動。音頻驅動方法分為個人特定和個人不確定兩種,前者需要在訓練時指定演講者,后者則可以為未知演講者生成視頻。表情驅動方法早期采用離散情感類別模型,后來采用表情參考視頻進行表情轉移。然而,這些基于GAN的模型存在模式崩潰問題。本文提出了一種使用擴散模型的方法,可以從輸入音頻和肖像中推斷出個性化和情感表達。擴散模型在多個視覺任務中表現出色,但之前的嘗試在生成表情時只能產生中性情感的頭像。本文提出的方法可以生成更具表現力的頭像,而且可以從輸入音頻中推斷出演講風格。

DreamTalk

DreamTalk由3個關鍵組件組成:去噪網絡,風格感知唇形專家和風格預測器。去噪網絡根據語音和風格參考視頻計算人臉運動。人臉運動被參數化為來自3D形變模型的表情參數序列。人臉運動由渲染器渲染成視頻幀。風格感知唇形專家提供不同表情下的唇動指導,從而驅動去噪網絡在保證風格表現力的同時實現準確的唇形同步。風格預測器可以預測與講話中傳達的風格一致的說話風格。

去噪的網絡。去噪網絡以滑動窗口的方式逐幀合成人臉運動序列。它使用音頻窗口預測運動幀。音頻窗口首先被饋送到基于transformer的音頻編碼器中,輸出與信道維度的噪聲運動級聯。線性投影到相同維度后,將拼接結果和時間步長t求和,作為transformer解碼器的鍵和值。為了從風格參考中提取說話風格,風格編碼器首先提取3DMM表情參數序列,然后將它們輸入transformer編碼器。使用自注意力池化層聚合輸出標記,以獲得風格代碼。風格代碼重復2w + 1次,并添加位置編碼。結果作為transformer解碼器的查詢。解碼器的中間輸出令牌被饋送到前饋網絡以預測信號。

風格感知唇形專家。我們觀察到,僅使用標準擴散模型中的去噪損失會導致不準確的唇動。為解決這個問題,本文提出一名風格感知的唇形專家。該唇部專家經過訓練,可以評估不同說話風格下的口型同步。因此,它可以在不同的說話風格下提供唇動指導,更好地在風格表現力和口型同步之間取得平衡。嘴唇專家E根據風格參考R計算一段音頻和嘴唇運動同步的概率:

具有風格感知的唇部專家將唇動和音頻編碼為以風格參考為條件的各自嵌入,然后計算余弦相似度以表示同步概率。為了從人臉運動中獲取唇動信息,首先將人臉運動轉換為相應的人臉網格,并選擇嘴巴區域的頂點作為唇動表示。首先使用風格編碼器從風格參考中提取風格特征,該特征反映了去噪網絡中的風格結構,然后將風格特征與嵌入編碼器的中間特征圖連接起來,從而將風格條件融合到嵌入網絡中。

風格的預測。風格預測器預測由訓練的去噪網絡中的風格編碼器提取的風格代碼。觀察說話人身份和風格代碼之間的相關性,風格預測器還將肖像作為輸入進行集成。風格預測器被實例化為擴散模型,并被訓練來預測風格代碼本身:

風格預測器是序列上的transformer編碼器,序列按順序包括:音頻嵌入,擴散時間步的嵌入,說話人信息嵌入,噪聲風格代碼嵌入,和一個稱為learned query的最終嵌入,它的輸出用于預測無噪聲風格代碼。音頻嵌入是使用自監督預訓練語音模型提取的音頻特征。為獲得說話人信息嵌入,該方法首先提取了3DMM身份參數,其中包括人臉形狀信息,但從肖像中刪除了表情等無關信息,然后使用MLP將其嵌入到token中。

訓練和推理

訓練。首先,通過確定隨機采樣的音頻和唇動剪輯是否像中那樣同步,對風格感知的唇動專家進行預訓練,然后在訓練去噪網絡期間進行凍結。

去噪網絡是通過從數據集中抽樣隨機元組來訓練的,優化損失:

具體來說,從同一時刻的訓練視頻中提取地面真實運動和語音音頻窗口。樣式引用是從同一個視頻中隨機抽取的視頻片段。

我們首先計算擴散模型的去噪損失定義為:

然后,去噪網絡通過對生成的片段進行同步損失來最大化同步概率:

使用無分類器指導的進行模型訓練。對于推理,預測信號由一下公式計算:

該方法通過調節比例因子ω來控制風格參考R的效果。

當訓練風格預測器時,我們抽取一個隨機視頻,然后從中提取音頻和風格代碼。由于3DMM身份參數可能會泄露表情信息,因此從具有相同說話人身份的另一個視頻中采樣肖像。樣式預測器通過優化損失值來訓練:

利用PIRenderer作為渲染器,并對其進行精心微調,使渲染器具有情感表達生成能力。

推理。本方法可以使用參考視頻或僅通過輸入音頻和肖像來指定說話風格。在參考視頻的情況下,使用去噪網絡中的風格編碼器導出風格代碼。當僅依賴輸入的音頻和人像時,這些輸入由風格預測器處理,采用去噪過程來獲得風格代碼。

有了風格代碼,去噪網絡利用DDPM的采樣算法產生人臉運動。它首先對隨機運動進行采樣,然后計算去噪序列。最后,生成人臉運動。利用DDIM可以加速采樣過程。然后,渲染器PIRenderer將輸出的人臉運動渲染為視頻。

實驗

實驗設置

數據集。我們在MEAD、HDTF和Voxceleb2上訓練和評估去噪網絡。風格感知唇形專家使用MEAD和HDTF訓練。我們在MEAD上訓練風格預測器,并在MEAD和RAVEDESS上對其進行評估。

基線。我們與以下方法進行對比:MakeitTalk、Wav2Lip、PCAVS、AVCT、GC-AVT、EAMM、StyleTalk、DiffTalk、SadTalker、PDFGC、EAT。

指標。使用了廣泛使用的指標:SSIM[88]、模糊檢測的累積概率(CPBD)、SyncNet置信度分數(Sync conf)、嘴巴區域周圍的地標距離(M-LMD)、全臉地標距離(F-LMD)。

結果

定量比較。本方法在大多數指標上優于先前的方法,尤其在精確的嘴唇同步和生成與參考說話風格一致的面部表情方面表現出色。

定性比較。與其他方法相比,MakeItTalk和AVCT在準確的嘴唇同步方面存在困難,Wav2Lip和PC-AVS的輸出模糊不清,SadTalker在嘴唇運動方面有時顯示出不自然的抖動。EAT的能力僅限于生成離散的情緒,缺乏細膩的表達。EAMM、GC-AVT、StyleTalk和PD-FGC能夠產生細致的表情,但EAMM在嘴唇同步方面表現不佳,GC-AVT和PDFGC在保持說話者身份方面有困難,而且三者都存在渲染合理背景的問題。StyleTalk能夠生成細致的表情,但有時會減弱強度并且無法準確地生成某些單詞的嘴唇運動。DiffTalk在嘴唇同步方面存在困難,并且在嘴部區域引入抖動和偽影。DreamTalk在生成逼真的說話人臉方面表現出色,不僅能夠模仿參考說話風格,還能實現精確的嘴唇同步和優質的視頻質量。

泛化能力。本方法還展示了在不同領域的肖像、各種語言的語音、嘈雜的音頻輸入和歌曲中生成逼真的說話頭視頻的能力。

說話風格預測結果。本方法能夠準確識別細微的表情差異,并根據原始視頻中觀察到的個性化說話風格進行預測。

消融分析

本文通過消融實驗分析了設計的貢獻,包括去除口型專家和使用無條件口型專家的變體。結果表明,去除口型專家會導致情感數據集MEAD的唇同步精度下降,而使用無條件口型專家則會犧牲表達風格的精度。全模型通過引導擴散模型的表達潛力,實現了精確的唇同步和生動的表情,達到了平衡。

風格代碼可視化

使用tSNE將MEAD數據集中15個說話者的風格代碼映射到2D空間中,這些說話者展示了22種不同的說話風格,包括三個強度級別的七種情緒和一種中性風格。每種風格從10個隨機選擇的視頻中提取風格代碼。結果顯示,相同說話者的風格代碼傾向于聚集在一起,這表明個體說話者的獨特性對說話風格的差異產生了更大的影響,這也是使用肖像信息推斷說話風格的合理性的基礎。此外,每個說話者的風格代碼分布都展示了共同的模式和個性化的特征。

風格編輯

調整分類器自由指導方案中的比例因子ω可以調節輸入風格的影響,當ω超過2時,唇同步準確度會下降。利用風格空間進行風格代碼插值可以實現無縫過渡和生成新的說話風格。

用戶研究

用戶研究共有20名參與者,測試樣本涵蓋多種說話風格和說話人。每種方法都需要參與者對10個視頻進行評分,評分包括三個方面:唇同步質量、結果真實性和生成視頻與風格參考之間的一致性。結果表明,該方法在所有方面均優于現有方法,尤其是在風格一致性方面表現出色。

總結

DreamTalk利用擴散模型生成表情豐富的說話頭像。該方法旨在在多樣的說話風格中表現出色,同時最小化對額外風格參考的依賴。作者開發了一個去噪網絡來創建表情豐富的音頻驅動面部動作,并引入了一個風格感知的唇部專家來優化唇語同步,而不會影響風格表現力。此外,作者設計了一個風格預測器,直接從音頻中推斷說話風格,消除了對視頻參考的需求。作者通過大量實驗驗證了DreamTalk的有效性。

文章轉載于靈度智能

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/719452.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/719452.shtml
英文地址,請注明出處:http://en.pswp.cn/news/719452.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Thingsboard本地源碼部署教程

本章將介紹ThingsBoard的本地環境搭建,以及源碼的編譯安裝。本機環境:jdk11、maven 3.6.2、node v12.18.2、idea 2023.1、redis 6.2 環境安裝 開發環境要求: Jdk 11 版本 ;Postgresql 9 以上;Maven 3.6 以上&#xf…

vue實現循環滾動列表

本文章使用 vue-seamless-scroll 為大家分享了vue實現循環滾動列表的具體代碼,供大家參考,具體內容如下: vue實現循環滾動列表 1.安裝插件 vue-seamless-scroll vue-seamless-scroll 實例文檔 npm install vue-seamless-scroll --save 2.HTM…

代碼隨想錄算法訓練營Day50 | 123.買賣股票的最佳時機 III、188.買賣股票的最佳時機 IV

123.買賣股票的最佳時機 III 思路與 121.買賣股票I 一脈相承,一次買賣有2種狀態(持有/不持有),那么兩次買賣就有4種狀態(第一次持有/不持有、第二次持有/不持有) 1、DP數組定義: dp[i][j]為當前…

【Java】Base理論的核心思想和理論三要素

目錄 簡介 BASE 理論的核心思想 BASE 理論三要素 1. 基本可用 2. 軟狀態 3. 最終一致性 總結 簡介 BASE 是 Basically Available(基本可用) 、Soft-state(軟狀態) 和 Eventually Consistent(最終一致性&#xf…

深度強化學習系列【2】- 貝爾曼方程和馬爾可夫決策過程

引言: 一直想做點強化學習相關的內容,但是對于其原理一直不是太明了,相比于編程實現,懂得算法部分的機理與理論也是至關重要的。網上找的一些資料都在強調貝爾曼方程和馬爾可夫決策過程在強化學習中的作用,但是介紹都不夠充分。 另外,在知乎【1】上看到一個說法,說 強化學…

財報解讀:基本盤穩定后,聯想如何進一步搶占AI時代?

從2021年下半年開始,受諸多因素影響,消費電子行業始終處在承壓狀態,“不景氣”這一關鍵詞屢次被市場提及。 但寒氣沒有持續,可以看到,消費電子行業正在逐漸回暖。國金證券在今年1月的研報中就指出,從多方面…

【簡單模擬】第十一屆藍橋杯省賽第二場C++ B組 / C組《成績統計》(c++)

1.題目說明 小藍給學生們組織了一場考試,卷面總分為100 分,每個學生的得分都是一個 0 到 100 的整數。 如果得分至少是 60 分,則稱為及格。 如果得分至少為 85 分,則稱為優秀。 請計算及格率和優秀率,用百分數表示…

#WEB前端(CCS常用屬性,補充span、div)

1.實驗: 復合元素、行內元素、塊內元素、行內塊元素 2.IDE:VSCODE 3.記錄: span為行內元素:不可設置寬高,實際占用控件決定分布空間。 div為塊內元素:占滿整行,可以設置寬高 img為行內塊元…

Unity(第二十三部)導航

你可以使用 unity官方提供的 unity導航組件或第三方 unity導航組件,以實現游戲中角色或其他物體的導航。 unity導航組件通常具有多種導航模式,如飛行模式、步行模式、車輛模式等,可以根據不同的需求選擇合適的模式。同時,unity導…

2023年全國職業院校技能大賽中職組大數據應用與服務賽項題庫參考答案陸續更新中,敬請期待…

2023年全國職業院校技能大賽中職組大數據應用與服務賽項題庫參考答案陸續更新中,敬請期待… 武漢唯眾智創科技有限公司 2024 年 2 月 聯系人:辜渝儐13037102709 題號:試題01 模塊二:數據獲取與處理 (一)…

Ainx的全局配置

📕作者簡介: 過去日記,致力于Java、GoLang,Rust等多種編程語言,熱愛技術,喜歡游戲的博主。 📗本文收錄于Ainx系列,大家有興趣的可以看一看 📘相關專欄Rust初階教程、go語言基礎系列…

js中的閉包

理解 函數內部可以訪問其外函數中的作用域 作用 創建私有變量延長變量的聲明周期一般函數中的變量在函數返回之后就會被銷毀,但是閉包會保存使用的變量,即便是上下文被摧毀了,使用的變量依舊存在 閉包的用途 柯里化函數的目的就是在避免重復的調用變量案例 求一個長方形的…

ROS2 Python環境變量PYTHONPATH設置

文章目錄 引題解決方法方法一 將三方庫與pkg放在一起方法二 將三方庫放入pythonpath目錄 引題 ROS2在執行ros2 pkg create --build-type ament_python **創建python包時,有時候會涉及外部庫的導入,這里講解一下如何配置PYTHONPATH變量讓程序順利找到外部…

【S32DS報錯】-7-程序進入HardFault_Handler,無法正常運行

【S32K3_MCAL從入門到精通】合集: S32K3_MCAL從入門到精通https://blog.csdn.net/qfmzhu/category_12519033.html 問題背景: 在S32DS IDE中使用PEmicro(Multilink ACP,Multilink Universal,Multilink FX&#xff09…

【網站項目】182在線作業管理系統

🙊作者簡介:擁有多年開發工作經驗,分享技術代碼幫助學生學習,獨立完成自己的項目或者畢業設計。 代碼可以私聊博主獲取。🌹贈送計算機畢業設計600個選題excel文件,幫助大學選題。贈送開題報告模板&#xff…

程序員職業迷宮:選擇你的道路,開啟技術之旅

在這個數字化飛速發展的時代,程序員已經成為了一個備受矚目的職業。他們就像是現代社會中的魔法師,用代碼搭建起一個又一個令人驚嘆的數字世界。然而,對于許多初入行的程序員來說,面對前端的花園、后端的洞穴、數據科學的密室&…

【Python】進階學習:pandas--describe()函數的使用介紹

🐍【Python】進階學習:pandas——describe()函數的使用介紹 🌈 個人主頁:高斯小哥 🔥 高質量專欄:Matplotlib之旅:零基礎精通數據可視化、Python基礎【高質量合集】、PyTorch零基礎入門教程&am…

繪圖機器 - 華為OD統一考試(C卷)

OD統一考試(C卷) 分值: 100分 題解: Java / Python / C 題目描述 繪圖機器的繪圖筆初始位置在原點(0, 0),機器啟動后其繪圖筆按下面規則繪制直線: 1)嘗試沿著橫向坐標軸…

小程序海報生成海報【vue】

文章目錄 1、創建海報的基本邏輯2、用canvas繪制文字3、繪制矩形4、繪制圓形5、繪制圓角矩形6、繪制圖片7、執行繪制8、完整的代碼 1、創建海報的基本邏輯 1、先創建dom元素 wrapperHeight是根據海報的內容計算出來海報的高度 <view class"preview-card-wrap" ta…

支持向量機 SVM | 線性可分:硬間隔模型公式推導

目錄 一. SVM的優越性二. SVM算法推導小節概念 在開始講述SVM算法之前&#xff0c;我們先來看一段定義&#xff1a; 支持向量機(Support VecorMachine, SVM)本身是一個二元分類算法&#xff0c;支持線性分類和非線性分類的分類應用&#xff0c;同時通過OvR或者OvO的方式可以應用…