EAMM: 通過基于音頻的情感感知運動模型實現的一次性情感對話人臉合成

1所有的材料都可以在EAMM: One-Shot Emotional Talking Face via Audio-Based Emotion-Aware Motion Model網站上找到。

摘要

盡管音頻驅動的對話人臉生成技術已取得顯著進展，但現有方法要么忽視了面部情感，要么無法應用于任意主體。在本文中，我們提出了情感感知運動模型（EAMM），通過引入情感源視頻來生成一次性情感對話人臉。具體來說，我們首先提出了一個Audio2Facial-Dynamics模塊，該模塊能夠從音頻驅動的無監督零階和一階關鍵點運動中渲染出對話人臉。然后，通過探索運動模型的特性，我們進一步提出了一個隱式情感位移學習器，將情感相關的面部動態表示為先前獲得的運動表示的線性可加位移。綜合實驗表明，通過結合兩個模塊的結果，我們的方法能夠在任意主體上生成具有逼真情感模式的滿意對話人臉結果。

1 引言

音頻驅動的對話人臉動畫任務能夠實現多種應用，涵蓋視覺配音、數字化身、遠程會議以及混合現實等領域。盡管該領域已取得顯著進展[Fried等人，2019；Thies等人，2020；Zhou等人，2021，2020]，但其中許多方法依賴于源肖像的長視頻錄制來生成面部表情[Edwards等人，2016；Karras等人，2017；Yao等人，2021]，而在大多數情況下，這樣的長視頻錄制并不可用。另一方面，僅驅動一幀圖像的方法[Chung等人，2017；Mittal和Wang，2020；Zhou等人，2019]僅關注合成與音頻同步的口型，而未考慮情感這一實現逼真動畫的關鍵因素。因此，如何在一次性對話人臉設置下實現富有表現力的情感編輯仍然是一個懸而未決的問題。

以往的方法要么從固定數量的標簽中識別情感[Abdrashitov等人，2020；Li等人，2021；Wang等人，2020b]，要么僅從小范圍的標記音頻數據中識別情感[Ji等人，2021]。然而，固定標簽只能以粗粒度的離散方式表示有限的情感，難以實現自然的情感過渡。此外，僅從音頻中確定情感可能導致歧義。人們有時難以感知隱藏在言語中的不同情感，且情感識別模型對于一般言語的情感識別性能并不令人滿意。因此，這兩者都限制了情感對話人臉模型的適用性。與此不同，我們認為動態情感可以被轉化為從額外情感視頻中提取的可傳遞運動模式。

因此，我們的目標是設計一個一次性對話人臉系統，該系統接受四種輸入，包括具有中性表情的身份源圖像、語音源音頻、預定義姿勢和情感源視頻。然而，實現這樣的系統并非易事。1) 生成情感信息需要對非剛性面部結構進行變形，這些結構雖隱含但強烈地與身份和口型運動相關聯。以往的方法通常采用人臉的強先驗，如特征點[Kim等人，2019；Wang等人，2020b]和3D模型[Anderson等人，2013；Richard等人，2021]。然而，這些方法因模型不準確而導致誤差累積。2) 提取情感模式也頗具挑戰性，因為情感模式與其他因素相互交織。

為了應對這些問題，本文提出了一種名為情感感知運動模型（EAMM）的新方法。我們的直覺是，無監督的零階和一階運動表示[Siarohin等人，2019a，b；Wang等人，2021b]能夠對面部局部流場進行建模，這非常適合于操控情感變形。關鍵在于將局部情感變形通過自學習的關鍵點和局部仿射變換轉移到音頻驅動的對話人臉中。具體而言，我們首先通過一個簡單的音頻到面部動態（A2FD）模塊實現從單張圖像生成對話人臉。該模塊將音頻表示和提取的姿勢映射到無監督的關鍵點及其一階動態上。然后，一個額外的流估計器和一個生成器處理這些表示以進行圖像重建。

為了進一步從外觀中分解出局部情感動態，我們對運動模型的內在工作機制進行了實證探索。我們發現了兩個有趣的特性。1) 面部區域的動態運動僅受特定關鍵點和仿射變換的影響，這些被稱為與面部相關的表示。2) 與面部相關的表示的相對位移通常是線性可加的。然而，與面部相關的位移也包含不期望的口型運動和結構變形，這使得它們無法直接應用于我們當前的模型。

為此，我們設計了一個隱式情感位移學習器，以在A2FD模塊的與面部相關的表示上僅學習情感相關的位移。特別是，我們利用了一種有效的情感源增強策略來減輕不期望因素的影響。然后，我們推導出一個以情感特征為條件的隱式函數，該函數將A2FD模塊中的所有運動表示映射到期望的與面部相關的表示的位移上。通過線性組合兩個模塊中的所有運動表示，我們的模型互補地涵蓋了口型和情感動態。大量實驗表明，我們的方法可以在具有真實情感模式的任意主體上生成令人滿意的對話人臉結果。

我們的貢獻總結如下：1) 我們提出了音頻到面部動態（A2FD）模塊，該模塊通過簡單的方式預測無監督的運動表示來生成中性的音頻驅動對話人臉。2) 基于兩個實證觀察，我們提出了隱式情感位移學習器，該學習器可以從情感源中提取與面部相關的表示的位移。3) 我們提出的情感感知運動模型（EAMM）成功地實現了具有情感控制的一次性對話頭部動畫生成。據我們所知，這是該領域最早的嘗試之一。

2 相關工作

音頻驅動的對話人臉生成。這是一項旨在從音頻片段生成對話人臉視頻的任務[Brand 1999; Bregler et al. 1997a,b; Lu et al. 2021; Wang et al. 2012; Zhou et al. 2018]。這些方法主要可以分為特定人物方法和非特定人物方法。盡管特定人物方法能產生更好的動畫效果，但其應用場景有限。為建模一個人物所需的訓練時間可能長達數小時[Suwajanakorn et al. 2017]或幾分鐘[Lu et al. 2021; Thies et al. 2020]。Suwajanakorn等人[2017]使用17小時的視頻進行訓練，從奧巴馬的聲音軌跡中合成了高質量的對話人臉。Thies等人[2020]和Lu等人[2021]則提出使用約3分鐘長度的特定人物視頻進行訓練，以生成逼真的對話視頻。但這些方法無法應用于單張圖像。另一方面，Chung等人[2017]首次以一次性方式生成對話人臉。隨后，Chen等人[2019a]和Zhou等人[2020]通過利用面部特征點作為中間表示來改進了這一過程。Zhou等人[2021]進一步將姿態控制融入一次性設置中，但這些工作都沒有實現情感控制。

情感對話人臉生成。情感[Cole et al. 2017]是在逼真動畫中起重要作用的因素。由于在生成情感動態方面存在困難，因此在對話人臉生成中考慮情感因素的作品很少。Sadoughi等人[2019]從一個設計的條件生成對抗網絡中學習情感與唇動之間的關系。Vougioukas等人[2020]為時序生成對抗網絡引入了三個判別器。然而，這兩者都未能生成語義表情并實現情感操控。最近，Wang等人[2020b]收集了MEAD數據集，并將情感設置為獨熱向量以實現情感控制。而Ji等人[2021]則提出將語音分解為獨立的內容和情感空間，然后從音頻中合成情感動態。不過，他們的方法無法應用于未見過的角色和音頻。與他們不同，我們借助源視頻并分離出情感信息，以實現一次性設置中的情感控制。

視頻驅動的面部動畫。視頻驅動動畫利用視頻來重新演繹面部運動，這與音頻驅動的對話人臉生成高度相關。傳統方法需要動畫目標的先驗知識或手動標簽，如3D可變形模型[Kim et al. 2018; Thies et al. 2016; Zollh?fer et al. 2018]或2D特征點[Burkov et al. 2020; Chen et al. 2020; Huang et al. 2020; Isola et al. 2017; Tripathy et al. 2021; Wu et al. 2018; Yao et al. 2020; Zakharov et al. 2020; Zhang et al. 2020]。最近，一些不需要先驗知識的方法[Siarohin et al. 2019a,b]得到了探索。它們采用自監督框架，并在密集場中建模運動，從而實現外觀和運動的解耦。我們的模型也是基于類似的思想構建的。

3 方法

圖2：我們的情緒感知運動模型概述。我們的框架包含兩個模塊：Audio2Facial-Dynamics模塊，用于一次性音頻驅動的說話頭部生成；以及隱式情緒遷移學習器，用于提取情緒模式。

我們的情感感知運動模型（EAMM）的概覽如圖2所示，其中不同類型的信號被作為輸入來生成帶有情感的對話人臉。我們的EAMM主要由兩部分組成：一個Audio2Facial-Dynamics模塊，該模塊能從單張中性幀中實現音頻驅動的中性表情對話人臉生成（第3.1節）；以及一個隱式情感位移學習器，該學習器涉及情感動態（第3.2節）。在以下部分，我們將詳細介紹每一部分。

3.1 Audio2Facial-Dynamics模塊

實現音頻驅動的情感對話人臉的第一步是構建一個能夠合理整合表情動態的一次性系統。為此，我們設計了Audio2Facial-Dynamics（A2FD）模塊，該模塊首先對面部運動進行中性表情建模。受[Siarohin et al. 2019b; Wang et al. 2021a]啟發，運動被表示為一組無監督的關鍵點及其一階動態。基于這種運動表示，可以計算變形場來考慮局部面部運動，從而進一步促進情感對話人臉的生成。

訓練公式。由于缺乏成對的數據，直接監督不可用，因此我們采用了自監督訓練策略[Chen et al. 2019b; Zhou et al. 2021]。對于每個訓練視頻片段V = {𝑰1, ...𝑰𝑡, ...𝑰𝑇}，我們隨機選擇一幀𝑰作為身份源圖像，并取對應語音音頻𝒂的梅爾頻率倒譜系數（MFCC）[Logan 2000] 𝒔1:𝑇作為語音源音頻表示。考慮到頭部姿態也是一個關鍵組成部分，且很難從音頻中推斷出來，我們使用現成的工具[Guo et al. 2020 Towards fast, accurate and stable 3d dense face alignment]從訓練視頻片段中估計姿態序列𝒑1:𝑇，并將其作為額外的輸入。每個幀的姿態𝒑𝑡用一個6維向量表示（即3個用于旋轉，2個用于平移，1個用于縮放）。

請注意，在測試階段，身份圖像𝑰、語音源音頻片段𝒂和姿態序列𝒑1:𝑇可以來自不同的來源。

A2FD的流程。如圖2所示，我們首先使用三個編碼器（即𝑬𝐼, 𝑬𝑎 和 𝑬𝑝）從三個輸入中提取相應的信息，這些信息分別表示為身份特征f𝐼、音頻特征f𝑎和姿態特征f𝑝。然后，我們將這三個提取的特征組合起來，并輸入到一個基于LSTM[Hochreiter and Schmidhuber 1997]的解碼器𝑫中，以循環預測整個序列的無監督運動表示。每個時間步𝑡的運動表示由𝑁個隱式學習的關鍵點𝒙𝑡𝑎 ∈ R及其一階運動動態（即雅可比矩陣𝑱𝑡𝑎 ∈ R）組成

，其中每個雅可比矩陣表示每個關鍵點（零階表示）位置附近區域的局部仿射變換。在本文中，我們默認設置關鍵點數𝑁=10。

為了導出與局部動態相關的變形場，需要提供初始幀𝑰的標準位置的零階和一階表示。我們認為，如果我們與預訓練的視頻驅動的一階運動模型[Siarohin et al. 2019b]共享涉及音頻的關鍵點分布，那么我們的A2FD模塊將更容易學習，而不是從頭開始學習所有表示。

因此，我們采用[Siarohin et al. 2019b ]中的預訓練關鍵點檢測器𝑬𝑘來從源圖像𝑰預測初始運動表示𝒙𝑠和𝑱𝑠。然后，我們采用一個流估計器𝑭來生成一個密集的變形場，該場描述了從源圖像到目標視頻幀的非線性變換。具體來說，在每個時間步𝑡，我們首先根據預測的關鍵點𝒙𝑡𝑎、𝒙𝑠和雅可比矩陣𝑱𝑡𝑎、𝑱𝑠計算𝑁個變形流以及一組掩碼M。然后，通過將掩碼M加權組合到變形流上，我們得到最終的密集變形場。最后，我們將密集變形場與源圖像𝑰一起輸入到圖像生成器𝑮中，以在每個時間步生成最終的輸出幀𝑰^𝑡。更多詳細信息，請參閱[Siarohin et al. 2019bFirst order motion model for image animation.]。

訓練目標。如前所述，我們希望與基于視覺的模型共享運動表示的分布，因此我們利用𝑬𝑘作為我們基于音頻的模型學習的特定教師網絡。具體來說，𝑬𝑘從訓練視頻片段V中提取的關鍵點𝒙𝑡𝑣及其雅可比矩陣𝑱𝑡𝑣作為中間監督信息。然后，我們制定了一個關鍵點損失項𝐿𝑘𝑝（定義如下）來訓練我們的A2FD模塊：

在第二階段，我們使用感知損失項𝐿𝑝𝑒𝑟通過最小化重建幀𝑰^𝒕和目標幀𝑰𝑡之間的差異來微調模型：

其中VGG𝑖(·)表示預訓練VGG網絡[Johnson et al. 2016]的第𝑖個通道特征，該網絡具有𝑙個通道。總損失函數定義為：

其中𝜆𝑝𝑒𝑟表示𝐿𝑝𝑒𝑟的權重。

討論。在通過音頻輸入生成中性說話面部之后，一個直觀的想法是直接將這個情感源納入這個流程中。然而，情感源自然包含所有面部信息，包括嘴巴、身份和姿態，這會導致不理想的結果。因此，這帶來了在我們的運動表示和變形場中解耦情感信息的需求。

圖3：面部相關關鍵點掩膜的可視化。左下角圖像展示了學習到的十個關鍵點，右下角圖像則顯示了組合掩膜。我們還在頂部一行分別可視化了三個面部相關關鍵點的掩膜。自然面部圖像來自CFD數據集?芝加哥大學。

我們首先探索了基于關鍵點𝒙的變形場是如何變換源圖像𝑰的。我們可視化了圖3中所示的組合蒙版M，并觀察到面部區域僅受三個與面部相關的關鍵點的影響。僅用這三個關鍵點表示的集合記為(𝒙′, 𝑱′)。

受這一觀察的啟發，我們進行了一個簡單的實驗，以驗證我們是否僅通過編輯這三個與面部相關的關鍵點及其雅可比矩陣，就能將情感模式從情感源視頻轉移到我們的A2FD模塊中。一個簡單的想法是探究同一個人的情感和中性運動表示之間的偏差是否可以線性相加，即通過在其他人面部運動表示上添加位移來施加情感。為了減輕嘴巴的影響，我們既利用了提取全臉動態的預訓練模型，也利用了我們的A2FD模型來生成中性說話面部。理想情況下，在表示中，他們的嘴巴形狀應該是對齊的。

具體來說，我們首先使用𝑬𝑘從情感源視頻中檢測到關鍵點𝒙𝑒′和雅可比矩陣𝑱𝑒′。然后，我們將該視頻的音頻和此人的中性狀態圖像輸入到我們的A2FD模塊中，以生成𝒙𝑛′和𝑱𝑛′。我們計算了偏差(𝒙𝑒′ ? 𝒙𝑛′, 𝑱𝑒′ ? 𝑱𝑛′)，它被認為包含了情感信息。通過將這個偏差簡單地作為位移添加到任意人的運動表示上，我們觀察到運動動態可以成功地轉移到生成的結果上。因此，我們可以認為這些表示大致是線性可加的。

然而，雖然情感信息可以被保留，但我們觀察到面部邊界和嘴巴周圍存在許多不希望的偽影。一個可能的解釋是，計算出的位移不僅包括情感信息，還包括其他因素，如身份、姿態和語音內容，這導致對后續生成的指導不準確。

3.2 隱式情感位移學習器

根據上述觀察，我們基本上可以將情感模式表述為與面部相關的關鍵點和雅可比矩陣的補充位移。因此，我們設計了一個隱式情感位移學習器，用于從情感視頻V𝑒 = {𝑸1, ...𝑸𝑡, ...𝑸𝑇}中提取情感信息，然后將這些信息編碼為位移(Δ𝒙′, Δ𝑱′)，這些位移對應于來自A2FD模塊的三個面部相關關鍵點和雅可比矩陣(𝒙′, 𝑱′)。

數據處理。為了將情感與其他因素分離，我們設計了一種特殊的數據增強策略。具體來說，為了阻斷語音內容信息，我們使用填充有隨機噪聲的蒙版遮擋嘴唇和下巴的運動。此外，為了消除姿勢和像眨眼這樣的自然運動的影響，我們引入了一種時間擾動技術。對于每個時間步𝑡，我們不是使用幀𝑸𝑡進行情感提取，而是從當前時間𝑡附近擾動的時間步中選擇一幀。而且，為了進一步減輕面部結構信息的影響，我們應用了透視變換和隨機水平翻轉[Zhou et al. 2021]。這種數據增強策略也在圖2中得到了展示。

這張圖片展示了一個人臉圖像處理的過程。從左到右，我們可以看到一系列經過不同數據增強技術處理的人臉圖像。首先，我們看到一個未處理的人臉圖像，接著是使用“臨時遮擋”（Temporal Perturbation）技術處理后的圖像，這個技術會改變面部特征的時序，產生不同的表情效果。然后是使用“嘴巴閉合”（Mouth Occlusion）技術處理的圖像，這個技術將人臉的一部分遮蓋起來。接下來是使用“視角變換”（Perspective Transformation）技術處理的圖像，這個技術會改變人臉的角度和大小，創造出不同的視覺效果。最后，我們看到的是使用“隨機翻轉”（Random Flip）技術處理的圖像，這個技術會隨機地旋轉人臉圖像。這些技術用于增加訓練數據集的多樣性，以提高深度學習模型的性能。

學習情感位移。為了將情感模式融入我們的A2FD模塊，我們首先使用一個情感提取器𝑬𝑒從處理后的視頻幀中提取情感特征f𝑒。為了生成與輸入音頻同步的情感動態，我們將A2FD模塊預測的關鍵點𝒙1:𝑎𝑇及其雅可比矩陣𝑱1:𝑎𝑇與情感特征f𝑒一起作為位移預測器𝑷𝑑的輸入。位移預測器采用4層多層感知器（MLP）來預測位移，稱為Δ𝒙1:𝑎′𝑇和Δ𝑱1:𝑎′𝑇。注意，我們執行了一個位置編碼操作[Mildenhall et al. 2020]，將關鍵點投影到高維空間，從而使模型能夠捕獲更高頻率的細節。最后，我們通過將Δ𝒙1:𝑎′𝑇和Δ𝑱1:𝑎′𝑇線性添加到音頻學習的表示𝒙1:𝑎′𝑇, 𝑱1:𝑎′𝑇上，生成𝑁個情感音頻學習的關鍵點𝒙𝑒𝑎1:𝑇和雅可比矩陣𝑱1:𝑒𝑎𝑇。

訓練目標。在訓練過程中，我們遵循第3.1節中所述的自監督訓練策略。具體來說，對于每個情感源視頻V𝑒，我們使用預訓練的檢測器𝑬𝑘來提取𝑁個關鍵點𝒙𝑒1:𝑇和雅可比矩陣𝑱1:𝑒𝑇作為真實值，然后通過將等式1中的損失項𝐿𝑘𝑝重新表述為以下形式，來最小化情感音頻學習的關鍵點𝒙𝑒𝑎1:𝑇、雅可比矩陣𝑱1:𝑒𝑎𝑇與真實值之間的差異：

請注意，在訓練我們的隱式情感位移學習器時，我們還使用等式2中的損失𝐿𝑝𝑒𝑟來對A2FD模塊進行微調。

3.3 實施細節

所有視頻均通過居中（裁剪并調整大小）第一幀中人臉的位置進行對齊，并將視頻大小調整為256 × 256。視頻以25幀每秒（FPS）的速率進行采樣，音頻則預處理為16kHz。對于音頻特征，我們使用10ms的窗口大小計算28維的梅爾頻率倒譜系數（MFCC），從而為每個幀生成28 × 12的特征。

數據集。我們使用LRW [Chung and Zisserman 2016a] 數據集來訓練我們的A2FD模塊，該數據集沒有情感標注。LRW是一個從BBC新聞中收集的野外音視頻數據集，包括500個不同單詞的1000個發音，每個發音大約持續1秒。該數據集包含各種說話者和頭部運動，非常適合我們的訓練目標。我們按照LRW的設置分割訓練/測試語料庫。

我們使用情感數據集MEAD [Wang et al. 2020b] 來訓練我們的隱式情感位移學習器。MEAD是一個高質量的情感對話臉部數據集，其中包括不同演員以8種不同情感說話的錄制視頻。在這里，我們選擇34名演員進行訓練，6名演員進行測試。

4 結果

以下，我們將展示與其他最先進方法的比較結果、用戶研究結果以及我們方法的設計評估。有關實驗設置的更多詳細信息，請參閱補充材料。

4.1 評估

我們在LRW和MEAD的測試集上，與最先進的方法（即ATVG [Chen et al. 2019b]、Speech-driven-animation [Vougioukas et al. 2018]、Wav2Lip [Prajwal et al. 2020]、MakeItTalk [Zhou et al. 2020]、PC-AVS [Zhou et al. 2021]）進行了比較。

評估指標。為了評估生成的口型與輸入音頻之間的同步性，我們采用了口型地標距離（M-LMD）[Chen et al. 2019b]和SyncNet的置信度分數[Chung and Zisserman 2016b]。然后，我們使用整個面部的地標距離（F-LMD）來衡量面部表情和姿勢的準確性。為了評估生成視頻的質量，我們還引入了結構相似性指數（SSIM）[Wang et al. 2004]和峰值信噪比（PSNR）作為額外的評估指標。

定量結果。實驗在自動駕駛場景下進行，其中我們使用每個測試視頻的音頻和檢測到的姿態序列作為音頻和姿態源。請注意，對于沒有情感的LRW數據集，我們僅使用A2FD模塊來生成結果，其中我們隨機選擇LRW中每個視頻的一幀作為源圖像。而對于包含情感的MEAD數據集，源圖像則是從與測試視頻中相同說話者的中性視頻中隨機選擇的。此外，我們沒有直接將測試視頻用作情感源，而是采用了與[Zhou et al. 2021]中相同的公平設置來獲取情感源。我們首先將所有生成的幀和真實幀調整到相同大小，然后檢測它們的面部地標進行比較。比較結果如表1所示。我們的方法在MEAD數據集的所有指標和LRW數據集的大多數指標上均取得了最高分數。值得注意的是，Wav2Lip是使用SyncNet判別器進行訓練的，因此它在LRW數據集上自然獲得了SyncNet的最高置信度分數。我們的結果與真實值相當，這意味著我們實現了令人滿意的音視頻同步。至于同時考慮姿態和表情的F-LMD，我們的方法在LRW數據集上與PC-AVS取得了相當的結果。原因是與MEAD相比，LRW中的情感表達變化較少，而在MEAD上我們取得了更好的結果。

定性結果。在圖4中，我們還提供了我們的方法與最先進方法之間的定性比較。在這里，我們隨機選擇MEAD中的一個情感視頻作為我們方法的情感源。我們的方法能夠生成具有自然頭部運動和準確口型的生動情感動畫，而其他方法則無法生成明顯的情感動態（見紅色箭頭）。具體來說，只有Wav2Lip和PC-AVS能夠生成與我們相媲美的口部運動。然而，Wav2Lip僅關注語音音頻與唇部運動之間的同步，而沒有考慮面部表情和頭部姿態。盡管PC-AVS能夠控制頭部姿態，但它在生成逼真動畫時忽略了情感動態。SDA能夠產生具有變化面部表情的結果，但是，生成的表情總是不穩定，這會影響身份的一致性。

4.2 用戶研究

我們進行了一項用戶研究，以比較我們的方法與真實數據以及其他之前提到的最先進方法。我們招募了20名具有計算機科學背景的參與者，其中14名為男性，6名為女性。參與者的年齡范圍在21至25歲之間。我們從MEAD測試集的每個情感類別中選擇了5個視頻作為情感源視頻。對于每個情感源視頻，我們從LRW和MEAD的測試集中隨機選擇圖像和音頻源，為每個方法生成40個視頻（5個視頻×8種情感）。我們還隨機選擇了40個具有相應情感的真實視頻。因此，每位參與者需要參與280次試驗（7種情況×40個視頻），并且視頻以隨機順序播放以減少疲勞。

我們首先向參與者展示了帶有八個不同情感類別的真實標注視頻，以供參考。然后，對于每個展示的視頻片段，我們設計了一個兩階段程序。在第一階段，參與者需要從三個方面（即“唇部同步”、“面部表情的自然度”和“視頻質量”）對給定視頻進行評估，并為每個方面給出1（最差）到5（最好）的分數。此外，由于MEAD中的源視頻具有特定的情感標簽，我們在第二階段進行了一項情感分類任務，以評估我們的方法所生成的情感。具體來說，我們展示了相同的靜音視頻，并要求參與者從八個類別中選擇視頻的情感類型。第二階段展示的視頻是靜音的，因此參與者只能專注于面部表情。通過這種方式可以很好地評估生成的視頻和情感。基本上，每位參與者完成實驗需要大約90分鐘。

結果如表2所示。除了真實數據外，我們的工作在三個方面均獲得了最高分數，這表明了我們的方法的有效性。此外，我們在情感分類中獲得了58%的準確率，而其他方法的準確率遠低于我們，因為它們無法生成逼真的情感動態。

4.3 消融研究

我們在MEAD數據集上進行了消融研究，以證明我們的隱式情感位移學習器（第3.2節）的有效性，并驗證其中三個重要組件（即數據增強、條件音頻驅動的關鍵點和雅可比矩陣輸入以及學習三種面部相關表示的情感位移）的貢獻。具體來說，我們總共設計了五個變體，其中前兩個變體旨在評估我們的運動模型設計：

（1）A2FD（基線）：我們的EAMM（情感動畫記憶模型）未使用隱式情感位移學習器；
（2）基于特征的：在特征空間中表示情感動態。

另外三個變體旨在驗證隱式情感位移學習器中的組件：

（3）無增強：未使用數據增強；
（4）無條件：未使用條件音頻驅動的關鍵點和雅可比矩陣輸入；
（5）所有點的位移：學習所有關鍵點和其雅可比矩陣的情感位移。

請注意，基于特征的變體旨在探索情感模式是否可以作為特征而非位移方式來表示。具體來說，我們首先使用兩個獨立的編碼器分別提取音頻特征f𝑎和情感特征f𝑒。然后，我們引入了風格遷移工作中常用的操作AdaIN（Huang和Belongie，2017年）來將情感特征f𝑒中的情感風格轉移到音頻特征f𝑎上。最后，我們使用一個解碼器（Siarohin等，2019b年）來預測最終的關鍵點和雅可比矩陣。

除了第4.1節中提到的指標外，我們還額外使用了一個現成的情感分類網絡[Meng等人，2019年]來評估生成情感的準確性。該分類網絡在MEAD數據集上進行訓練，并在測試集上達到了90%的準確率，從而確保了評估結果的可靠性。表3中的定量結果和圖5中的可視化展示都表明，隱式情感位移學習器及其三個組件是情感生成的有效設計。在這三個組件中，數據增強策略對我們的模型尤為重要，因為它有助于傳遞準確的情感動態，同時不犧牲身份特征（見紅色箭頭）。此外，我們觀察到，基于特征模型生成的人臉形狀不穩定，情感也不明顯，這表明在特征空間中無法很好地分離情感。

4.4 局限性

盡管我們的方法取得了成功，但我們也認識到了在探索過程中存在的一些局限性。首先，由于我們的數據增強策略中包含了嘴部遮擋操作，導致我們工作中生成的嘴部區域情感動態不明顯。其次，由于情感是個性化的因素，從某個角色提取的情感模式在轉移到另一個角色后，有時會顯得不自然。此外，我們的方法忽略了音頻與情感之間的相關性，而是引入了情感源視頻，這可能會導致動畫結果不一致。這些都將是我們未來工作的一部分。

5 結論

在本文中，我們提出了情感感知運動模型，通過引入額外的情感源視頻來生成一次性情感化說話人臉。我們從情感源視頻中提取情感動態，并將其作為可傳遞的運動模式，應用于任意音頻驅動的說話人臉。這使得我們能夠合成更逼真的說話人臉，在視頻會議、數字化身等領域具有巨大的應用潛力。定性和定量實驗表明，與最先進的方法相比，我們的方法可以生成更具表現力的動畫效果。我們希望我們的工作能夠激發該領域未來的研究。

6 倫理考量

我們的方法專注于合成情感化說話人臉動畫，旨在開發數字娛樂和高級視頻會議系統。然而，該方法也可能在社交媒體上被惡意濫用，從而對整個社會產生負面影響。為了緩解上述擔憂，在深度偽造（Deepfake）檢測領域已經取得了顯著進展。一些工作[Chai等人，2020年；Güera和Delp，2018年；Li等人，2020年；Rossler等人，2019年；Wang等人，2020a年；Yu等人，2019年]專注于通過檢測紋理偽影或不一致性來識別視覺深度偽造。近期研究[Arandjelovic和Zisserman，2017年；Korbar等人，2018年；Owens等人，2016年；Zhou和Lim，2021年]還考慮了視頻與音頻之間的關系，并利用這兩種模態的同步性來輔助檢測。然而，缺乏大量真實且富有情感的人像數據限制了這些方法的性能和泛化能力。因此，我們也致力于通過分享我們生成的情感化說話人臉結果來支持深度偽造檢測社區，這有助于改進檢測算法以應對更復雜的場景。我們相信，只要合理使用這項技術，將促進機器學習研究和日常生活的積極發展。