會議官方論文列表:https://ojs.aaai.org/index.php/AAAI/issue/view/624
以下論文部分會開源代碼,若開源,會在論文原文的摘要下方給出鏈接。
語音驅動頭部動畫/其他
EchoMimic: Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditions
由音頻輸入推動的人像圖像動畫領域在生成逼真和動態的人像方面取得了顯著進步。傳統方法僅限于利用音頻或面部關鍵點將圖像驅動到視頻中,雖然它們可以產生令人滿意的結果,但存在某些問題。例如,由于音頻信號相對較弱,僅由音頻驅動的方法有時會不穩定,而僅由面部關鍵點驅動的方法雖然在駕駛中更穩定,但由于對關鍵點信息的過度控制,可能會導致不自然的結果。為了解決前面提到的挑戰,在本文中,我們介紹了一種我們稱之為 EchoMimic 的新方法。EchoMimic 同時使用音頻和面部特征點進行訓練。通過實施一種新穎的訓練策略,EchoMimic 不僅能夠單獨通過音頻和面部特征生成肖像視頻,還能夠通過音頻和選定的面部特征的組合來生成肖像視頻。EchoMimic 已與各種公共數據集和我們收集的數據集中的替代算法進行了全面比較,在定量和定性評估方面都表現出卓越的性能。代碼和模型可在項目頁面上找到。
Occlusion-Insensitive Talking Head Video Generation via Facelet Compensation
說話頭像視頻生成涉及使用從驅動視頻中獲取的面部運動線索為靜止的面部圖像制作動畫,以復制目標姿勢和表情。傳統方法通常依賴于面部關鍵點的相對位置保持不變的假設。但是,當關鍵點被遮擋或頭部處于輪廓姿勢時,此假設會失敗,從而導致身份不一致和某些面部區域模糊。在本文中,我們介紹了 Occlusion-Insensitive Talking Head Video Generation,這是一種新方法,它消除了對關鍵點空間相關性的依賴,而是利用語義相關性。我們的方法將面部特征轉換為 facelet 語義庫,其中每個 facelet 標記代表一個特定的面部語義。此 SoundBank 不包含空間信息,因此可以在運動變形期間補償任何不可見或被遮擋的面部區域。然后,Facelet 補償模塊通過學習面部語義和 Facelet Bank 之間的關聯矩陣,在最初扭曲的特征中填充 Facelet 標記。這種方法可以精確補償遮擋和姿勢變化,從而提高生成視頻的保真度。廣泛的實驗表明,我們的方法獲得了最先進的結果,保留了源身份,保持了細粒度的面部細節,并以非常高的準確性捕捉了細微的面部表情。
ID-Sculpt: ID-aware 3D Head Generation from Single In-the-wild Portrait Image
雖然最近的工作在一次性 3D 常見對象生成方面取得了巨大成功,但從單個圖像生成高質量和保真度的 3D 頭部仍然是一個巨大的挑戰。以前基于文本的 3D 頭部生成方法受到文本描述的限制,而基于圖像的方法難以生成高質量的頭部幾何形狀。為了解決這個具有挑戰性的問題,我們提出了一種新的框架 ID-Sculpt,以生成高質量的 3D 頭部,同時保留其身份。我們的工作將肖像圖像的身份信息分為三個部分:1) 幾何初始化,2) 幾何雕刻,以及 3) 紋理生成階段。給定一張參考人像圖像,我們首先將身份特征與文本特征對齊,實現 ID 感知引導增強,其中包含代表人臉信息的控制信號。然后,我們使用磁量映射、肖像圖像的 ID 特征和預先訓練的文本到法線/深度擴散模型來生成 ID 感知幾何監督,并采用 3D-GAN 反轉來生成 ID 感知幾何初始化。此外,由于能夠將身份信息注入 3D 頭部生成中,我們使用 ID 感知指導來計算用于幾何雕刻的 ID 感知分數蒸餾 (ISD)。對于紋理生成,我們采用 ID Consistent Texture Inpainting and Refinement,它逐步擴展紋理修復的視圖,以獲得初始化的 UV 紋理貼圖。然后,我們使用 ID 感知指南為有噪聲的多視圖圖像提供圖像級監督,以獲得精細的紋理映射。大量實驗表明,我們可以從單個野外肖像圖像中生成具有精確幾何形狀和紋理的高質量 3D 頭部。
DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation
語音驅動的 3D 面部動畫因其廣泛的應用而引起了很多關注。盡管最近在實現逼真的嘴唇運動方面取得了進展,但目前的方法無法捕捉到通過語音傳達的細微情感底色,并產生單調的面部運動。這些限制會導致生硬和重復的面部動畫,從而降低用戶參與度并阻礙其適用性。為了應對這些挑戰,我們引入了 DEEPTalk,這是一種新穎的方法,可以直接從語音輸入生成多樣化且情感豐富的 3D 面部表情。為了實現這一目標,我們首先訓練 DEE (Dynamic Emotion Embedding),它采用概率對比學習為語音和面部運動打造一個聯合情感嵌入空間。這個概率框架捕捉了從語音和面部動作中解釋情緒的不確定性,從而能夠從其多面空間中推導出情感向量。此外,為了產生動態的面部運動,我們在克服 VAE 和 VQ-VAE 的局限性之前,將 TH-VQVAE (Temporal Hierarchical VQ-VAE) 設計為一種富有表現力和穩健的運動。利用這些強大的先驗,我們開發了 DEEPTalk,這是一個會說話的頭部生成器,它可以非自回歸地預測碼本索引以創建動態的面部運動,并結合了一種新的情緒一致性損失。對各種數據集的廣泛實驗表明,我們的方法在創建多樣化、情感表達豐富的談話面孔方面的有效性,這些面孔保持準確的口型同步。我們的項目頁面可在 https://whwjdqls.github.io/deeptalk.github.io/ 上找到。
VQTalker: Towards Multilingual Talking Avatars Through Facial Motion Tokenization
我們介紹了 VQTalker,這是一個基于向量量化的框架,用于多語言說話頭像生成,解決了不同語言之間唇形同步和自然運動的挑戰。我們的方法基于語音原理,即人類語音由一組有限的不同聲音單位(音素)和相應的視覺發音(發音嘴型)組成,它們通常在語言中具有共同點。我們介紹了一種基于組殘差有限標量量化 (GRFSQ) 的面部運動分詞器,它創建了面部特征的離散表示。這種方法可以全面捕捉面部運動,同時提高對多種語言的泛化能力,即使訓練數據有限。基于這種量化表示,我們實現了一個從粗到細的運動生成過程,逐步細化面部動畫。大量實驗表明,VQTalker 在視頻驅動和語音驅動場景中都實現了最先進的性能,尤其是在多語言環境中。值得注意的是,我們的方法在 512 × 512 像素的分辨率下實現了高質量的結果,同時保持了大約 11 kbps 的較低比特率。我們的工作為跨語言的說話面孔生成開辟了新的可能性。
CtrlAvatar: Controllable Avatars Generation via Disentangled Invertible Networks
隨著虛擬體驗的普及,對逼真、個性化和可動畫化的人類化身的需求也在增加。依賴固定模板的傳統方法通常會產生成本高昂的頭像,這些頭像缺乏表現力和真實感。為了克服這些挑戰,我們引入了通過解糾纏的可逆網絡 (CtrlAvatar) 生成可控頭像,CtrlAvatar 是一個用于生成逼真且可自定義頭像的實時框架。CtrlAvatar 使用解纏的可逆網絡將變形過程分為隱式體幾何體和顯式紋理組件。這種方法消除了重復占用重建的需要,從而實現了詳細和連貫的動畫。Body Geometry 組件確保解剖學的準確性,而紋理組件允許復雜、無偽影的服裝定制。這種架構確保了身體運動和表面細節之間的平滑整合。通過優化與頭像的初始線性混合蒙皮頂點的位置變化偏移量的變換,CtrlAvatar 實現了靈活、自然的變形,以適應各種場景。大量實驗表明,CtrlAvatar 在質量、多樣性、可控性和成本效益方面優于其他方法,標志著 Avatar 生成的重大進步。
3D2-Actor: Learning Pose-Conditioned 3D-Aware Denoiser for Realistic Gaussian Avatar Modeling
神經隱式表示和可微渲染的進步顯著提高了從稀疏多視圖 RGB 視頻中學習可動畫 3D 頭像的能力。然而,當前將觀察空間映射到典型空間的方法在捕獲與姿勢相關的細節和泛化到新姿勢方面經常面臨挑戰。雖然擴散模型在 2D 圖像生成中展示了卓越的零鏡頭功能,但它們從 2D 輸入創建可動畫 3D 頭像的潛力仍未得到充分開發。在這項工作中,我們介紹了 3D2-Actor,這是一種新穎的方法,具有姿勢條件的 3D 感知人體建模管道,集成了迭代 2D 降噪和 3D 校正步驟。2D 降噪器在姿勢提示的引導下,生成詳細的多視圖圖像,這些圖像提供了高保真 3D 重建和姿勢渲染所需的豐富功能集。作為補充,我們基于高斯的 3D 整流器通過兩階段投影策略和新穎的局部坐標表示來渲染具有增強 3D 一致性的圖像。此外,我們提出了一種創新的采樣策略,以確保視頻合成中跨幀的平滑時間連續性。我們的方法有效地解決了傳統數值解決方案在處理病態映射、生成逼真且可動畫化的 3D 人類頭像方面的局限性。實驗結果表明,3D2-Actor 在高保真頭像建模方面表現出色,并且可以穩健地泛化到新穎的姿勢。
AnyTalk: Multi-modal Driven Multi-domain Talking Head Generation
跨域說話頭生成,例如使用真實的人類視頻為靜態卡通動物照片制作動畫,對于個性化內容生產至關重要。然而,之前的作品通常依賴于特定領域的框架和配對視頻,限制了它的實用性,并通過額外的運動對齊模塊使其架構復雜化。為了解決這些缺點,我們提出了Anytalk,這是一個統一的框架,它消除了對配對數據的需求,并學習了跨不同域的共享運動表示。運動由使用無監督3D關鍵點檢測器提取的規范3D關鍵點表示。此外,我們提出了一種表情一致性損失,以提高視頻生成中面部動力學的準確性。此外,我們還提出了AniTalk,這是一個全面的數據集,專為高級多模態跨域生成而設計。我們的實驗表明,Anytalk擅長生成高質量、多模態說話頭視頻,展示了跨不同領域的卓越泛化能力。
InstructAvatar: Text-Guided Emotion and Motion Control for Avatar Generation 北京大學
最近的說話化身生成模型在實現與音頻的真實和準確的唇同步方面取得了長足的進步,但在控制和傳達化身的詳細表情和情感方面往往不足,使得生成的視頻不那么生動和可控。在本文中,我們提出了一種文本引導的方法來生成具有情感表現力的2D化身,為生成的視頻提供細粒度的控制、改進的交互性和通用性。我們的框架名為InstructAvata,利用自然語言界面來控制化身的情感和面部運動。從技術上講,我們利用GPT-4V設計了一個自動注釋管道,構建了一個指令-視頻配對訓練集。這與一種新穎的基于兩分支擴散的生成器相結合,可以同時使用音頻和文本指令來預測化身。實驗結果表明,InstructAvatar產生的結果與這兩種條件都很好地一致,并且在細粒度情緒控制、唇同步質量和自然度方面優于現有方法。
GraphAvatar: Compact Head Avatars with GNN-Generated 3D Gaussians
從任意視點渲染逼真的頭部化身對于虛擬現實等各種應用至關重要。盡管以前基于神經輻射場(NeRF)的方法可以取得令人印象深刻的結果,但它們缺乏保真度和效率。最近使用3D高斯散射(3DGS)的方法提高了渲染質量和實時性能,但仍需要大量的存儲開銷。在本文中,我們介紹了一種稱為GraphAvator的方法,該方法利用圖形神經網絡(GNN)為頭部化身生成3D高斯。具體來說,GraphAv從來自跟蹤的網格中訓練幾何GNN和外觀GNN以生成3D高斯的屬性。因此,我們的方法可以存儲GNN模型而不是3D高斯模型,顯著將存儲開銷減少到僅10MB。為了減少面部跟蹤錯誤的影響,我們還提出了一種新穎的圖形引導優化模塊,用于在訓練期間細化面部跟蹤參數。最后,我們介紹了一種用于后處理的3D感知增強器,以提高渲染質量。我們進行了全面的實驗來展示GraphAvator的優勢,在視覺保真度和存儲消耗方面超越了現有方法。消融研究揭示了渲染質量和模型大小之間的權衡。
Hierarchically Controlled Deformable 3D Gaussians for Talking Head Synthesis
音頻驅動的說話頭合成是數字人體建模中的一項關鍵任務。雖然使用擴散模型和神經輻射場(NeRF)的最新進展提高了視覺質量,但它們通常需要大量的計算資源,從而限制了實際部署。我們提出了一種用于音頻驅動的說話頭合成的新穎框架,即它分層控制變形3D高斯(HiCoDe),它在顯著降低計算成本的情況下實現了最先進的性能。我們的主要貢獻是一種分層控制策略,它有效地彌合了稀疏音頻特征和密集的3D高斯點云之間的差距。具體來說,該策略包括兩個控制級別:i)基于3D可變形模型(3DMM)的粗略級別控制和ii)使用面部地標的精細級別控制。在HDTF數據集和其他測試集上的廣泛實驗表明,我們的方法在視覺質量、面部地標準確性和視聽同步方面優于現有方法,同時在訓練和推理方面具有更高的計算效率。
PointTalk: Audio-Driven Dynamic Lip Point Cloud for 3D Gaussian-based Talking Head Synthesis
具有任意語音音頻的說話頭合成是數字人類領域的一個至關重要的挑戰。最近,基于輻射場的方法由于能夠從短短幾分鐘的訓練視頻中合成高保真和身份一致的說話頭而受到越來越多的關注。然而,由于訓練數據的規模有限,這些方法在音頻-唇同步和視覺質量方面往往表現出較差的性能。在本文中,我們提出了一種名為PointTalk的基于3D高斯的新穎方法,該方法構建了頭部的靜態3D高斯場,并與音頻同步地對其進行變形。它還結合了音頻驅動的動態唇點云作為條件信息的關鍵組件,從而促進了說話頭的有效合成。具體而言,初始步驟涉及從音頻信號中生成相應的唇點云并捕獲其拓撲結構。動態差分編碼器的設計旨在更有效地捕捉動態唇部運動中固有的細微差別。此外,我們集成了音頻點增強模塊,這不僅確保了音頻信號與需求空間內相應唇部點云的同步,還有助于更深入地理解跨模態條件特征之間的相互關系。廣泛的實驗表明,與以前的方法相比,我們的方法在說話頭合成中實現了卓越的高保真度和音頻-唇部同步。
MegActor-Sigma: Unlocking Flexible Mixed-Modal Control in Portrait Animation with Diffusion Transformer
擴散模型在肖像動畫中表現出卓越的性能。然而,目前的方法依賴于視覺或音頻模態來控制角色的運動,未能利用混合模態控制的潛力。這一挑戰源于難以平衡音頻模態的弱控制強度和視覺模態的強控制強度modality.To針對這一問題,我們引入了MegActor-Sigma:一種混合模態條件擴散變壓器(DiT),它可以靈活地將音頻和視覺模態控制信號注入人像動畫。具體來說,我們通過利用DiT有前途的模型結構并通過DiT中的高級模塊集成音頻和視覺條件,對其前身MegActor進行了實質性的改進framework.To進一步實現混合模態控制信號的靈活組合,我們提出了一種“模態解耦控制”訓練策略來平衡視覺和音頻模態之間的控制強度,以及“幅度調整”推理策略來自由調節每個模態的運動幅度。最后,為了促進該領域的廣泛研究,我們設計了幾個數據集評估指標來過濾掉公共數據集,并僅使用這個過濾后的數據集進行訓練。廣泛的實驗證明了我們的方法在生成生動的肖像動畫方面的優越性。
RealPortrait: Realistic Portrait Animation with Diffusion Transformers 騰訊
我們引入了RealPortrait,這是一個基于擴散變形金剛(DiT)的框架,旨在生成極具表現力和視覺吸引力的肖像動畫。給定一個靜態肖像圖像,我們的方法可以將從駕駛視頻中提取的復雜面部表情和頭部姿勢運動轉移到肖像上,將其轉換為逼真的視頻。具體來說,我們利用了DiT強大的時空建模能力,能夠生成保持高保真視覺細節并確保時間一致性的肖像視頻。與需要單獨參考網絡的傳統圖像到視頻生成框架相比,我們在DiT主干中加入了高效的參考注意力,從而避免了計算開銷并實現了卓越的參考外觀保護。同時,我們集成了一個并行的ControlNet來精確調節復雜的面部表情和頭部姿勢。與利用顯式稀疏運動表示(如面部地標或3DMM系數)的現有方法不同,我們采用密集的隱式運動表示作為控制指導。這種隱式運動表示擅長捕捉細微的情感面部表情和微妙的非剛性動態lips.To進一步增強模型的泛化能力,我們通過隨機裁剪增強合并大量面部圖像數據來增強訓練集。這種策略確保了模型在各種面部外觀和表情中的魯棒性。經驗評估表明,RealPortrait在生成具有高度逼真質量和外觀保留的特殊時間連貫性的肖像動畫方面表現出色。
GoHD: Gaze-oriented and Highly Disentangled Portrait Animation with Rhythmic Poses and Realistic Expressions
音頻驅動的說話頭部生成需要在多樣化的輸入肖像和音頻和面部運動之間錯綜復雜的相關性所帶來的挑戰中無縫集成音頻和視頻數據。作為回應,我們提出了一個強大的框架GoHD,旨在從任何參考身份和任何運動中生成高度逼真、富有表現力和可控的肖像視頻。GoHD通過三個關鍵模塊進行創新:首先,引入了一個利用潛在導航的動畫模塊,以提高跨看不見的輸入樣式的泛化能力。該模塊實現了運動和身份的高度解脫,并且還結合了注視方向,以糾正以前被忽視的不自然的眼球運動。其次,設計了一個conformer-structured條件擴散模型,以保證頭部姿勢能夠意識到韻律。第三,為了在有限的訓練數據內從輸入音頻中估計唇同步和逼真的表達,設計了一個兩階段訓練策略,將頻繁和逐幀的唇運動蒸餾與其他時間依賴性更強但與音頻相關更少的運動(例如眨眼和皺眉)的生成分離。廣泛的實驗驗證了GoHD的高級泛化能力,證明了它在任意主題上生成逼真的說話臉結果的有效性。
語音驅動手勢
DIDiffGes: Decoupled Semi-Implicit Diffusion Models for Real-time Gesture Generation from Speech
擴散模型在生成共聲手勢方面表現出卓越的合成質量和多樣性。然而,與擴散模型相關的計算密集型采樣步驟阻礙了它們在實際應用中的實用性。因此,我們提出了 DIDiffGes,用于基于 Decoupled Semi-Implicit Diffusion 模型的框架,該框架只需幾個采樣步驟即可從語音中合成高質量、富有表現力的手勢。我們的方法利用生成對抗網絡 (GAN) 來實現擴散模型的大步采樣。我們將手勢數據解耦為身體和手部分布,并進一步將它們分解為邊緣分布和條件分布。GAN 隱式地對邊際分布進行建模,而 L2 重建損失則單獨學習條件分布。此策略可增強 GAN 訓練的穩定性,并確保生成的全身手勢的表現力。我們的框架還學習了根據局部身體表現對根噪聲進行降噪,從而保證了穩定性和真實感。DIDiffGes 只需 10 個采樣步驟即可從語音生成手勢,而不會影響質量和表現力,與現有方法相比,采樣步驟的數量減少了 100 倍。我們的用戶研究表明,我們的方法在人類相似度、適當性和風格正確性方面優于最先進的方法。
facial landmark detection (FLD)
POPoS: Improving Efficient and Robust Facial Landmark Detection with Parallel Optimal Position Search
實現精度和效率之間的平衡是面部地標檢測(FLD)中的一個關鍵挑戰。本文介紹了并行最優位置搜索(POPoS),這是一種高精度編碼-解碼框架,旨在解決傳統FLD方法的局限性。POPoS采用了三個關鍵貢獻:(1)利用偽距多重分割來糾正熱圖錯誤,提高地標定位精度。通過集成多個錨點,它減少了單個熱圖不準確的影響,從而導致穩健的整體定位。(2)為了增強選定錨點的偽距精度,提出了一種新的損失函數,命名為多重錨點損失。這種損失函數增強了距離圖的準確性,減輕了局部最優的風險,并確保了最優解。(3)引入了單步并行計算算法,提高了計算效率,減少了流轉時長。對五個基準數據集的廣泛評估表明,POPoS始終優于現有方法,特別是在計算開銷最小的低分辨率熱圖場景中表現出色。這些優勢使POPoS成為FLD的高效準確工具,在現實世界場景中具有廣泛的適用性。
其他
FlexiTex: Enhancing Texture Generation via Visual Guidance 紋理生成
最近的紋理生成方法取得了令人印象深刻的結果,因為它們利用了強大的生成先驗,來自大規模文本到圖像擴散模型。但是,抽象文本提示在提供全局紋理或形狀信息方面受到限制,這會導致紋理生成方法產生模糊或不一致的圖案。為了解決這個問題,我們推出了 FlexiTex,通過視覺引導嵌入豐富的信息,以生成高質量的紋理。FlexiTex 的核心是視覺引導增強模塊,它整合了來自視覺引導的更具體的信息,以減少文本提示中的歧義并保留高頻細節。為了進一步增強視覺引導,我們引入了一個方向感知自適應模塊,該模塊根據不同的相機姿勢自動設計方向提示,避免了 Janus 問題并保持語義全局一致性。得益于視覺引導,FlexiTex 產生了定量和定性上合理的結果,展示了它為實際應用推進紋理生成的潛力。
OmniSR: Shadow Removal Under Direct and Indirect Lighting 直接和間接照明下的陰影去除
陰影可以起源于直接和間接照明中的遮擋。盡管目前大多數陰影去除研究都集中在直接照明引起的陰影上,但間接照明產生的陰影通常同樣普遍,特別是在室內場景中。從間接照明中去除陰影的一個重大挑戰是獲得無陰影圖像來訓練陰影去除網絡。為了克服這一挑戰,我們提出了一種新穎的渲染管道,用于在直接和間接照明下生成陰影和無陰影圖像,并創建了一個包含超過30,000個圖像對的綜合合成數據集,涵蓋了各種對象類型和照明條件。我們還提出了一種創新的陰影去除網絡,通過連接和注意力機制顯式集成語義和幾何先驗。實驗表明,我們的方法優于最先進的陰影去除技術,可以有效地推廣到各種光照條件下的室內和室外場景,提高了陰影去除方法的整體有效性和適用性。
Stable-Hair: Real-World Hair Transfer via Diffusion Model 更換發型
當前的頭發轉移方法難以處理多樣化和復雜的發型,限制了它們在現實世界場景中的適用性。在本文中,我們提出了一種新穎的基于擴散的頭發轉移框架,命名為Stable-頭發,它將廣泛的現實世界發型穩健地轉移到用戶提供的面部以進行虛擬頭發試穿。為了實現這一目標,我們的Stable-頭發框架被設計為一個兩階段的管道。在第一階段,我們訓練了一個禿頭轉換器,旁邊是穩定的擴散,以從用戶提供的面部圖像中去除頭發,從而產生禿頭圖像。在第二階段,我們專門設計了一個毛發提取器和一個潛在識別網,以將具有高度細節和高保真度的目標發型轉移到禿頭圖像中。毛發提取器經過訓練,可以對具有所需發型的參考圖像進行編碼,而潛在識別網確保身份和背景的一致性。為了最大限度地減少源圖像和傳輸結果之間的顏色偏差,我們引入了一種新穎的潛在控制網架構,它同時充當禿頭轉換器和潛在識別網。在我們精心策劃的三元組數據集上進行訓練后,我們的方法準確地將高度詳細和高保真的發型傳輸到源圖像。廣泛的實驗表明,與現有的頭發傳輸方法相比,我們的方法實現了最先進的性能。