簡介
arXiv上的計算機視覺領域論文:
AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation
AniPortrait:照片級真實感肖像動畫的音頻驅動合成
核心內容圍繞一種新的人像動畫合成框架展開。
- 研究內容
- 提出 AniPortrait 框架:用于生成由音頻和參考肖像圖像驅動的高質量動畫。
- 實現方法:分2個階段實現
- 第一階段,從音頻中提取 3D 中間表示,并將其投影到 2D 面部標志點序列;
- 第二階段,利用強大的擴散模型結合運動模塊,將標志點序列轉換為逼真且時間上連貫的肖像動畫。
- 研究成果
- 性能優勢:實驗表明 AniPortrait 在面部自然度、姿勢多樣性和視覺質量方面表現優異,能提供更好的感知體驗。
- 應用潛力:該方法在靈活性和可控性方面有很大潛力,可有效應用于面部運動編輯、人臉重演等領域。
深度解讀
AniPortrait旨在通過音頻和一張參考肖像圖像來創建高質量的動畫視頻。這個過程被設計為兩個主要階段:
Audio2Lmk(音頻到標志)和Lmk2Video(標志到視頻)。
第一階段--Audio2Lmk:
系統從音頻輸入中提取3D面部網格和頭部姿勢,并將這些信息投影到一系列2D面部標志點上。這一階段的關鍵在于能夠捕捉復雜的面部表情和嘴唇運動,同時還能與音頻節奏同步地生成頭部動作。
具體來說,在Audio2Lmk階段,研究人員使用了預訓練的wav2vec模型來提取音頻特征,這有助于準確識別發音和語調,這對于生成逼真的面部動畫至關重要。
然后,他們利用一個簡單的兩層全連接網絡將這些特征轉換為對應的3D面部網格。為了處理音頻轉換為頭部姿勢的任務,他們同樣采用了wav2vec作為主干網絡,但沒有共享權重,因為頭部運動更依賴于音頻的節奏和語調。
第二階段--Audio2Lmk:
系統采用了一個魯棒擴散模型結合一個運動模塊,將面部標志序列轉化為時間一致且逼真的動畫肖像。這里的設計靈感來源于AnimateAnyone項目,使用了SD1.5作為骨干網絡,并整合了一個反映SD1.5結構的RefNet來提取參考圖像的外觀信息并將其集成到主干中。這種策略確保了在整個輸出視頻中保持一致的臉部ID信息。
值得注意的是,盡管AniPortrait取得了顯著成就,但在實驗過程中也遇到了一些挑戰。例如,雖然中間的三維表示增強了對擴散模型生成的控制能力,但它也可能限制表達的多樣性。
最后,AniPortrait不僅展示了其在創造具有高面部自然度、姿態多樣性和視覺質量的動畫方面的優越性,而且還揭示了其在靈活性和可控性方面的巨大潛力,這使得它可以在諸如面部運動編輯或面部重演等領域得到有效應用。通過發布代碼和模型權重,研究團隊希望促進進一步的研究和技術發展。
總之,AniPortrait代表了多媒體處理領域的一項重要進展,尤其是在音頻驅動的肖像動畫合成方面。它提供了一種創新的方法來解決傳統方法在生成高質量內容時遇到的問題,并為未來的相關研究提供了有價值的參考。
如果您有興趣深入了解AniPortrait的具體實現細節或者想要嘗試自己動手復現這個項目,可以訪問GitHub上的官方倉庫獲取更多的資源和支持。?
?github:https://github.com/Zejun-Yang/AniPortrait
原文鏈接:[2403.17694] AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation