📜 文獻卡
英文題目: LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control; |
---|
作者: Jianzhu Guo; Dingyun Zhang; Xiaoqiang Liu; Zhizhou Zhong; Yuan Zhang; Pengfei Wan; Di Zhang |
DOI: 10.48550/arXiv.2407.03168 |
摘要翻譯: *旨在從單個源圖像合成逼真的視頻,將其用作外觀參考,運動(即面部表情和頭部姿勢)源自驅動視頻、音頻、文本或生成。我們沒有遵循主流的基于擴散的方法,而是探索和擴展了implicit-keypoint-based框架的潛力,該框架有效地平衡了計算效率和可控性。在此基礎上,我們開發了一個名為LivePortrait的視頻驅動的肖像動畫框架,專注于更好的泛化、可控性和效率以供實際使用。為了增強生成質量和泛化能力,我們將訓練數據放大到大約6900萬高質量幀,采用混合圖像-視頻訓練策略,升級網絡架構,并設計更好的運動轉換和優化目標。此外,我們發現緊湊的隱式關鍵點可以有效地表示一種混合形狀,并精心提出了一個拼接和兩個重定向模塊,它們利用一個計算開銷可以忽略不計的小MLP來增強可控性。實驗結果證明了我們的框架即使與基于擴散的方法相比也是有效的。在帶有PyTorch的RTX 4090 GPU上,生成速度顯著達到12.8ms。 |
Github(pytorch): https://github.com/KwaiVGI/LivePortrait |
?? 內容
本文介紹了一種名為LivePortrait的視頻驅動肖像動畫框架,該框架基于隱式關鍵點框架,并且在平衡計算效率和可控性方面表現出色。作者采用了混合圖像和視頻訓練策略、升級網絡架構以及設計更好的運動變換和優化目標等方法,以提高生成質量和泛化能力。此外,他們還提出了一個拼接和兩個重新定位模塊,這些模塊利用具有微小計算開銷的小型MLP,增強了可控制性。實驗結果表明,即使與擴散基方法相比,該框架也表現出了出色的效能。生成速度在RTX 4090 GPU上達到了每幀12.8毫秒。并且在各種場景下具有廣泛的應用前景,如視頻會議、社交媒體和娛樂等。此外,作者還對該技術可能帶來的社會風險進行了探討,并提出了相應的倫理指導原則。
💡 創新點
-
大規模數據集與混合訓練策略:通過利用約6900萬張高質量肖像圖像,結合圖片和視頻的混合訓練策略,LivePortrait提升了模型的泛化能力和生成質量。
-
網絡架構升級:引入了可指導學習的2D關鍵點、自適應變形等技術,統一了關鍵點檢測、頭姿估計和表情變形等多個子任務的模型,采用ConvNeXt-V2-Tiny作為骨干網絡,SPADE解碼器作為生成器,像素上采樣作為最終層,使得模型更加高效且具有更強的表現力。
-
緊湊隱式關鍵點:發現緊湊的隱式關鍵點可以有效地表示一種隱式blendshapes,這使得LivePortrait能以極小的計算開銷實現精準的控制,如拼接控制。
-
拼接與重定向模塊:設計了一個拼接模塊和兩個重定向模塊,它們使用小型多層感知機(MLP),幾乎不增加計算負擔,提高了模型的可控性,實現了更自然、更精細的動畫效果。
🧩 不足
- 跨重演情況下姿勢變化較大時的表現不佳,
- 肩部移動較多的情況下可能會出現抖動等問題
🔁 實驗卡
💧 數據
LivePortrait使用了包括VoxCeleb、MEAD和RAVDESS在內的公開視頻數據集,以及AAHQ的風格化圖像數據集。他們還收集了大量4K分辨率的肖像視頻和說話頭像視頻,以及LightStage數據集中的私有數據。所有數據經過精心篩選和預處理,確保每個片段只包含一個人,并且使用KVQ過濾低質量視頻剪輯。
👩🏻?💻 方法
-
第一階段:基礎模型訓練
- 外觀和運動提取器(F和M)負責從輸入圖像中提取外觀特征和運動信息。
- 變形模塊(W)生成一個變形場,用于將源特征體積(fs)變形到目標位置。
- 解碼器(G)接收變形后的特征體積并生成最終的動畫圖像。
- 訓練過程中,模型會學習到如何從源圖像的3D外觀特征體積(fs)和驅動3D關鍵點(xd)映射到目標圖像。
-
混合圖像和視頻訓練
- 使用混合訓練策略,模型不僅在真實人像視頻上表現良好,還能有效泛化至風格化肖像,如動漫。
- 為了兼顧兩種數據類型,單張圖像被視為單幀視頻進行訓練。
-
網絡架構升級
- 統一了原有的規范隱式關鍵點檢測器(L)、頭部姿態估計網絡(H)和表達變形估計網絡(Δ),形成單一模型(M),其主干網絡為ConvNeXt-V2-Tiny。
- 使用SPADE解碼器作為生成器(G),比原來的解碼器更強大。
- 特征體積fs被精巧地送入SPADE解碼器,生成動畫圖像;特征體積的每個通道作為語義圖來指導生成過程。
-
可擴展的運動變換
引入縮放因子來優化運動變換,避免將縮放納入表達變形中,降低訓練難度。
-
拼接和重定向模塊
- 拼接模塊(S)和眼睛、嘴唇重定向模塊(Reyes、Rlip)使用小型MLP網絡,計算開銷極低,但能夠有效控制眼睛和嘴唇的動作,同時無縫拼接動畫。
- 在推斷過程中,這些模塊根據不同的控制參數(αeyes、αlip、αst)決定是否應用拼接或重定向操作。
-
訓練細節
- 第一階段訓練從零開始,使用8塊NVIDIA A100 GPU,耗時大約10天。
- 第二階段僅訓練拼接和重定向模塊,保持其他參數不變,大約需要2天。
-
損失函數
- 基本損失(LE)
- 頭部姿態損失(LH)
- 變形先驗損失(LΔ)
- 級聯感知損失(LP,cascade)
- 級聯GAN損失(LG,cascade)
- 身份保留損失(Lfaceid)
- 指導損失(Lguide)
🔬 實驗
作者首先給出了實驗的實施細節和使用的基準數據集,然后進行了自我重演和跨人重演的實驗,并進行了模塊有效性驗證的消融研究。
在自我重演方面,作者將第一幀作為源圖像并將其用作驅動視頻序列中的所有幀來生成動畫結果。與基線方法相比,作者的方法在生成質量和眼睛運動準確性方面略優。在跨人重演方面,作者使用了FFHQ數據集中前50張圖像作為源圖像,并對前50張圖像進行了比較。與基線方法相比,作者的方法在生成質量和運動準確性方面均優于其他方法。
此外,作者還進行了模塊有效性驗證的消融研究,包括縫合模塊、眼睛和唇部重新定位模塊。對于縫合模塊,作者發現通過將肩部對齊到裁剪后的源肖像中,可以消除肩膀錯位的問題。對于眼睛和唇部重新定位模塊,作者展示了它們能夠實現高質量的動畫效果,并且能夠控制眼睛和嘴唇的打開程度。最后,作者進行了一個例子來證明同時應用眼睛和唇部重新定位的效果。
📜 結論
總體而言,LivePortrait模型通過混合訓練策略、網絡架構優化、可擴展運動變換以及精心設計的拼接和重定向控制模塊,實現了高效率、高可控性和高質量的肖像動畫生成效果。
🤔 總結卡
文章優點
該論文提出了一種基于視頻驅動的靜態肖像圖像動畫框架,實現了高精度的控制性和高效的推理效率。該模型能夠在12.8毫秒內完成一次推斷,并且在各種場景下具有廣泛的應用前景,如視頻會議、社交媒體和娛樂等。此外,作者還對該技術可能帶來的社會風險進行了探討,并提出了相應的倫理指導原則。
方法創新點
該論文的主要貢獻在于提出了一種基于混合圖像-視頻訓練策略的增強型隱式關鍵點視頻驅動肖像動畫框架。該框架通過升級網絡架構、使用可擴展的運動變換、設計基于地標引導的隱式關鍵點優化以及多個級聯損失項等方式,顯著提高了生成質量和泛化能力。同時,作者還設計了先進的拼接模塊和兩個重定向模塊,以提高可控性,并在計算開銷方面保持微小。
未來展望
雖然該論文提出的肖像動畫框架已經取得了很好的效果,但仍然存在一些局限性,例如跨重演情況下姿勢變化較大時的表現不佳,以及肩部移動較多的情況下可能會出現抖動等問題。因此,在未來的研究中,作者計劃解決這些問題并進一步探索如何將該技術應用于音頻驅動的角色動畫等領域。