【論文解讀】LivePortrait:具有拼接和重定向控制的高效肖像動畫

📜 文獻卡

英文題目: LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control;
作者: Jianzhu Guo; Dingyun Zhang; Xiaoqiang Liu; Zhizhou Zhong; Yuan Zhang; Pengfei Wan; Di Zhang
DOI: 10.48550/arXiv.2407.03168
摘要翻譯: *旨在從單個源圖像合成逼真的視頻,將其用作外觀參考,運動(即面部表情和頭部姿勢)源自驅動視頻、音頻、文本或生成。我們沒有遵循主流的基于擴散的方法,而是探索和擴展了implicit-keypoint-based框架的潛力,該框架有效地平衡了計算效率和可控性。在此基礎上,我們開發了一個名為LivePortrait的視頻驅動的肖像動畫框架,專注于更好的泛化、可控性和效率以供實際使用。為了增強生成質量和泛化能力,我們將訓練數據放大到大約6900萬高質量幀,采用混合圖像-視頻訓練策略,升級網絡架構,并設計更好的運動轉換和優化目標。此外,我們發現緊湊的隱式關鍵點可以有效地表示一種混合形狀,并精心提出了一個拼接和兩個重定向模塊,它們利用一個計算開銷可以忽略不計的小MLP來增強可控性。實驗結果證明了我們的框架即使與基于擴散的方法相比也是有效的。在帶有PyTorch的RTX 4090 GPU上,生成速度顯著達到12.8ms。
Github(pytorch): https://github.com/KwaiVGI/LivePortrait

?? 內容

本文介紹了一種名為LivePortrait的視頻驅動肖像動畫框架,該框架基于隱式關鍵點框架,并且在平衡計算效率和可控性方面表現出色。作者采用了混合圖像和視頻訓練策略、升級網絡架構以及設計更好的運動變換和優化目標等方法,以提高生成質量和泛化能力。此外,他們還提出了一個拼接和兩個重新定位模塊,這些模塊利用具有微小計算開銷的小型MLP,增強了可控制性。實驗結果表明,即使與擴散基方法相比,該框架也表現出了出色的效能。生成速度在RTX 4090 GPU上達到了每幀12.8毫秒。并且在各種場景下具有廣泛的應用前景,如視頻會議、社交媒體和娛樂等。此外,作者還對該技術可能帶來的社會風險進行了探討,并提出了相應的倫理指導原則。

效果圖

💡 創新點

  1. 大規模數據集與混合訓練策略:通過利用約6900萬張高質量肖像圖像,結合圖片和視頻的混合訓練策略,LivePortrait提升了模型的泛化能力和生成質量。

  2. 網絡架構升級:引入了可指導學習的2D關鍵點、自適應變形等技術,統一了關鍵點檢測、頭姿估計和表情變形等多個子任務的模型,采用ConvNeXt-V2-Tiny作為骨干網絡,SPADE解碼器作為生成器,像素上采樣作為最終層,使得模型更加高效且具有更強的表現力。

  3. 緊湊隱式關鍵點:發現緊湊的隱式關鍵點可以有效地表示一種隱式blendshapes,這使得LivePortrait能以極小的計算開銷實現精準的控制,如拼接控制。

  4. 拼接與重定向模塊:設計了一個拼接模塊和兩個重定向模塊,它們使用小型多層感知機(MLP),幾乎不增加計算負擔,提高了模型的可控性,實現了更自然、更精細的動畫效果。

🧩 不足

  • 跨重演情況下姿勢變化較大時的表現不佳,
  • 肩部移動較多的情況下可能會出現抖動等問題

🔁 實驗卡

💧 數據

LivePortrait使用了包括VoxCeleb、MEAD和RAVDESS在內的公開視頻數據集,以及AAHQ的風格化圖像數據集。他們還收集了大量4K分辨率的肖像視頻和說話頭像視頻,以及LightStage數據集中的私有數據。所有數據經過精心篩選和預處理,確保每個片段只包含一個人,并且使用KVQ過濾低質量視頻剪輯。

👩🏻?💻 方法

  1. 第一階段:基礎模型訓練

    • 外觀和運動提取器(F和M)負責從輸入圖像中提取外觀特征和運動信息。
    • 變形模塊(W)生成一個變形場,用于將源特征體積(fs)變形到目標位置。
    • 解碼器(G)接收變形后的特征體積并生成最終的動畫圖像。
    • 訓練過程中,模型會學習到如何從源圖像的3D外觀特征體積(fs)和驅動3D關鍵點(xd)映射到目標圖像。
  2. 混合圖像和視頻訓練

    • 使用混合訓練策略,模型不僅在真實人像視頻上表現良好,還能有效泛化至風格化肖像,如動漫。
    • 為了兼顧兩種數據類型,單張圖像被視為單幀視頻進行訓練。
  3. 網絡架構升級

    • 統一了原有的規范隱式關鍵點檢測器(L)、頭部姿態估計網絡(H)和表達變形估計網絡(Δ),形成單一模型(M),其主干網絡為ConvNeXt-V2-Tiny。
    • 使用SPADE解碼器作為生成器(G),比原來的解碼器更強大。
    • 特征體積fs被精巧地送入SPADE解碼器,生成動畫圖像;特征體積的每個通道作為語義圖來指導生成過程。
  4. 可擴展的運動變換

    引入縮放因子來優化運動變換,避免將縮放納入表達變形中,降低訓練難度。

  5. 拼接和重定向模塊

    • 拼接模塊(S)和眼睛、嘴唇重定向模塊(Reyes、Rlip)使用小型MLP網絡,計算開銷極低,但能夠有效控制眼睛和嘴唇的動作,同時無縫拼接動畫。
    • 在推斷過程中,這些模塊根據不同的控制參數(αeyes、αlip、αst)決定是否應用拼接或重定向操作。
  6. 訓練細節

    • 第一階段訓練從零開始,使用8塊NVIDIA A100 GPU,耗時大約10天。
    • 第二階段僅訓練拼接和重定向模塊,保持其他參數不變,大約需要2天。
  7. 損失函數

    • 基本損失(LE)
    • 頭部姿態損失(LH)
    • 變形先驗損失(LΔ)
    • 級聯感知損失(LP,cascade)
    • 級聯GAN損失(LG,cascade)
    • 身份保留損失(Lfaceid)
    • 指導損失(Lguide)

🔬 實驗

作者首先給出了實驗的實施細節和使用的基準數據集,然后進行了自我重演和跨人重演的實驗,并進行了模塊有效性驗證的消融研究。

在自我重演方面,作者將第一幀作為源圖像并將其用作驅動視頻序列中的所有幀來生成動畫結果。與基線方法相比,作者的方法在生成質量和眼睛運動準確性方面略優。在跨人重演方面,作者使用了FFHQ數據集中前50張圖像作為源圖像,并對前50張圖像進行了比較。與基線方法相比,作者的方法在生成質量和運動準確性方面均優于其他方法。

此外,作者還進行了模塊有效性驗證的消融研究,包括縫合模塊、眼睛和唇部重新定位模塊。對于縫合模塊,作者發現通過將肩部對齊到裁剪后的源肖像中,可以消除肩膀錯位的問題。對于眼睛和唇部重新定位模塊,作者展示了它們能夠實現高質量的動畫效果,并且能夠控制眼睛和嘴唇的打開程度。最后,作者進行了一個例子來證明同時應用眼睛和唇部重新定位的效果。

📜 結論

總體而言,LivePortrait模型通過混合訓練策略、網絡架構優化、可擴展運動變換以及精心設計的拼接和重定向控制模塊,實現了高效率、高可控性和高質量的肖像動畫生成效果。

🤔 總結卡

文章優點

該論文提出了一種基于視頻驅動的靜態肖像圖像動畫框架,實現了高精度的控制性和高效的推理效率。該模型能夠在12.8毫秒內完成一次推斷,并且在各種場景下具有廣泛的應用前景,如視頻會議、社交媒體和娛樂等。此外,作者還對該技術可能帶來的社會風險進行了探討,并提出了相應的倫理指導原則。

方法創新點

該論文的主要貢獻在于提出了一種基于混合圖像-視頻訓練策略的增強型隱式關鍵點視頻驅動肖像動畫框架。該框架通過升級網絡架構、使用可擴展的運動變換、設計基于地標引導的隱式關鍵點優化以及多個級聯損失項等方式,顯著提高了生成質量和泛化能力。同時,作者還設計了先進的拼接模塊和兩個重定向模塊,以提高可控性,并在計算開銷方面保持微小。

未來展望

雖然該論文提出的肖像動畫框架已經取得了很好的效果,但仍然存在一些局限性,例如跨重演情況下姿勢變化較大時的表現不佳,以及肩部移動較多的情況下可能會出現抖動等問題。因此,在未來的研究中,作者計劃解決這些問題并進一步探索如何將該技術應用于音頻驅動的角色動畫等領域。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/40972.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/40972.shtml
英文地址,請注明出處:http://en.pswp.cn/web/40972.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【MySQL】表的操作{創建/查看/修改/刪除}

文章目錄 1.創建表1.1comment:注釋信息1.2存儲引擎 2.查看表3.修改表3.1add添加列,對原數據無影響3.2drop刪除列3.3modify修改列類型3.4change修改列名3.5rename [to]修改表名 4.刪除表5.總結 1.創建表 CREATE TABLE table_name (field1 datatype,field…

AI行業的非零和博弈:解讀Mustafa Suleyman的觀點

引言 在人工智能(AI)領域,微軟AI公司的CEO Mustafa Suleyman最近在阿斯彭思想節上的訪談引起了廣泛關注。與CNBC記者Andrew Ross Sorkin的對話中,Suleyman不僅分享了他對OpenAI人事變動的看法,還深入探討了AI行業的現…

FRP反向隧道代理打CFS三層

目錄 攻擊機 查看服務端frps.ini配置文件 開啟服務端frps 蟻劍打目標機 上傳客戶端frp到目標機 ?frpc.ini文件配置成 客戶端打開代理frpc vps顯示成功客戶端frpc打開 訪問成功192.168.22.22的第二層內網主機 省去前面漏洞利用的rce過程,直接蟻劍開搞隧道…

五、保存數據到Excel、sqlite(爬蟲及數據可視化)

五、保存數據到Excel、sqlite(爬蟲及數據可視化) 1,保存數據到excel1.1 保存九九乘法表到excel(1)代碼testXwlt.py(2)excel保存結果 1.2 爬取電影詳情并保存到excel(1)代…

MySQL表的增刪改查(CRUD)

MySQL表的增刪改查(CRUD) 文章目錄 MySQL表的增刪改查(CRUD)1. Create1.1 單行數據 全列插入1.2 多行數據 指定列插入1.3 插入否則更新1.4 替換 2. Retrieve2.1 SELECT 列2.1.1 全列查詢2.1.2 指定列查詢2.1.3 查詢字段為表達式…

中介子方程四十七

XXFXXaXnXaXXαXLXyXXWXuXeXKXXiXyXΣXXΣXXVXuXhXXWXηXWXXhXuXVXXΣXXΣXyXiXXKXeXuXWXXyXLXαXXaXnXaXXFXXaXnXaXXαXLXyXXWXuXeXKXXiXyXΣXXΣXXVXuXhXXWXηXWXXhXuXVXXΣXXΣXyXiXXKXeXuXWXXyXLXαXXaXnXaXXFXXuXXWXXuXXdXXrXXαXXuXpXXKXηXiXXnXXyXηXuXXrXXaXnXXαXLXy…

采用Java語言+開發工具 Idea+ scode數字化產科管理平臺源碼,產科管理新模式

采用Java語言開發工具 Idea scode數字化產科管理平臺源碼,產科管理新模式 數字化產科管理系統是現代醫療信息化建設的重要組成部分,它利用現代信息技術手段,對孕產婦的孕期管理、分娩過程及產后康復等各個環節進行數字化、智能化管理&#xf…

使用LoFTR模型進行圖像配準、重疊區提取

LoFTR模型源自2021年CVPR提出的一篇論文LoFTR: Detector-Free Local Feature Matching with Transformers,其基于pytorch實現圖像配準,與基于superpointsuperglue的方法不同, 是一個端到端的圖像配準方法。與LoFTR官方庫相關的有loftr2onnx庫…

面試專區|【52道微服務架構高頻題整理(附答案背誦版)】

簡述什么是微服務? 微服務是一種軟件架構風格,它將應用程序拆分成一系列小型、獨立的服務,每個服務都運行在其自己的進程中,通過輕量級通信機制進行通信。每個服務都具有明確的業務能力,并且可以獨立開發、測試、部署…

Android在framework層添加自定義服務的流程

環境說明 ubuntu16.04android4.1java version “1.6.0_45”GNU Make 3.81gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.12) 可能有人會問,現在都2024了怎么還在用android4版本,早都過時了。確實,現在最新的都是Android13、And…

墨烯的C語言技術棧-C語言基礎-007

七.字符串 由雙引號引起的一串字符稱為字符串字面值,或者簡稱字符串 字符串的結束標志是"\0" int main() { //#qWer$ //char 字符類型 //a; //char ch "w"; //字符串 //C語言中沒有字符串類型 "abcdefg"; char arr1[] "abc…

柯橋職場英語學習商務英語口語生活英語培訓生活口語學習

辣妹用英語怎么說? 辣妹在英語中通常被翻譯為“hot girl”或“spicy girl”,但更常見和直接的是“hot chick”或簡單地使用“hot”來形容。 舉個例子: Shes a real hot girl with her trendy outfit and confident attitude. 她真是個辣妹&#xff0…

Redis---10---SpringBoot集成Redis

SpringBoot集成Redis 總體概述jedis-lettuce-RedisTemplate三者的聯系 本地Java連接Redis常見問題,注意 bind配置請注釋掉? 保護模式設置為no? Linux系統的防火墻設置? redis服務器的IP地址和密碼是否正確? 忘記寫訪問redis的服務端口號和auth密碼集成Jedis …

Docker:Docker網絡

Docker Network 是 Docker 平臺中的一項功能,允許容器相互通信以及與外界通信。它提供了一種在 Docker 環境中創建和管理虛擬網絡的方法。Docker 網絡使容器能夠連接到一個或多個網絡,從而使它們能夠安全地共享信息和資源。 預備知識 推薦先看視頻先有…

最長公共子序列求長度和輸出子序列C代碼

求兩個字符串的公共子序列我們都知道需要使用用動態規劃思想 用res[i][j]表示截止到字符串A的第i個字符串和截止到字符串B的第j個字符的最長公共子序列。如兩個字符串helloworld和loop,res[5][3]表示子串hello和子串loo的最長公共子序列,為lo&#xff0…

2024機器人科研/研發領域最新研究方向崗位職責與要求

具身智能工程師 從事具身智能領域的技術研究或產品開發,制定具身智能技術標準,利用大模型技術來提高機器人的智能化水平,研究端云協同的機器人系統框架,并賦能人形/復合等各類形態的機器人。具體內容包括不限于: 1、負…

maven項目使用netty,前端是vue2,實現通訊

引入的java包 <!-- 以下是即時通訊--><!-- Netty core modules --><dependency><groupId>io.netty</groupId><artifactId>netty-all</artifactId><version>4.1.76.Final</version> <!-- 使用最新的穩定版本…

C++初學者指南-4.診斷---地址檢測器

C初學者指南-4.診斷—地址檢測器 幻燈片 地址檢測器&#xff08;ASan&#xff09; 適用編譯器g,clang檢測內存錯誤 內存泄露訪問已經釋放的內存訪問不正確的堆棧區域 用額外的指令檢測代碼 運行時間增加約70%內存使用量大約增加了3倍 示例&#xff1a;檢測空指針 使用地址…

中英雙語介紹百老匯著名歌劇:《貓》(Cats)和《劇院魅影》(The Phantom of the Opera)

中文版 百老匯著名歌劇 百老匯&#xff08;Broadway&#xff09;是世界著名的劇院區&#xff0c;位于美國紐約市曼哈頓。這里匯集了許多著名的音樂劇和歌劇&#xff0c;吸引了全球各地的觀眾。以下是兩部百老匯的經典音樂劇&#xff1a;《貓》和《劇院魅影》的詳細介紹。 1.…

CP AUTOSAR標準之RAMTest(AUTOSAR_CP_SWS_RAMTest)(更新中……)

1 簡介和功能概述 AUTOSAR基礎軟件模塊“RAM測試”的功能、API和配置。 ??RAM測試是對RAM單元的物理健康狀況的測試。它不是為了測試RAM的內容。用于寄存器的RAM也經過測試。 ??在本文檔中,RAM單元被理解為內存單位,可由處理器單獨尋址。因此,對于16位處理器,單元大小(…