CVPR 2023 | 用戶可控的條件圖像到視頻生成方法(基于Diffusion)

注1:本文系“計算機視覺/三維重建論文速遞”系列之一,致力于簡潔清晰完整地介紹、解讀計算機視覺,特別是三維重建領域最新的頂會/頂刊論文(包括但不限于 Nature/Science及其子刊; CVPR, ICCV, ECCV, NeurIPS, ICLR, ICML, TPAMI, IJCV 等)。
本次介紹的論文是: CVPR 2023 | 用戶可控的條件圖像到視頻生成方法
文章DOI:
https://doi.org/10.48550/arXiv.2303.13744 ↗。

CVPR 2023 | 用戶可控的條件圖像到視頻生成方法

在這里插入圖片描述

1 引言

圖像到視頻(I2V)生成是計算機視覺領域一個迷人且富有潛力的研究課題。給定一張靜態圖像 x 0 x_0 x0?和一個文本描述 y y y(例如“微笑”),條件圖像到視頻(cI2V)生成旨在合成出一個符合條件 y y y的新視頻 x ^ _ 1 K \hat{x}\_1^K x^_1K。cI2V生成在藝術創作、娛樂產業以及機器學習的數據增廣等方面都有巨大的應用前景。但是,cI2V生成面臨的核心挑戰在于如何同時生成符合圖像 x 0 x_0 x0?的視覺外觀以及符合條件 y y y的時域動態

在這里插入圖片描述

2 動機

以往的cI2V生成方法可以分為兩大類:直接合成法無扭曲合成法

  • 直接合成法
    • 直接基于圖像 x 0 x_0 x0?和條件 y y y逐幀生成新的視頻幀
    • 但是這類方法往往難以同時滿足視覺細節的保真和時域連貫性
  • 無扭曲合成法
    • 先生成一系列扭曲場或光流,然后根據它們來扭曲或漂移圖像 x 0 x_0 x0?,從而合成新視頻
    • 但是它們的扭曲場或光流生成往往依賴額外的監督信息,例如人體姿態。對于只給定圖像 x 0 x_0 x0?和簡單文本條件 y y y的情況,無扭曲合成法效果仍有限。

本文提出一種稱為潛在流彌散模型(LFDM)的新型cI2V生成框架,以彌補現有方法的不足。LFDM的核心創新在于,它首先基于條件 y y y在潛在空間中合成一個時域連貫的光流序列,然后用該光流序列來扭曲圖像 x 0 x_0 x0?,從而生成新視頻。這種基于扭曲的生成方式可以更好地利用圖像 x 0 x_0 x0?所包含的視覺細節,同時滿足條件 y y y要求的運動動力學。

3 方法

LFDM的生成流程如圖1所示。它包含兩個階段的訓練。

在這里插入圖片描述
在這里插入圖片描述

3.1 階段一:潛在光流自動編碼器

在階段一中,我們用無標注視頻訓練一個潛在光流自動編碼器(LFAE)。LFAE 包含編碼器 Φ \Phi Φ、光流預測器 F F F和解碼器 Ω \Omega Ω三個模塊。給定一對來自同一視頻的參考幀 x r e f x_{ref} xref?和驅動幀 x d r i x_{dri} xdri?,編碼器 Φ \Phi Φ先把 x r e f x_{ref} xref?編碼為潛在空間的特征圖 z z z,然后 F F F估計 x r e f x_{ref} xref? x d r i x_{dri} xdri?之間的逆向潛在空間光流 f f f f f f用于扭曲 z z z得到 z ~ \tilde{z} z~,最后 Ω \Omega Ω解碼 z ~ \tilde{z} z~來重建 x d r i x_{dri} xdri?。LFAE的訓練目標是最小化重建損失。

3.2 階段二:彌散模型

在階段二中,我們訓練一個基于3D U-Net的彌散模型(DM)來生成時域連貫的潛在光流序列。給定一段訓練視頻 x 0 K = x 0 , x 1 , . . . , x K x_0^K={x_0,x_1,...,x_K} x0K?=x0?,x1?,...,xK?和對應的標簽 y y y,我們用階段一訓練好的 F F F來估計 x 0 x_0 x0?到每個 x k x_k xk?的光流 f k f_k fk?。然后這些 f k f_k fk?被DM以 y y y x 0 x_0 x0?為條件,學習生成時域連貫的光流。相比像素空間或潛在特征空間,LFDM的DM只需要學習一個簡單的低維光流空間,因此訓練更高效。

4 實驗和結果

我們在多個人臉表情、人體動作數據集上驗證了LFDM的有效性。主要結論如下:

  • LFDM相比現有cI2V生成方法效果更好,可以同時保證視覺質量、時域連貫性和結果多樣性。如圖2所示,LFDM生成的視頻質量明顯優于對比方法。

  • LFDM可以輕松適配新域面部視頻,只需要微調階段一的解碼器 O m e g a \\Omega Omega(圖3)。這得益于LFDM分階段的訓練策略。

  • Ablation study表明,LFDM中DM的潛在光流空間維度低,計算量小,這有助于生成效率的提升(表1)。

在這里插入圖片描述

圖2. 不同方法的生成比較

在這里插入圖片描述
在這里插入圖片描述

圖3. 微調 O m e g a \\Omega Omega后在新域人臉數據集的生成效果提升

表1. 不同方法的生成時間和空間復雜度比較

模型生成一段視頻所需時間潛在空間維度
VDM112.5s40×64×64×3
LFDM36s40×32×32×3

5 不足和未來展望

盡管取得了一定進展,LFDM仍存在一些局限:

  • 當前僅支持單主體視頻生成 。未來可以拓展至包含多個主體的光流預測。

  • 輸入條件僅為類別標簽,期望支持基于文本的控制信號。

  • 采樣速度相比GAN慢 。可以探索一些快速采樣策略以提升生成效率。

6 總結

本文提出了一種新型的基于潛在空間光流扭曲的條件圖像到視頻生成方法LFDM。

  • 它可以高質量地生成符合條件要求的新視頻。
  • 分階段的訓練策略也使LFDM容易遷移到新域。
  • 實驗結果表明LFDM優于多種先進對比方法。
  • 本文為條件視頻生成任務提供了一種新的有效思路。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/35858.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/35858.shtml
英文地址,請注明出處:http://en.pswp.cn/news/35858.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

使用chatGPT-4 暢聊量子物理學(二)

Omer 量子力學的主導哲學或模型或解釋是什么? ChatGPT 量子力學是一門描述微觀世界中粒子行為的物理學理論,但它的解釋和哲學觀點在學術界存在多種不同的觀點和爭議。以下是幾種主要的哲學觀點或解釋: 哥本哈根解釋:這是最為廣泛…

Windows 11清除無效、回收站、過期、緩存、補丁更新文件

Windows 11與之前的Windows版本類似,也需要定期清理無效、垃圾、過期、緩存文件來保持系統性能和存儲空間的優化。以下是在Windows 11中進行這些清理操作的一些建議方法: 磁盤清理工具 Windows 11內置了磁盤清理工具,可以幫助你刪除臨時文件…

Node.js學習筆記-03

七、網絡編程 1. 構建 TCP 服務 TCP 是面向連接的協議,顯著特征 在傳輸之前需要3次握手形成會話。 客戶端 ——請求連接——> 服務器端 ——響應——> 客戶端 ——開始傳輸——> 服務器端。 2. 構建 UDP 服務 3. 構建 HTTP 服務 http模塊 在node中HTT…

《Java面向對象程序設計》學習筆記——第 7 章 面向對象設計的基本原則

?專欄:《Java面向對象程序設計》學習筆記 ?# 第 7 章 面向對象設計的基本原則 7.1 UML 類圖簡介 類的 UML 圖 長方形垂直地分為三層。 第 1 層是名字層。 名字是常規字形,表明該類是具體類,如果類的名字是斜體字形,表明該類…

C語言可變數組 嵌套的可變數組,翻過了山跨過了河 又掉進了坑

可變數組 ?專欄內容: postgresql內核源碼分析 手寫數據庫toadb 并發編程 個人主頁:我的主頁 座右銘:天行健,君子以自強不息;地勢坤,君子以厚德載物. 概述 數組中元素是順序存放,這一特性讓我們…

【IC萌新虛擬項目】spt_core模塊基于dc的綜合環境搭建與面積時序優化

關于整個虛擬項目,請參考: 【IC萌新虛擬項目】Package Process Unit項目全流程目錄_尼德蘭的喵的博客-CSDN博客 前言 當驗證的同學正在瘋狂寫測試點,補充測試用例各種找茬找bug時候,設計的同學也要進入到跑綜合修時序優化面積的階段了。 還是老樣子,關于芯片綜合的知識就…

Redis_緩存3_緩存異常(數據不一致、雪崩、擊穿、穿透)

14.6緩存異常 四個方面 緩存中數據和數據庫不一致緩存雪崩緩存擊穿緩存穿透 14.6.1數據不一致: 一致性包括兩種情況 緩存中有數據,需要和數據庫值相同緩存中沒有數據,數據庫中的數據是最新值 如果不符合以上兩種情況,則出現…

Linux tee

tee 是一個命令行工具,它可以從標準輸入讀取數據,并將其同時輸出到標準輸出和指定的文件中。tee 命令非常實用,特別是在需要同時查看輸出內容和將其保存到文件中的情況下。 tee 命令的基本語法如下: command | tee [options] [f…

Mysql 搭建MHA高可用架構,實現自動failover,完成主從切換

目錄 自動failover MHA: MHA 服務 項目:搭建Mysql主從復制、MHA高可用架構 實驗項目IP地址配置: MHA下載地址 項目步驟: 一、修改主機名 二、編寫一鍵安裝mha node腳本和一鍵安裝mha mangaer腳本,并執行安裝 …

docker容器限定ip訪問

docker容器限定ip訪問 一、測試所需環境:二、使用docker的 iptables 策略三、Docker使用iptables 與系統Firewalld之間的關系四、沖突解決方案 一、測試所需環境: 主機1: ip:192.168.3.117 環境配置:docker、httpd(do…

你真的了解ORM嗎?通過一個簡單的例子來學習ORM

什么是ORM ORM(Object-Relational Mapping)是一種將面向對象程序數據模型與關系數據庫之間進行映射的技術。 比如數據庫表user,它有id、name、age字段映射到Java實體類就是User類,有id、name、age屬性。 CREATE TABLE user (id…

2023國賽 高教社杯數學建模ABCDE題思路匯總分析

文章目錄 0 賽題思路1 競賽信息2 競賽時間3 建模常見問題類型3.1 分類問題3.2 優化問題3.3 預測問題3.4 評價問題 4 建模資料 0 賽題思路 (賽題出來以后第一時間在CSDN分享) https://blog.csdn.net/dc_sinor?typeblog 1 競賽信息 全國大學生數學建模…

echarts加釣魚島赤尾嶼(vue)(親測有效)

1.首先引入json文件,node_modules/echarts中就有 import chinaData from "../../node_modules/echarts/map/json/china.json" 2.初始化地圖,在初始化地圖的時候加入釣魚島和赤尾嶼的數據,在chinaData下的features中加入即可&#x…

Design-Pattern設計模式

Design-Pattern設計模式 圖說設計模式 圖說設計模式 在線書籍 軟件模式是將模式的一般概念應用于軟件開發領域,即軟件開發的 總體指導思路或參照樣板。軟件模式并非僅限于設計模式,還包括 架構模式、分析模式和過程模式等,實際上&#xff…

FFmpeg常見命令行(四):FFmpeg流媒體

前言 在Android音視頻開發中,網上知識點過于零碎,自學起來難度非常大,不過音視頻大牛Jhuster提出了《Android 音視頻從入門到提高 - 任務列表》,結合我自己的工作學習經歷,我準備寫一個音視頻系列blog。本文是音視頻系…

leetcode做題筆記77組合

給定兩個整數 n 和 k,返回范圍 [1, n] 中所有可能的 k 個數的組合。 你可以按 任何順序 返回答案。 思路一:直接求出組合數將每個組合放進數組中 int** combine(int n, int k, int* returnSize, int** returnColumnSizes) {int size 0, num 1, i;in…

Rust中的智能指針:Box<T> Rc<T> Arc<T> Cell<T> RefCell<T> Weak<T>

Rust中的智能指針是什么 智能指針(smart pointers)是一類數據結構,是擁有數據所有權和額外功能的指針。是指針的進一步發展 指針(pointer)是一個包含內存地址的變量的通用概念。這個地址引用,或 ” 指向”…

UML 類圖的畫法

1.類圖的畫法 類 整體是個矩形,第一層類名,第二層屬性,第三層方法。 :public- : private# : protected空格: 默認的default 對應的類寫法。 public class Student {public String name;public Integer age;protected I…

2023杭電第七場補題報告1002 1004 1011 1013

2023杭電第七場補題報告1002 1004 1011 1013 1002 B. Random Nim Game (hdu.edu.cn) 思路 手推一下就可以發現其實除了一次必定結束的其他情況概論都是 1 2 \frac{1}{2} 21? 代碼 #include <bits/stdc.h> using namespace std; #define int long long void solve()…

【hello C++】特殊類設計

目錄 一、設計一個類&#xff0c;不能被拷貝 二、設計一個類&#xff0c;只能在堆上創建對象 三、設計一個類&#xff0c;只能在棧上創建對象 四、請設計一個類&#xff0c;不能被繼承 五、請設計一個類&#xff0c;只能創建一個對象(單例模式) C&#x1f337; 一、設計一個類&…