AIGC視頻生成模型：慕尼黑大學、NVIDIA等的Video LDMs模型

大家好，這里是好評筆記，公主號：Goodnote，專欄文章私信限時Free。本文詳細介紹慕尼黑大學攜手 NVIDIA 等共同推出視頻生成模型 Video LDMs。NVIDIA 在 AI 領域的卓越成就家喻戶曉，而慕尼黑大學同樣不容小覷，他們深度參與了最初 SD 系列圖像生成模型的研發，在擴散模型領域，展現出了強勁實力。

在這里插入圖片描述

熱門專欄

機器學習

機器學習筆記合集

深度學習

深度學習筆記合集

🌺優質專欄回顧🌺：

機器學習筆記
深度學習筆記
多模態論文筆記
AIGC—圖像

文章目錄

熱門專欄
機器學習
深度學習
論文
摘要
1. 引言
貢獻

2. 背景
擴散模型（DMs）
潛在擴散模型（LDMs）

3. 潛在視頻擴散模型
3.1 將潛在圖像轉變為視頻生成器
3.1.1 時間自動編碼器微調
3.2 長視頻生成的預測模型
3.3 高幀率的時間插值
3.4 超分辨率模型的時間微調
總結

4. 實驗
數據集
評估指標
模型架構和采樣
4.1 高分辨率駕駛視頻合成
4.1.1 消融研究
4.1.2 駕駛場景模擬

4.2 使用穩定擴散的文本到視頻
4.2.1 使用DreamBooth的個性化文本到視頻

5. 結論

論文

論文地址：https://arxiv.org/pdf/2304.08818
項目地址：https://research.nvidia.com/labs/toronto-ai/VideoLDM/

摘要

在圖像生成領域，潛在擴散模型（LDMs）取得了重大成功，通過在低維潛在空間中訓練擴散模型，避免了過高的計算需求的同時，能夠實現高質量的圖像合成

本文中，作者將LDM范式應用于高分辨率視頻生成領域。過程如下：

首先僅在圖像上預訓練一個LDM；
然后，通過在潛在空間擴散模型中引入時間維度；
在編碼后的圖像序列（即視頻）上進行微調，將圖像生成器轉變為視頻生成器。
對擴散模型的上采樣器進行時間對齊，將它們轉變為時間一致的視頻超分辨率模型。

本文中，作者專注于兩個實際相關的應用：野外駕駛數據的模擬和基于文本到視頻建模的創意內容創作。

這種情況下，可以通過訓練一個時間對齊模型，結合預訓練圖像LDM（如SD系列模型），轉變為一個高效且表現力強的文本到視頻模型。

1. 引言

1.圖像生成模型發展：因基礎建模方法突破，圖像生成模型備受關注，強大模型基于生成對抗網絡、自回歸變換器和擴散模型構建，其中擴散模型優勢明顯，訓練目標穩健可擴展且，并且通常比基于變換器的模型參數更少。
2. 視頻建模現狀：圖像領域進展巨大，但視頻建模滯后。原因是視頻數據訓練成本高且缺乏合適數據集，多數視頻合成工作只能生成低分辨率短視頻，包括之前的視頻擴散模型。
3. 研究內容：本文將視頻模型應用于實際，生成高分辨率長視頻，聚焦兩個實際相關問題：一是高分辨率真實世界駕駛數據的視頻合成，可用于自動駕駛模擬；二是用于創意內容生成的文本引導視頻合成。
4. 研究基礎與模型提出：本文基于潛在擴散模型（LDMs）展開研究，提出Video LDMs，將其應用于高分辨率視頻生成任務，LDMs可減輕高分辨率圖像訓練的計算負擔。
5. 模型構建方法：
先在大規模圖像數據集在圖像上預訓練Video LDMs（或用現有預訓練圖像LDMs）。通過在潛在空間DM引入時間維度，固定預訓練空間層的同時僅在編碼后的圖像序列（即視頻）上訓練這些時間層，將LDM圖像生成器轉變為視頻生成器（圖2）；
在這里插入圖片描述

圖2. 時間視頻微調。我們將預訓練的圖像擴散模型轉變為時間一致的視頻生成器。最初，模型合成的一批不同樣本是相互獨立的。在時間視頻微調后，樣本在時間上對齊，形成連貫的視頻。圖中可視化了一個一維玩具分布的擴散模型在微調前后的隨機生成過程。為清晰起見，該圖對應于像素空間中的對齊。在實踐中，我們在LDM的潛在空間中進行對齊，并在應用LDM的解碼器后獲得視頻（見圖3）。我們還在像素或潛在空間中對擴散模型上采樣器進行視頻微調（第3.4節）。

微調LDM解碼器：在像素空間中實現時間一致性（圖3）；

圖3. 上：在時間解碼器微調期間，我們使用固定的編碼器處理視頻序列，該編碼器獨立處理幀，并強制跨幀進行時間連貫的重建。我們還使用了一個視頻感知判別器。下：在LDMs中，一個擴散模型在潛在空間中進行訓練。它合成潛在特征，然后通過解碼器將其轉換為圖像。請注意，下圖是針對單個幀的可視化；關于生成時間一致的幀序列的視頻微調框架，請見圖2。

為了進一步提高空間分辨率，我們還對像素空間和潛在DM上采樣器進行時間對齊，這些上采樣器廣泛用于圖像超分辨率，將它們轉變為時間一致的視頻超分辨率模型。
模型優勢與實驗成果：Video LDMs 能夠以計算和內存高效的方式生成全局連貫且長的視頻。作者對方法進行了消融實驗，實現了最先進的視頻質量，并合成了長達幾分鐘的視頻。
研究意義：通過對穩定擴散（Stable Diffusion）進行視頻微調，將其轉變為一個高效且強大的文本到視頻生成器，分辨率高達1280×2048。由于在這種情況下我們只需要訓練時間對齊層，因此可以使用相對較小的帶字幕視頻訓練集。

貢獻

提出高效視頻生成方法：基于LDMs設計出訓練高分辨率、長期一致視頻生成模型的高效方式。核心在于借助預訓練的圖像擴散模型（DMs），插入能讓圖像在時間上保持一致的時間層，進而將其轉化為視頻生成器（相關原理參考圖2和圖3）。
優化超分辨率DMs：對常見的超分辨率DMs進行時間微調，提升其在視頻處理中的性能表現。
駕駛場景視頻合成突破：在真實駕駛場景視頻的高分辨率合成領域達到當前最優水平，能夠生成長達數分鐘的視頻，滿足實際應用中對長時間、高質量駕駛場景模擬等的需求。
拓展文本到視頻應用：成功將公開的穩定擴散文本到圖像LDM改造為功能強大、表現力豐富的文本到視頻LDM，極大拓展了模型的應用范圍，為文本驅動的視頻創作提供有力工具。
時間層的通用性驗證：驗證了學習到的時間層具有通用性，可以和不同的圖像模型檢查點（如DreamBooth）結合，為個性化視頻生成等更多創新應用提供了可能。

2. 背景

擴散模型（DMs）

擴散模型（DMs）的核心原理，建模與訓練方法是DMs通過迭代去噪學習對數據分布 $p_{data}(x)$ 建模，使用去噪分數匹配法訓練。過程如下：

擴散過程：給定樣本 $\sim p_{data}$ ，構建擴散后的輸入 $x_{\tau}=\alpha_{\tau}x+\sigma_{\tau}\epsilon$ ，其中 $\epsilon \sim N(0, I)$ ； $\alpha_{\tau}$ 和 $\sigma_{\tau}$ 定義了一個噪聲調度，通過擴散時間 $T$ 進行參數化，使得對數信噪比 $\lambda_{\tau}=\log(\alpha_{\tau}^{2}/\sigma_{\tau}^{2})$ 單調遞減。
去噪器優化：去噪器模型 $f_{\theta}$ 以擴散后的 $x_{\tau}$ 為輸入，通過最小化 $\mathbb{E}_{x \sim p_{data}, \tau \sim p_{\tau}, \epsilon \sim \mathcal{N}(0, I)}[\left\| y - f_{\theta}(x_{\tau}; c, \tau) \right\|_{2}^{2}]$ 進行優化，其中 $c$ 是可選的條件信息，例如文本提示，目標向量 $y$ 要么是隨機噪聲 $\epsilon$ ，要么是 $\alpha_{\tau}\epsilon - \sigma_{\tau}x$ 。后一種目標（通常稱為 $v$ 預測）是在漸進蒸餾的背景下引入的[73]，在經驗上通常能使模型更快收斂（在此，我們同時使用這兩種目標）。此外， $p_{\tau}$ 是擴散時間 $\tau$ 上的均勻分布。 $v=\alpha_{\tau}\epsilon - \sigma_{\tau}x$ ，研究中同時使用這兩種目標， $p_{\tau}$ 是擴散時間 $\tau$ 上的均勻分布。

擴散模型的核心其實是前向擴散加入噪聲以及反向擴散學習/預測前向擴散加入的噪聲，并且去除噪聲，進而生成的過程，擴散過程可以在連續時間框架中通過隨機微分方程來描述【論文：Score-based generative modeling through stochastic differential equations】（也可參考圖 2 和圖 3 中的框架），但在實踐中可以使用固定的離散化方法（DDPM）。

DDPM參考：Diffusion Model 原理
TODO：Score-based generative modeling through stochastic differential equations

最大擴散時間通常選擇為使得輸入數據完全被擾動為高斯隨機噪聲，并且可以從這種高斯噪聲初始化一個迭代生成去噪過程，該過程使用學習到的去噪器 $f_{\theta}$ 來合成新的數據。在此，作者使用 $p_{\tau} \sim U\{0, 1000\}$ ，并依賴于方差保持噪聲調度，對于該調度， $\sigma_{\tau}^{2}=1-\alpha_{\tau}^{2}$ 。

在本文的研究中，作者設定 $p_{\tau} \sim U\{0, 1000\}$ ，這意味著擴散時間 $\tau$ 是在0到1000這個區間內均勻分布的隨機變量。這種均勻分布決定了在擴散過程中，不同擴散時間被選取的概率是相等的。
同時，作者采用了方差保持噪聲調度策略。在這種策略下，有一個重要的公式 $\sigma_{\tau}^{2}=1-\alpha_{\tau}^{2}$ 。這個公式定義了噪聲強度隨時間的變化關系， $\sigma_{\tau}$ 代表在擴散時間為 $\tau$ 時添加的噪聲標準差，它決定了噪聲的強度，而 $\alpha_{\tau}$ 則與擴散過程的其他特性相關。隨著 $\tau$ 在0到1000之間取值變化， $\alpha_{\tau}$ 和 $\sigma_{\tau}$ 也會相應改變，從而調整噪聲強度。例如，在擴散初期， $\tau$ 可能取較大值， $\sigma_{\tau}$ 較大，添加的噪聲較多，數據被擾動得更劇烈；隨著擴散進行， $\tau$ 逐漸減小， $\sigma_{\tau}$ 變小，噪聲強度降低，去噪器 $f_{\theta}$ 逐步將數據恢復成有意義的內容（詳細信息見附錄F和H）。

潛在擴散模型（LDMs）

上節介紹的擴散模型實際上是在像素空間進行的。而潛在擴散模型（LDMs）在計算和內存效率上優于像素空間擴散模型（DMs），簡要介紹如下：

提升效率的原理：先訓練壓縮模型，把輸入圖像轉換到復雜度較低的空間低維潛在空間，在此空間可高保真重建原始數據，以此提升計算和內存效率。
實現方式：實際通過正則化自動編碼器（在傳統自動編碼器基礎上引入正則化項，抑制模型過擬合，提升泛化能力）實現，該編碼器包含編碼器模塊 $\epsilon$ 和解碼器 $D$ ，通過 $\hat{x}=D(\epsilon(x)) \approx x$ 重建輸入圖像（見圖3）。
確保重建質量的方法：在自動編碼器訓練時添加對抗目標，利用基于補丁的判別器來確保逼真的重建效果。
潛在空間DM的優勢：在壓縮的潛在空間訓練DM，公式（1）中的 $x$ 用潛在表示 $\epsilon(x)$ 替代。相比于像素空間DMs，潛在空間DM的參數數量和內存消耗通常更少。

為了確保逼真的重建，可以在自動編碼器訓練中添加對抗目標[65]，這可以使用基于補丁的判別器來實現[35]。然后，可以在壓縮的潛在空間中訓練一個DM，并且公式（1）中的 $x$ 被其潛在表示 $\epsilon(x)$ 所取代。與具有相似性能的相應像素空間DMs相比，這種潛在空間DM在參數數量和內存消耗方面通常較小。

SD系列模型就是在潛在空間進行擴散的，詳情可以參考歷史文章：SD系列專欄

3. 潛在視頻擴散模型

本部分介紹對預訓練的圖像LDMs（以及DM上采樣器）進行視頻微調，以實現高分辨率視頻合成。
作者假設獲取到一個視頻數據集 $p_{data}$ ，使得 $\in \mathbb{R}^{T×3×\bar{H}×\bar{W}}$ ， $\sim p_{data}$ 是一個包含 $T$ 個RGB幀的序列，幀的高度和寬度分別為 $\tilde{H}$ 和 $\bar{W}$ 。

3.1 將潛在圖像轉變為視頻生成器

轉變思路如下：

高效訓練思路：高效訓練視頻生成模型的關鍵在于重用預訓練且固定的圖像生成模型（由參數 $\theta$ 參數化的LDM）。
模型現有結構：構成圖像LDM并處理像素維度輸入的神經網絡層為空間層 $l_{\theta}^{i}$ （ $i$ 是層索引）。
現有模型局限：雖能高質量合成單幀，但直接用于渲染 $T$ 個連續幀視頻會失敗，原因是模型無時間感知能力。
改進措施：引入額外時間神經網絡層 $l_{\phi}^{i}$ ，與空間層 $l_{\theta}^{i}$ 交錯排列，學習以時間一致的方式對齊單個幀。
最終模型構成：額外時間層 $\{l_{\phi}^{i}\}_{i = 1}^{L}$ 定義了視頻感知時間骨干網絡，完整模型 $f_{\theta, \phi}$ 由空間層和時間層組合而成，如圖4。

圖4. 左：我們通過插入時間層，將預訓練的潛在擴散模型（LDM）轉變為視頻生成器，這些時間層能夠學習將幀對齊為在時間上連貫一致的序列。在優化過程中，圖像骨干網絡 $\theta$ 保持固定，僅訓練時間層 $l_{\phi}^{x}$ 的參數 $\phi$ ，參見公式（2）。右：在訓練期間，基礎模型 $\theta$ 將長度為 $T$ 的輸入序列解釋為一批圖像。對于時間層 $l_{\phi}^{i}$ ，這些批次的圖像被重新整形為視頻格式。它們的輸出 $z^{'}$ 會與空間層的輸出 $z$ 相結合，結合時使用一個可學習的融合參數 $\alpha$ 。在推理過程中，跳過時間層（即 $\alpha_{\phi}^{i}=1$ ）可得到原始的圖像模型。為便于說明，圖中僅展示了一個U型網絡模塊。 $B$ 表示批量大小， $T$ 表示序列長度， $c$ 表示輸入通道數， $H$ 和 $W$ 表示輸入的空間維度。當訓練預測模型時（第3.2節）， $cs$ 是可選的上下文幀條件。

我們從按幀編碼的輸入視頻 $\epsilon(x)=z \in \mathbb{R}^{T×C×H×W}$ 開始，其中 $C$ 是潛在通道的數量， $H$ 和 $W$ 是潛在空間的空間維度。空間層將視頻視為一批獨立的圖像（通過將時間軸轉換為批量維度來實現），對于每個時間混合層 $l_{\phi}^{i}$ ，我們按如下方式將其重新調整為視頻維度（使用 einops [64] 表示法）：
$\leftarrow \text{rearrange}(z, (b \ t) \ c \ h \ w \to b \ c \ t \ h \ w)$
$\leftarrow l_{\phi}^{i}(z', c)$
$\leftarrow \text{rearrange}(z', b \ c \ t \ h \ w \to (b \ t) \ c \ h \ w)$
這里為了表述清晰，引入了批量維度 $b$ 。

空間層在批量維度 $b$ 中獨立處理所有 $\cdot T$ 個已編碼的視頻幀；
時間層 $l_{\phi}^{i}(z', c)$ 則在新的時間維度 $t$ 中處理整個視頻。
$c$ 是（可選的）條件信息，比如文本提示。
在每個時間層之后，輸出 $z^{'}$ 會與 $z$ 按照 $\alpha_{\phi}^{i}z + (1 - \alpha_{\phi}^{i})z'$ 的方式進行組合； $\alpha_{\phi}^{i} \in [0, 1]$ 表示一個（可學習的）參數（另見附錄D）。

在實際應用中，作者實現了兩種不同類型的時間混合層（見圖4）：

時間注意力機制；
基于三維卷積的殘差塊。我們使用正弦嵌入[28, 89] 為模型提供時間位置編碼。

使用與基礎圖像模型相同的噪聲調度來訓練視頻感知時間主干網絡。重要的是，固定空間層 $l_{\theta}^{i}$ ，僅通過以下公式優化時間層 $l_{\phi}^{i}$ ：
$\underset{\phi}{arg min } \mathbb{E}_{x \sim p_{data}, \tau \sim p_{\tau}, \epsilon \sim \mathcal{N}(0, I)}[\left\| y - f_{\theta, \phi}(z_{\tau}; c, \tau) \right\|_{2}^{2}] \tag{2}$
其中 $z_{T}$ 表示擴散后的編碼 $\epsilon(x)$ 。通過這種方式，只需跳過時間塊（例如，為每一層設置 $\alpha_{\phi}^{i}=1$ ），就可以保留原生的圖像生成能力。這種策略的一個關鍵優勢是，可以使用巨大的圖像數據集來預訓練空間層，而通常不太容易獲得的視頻數據則可以用于專注訓練時間層。

3.1.1 時間自動編碼器微調

基于預訓練圖像LDMs構建的視頻模型，雖然提高了效率，但LDM的自動編碼器僅在圖像上進行了訓練，在對時間連貫的圖像序列進行編碼和解碼時會導致閃爍偽影。
為了解決這個問題，作者為自動編碼器的解碼器引入了額外的時間層，并且使用由三維卷積構建的（基于圖像塊的）時間判別器，在視頻數據上對這些時間層進行微調，見圖3。需要注意的是，編碼器與在圖像訓練時保持不變，這樣一來，在潛在空間中對已編碼視頻幀進行操作的圖像擴散模型就可以重復使用。這一步對于取得良好結果至關重要。

3.2 長視頻生成的預測模型

局限性
盡管第3.1節中描述的方法在生成短視頻序列方面效率很高，但在合成非常長的視頻時卻存在局限性。
解決方案
因此，作者還會在給定一定數量（最初的） $S$ 個上下文幀的情況下，將模型訓練為預測模型，通過引入一個時間二進制掩碼 $m_{S}$ 來實現這個目標，該掩碼會遮蔽模型需要預測的 $T ? S$ 幀，其中 $T$ 是如第3.1節中所述的總序列長度。我們將這個掩碼和掩碼后的編碼視頻幀輸入模型進行條件設定。
具體實現
這些幀通過潛在擴散模型（LDM）的圖像編碼器 $\epsilon$ 進行編碼，然后與掩碼相乘，接著在經過一個可學習的下采樣操作處理后，（按通道與掩碼進行連接）被輸入到時間層 $l_{\phi}^{i}$ 中，見圖4。設 $c_{S}=(m_{S} \circ z, m_{S})$ 表示掩碼和經過掩碼處理（編碼后）的圖像在空間上連接后的條件信息。那么，公式（2）中的目標函數可表示為：
$\mathbb{E}_{x \sim p_{data }, m_{S} \sim p_{S}, \tau \sim p_{\tau}, \epsilon}\left[\left\| y-f_{\theta, \phi}\left(z_{\tau} ; c_{S}, c, \tau\right)\right\| _{2}^{2}\right], (3)$
其中 $p_{S}$ 表示（分類的）掩碼采樣分布。在實際應用中，我們訓練的預測模型會基于0個、1個或2個上下文幀來設置條件，這樣就可以實現如下所述的無分類器引導。
推理過程
在推理時，為了生成長視頻，我們可以迭代地應用采樣過程，將最新的預測結果作為新的上下文。過程如下：

最初的第一個序列是通過基礎圖像模型合成單個上下文幀，然后基于該幀生成下一個序列。
之后，以兩個上下文幀作為條件來對運動進行編碼（附錄中有詳細信息）。
為了穩定這個過程，作者發現使用無分類器擴散引導（Classifier-free guidance）是有益的，在采樣過程中，通過下式引導模型：
$f_{\theta, \phi}'(z_{\tau}; c_{S}) = f_{\theta, \phi}(z_{\tau}) + s \cdot (f_{\theta, \phi}(z_{\tau}; c_{S}) - f_{\theta, \phi}(z_{\tau}))$
其中：
- $\geq 1$ 表示引導尺度，為了可讀性，這里省略了對 $\tau$ 和其他信息 $c$ 的顯式條件設定。作者將這種引導方式稱為上下文引導。
- 最終的結果 $f_{\theta, \phi}'(z_{\tau}; c_{S})$ ：將原始的無條件預測結果 $f_{\theta, \phi}(z_{\tau})$ 與經過條件調整的部分 $\cdot (f_{\theta, \phi}(z_{\tau}; c_{S}) - f_{\theta, \phi}(z_{\tau}))$ 相加。這意味著最終的結果是在原始預測結果的基礎上，根據條件信息 $c_{S}$ 的影響進行調整，調整的程度由引導尺度 $s$ 控制。

這里其實和Transformer的自回歸生成相似。上文中，幀和序列不一樣，序列是指一系列按時間順序排列的幀的集合，在第二步中的兩個上下文幀的來源于前面已經得到的序列。

3.3 高幀率的時間插值

高分辨率視頻需兼具高空間分辨率和高時間分辨率（高幀率）。為此，將其合成過程分為兩部分：

第3.1和3.2節的過程可生成語義變化大的關鍵幀，但受內存限制，幀率較低。
引入一個額外的模型，其任務是在給定的關鍵幀之間進行插值。

為了實現這第二點，作者使用第 3.2 節中介紹的掩碼 - 條件機制。然而，與預測任務不同的是，需要對插值的幀進行掩碼處理 —— 除此之外，該機制保持不變，即圖像模型被改進為視頻插值模型。

在作者的的實驗中，通過在兩個給定的關鍵幀之間預測三幀，從而訓練一個將幀率從 T 提升到 4T 的插值模型。為了實現更高的幀率，作者同時在 T 到 4T 和 4T 到 16T 的幀率范圍內（使用不同幀率的視頻）訓練模型，并通過二元條件指定。

作者對預測和插值模型的訓練方法受到了近期一些視頻擴散模型的啟發，這些模型也使用了類似的掩碼技術（另見附錄C）。

3.4 超分辨率模型的時間微調

為了將其分辨率提升到百萬像素級別。作者從級聯DMs（SDXL、CogView3等都是級聯DMs模型）中獲得靈感，使用一個DM將Video LDM的輸出再放大4倍。主要做法如下：

在駕駛視頻合成實驗中，使用像素空間DM并將分辨率提升到512×1024；
對于文本到視頻模型，我們使用LDM上采樣器并將分辨率提升到1280×2048。

作者使用噪聲增強和噪聲水平條件，并通過下式訓練超分辨率（SR） 模型 $g_{\theta, \phi}$ （在圖像或潛在空間上）：
$\mathbb{E}_{x \sim p_{data}, (\tau, \tau_{\gamma}) \sim p_{\tau}, \epsilon \sim \mathcal{N}(0, I)}[\left\| y - g_{\theta, \phi}(x_{\tau}; c_{\tau_{\gamma}}, \tau_{\gamma}, \tau) \right\|_{2}^{2}] \tag{5}$
其中 $c_{\tau_{\gamma}} = \alpha_{\tau_{\gamma}}x + \sigma_{\tau_{\gamma}}\epsilon$ ， $\epsilon \sim \mathcal{N}(0, I)$ ，表示通過連接提供給模型的噪聲低分辨率圖像， $\tau_{\gamma}$ 是根據噪聲調度 $\alpha_{\tau}$ 、 $\sigma_{\tau}$ 添加到低分辨率圖像上的噪聲量。

噪聲增強是指在訓練過程中，人為地向輸入數據（通常是低分辨率圖像）添加噪聲的過程。
噪聲水平條件是指將噪聲的水平（強度或數量）作為模型的一個輸入條件。在公式中， $\tau$ 和 $\tau_{\gamma}$ 就是噪聲水平條件，它們是從分布 $p_{\tau}$ 中采樣得到的。
在上述超分辨率模型的訓練公式中，噪聲增強和噪聲水平條件是相互關聯的。首先通過噪聲增強將噪聲添加到低分辨率圖像 $x$ 中得到 $x_{\tau}$ ，同時使用噪聲水平條件中的參數（如 $\alpha_{\tau_{\gamma}}$ 和 $\sigma_{\tau_{\gamma}}$ ）計算條件變量 $c_{\tau_{\gamma}}$ ，將噪聲添加到原始圖像上得到一個新的條件輸入。這樣，超分辨率模型 $g_{\theta, \phi}$ 會根據輸入的噪聲水平條件，學習在不同噪聲環境下如何將低分辨率圖像轉換為高分辨率圖像。

此外還有一個新的問題：獨立對視頻幀進行上采樣會導致時間一致性較差。

解決方案：
- 使 SR 模型具有視頻感知能力。
- 遵循第3.1節機制，利用空間層 $l_{\theta}^{i}$ 和時間層 $l_{\phi}^{i}$ 對縮放器進行視頻微調。
- 以長度為 $T$ 的低分辨率序列為條件，逐幀連接低分辨率視頻圖像。
- 僅在圖像塊上高效訓練縮放器，后續通過卷積應用模型。

總結

作者認為LDM與上采樣器DM的結合對于高效的高分辨率視頻合成是理想的。圖5展示了第3.1節至第3.4節所有組件的模型：

在這里插入圖片描述

圖5. Video LDM架構。我們首先生成稀疏關鍵幀。然后使用相同的插值模型分兩步進行時間插值以實現高幀率。這些操作都基于共享相同圖像骨干網絡的潛在擴散模型（LDMs）。最后，將潛在視頻解碼到像素空間，并可選地應用視頻上采樣器擴散模型。

Video LDM的LDM組件：
- 利用壓縮潛在空間進行視頻建模。
- 優勢：可使用大批次大小，能聯合編碼更多視頻幀，利于長期視頻建模，不會有過高的內存需求，因為所有視頻預測和插值都在潛在空間中進行。
上采樣器：
- 訓練方式：高效的圖像塊方式。
- 效果：節省計算資源，降低內存消耗，因低分辨率條件無需捕捉長期時間相關性，無需預測和插值框架。

相關工作的討論見附錄C。

4. 實驗

這部分請參考原文，此處只做簡要介紹

數據集

用于駕駛場景視頻生成和文本到視頻任務，使用RDS數據集（683,060個8秒、512×1024、30fps視頻，含晝夜標簽、擁擠度注釋、部分含邊界框）、WebVid-10M數據集（1070萬視頻-字幕對，52,000視頻小時，調整為320×512），以及附錄I.2的山地自行車數據集。

評估指標

采用逐幀FID、FVD，因FVD不可靠，作者還進行了人工評估；文本到視頻實驗還評估CLIPSIM和IS（見附錄G）。

模型架構和采樣

圖像LDM基于[65]，使用卷積編碼器/解碼器，潛在空間DM架構基于[10]的U-Net；像素空間上采樣器DM使用相同圖像DM骨干網絡，實驗用DDIM采樣，更多信息在附錄。

更多架構、訓練、評估、采樣和數據集的詳細信息見附錄。

4.1 高分辨率駕駛視頻合成

訓練過程：
- 在RDS數據上訓練Video LDM管道及4倍像素空間上采樣器，基于晝夜和擁擠度條件，訓練時隨機丟棄標簽實現不同合成方式。
- 先訓練圖像骨干LDM的空間層，再訓練時間層。
性能對比：
- 以LVG為基線，Video LDM在128×256未使用上采樣器時性能更優，添加條件可降FVD。
- 人工評估顯示Video LDM樣本在真實感方面更優，條件模型樣本好于無條件樣本。
上采樣器比較：
- 視頻微調上采樣器與獨立逐幀圖像上采樣對比，時間對齊對上采樣器性能重要，獨立上采樣致FVD下降但FID穩定。
實驗結果展示：
- 展示結合Video LDM和上采樣器的條件樣本，能生成長達數分鐘、時間連貫的高分辨率駕駛視頻，已驗證5分鐘結果在附錄和補充視頻。

4.1.1 消融研究

重點提煉：

在RDS數據集上對比較小的Video LDM與各種基線，結果在表1（右）及附錄G。
不同模型設置的性能比較：
- 對預訓練像素空間圖像擴散模型應用時間微調策略，性能不如原Video LDM。
- 端到端LDM在RDS視頻上從頭學參（無圖像預訓練），FID和FVD大幅下降。
- 引入3D卷積時間層可輸入上下文幀，性能優于僅用注意力機制的時間模型（同空間層和可訓練參數）。
- 應用上下文引導可降FVD但增FID。

此外還做了如下操作：

分析對包含LDM框架[65]的壓縮模型解碼器進行視頻微調的效果。
在RDS數據集上應用微調策略，對比重建視頻/圖像幀的FVD/FID分數。
結果表明視頻微調使FVD/FID分數有數量級的提升（表3）。

4.1.2 駕駛場景模擬

省略，參考原文

4.2 使用穩定擴散的文本到視頻

Video LDM方法：

無需先訓練自己的圖像LDM骨干網絡，可利用現有圖像LDM轉變成視頻生成器。
將穩定擴散轉變為文本到視頻生成器，使用WebVid-10M數據集訓練時間對齊版本，對穩定擴散的空間層微調，插入時間對齊層和添加文本條件。
對穩定擴散潛在上采樣器進行視頻微調，支持4倍上采樣，生成1280×2048分辨率視頻，生成的視頻含113幀，可渲染為不同幀率和時長的片段。
能生成超越訓練數據的具有表現力和藝術性的視頻，結合了圖像模型風格與視頻的運動和時間一致性。

評估結果：

在UCF-101和MSR-VTT評估零樣本文本到視頻生成，除Make-A-Video外優勢顯著，在UCF-101的IS指標上超Make-A-Video，Make-A-Video使用更多數據。

4.2.1 使用DreamBooth的個性化文本到視頻

時間層轉移測試：

探究Video LDM中圖像LDM骨干網絡上訓練的時間層能否轉移到其他模型檢查點。
使用DreamBooth對穩定擴散的空間骨干網絡（SD 1.4）在少量特定對象圖像上微調，綁定身份與罕見文本標記。
將經過視頻調整的穩定擴散中的時間層插入原始穩定擴散模型的新DreamBooth版本，用綁定標記生成視頻，可生成個性化連貫視頻并能捕捉訓練圖像身份，驗證了時間層可推廣到其他圖像LDM，首次實現個性化文本到視頻生成，更多結果在附錄I。

5. 結論

下面是本文的核心：

模型提出：Video Latent Diffusion Models（Video LDMs）用于高效高分辨率視頻生成。
關鍵設計：基于預訓練圖像擴散模型，并通過時間對齊層進行時間視頻微調轉化為視頻生成器。
計算效率保證：利用LDMs，可與超分辨率DM結合并進行時間對齊。
應用成果：
- 合成長達數分鐘高分辨率且時間連貫的駕駛場景視頻。
- 將穩定擴散文本到圖像LDM轉變為文本到視頻LDM并實現個性化文本到視頻生成。
時間層特性：學習到的時間層可轉移到不同模型檢查點，利用這一點進行個性化文本到視頻生成。