核心關系概述
首先,要理解DDIM并不是一個全新的模型,而是DDPM的一個精巧的重新參數化和擴展。它們使用完全相同的訓練目標和方法,因此你可以用一個訓練好的DDPM模型直接來運行DDIM的采樣算法,而無需重新訓練。
DDIM的核心貢獻是:發明了一種新的、非馬爾可夫鏈的擴散過程,從而實現了更高效、更確定性的采樣。
詳細區別對比
我們從幾個維度來對比它們:
特性 | DDPM | DDIM |
---|---|---|
擴散過程 | 馬爾可夫鏈 (Markov Chain)。每一步都嚴格依賴于前一步。 | 非馬爾可夫鏈 (Non-Markovian)。設計了一種更靈活的路徑,當前狀態可以依賴于更早的歷史狀態。 |
采樣速度 | 慢。必須嚴格地從 T 步一步步迭代到 1 步(例如1000步)。 | 快。允許跳步采樣。可以用遠少于訓練步數(如50步或100步)的步驟生成高質量樣本。 |
采樣確定性 | 隨機 (Stochastic)。反向過程的每一步都注入了新的隨機高斯噪聲。 | 確定性 (Deterministic) 或隨機。可以通過一個參數(η )來控制隨機性。當 η=0 時,過程完全確定。 |
生成過程 | 是一個隨機過程,即使輸入相同的初始噪聲,每次生成的結果都不同。 | 當 η=0 時,是一個確定性映射,輸入相同的初始噪聲,輸出結果完全相同。 |
數學基礎 | 基于變分推斷 (Variational Inference),推導出一個去噪匹配目標。 | 基于非馬爾可夫假設,重新推導了逆向過程的概率分布,使其與DDPM的訓練目標兼容。 |
核心問題解答
1. DDIM有把DDPM中的噪聲設置為零嗎?體現在哪里?
答案是:是的,但這是在采樣(推理)階段,而不是訓練階段。
在DDPM的反向采樣過程中,每一步的關鍵操作是:
- 預測出當前步的噪聲
ε_θ
。 - 用這個預測的噪聲和公式計算出
x_{t-1}
。 - 這個計算公式里包含一項隨機采樣的高斯噪聲
z
(如下公式中的σ_t z
)。正是這項噪聲使得DDPM的生成過程是隨機的。
DDPM的反向采樣公式(簡化):
x_{t-1} = (1/√α_t) * (x_t - ((1-α_t)/√(1-α?_t)) * ε_θ) + σ_t z
(其中 z ~ N(0, I)
,σ_t
是方差項)
DDIM的核心洞察是:他們發現,只要設計一個特殊的非馬爾可夫擴散過程,這個逆向過程的分布就可以有多種選擇。他們從中選擇了一個方差更小的版本。
DDIM的反向采樣公式(重新參數化后):
x_{t-1} = √(α?_{t-1}) * ( (x_t - √(1-α?_t) * ε_θ(x_t, t)) / √(α?_t) ) + √(1-α?_{t-1} - σ_t2) * ε_θ(x_t, t) + σ_t z
現在,重點來了:
- 在這個公式中,
σ_t
被定義為η * √( (1-α?_{t-1})/(1-α?_t) ) * √(1 - α?_t/α?_{t-1}) )
- 當我們設置
η = 0
時,σ_t
就等于 0。 - 一旦
σ_t = 0
,上面公式的最后一項σ_t z
就消失了。
體現在哪里?
體現在反向采樣算法的代碼實現中。 當使用DDIM采樣且設置 eta=0
時,代碼中生成隨機噪聲 z
并將其與 sigma_t
相乘的那一行,實際上是在加一個零向量,相當于沒有添加任何新的隨機噪聲。整個反向過程只依賴于初始的隨機噪聲 x_T
和神經網絡確定的預測 ε_θ
。
所以,DDIM并沒有“刪除”DDPM中的噪聲,而是通過數學推導提供了一個選項,允許我們將采樣過程中額外添加的隨機噪聲項的大小設置為零。
2. 反向采樣的過程為什么說DDIM的是確定的?
正是因為上面一點。
當設置 η = 0
時,DDIM的反向采樣過程不再注入任何隨機性。整個過程的每一步計算都是確定的:
- 從純噪聲
x_T
開始(這是一個隨機起點,但一旦固定就不變)。 - 神經網絡
ε_θ
是一個確定的函數(模型權重固定)。 - 反向采樣公式
x_{t-1} = f(x_t, ε_θ)
也是一個確定的計算,不含隨機項z
。
因此,給定一個固定的初始噪聲 x_T
,整個反向過程就像沿著一條確定的軌跡下滑,最終必然會到達同一個終點 x_0
。這使得DDIM的采樣成為一個確定性映射(Deterministic Mapping)。
這與DDPM形成鮮明對比:DDPM即使在相同的 x_T
下,每一步加入的隨機噪聲 z
都會不同,導致每次采樣會走上不同的軌跡,從而產生不同的結果。
這種確定性有什么好處?
- 樣本可重現(Reproducibility):對于同一個“種子”(初始噪聲),你總能生成完全一樣的圖像,這對于研究和調試非常有用。
- 隱空間插值(Latent Interpolation):因為反向過程是一個 deterministic mapping,你可以將初始噪聲
x_T
視為圖像的隱編碼(Latent Code)。對兩個不同的x_T
進行插值,再通過DDIM解碼,可以得到語義上平滑過渡的圖像。而在DDPM中,由于過程的隨機性,這種插值是不穩定、不連續的。 - 更快的采樣:確定性只是DDIM的一個特性,它另一個巨大優勢是跳步采樣。因為它不依賴于馬爾可夫鏈,我們可以設計一個子序列
{τ_1, τ_2, ..., τ_S}
(其中 S << T)來進行反向過程,大步長地“跳”著生成圖像,大大加速了采樣速度,且質量損失很小。
總結
- DDIM 是 DDPM 的“靈魂伴侶”,它們共享訓練過程。
- DDIM通過改變推理(采樣)過程,提供了一個方差不添加(η=0) 的選項,從而實現了確定性采樣。
- 這個確定性采樣過程使得生成過程可重現、可插值,并且通過與跳步采樣結合,實現了質量和速度的卓越權衡。
可以說,DDIM的提出極大地推動了擴散模型的應用,因為它解決了DDPM最大的痛點——采樣速度過慢。