DDIM和DDPM之間的區別與聯系

核心關系概述

首先，要理解DDIM并不是一個全新的模型，而是DDPM的一個精巧的重新參數化和擴展。它們使用完全相同的訓練目標和方法，因此你可以用一個訓練好的DDPM模型直接來運行DDIM的采樣算法，而無需重新訓練。

DDIM的核心貢獻是：發明了一種新的、非馬爾可夫鏈的擴散過程，從而實現了更高效、更確定性的采樣。

詳細區別對比

我們從幾個維度來對比它們：

特性	DDPM	DDIM
擴散過程	馬爾可夫鏈 (Markov Chain)。每一步都嚴格依賴于前一步。	非馬爾可夫鏈 (Non-Markovian)。設計了一種更靈活的路徑，當前狀態可以依賴于更早的歷史狀態。
采樣速度	慢。必須嚴格地從 `T` 步一步步迭代到 `1` 步（例如1000步）。	快。允許跳步采樣。可以用遠少于訓練步數（如50步或100步）的步驟生成高質量樣本。
采樣確定性	隨機 (Stochastic)。反向過程的每一步都注入了新的隨機高斯噪聲。	確定性 (Deterministic) 或隨機。可以通過一個參數（`η`）來控制隨機性。當 `η=0` 時，過程完全確定。
生成過程	是一個隨機過程，即使輸入相同的初始噪聲，每次生成的結果都不同。	當 `η=0` 時，是一個確定性映射，輸入相同的初始噪聲，輸出結果完全相同。
數學基礎	基于變分推斷 (Variational Inference)，推導出一個去噪匹配目標。	基于非馬爾可夫假設，重新推導了逆向過程的概率分布，使其與DDPM的訓練目標兼容。

核心問題解答

1. DDIM有把DDPM中的噪聲設置為零嗎？體現在哪里？

答案是：是的，但這是在采樣（推理）階段，而不是訓練階段。

在DDPM的反向采樣過程中，每一步的關鍵操作是：

預測出當前步的噪聲 ε_θ。
用這個預測的噪聲和公式計算出 x_{t-1}。
這個計算公式里包含一項隨機采樣的高斯噪聲 z（如下公式中的 σ_t z）。正是這項噪聲使得DDPM的生成過程是隨機的。

DDPM的反向采樣公式（簡化）：
x_{t-1} = (1/√α_t) * (x_t - ((1-α_t)/√(1-α?_t)) * ε_θ) + σ_t z
（其中 z ~ N(0, I)，σ_t 是方差項）

DDIM的核心洞察是：他們發現，只要設計一個特殊的非馬爾可夫擴散過程，這個逆向過程的分布就可以有多種選擇。他們從中選擇了一個方差更小的版本。

DDIM的反向采樣公式（重新參數化后）：
x_{t-1} = √(α?_{t-1}) * ( (x_t - √(1-α?_t) * ε_θ(x_t, t)) / √(α?_t) ) + √(1-α?_{t-1} - σ_t2) * ε_θ(x_t, t) + σ_t z

現在，重點來了：

在這個公式中，σ_t 被定義為 η * √( (1-α?_{t-1})/(1-α?_t) ) * √(1 - α?_t/α?_{t-1}) )
當我們設置 η = 0 時，σ_t 就等于 0。
一旦 σ_t = 0，上面公式的最后一項 σ_t z 就消失了。

體現在哪里？
體現在反向采樣算法的代碼實現中。 當使用DDIM采樣且設置 eta=0 時，代碼中生成隨機噪聲 z 并將其與 sigma_t 相乘的那一行，實際上是在加一個零向量，相當于沒有添加任何新的隨機噪聲。整個反向過程只依賴于初始的隨機噪聲 x_T 和神經網絡確定的預測 ε_θ。

所以，DDIM并沒有“刪除”DDPM中的噪聲，而是通過數學推導提供了一個選項，允許我們將采樣過程中額外添加的隨機噪聲項的大小設置為零。

2. 反向采樣的過程為什么說DDIM的是確定的？

正是因為上面一點。

當設置 η = 0 時，DDIM的反向采樣過程不再注入任何隨機性。整個過程的每一步計算都是確定的：

從純噪聲 x_T 開始（這是一個隨機起點，但一旦固定就不變）。
神經網絡 ε_θ 是一個確定的函數（模型權重固定）。
反向采樣公式 x_{t-1} = f(x_t, ε_θ) 也是一個確定的計算，不含隨機項 z。

因此，給定一個固定的初始噪聲 x_T，整個反向過程就像沿著一條確定的軌跡下滑，最終必然會到達同一個終點 x_0。這使得DDIM的采樣成為一個確定性映射（Deterministic Mapping）。

這與DDPM形成鮮明對比：DDPM即使在相同的 x_T 下，每一步加入的隨機噪聲 z 都會不同，導致每次采樣會走上不同的軌跡，從而產生不同的結果。

這種確定性有什么好處？

樣本可重現（Reproducibility）：對于同一個“種子”（初始噪聲），你總能生成完全一樣的圖像，這對于研究和調試非常有用。
隱空間插值（Latent Interpolation）：因為反向過程是一個 deterministic mapping，你可以將初始噪聲 x_T 視為圖像的隱編碼（Latent Code）。對兩個不同的 x_T 進行插值，再通過DDIM解碼，可以得到語義上平滑過渡的圖像。而在DDPM中，由于過程的隨機性，這種插值是不穩定、不連續的。
更快的采樣：確定性只是DDIM的一個特性，它另一個巨大優勢是跳步采樣。因為它不依賴于馬爾可夫鏈，我們可以設計一個子序列 {τ_1, τ_2, ..., τ_S}（其中 S << T）來進行反向過程，大步長地“跳”著生成圖像，大大加速了采樣速度，且質量損失很小。

總結

DDIM 是 DDPM 的“靈魂伴侶”，它們共享訓練過程。
DDIM通過改變推理（采樣）過程，提供了一個方差不添加（η=0） 的選項，從而實現了確定性采樣。
這個確定性采樣過程使得生成過程可重現、可插值，并且通過與跳步采樣結合，實現了質量和速度的卓越權衡。

可以說，DDIM的提出極大地推動了擴散模型的應用，因為它解決了DDPM最大的痛點——采樣速度過慢。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/96731.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/96731.shtml
英文地址，請注明出處：http://en.pswp.cn/web/96731.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！