DDIM和DDPM之 間的區別與聯系

核心關系概述

首先,要理解DDIM并不是一個全新的模型,而是DDPM的一個精巧的重新參數化和擴展。它們使用完全相同的訓練目標和方法,因此你可以用一個訓練好的DDPM模型直接來運行DDIM的采樣算法,而無需重新訓練。

DDIM的核心貢獻是:發明了一種新的、非馬爾可夫鏈的擴散過程,從而實現了更高效、更確定性的采樣


詳細區別對比

我們從幾個維度來對比它們:

特性DDPMDDIM
擴散過程馬爾可夫鏈 (Markov Chain)。每一步都嚴格依賴于前一步。非馬爾可夫鏈 (Non-Markovian)。設計了一種更靈活的路徑,當前狀態可以依賴于更早的歷史狀態。
采樣速度。必須嚴格地從 T 步一步步迭代到 1 步(例如1000步)。。允許跳步采樣。可以用遠少于訓練步數(如50步或100步)的步驟生成高質量樣本。
采樣確定性隨機 (Stochastic)。反向過程的每一步都注入了新的隨機高斯噪聲。確定性 (Deterministic) 或隨機。可以通過一個參數(η)來控制隨機性。當 η=0 時,過程完全確定。
生成過程是一個隨機過程,即使輸入相同的初始噪聲,每次生成的結果都不同。η=0 時,是一個確定性映射,輸入相同的初始噪聲,輸出結果完全相同。
數學基礎基于變分推斷 (Variational Inference),推導出一個去噪匹配目標。基于非馬爾可夫假設,重新推導了逆向過程的概率分布,使其與DDPM的訓練目標兼容。

核心問題解答

1. DDIM有把DDPM中的噪聲設置為零嗎?體現在哪里?

答案是:是的,但這是在采樣(推理)階段,而不是訓練階段。

在DDPM的反向采樣過程中,每一步的關鍵操作是:

  1. 預測出當前步的噪聲 ε_θ
  2. 用這個預測的噪聲和公式計算出 x_{t-1}
  3. 這個計算公式里包含一項隨機采樣的高斯噪聲 z(如下公式中的 σ_t z)。正是這項噪聲使得DDPM的生成過程是隨機的。

DDPM的反向采樣公式(簡化):
x_{t-1} = (1/√α_t) * (x_t - ((1-α_t)/√(1-α?_t)) * ε_θ) + σ_t z
(其中 z ~ N(0, I)σ_t 是方差項)

DDIM的核心洞察是:他們發現,只要設計一個特殊的非馬爾可夫擴散過程,這個逆向過程的分布就可以有多種選擇。他們從中選擇了一個方差更小的版本。

DDIM的反向采樣公式(重新參數化后):
x_{t-1} = √(α?_{t-1}) * ( (x_t - √(1-α?_t) * ε_θ(x_t, t)) / √(α?_t) ) + √(1-α?_{t-1} - σ_t2) * ε_θ(x_t, t) + σ_t z

現在,重點來了:

  • 在這個公式中,σ_t 被定義為 η * √( (1-α?_{t-1})/(1-α?_t) ) * √(1 - α?_t/α?_{t-1}) )
  • 當我們設置 η = 0 時,σ_t 就等于 0
  • 一旦 σ_t = 0,上面公式的最后一項 σ_t z消失了

體現在哪里?
體現在反向采樣算法的代碼實現中。 當使用DDIM采樣且設置 eta=0 時,代碼中生成隨機噪聲 z 并將其與 sigma_t 相乘的那一行,實際上是在加一個零向量,相當于沒有添加任何新的隨機噪聲。整個反向過程只依賴于初始的隨機噪聲 x_T 和神經網絡確定的預測 ε_θ

所以,DDIM并沒有“刪除”DDPM中的噪聲,而是通過數學推導提供了一個選項,允許我們將采樣過程中額外添加的隨機噪聲項的大小設置為零

2. 反向采樣的過程為什么說DDIM的是確定的?

正是因為上面一點。

當設置 η = 0 時,DDIM的反向采樣過程不再注入任何隨機性。整個過程的每一步計算都是確定的:

  1. 從純噪聲 x_T 開始(這是一個隨機起點,但一旦固定就不變)。
  2. 神經網絡 ε_θ 是一個確定的函數(模型權重固定)。
  3. 反向采樣公式 x_{t-1} = f(x_t, ε_θ) 也是一個確定的計算,不含隨機項 z

因此,給定一個固定的初始噪聲 x_T,整個反向過程就像沿著一條確定的軌跡下滑,最終必然會到達同一個終點 x_0。這使得DDIM的采樣成為一個確定性映射(Deterministic Mapping)。

這與DDPM形成鮮明對比:DDPM即使在相同的 x_T 下,每一步加入的隨機噪聲 z 都會不同,導致每次采樣會走上不同的軌跡,從而產生不同的結果。

這種確定性有什么好處?

  1. 樣本可重現(Reproducibility):對于同一個“種子”(初始噪聲),你總能生成完全一樣的圖像,這對于研究和調試非常有用。
  2. 隱空間插值(Latent Interpolation):因為反向過程是一個 deterministic mapping,你可以將初始噪聲 x_T 視為圖像的隱編碼(Latent Code)。對兩個不同的 x_T 進行插值,再通過DDIM解碼,可以得到語義上平滑過渡的圖像。而在DDPM中,由于過程的隨機性,這種插值是不穩定、不連續的。
  3. 更快的采樣:確定性只是DDIM的一個特性,它另一個巨大優勢是跳步采樣。因為它不依賴于馬爾可夫鏈,我們可以設計一個子序列 {τ_1, τ_2, ..., τ_S}(其中 S << T)來進行反向過程,大步長地“跳”著生成圖像,大大加速了采樣速度,且質量損失很小。

總結

  • DDIMDDPM 的“靈魂伴侶”,它們共享訓練過程。
  • DDIM通過改變推理(采樣)過程,提供了一個方差不添加(η=0) 的選項,從而實現了確定性采樣
  • 這個確定性采樣過程使得生成過程可重現、可插值,并且通過與跳步采樣結合,實現了質量和速度的卓越權衡

可以說,DDIM的提出極大地推動了擴散模型的應用,因為它解決了DDPM最大的痛點——采樣速度過慢。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/96731.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/96731.shtml
英文地址,請注明出處:http://en.pswp.cn/web/96731.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

c++---map和set

這里再提二叉樹&#xff08;二叉搜索樹&#xff09;&#xff0c;是為了后面講解map和set做準備。 一、二叉搜索樹 二叉搜索樹又稱二叉排序樹&#xff0c;它或者是一棵空樹&#xff0c;或者是具有以下性質的二叉樹。 若它的左子樹不為空&#xff0c;則左子樹上所有節點的值都…

windows下,podman遷移鏡像文件位置

docker-desktop有自帶的鏡像文件位置遷移功能&#xff0c;但podman-desktop還沒有&#xff0c;所以只能自己操作wsl導入導出來實現# 1.一定要先停止當前machine podman machine stop# 2. 導出當前 machine&#xff08;會生成 tar 鏡像&#xff09; wsl --export podman-machine…

Champ-基于3D的人物圖像到動畫視頻生成框架

本文轉載自&#xff1a;https://www.hello123.com/champ ** 一、&#x1f916; Champ 是什么&#xff1f; 阿里 南大 復旦聯手打造的虛擬人動作黑科技&#xff01;Champ 可不是普通動畫工具&#xff0c;它能把你隨手拍的小視頻變成專業級 3D 動畫 —— 無論跳舞、打拳還是走…

Thingsboard 3.4 源碼運行 Mac Mini

拉取源碼 git clone https://github.com/thingsboard/thingsboard.gitjdk11 java -version java version "11.0.27" 2025-04-15 LTS Java(TM) SE Runtime Environment 18.9 (build 11.0.278-LTS-232) Java HotSpot(TM) 64-Bit Server VM 18.9 (build 11.0.278-LTS-23…

【AI大模型面試寶典60題】1-5

目錄 Q1:僅編碼器(BERT 類)、僅解碼器(GPT 類)和完整的編碼器-解碼器架構各有什么優缺點? 1. 編碼器架構 (Encoder-only) - 代表:BERT系列 2. 解碼器架構 (Decoder-only) - 代表:GPT系列 3. 編碼器-解碼器架構 (Encoder-Decoder) - 代表:T5、BART 升華與總結 (總…

macOS中找不到鑰匙串訪問

如果在macOS中找不到鑰匙串訪問&#xff0c;請操作如下命令&#xff1a; security list-keychains可以看到類似&#xff1a; “/Library/Keychains/System.keychain” 然后執行&#xff1a; open /Library/Keychains/System.keychain然后可以將應用保留在程序塢中保留。

UCOSIII移植——學習筆記1

本文是筆者在學習 正點原子官方 的《【正點原子】手把手教你學UCOS-III實時操作系統》系列視頻時整理的筆記。 視頻講解清晰透徹&#xff0c;非常感謝UP主的無私奉獻&#xff01;原課程鏈接如下&#xff1a; &#x1f449; B站視頻鏈接&#xff1a;【正點原子】手把手教你學UCO…

SpringBootCodeGenerator使用JSqlParser解析DDL CREATE SQL 語句

&#x1f9e0; 使用 JSqlParser 解析 CREATE TABLE SQL 語句詳解在數據庫開發中&#xff0c;我們常常需要從 SQL 中提取表結構信息&#xff0c;比如字段名、類型、注釋等。相比使用正則表達式&#xff0c;JSqlParser 提供了更可靠的方式來解析 SQL 語句&#xff0c;尤其適用于復…

css3新增-網格Grid布局

目錄flex彈性布局Gird布局開啟網格布局定義網格中的行和列長度值百分比值新單位fr關鍵字函數minmax(min, max)函數-repeatauto-fill vs auto-fit舉例說明grid-template-areasgapgrid-auto-columns和grid-auto-rowsjustify-contentalign-contentjustify-contentalign-contentjus…

最新最強新太極工具3.6 支持Windows和不支持mac電腦,支持免改碼,和改碼,支持12—18系統

溫馨提示&#xff1a;文末有資源獲取方式最新最強太極工具3.6支持Windows和Mac計算機&#xff0c;支持無代碼更改和代碼更改&#xff0c;支持12-18個系統 支持A7-A11芯片、Apple 5s x、iPad A7至A11芯片&#xff0c;支持所有者鎖定、激活鎖定、無法激活&#xff08;密碼界面和禁…

深入淺出 C++20:新特性與實踐

C20 是 C 編程語言的一次重要更新&#xff0c;引入了許多新特性和改進&#xff0c;旨在提升代碼的簡潔性、安全性和性能。本文將詳細介紹 C20 的一些核心特性&#xff0c;并通過示例代碼幫助讀者理解這些特性的應用場景。C20 新特性總結 以下是 C20 的主要新特性及其簡要描述&a…

CSS 屬性概述

CSS 屬性概述 CSS 屬性用于控制 HTML 元素的樣式和行為&#xff0c;包括布局、顏色、字體、動畫等。以下是常用的 CSS 屬性分類及示例&#xff1a; 布局相關屬性 display: 控制元素的顯示方式&#xff0c;如 block、inline、flex、grid。position: 定義元素的定位方式&#…

--- 統一請求入口 Gateway ---

spring cloud gateway 官方文檔 Spring Cloud Gateway 中文文檔 什么是api網關 對于微服務的每個接口&#xff0c;我們都需要校驗請求的權限是否足夠&#xff0c;而微服務把項目細化除了許多個接口&#xff0c;若這些接口都要對服務進行權限校驗的話&#xff0c;那么無疑加重…

返利app的消息隊列架構:基于RabbitMQ的異步通信與解耦實踐

返利app的消息隊列架構&#xff1a;基于RabbitMQ的異步通信與解耦實踐 大家好&#xff0c;我是阿可&#xff0c;微賺淘客系統及省賺客APP創始人&#xff0c;是個冬天不穿秋褲&#xff0c;天冷也要風度的程序猿&#xff01; 在返利app的業務流程中&#xff0c;用戶下單、返利計算…

Vue3 響應式失效 debug:Proxy 陷阱導致數據更新異常的深度排查

人們眼中的天才之所以卓越非凡&#xff0c;并非天資超人一等而是付出了持續不斷的努力。1萬小時的錘煉是任何人從平凡變成超凡的必要條件。———— 馬爾科姆格拉德威爾 &#x1f31f; Hello&#xff0c;我是Xxtaoaooo&#xff01; &#x1f308; “代碼是邏輯的詩篇&#xff0…

【貪心算法】day10

&#x1f4dd;前言說明&#xff1a; 本專欄主要記錄本人的貪心算法學習以及LeetCode刷題記錄&#xff0c;按專題劃分每題主要記錄&#xff1a;&#xff08;1&#xff09;本人解法 本人屎山代碼&#xff1b;&#xff08;2&#xff09;優質解法 優質代碼&#xff1b;&#xff…

LeetCode算法日記 - Day 42: 島嶼數量、島嶼的最大面積

目錄 1. 島嶼數量 1.1 題目解析 1.2 解法 1.3 代碼實現 2. 島嶼的最大面積 2.1 題目解析 2.2 解法 2.3 代碼實現 1. 島嶼數量 https://leetcode.cn/problems/number-of-islands/ 給你一個由 1&#xff08;陸地&#xff09;和 0&#xff08;水&#xff09;組成的的二維…

短波紅外相機在機器視覺檢測方向的應用

短波紅外相機在機器視覺檢測方向的應用短波紅外相機&#xff1a;機器視覺的“低成本突破者”一、打破成本困局&#xff1a;短波紅外的“平民化”革新二、核心技術&#xff1a;有機材料的“硬核創新”1. 材料革命&#xff1a;有機感光層的優勢2. 工藝兼容&#xff1a;嫁接成熟CM…

【數據結構與算法】圖 Floyd算法

相關題目&#xff1a; 1334. 閾值距離內鄰居最少的城市 - 力扣&#xff08;LeetCode&#xff09; 資料 &#xff1a; Floyd算法原理及公式推導 - 知乎 Floyd 算法是一種經典的動態規劃算法&#xff0c;用與求解圖中所有頂點之間的最短短路路徑。它由Robert Floyd 于1962…

衛星通信天線的指向精度,含義、測量和計算

衛星通信天線的指向精度&#xff0c;含義、測量和計算我們在衛星通信天線的技術規格書中&#xff0c;都會看到天線指向精度這個指標。一般來說&#xff0c;技術規格書上的天線指向精度的參數是這么寫的&#xff1a;“天線指向精度≤1/10半功率波束帶寬”今天這個文章&#xff0…