1 想法概述

從一張充滿噪聲的圖中不斷denoise，最終得到一張clear的圖片。為了確定當前圖片中噪聲占比的大小，同時輸入原圖片和參數 $t$ ，參數 $t$ 用于標識一張圖片中的噪聲占比含量。

顯然迭代第1次時圖片的噪聲含量和迭代第999次是不同的，因此需要輸入這種信息t來進行標識。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-7CjpzYoX-1692290104065)(【Diffusion】李宏毅2023機器學習Diffusion筆記/image-20230814190229199.png)]

2 實際過程

階段1 Add Noise

首先，準備好一組確定的參數 $\bar{\alpha_1},\bar{\alpha_2},\dots,\bar{\alpha_T}$ ，用以表示時間步 $t$ 下樣本和噪聲的混合情況， $t$ 越大，噪聲占比越高。然后重復以下過程直至收斂：

采樣
1. 從真實樣本集中取出一個樣本 $x_0$
2. 從 $[1, T]$ 的整數中采樣出 $t$ 來表示時間步
3. 從標準正態分布中采樣出噪聲 $\epsilon$
構造帶噪聲樣本 $x=\sqrt{\bar{\alpha_t}}x_0+ \sqrt{1-\bar{\alpha_t}} \epsilon$
將構造樣本 $x$ 和時間步 $t$ 一同輸入噪聲預測器 $\epsilon_\theta()$ ，得到預測噪聲 $\epsilon_\theta(x,t)$ 。
目標函數為 $\epsilon_\theta(x,t)$ 和采樣出的真實噪聲 $\epsilon$ 的 $MSE$

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-D7mqKw6q-1692290104066)(【Diffusion】李宏毅2023機器學習Diffusion筆記/image-20230814194524251.png)]

階段2 Denoise

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-21zUXHgj-1692290104066)(【Diffusion】李宏毅2023機器學習Diffusion筆記/image-20230814201251917.png)]

3 數學原理

極大似然估計近似等價于最小化KL散度(表示兩個分布的相似性)：

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-S3lKC0VE-1692290104066)(【Diffusion】李宏毅2023機器學習Diffusion筆記/image-20230817221857642.png)]

對任何分布 $q (z ∣ x)$ ，有：

$\log P_\theta(x) \ge \int_{z}q(z|x)\log \frac{P(z,x)}{q(z|x)}dz = E_{q(z|x)}[\log \frac{P(z,x)}{q(z|x)}]$

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-EMBIDtfT-1692290104067)(【Diffusion】李宏毅2023機器學習Diffusion筆記/image-20230817222057765.png)]

所以對DDPM來說：

$\log P_\theta(x) \ge E_{q(x_1:x_T|x_0)}[\log \frac{P(x_0:x_T)}{q(x_1:x_T|x_0)}]$

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-FqgMWPQQ-1692290104067)(【Diffusion】李宏毅2023機器學習Diffusion筆記/image-20230817222642961.png)]

結合正態分布的可加性：做N次獨立的正態sampling，可能通過一次的sampling就能解決。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-oyzChf3t-1692290104067)(【Diffusion】李宏毅2023機器學習Diffusion筆記/image-20230817225900399.png)]

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-w4gtTsG6-1692290104067)(【Diffusion】李宏毅2023機器學習Diffusion筆記/image-20230817231727538.png)]

對式3不斷變換，最后可得（這個式子的過程可以不用看，也并不復雜，但是麻煩，理解結論就好）：

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-SY9fKeIh-1692290104068)(【Diffusion】李宏毅2023機器學習Diffusion筆記/image-20230817232929967.png)]

然后再經過一系列的運算求出來 $q(x_{t-1|x_t,x_0})$ 依然是高斯分布，表示首尾 $x_0,x_T$ 固定住，產生 $x_{t-1}$ 的概率，是一個和network無關的分布。而 $P(x_{t-1}|x_t)$ 是由網絡決定的，我們不考慮它的variance，只考慮mean。如果我們希望這兩個分布越接近越好，那就想辦法讓兩個分布的mean越接近越好。
在這里插入圖片描述

化簡：

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-B0OFKfc5-1692290104068)(【Diffusion】李宏毅2023機器學習Diffusion筆記/image-20230817233152037.png)]

實際需要預測出的部分：

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-OpE6Y02O-1692290104069)(【Diffusion】李宏毅2023機器學習Diffusion筆記/image-20230817234731710.png)]

4 為什么推理時要額外加入noise

李宏毅老師的一點Guess，生成式任務，概率最大的結果，未必就是最好的結果。人寫的文章用詞可能更suprising。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-BxAIdBaQ-1692290104069)(【Diffusion】李宏毅2023機器學習Diffusion筆記/image-20230817235534101.png)]

5 一些不知道對不對的Summary

希望近似 $P_{data}(x)$ 和 $P_\theta(x)$ 的分布，而對給定的 $x$ ，使 $P_\theta(x)$ 最大化可以轉換為使其下界最大化，從而轉換為使 $E_{q(x_1:x_T|x_0)}[\log \frac{P(x_0:x_T)}{q(x_1:x_T|x_0)}]$ 最大化。
在假設 $x_t=\sqrt{\beta_t}x_{t-1}+\sqrt{1-\beta_t}z_{t-1}$ 的前提下，可以推出 $x_t=\sqrt{\bar{\alpha_t}}x_{0}+\sqrt{1-\bar{\alpha_t}}z$
從而可以進一步化簡 $E_{q(x_1:x_T|x_0)}[\log \frac{P(x_0:x_T)}{q(x_1:x_T|x_0)}]$ 為三項，其余兩項與Network無關，可只考慮中間一項，該項由 $q(x_{t-1|x_t,x_0})$ 和 $P(x_{t-1}|x_t)$ 的KL散度之和組成，
$q(x_{t-1}|x_t,x_0)$ 表示首尾 $x_0,x_T$ 固定住產生 $x_{t-1}$ 的概率，可求得是一個和network無關的高斯分布，均值可以表示為：

而 $P(x_{t-1}|x_t)$ 是由網絡決定的，我們不考慮它的variance，只考慮mean。
如果我們希望這兩個分布越接近越好，那就想辦法讓兩個分布的mean越接近越好。而上式中，僅有 $\epsilon$ 需要確定，因此我們希望網絡能夠預測這個值，從而完成推理。預測出這一項 $\epsilon$ 的過程，可以看作為從 $x_0$ 和 $x_t$ 預測出 $x_{t-1}$ 的過程。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/43133.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/43133.shtml
英文地址，請注明出處：http://en.pswp.cn/news/43133.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！