目錄
Stable Diffusion
文章的貢獻抽象出來就兩個
潛空間上做擴散生成
ddpm(Denoising Diffusion Probabilistic Model)學習筆記
算法原理
unet預測噪聲
unet推理過程
重參數化技巧
(1)利用前一時刻的?xt-1?得到任意時刻的噪聲圖片?xt(重參數化技巧)
Stable Diffusion
文章的貢獻抽象出來就兩個
:1)提出可以在潛空間上用diffusion學特征分布,而不是直接讓diffusion 學圖像,降低了diffusion模型的難度;2)可以用 cross-attention 方法給模型加條件搞條件生成,在 cross-attention 中,q來源于與上一步,k和v來源于條件編碼。
潛空間上做擴散生成
之前的DM(diffusion model)大多是直接對圖像做去噪擴散,生成出來的圖像細節不太好,如果想生成高清大圖又需要非常大的計算量。所以這里作者提出了一種在潛空間上做擴散生成的方式,另外還增加了文本條件生成。這些操作使得模型最終可以生成非常高清的圖,而且跟像素級的DMs模型相比大大降低了計算量。
作者的貢獻有:
1)與以往純transformer的結構不同,作者的模型可以更優雅地擴展到更高緯度的數據,因此此工作可以(a)在壓縮了的級別上提供更可靠更具體的重建細節,(b)可以更有效地生成百萬像素高清圖像。
ddpm(Denoising Diffusion Probabilistic Model)學習筆記
算法原理
一文弄懂 Diffusion Model(DDPM)+ 代碼實現-CSDN博客
unet預測噪聲
無論在前向過程還是反向過程,Unet的職責都是根據當前的樣本和時間 t 預測噪聲。
- 訓練階段是一步預測出從0到t加的噪聲noise
- 推理階段是根據模型算出該t時刻的噪聲,然后用x_t減去該時刻的噪聲noise得到x[t-1]
unet推理過程
訓練時:給定原圖和時間t,加上噪聲,然后用unet預測噪聲。
推理時,給定隨機噪聲和時間t,預測噪聲,然后減去噪聲,然后就是圖像