冷擴散:無需噪聲的任意圖像變換反轉
摘要
標準擴散模型通常涉及兩個核心步驟:圖像降質 (添加高斯噪聲)和圖像恢復 (去噪操作)。本文發現,擴散模型的生成能力并不強烈依賴于噪聲的選擇,而是可以通過改變降質過程構建一個更廣泛的生成模型家族。即使使用完全確定性 的降質操作(如模糊、遮蔽等),擴散模型的訓練和測試規則仍可被推廣,從而生成高質量圖像。這一發現挑戰了學界對擴散模型的傳統認知——即依賴于梯度朗之萬動力學或變分推斷中的噪聲機制,同時為更通用的擴散模型(可反轉任意圖像變換)開辟了道路。
代碼開源地址:github.com/arpitbansal297/Cold-Diffusion-Models。
1 引言
擴散模型最近已成為生成建模的強大工具 [Ramesh 等, 2022]。擴散模型有多種變體,但其核心概念均圍繞隨機噪聲的移除;研究者會訓練一個圖像恢復/去噪網絡,該網絡接受受高斯噪聲污染的圖像并輸出去噪后的圖像。在測試階段,去噪網絡通過交替應用去噪操作和添加高斯噪聲的更新規則,將純高斯噪聲轉化為逼真圖像。當采用正確的更新序列時,能夠觀察到復雜的生成行為。
擴散模型的起源以及我們對這些模型的理論理解,均高度依賴高斯噪聲在訓練和生成過程中的作用。擴散模型被理解為基于朗之萬動力學(Langevin dynamics)圍繞圖像密度函數進行的隨機游走 [Sohl-Dickstein 等, 2015;Song 和 Ermon, 2019],其中每一步都需要高斯噪聲。這一過程從高溫(強噪聲)狀態開始,逐步退火到幾乎無噪聲的“冷”狀態。另一條研究路線則通過變分推斷(variational inference)結合高斯先驗,推導出去噪網絡的損失函數 [Ho 等, 2020;Song 等, 2021a;Nichol 和 Dhariwal, 2021]。
本工作探討了擴散模型是否必須依賴高斯噪聲或任何隨機性。我們研究了超越擴散模型原始理論框架的廣義擴散模型。不同于局限于高斯噪聲的模型,我們考慮基于任意圖像變換(如模糊、下采樣等)構建的模型。通過簡單的 Lp 損失訓練恢復網絡以反轉這些變換。在測試階段交替應用圖像恢復模型和降質操作時,生成行為依然出現,并能夠生成逼真圖像。
在訓練和測試階段均無需高斯噪聲(或任何隨機性)的“冷擴散”模型的存在,挑戰了當前對擴散模型理論極限的理解,同時為具有全新特性的生成模型開辟了可能性。