目錄
定義與原理
發展歷程
正向擴散過程
反向擴散過程
噪聲預測網絡
離散時間模型
連續時間模型
條件擴散模型
生成質量
訓練穩定性
采樣靈活性
圖像生成
音頻合成
文本生成
計算效率
模型復雜度
定義與原理
擴散模型是一種新型的生成模型,其核心原理源于熱力學中的擴散過程。這種模型通過逐步添加高斯噪聲來模擬數據的“擴散”,并學習如何逆向這個過程以生成新的數據。
擴散模型的工作機制可以概括為兩個主要過程:
-
正向擴散過程 :從原始數據點 (\mathbf{x}_0) 開始,逐步添加高斯噪聲,最終得到完全隨機的噪聲圖像 (\mathbf{x}_T) 。這個過程可以用馬爾可夫鏈來描述,每一步的分布為:
[q(\mathbf{x}t|\mathbf{x}{t-1}) = \mathcal{N}(\mathbf{x}t; \sqrt{1 - \beta_t}\mathbf{x}{t-1}, \beta_t\mathbf{I})]
其中, (\beta_t) 是預先定義的噪聲參數,隨時間逐漸增加。
-
反向擴散過程 :學習如何逆向正向擴散過程,從完全隨機的噪聲圖像 (\mathbf{x}T) 開始,逐步去除噪聲,最終恢復到原始數據分布 (\mathbf{x}0) 。這個過程通過神經網絡 (p{\theta}(\mathbf{x}{t-1}|\mathbf{x}_t)) 來近似,其中 (\theta) 是模型參數。
擴散模型的核心創新在于將生成過程分解為多個小的“去噪”步驟,這種方法允許模型在生成過程中進行自我修正,從而產生更高質量的樣本。此外,擴散模型還具有以下特點:
-
訓練穩定性 :通過最大化證據下界 (ELBO) 來訓練模型,這使得擴散模型的訓練過程更加穩定。
-
采樣靈活性 :可以通過調整采樣步數和噪聲水平來控制生成質量和多樣性。
-
高分辨率生成 :支持生成高分辨率圖像,這在圖像生成任務中具有重要意義。
發展歷程
擴散模型的發展歷程是一個持續創新的過程,其關鍵節點如下:
-
2015年 :擴散模型的概念首次提出,奠定了理論基礎。
-
2020年 :Denoising Diffusion Probabilistic Models (DDPM) 的發表標志著擴散模型在圖像生成領域的應用開始成為主流。
-
2021年 :Improved Denoising Diffusion Probabilistic Models對DDPM進行了改進,提高了模型的性能和效率。
-
2022年 :Diffusion Models Beat GANs on Image Synthesis論文的發表進一步推動了擴散模型的發展,尤其是在顯式分類器引導方面的創新。
-
2023年 :基于CLIP的多模態圖像生成技術的出現,如DALL-E和Imagen,顯著提升了擴散模型的能力和應用范圍。
這些重要進展不僅提高了擴散模型的生成質量,還大大加快了其生成速度,推動了AI作畫時代的到來。
正向擴散過程
擴散模型的正向擴散過程是其核心機制之一,它模擬了數據從原始分布到高斯噪聲分布的逐漸轉變過程。這個過程可以被看作是一個馬爾可夫鏈,每一步都在前一步的基礎上添加高斯噪聲。
正向擴散過程的數學表示如下:
[q(\mathbf{x}t|\mathbf{x}{t-1}) = \mathcal{N}(\mathbf{x}t; \sqrt{1 - \beta_t}\mathbf{x}{t-1}, \beta_t\mathbf{I})]
其中:
-
(\mathbf{x}_t) :t時刻的樣本
-
(\beta_t) :噪聲水平參數,隨時間增加
-
(\mathbf{I}) :單位矩陣
這個過程的關鍵特點包括:
-
噪聲水平逐漸增加 : (\beta_t) 的值隨著時間步 (t) 的增加而增大,導致噪聲水平逐漸提高。
-
均值和方差的變化 :每一步的分布均值為 (\sqrt{1 - \beta_t}\mathbf{x}_{t-1}) ,方差為 (\beta_t\mathbf{I}) 。
-
數據的“擴散” :隨著時間的推移,原始數據的特征逐漸被噪聲掩蓋,最終變為標準高斯分布。
正向擴散過程的實際實現通常采用重參數化技巧:
[ \mathbf{x}t = \sqrt{1 - \beta_t}\mathbf{x}{t-1} + \sqrt{\beta_t}\mathbf{z}_{t-1} ]
其中 (\mathbf{z}_{t-1}) 是從標準高斯分布中采樣的噪聲。
這個過程的重要性在于:
-
數據增強 :通過逐步添加噪聲,擴散模型可以生成更多樣化的樣本,提高模型的泛化能力。
-
訓練穩定性 :正向擴散過程的設計使得模型的訓練更加穩定,降低了模型崩潰的風險。
-
高分辨率生成 :通過調整擴散步數,可以控制生成樣本的分辨率,