擴散模型總結

 

目錄

定義與原理

發展歷程

正向擴散過程

反向擴散過程

噪聲預測網絡

離散時間模型

連續時間模型

條件擴散模型

生成質量

訓練穩定性

采樣靈活性

圖像生成

音頻合成

文本生成

計算效率

模型復雜度


定義與原理

擴散模型是一種新型的生成模型,其核心原理源于熱力學中的擴散過程。這種模型通過逐步添加高斯噪聲來模擬數據的“擴散”,并學習如何逆向這個過程以生成新的數據。

擴散模型的工作機制可以概括為兩個主要過程:

  1. 正向擴散過程 :從原始數據點 (\mathbf{x}_0) 開始,逐步添加高斯噪聲,最終得到完全隨機的噪聲圖像 (\mathbf{x}_T) 。這個過程可以用馬爾可夫鏈來描述,每一步的分布為:

[q(\mathbf{x}t|\mathbf{x}{t-1}) = \mathcal{N}(\mathbf{x}t; \sqrt{1 - \beta_t}\mathbf{x}{t-1}, \beta_t\mathbf{I})]

其中, (\beta_t) 是預先定義的噪聲參數,隨時間逐漸增加。

  1. 反向擴散過程 :學習如何逆向正向擴散過程,從完全隨機的噪聲圖像 (\mathbf{x}T) 開始,逐步去除噪聲,最終恢復到原始數據分布 (\mathbf{x}0) 。這個過程通過神經網絡 (p{\theta}(\mathbf{x}{t-1}|\mathbf{x}_t)) 來近似,其中 (\theta) 是模型參數。

擴散模型的核心創新在于將生成過程分解為多個小的“去噪”步驟,這種方法允許模型在生成過程中進行自我修正,從而產生更高質量的樣本。此外,擴散模型還具有以下特點:

  • 訓練穩定性 :通過最大化證據下界 (ELBO) 來訓練模型,這使得擴散模型的訓練過程更加穩定。

  • 采樣靈活性 :可以通過調整采樣步數和噪聲水平來控制生成質量和多樣性。

  • 高分辨率生成 :支持生成高分辨率圖像,這在圖像生成任務中具有重要意義。

發展歷程

擴散模型的發展歷程是一個持續創新的過程,其關鍵節點如下:

  • 2015年 :擴散模型的概念首次提出,奠定了理論基礎。

  • 2020年 :Denoising Diffusion Probabilistic Models (DDPM) 的發表標志著擴散模型在圖像生成領域的應用開始成為主流。

  • 2021年 :Improved Denoising Diffusion Probabilistic Models對DDPM進行了改進,提高了模型的性能和效率。

  • 2022年 :Diffusion Models Beat GANs on Image Synthesis論文的發表進一步推動了擴散模型的發展,尤其是在顯式分類器引導方面的創新。

  • 2023年 :基于CLIP的多模態圖像生成技術的出現,如DALL-E和Imagen,顯著提升了擴散模型的能力和應用范圍。

這些重要進展不僅提高了擴散模型的生成質量,還大大加快了其生成速度,推動了AI作畫時代的到來。

正向擴散過程

擴散模型的正向擴散過程是其核心機制之一,它模擬了數據從原始分布到高斯噪聲分布的逐漸轉變過程。這個過程可以被看作是一個馬爾可夫鏈,每一步都在前一步的基礎上添加高斯噪聲。

正向擴散過程的數學表示如下:

[q(\mathbf{x}t|\mathbf{x}{t-1}) = \mathcal{N}(\mathbf{x}t; \sqrt{1 - \beta_t}\mathbf{x}{t-1}, \beta_t\mathbf{I})]

其中:

  • (\mathbf{x}_t) :t時刻的樣本

  • (\beta_t) :噪聲水平參數,隨時間增加

  • (\mathbf{I}) :單位矩陣

這個過程的關鍵特點包括:

  1. 噪聲水平逐漸增加 : (\beta_t) 的值隨著時間步 (t) 的增加而增大,導致噪聲水平逐漸提高。

  2. 均值和方差的變化 :每一步的分布均值為 (\sqrt{1 - \beta_t}\mathbf{x}_{t-1}) ,方差為 (\beta_t\mathbf{I}) 。

  3. 數據的“擴散” :隨著時間的推移,原始數據的特征逐漸被噪聲掩蓋,最終變為標準高斯分布。

正向擴散過程的實際實現通常采用重參數化技巧:

[ \mathbf{x}t = \sqrt{1 - \beta_t}\mathbf{x}{t-1} + \sqrt{\beta_t}\mathbf{z}_{t-1} ]

其中 (\mathbf{z}_{t-1}) 是從標準高斯分布中采樣的噪聲。

這個過程的重要性在于:

  • 數據增強 :通過逐步添加噪聲,擴散模型可以生成更多樣化的樣本,提高模型的泛化能力。

  • 訓練穩定性 :正向擴散過程的設計使得模型的訓練更加穩定,降低了模型崩潰的風險。

  • 高分辨率生成 :通過調整擴散步數,可以控制生成樣本的分辨率,

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/899495.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/899495.shtml
英文地址,請注明出處:http://en.pswp.cn/news/899495.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【Java】Java核心知識點與相應面試技巧(七)——類與對象(二)

Java 類與對象篇 1.上期面試題解析: 上文鏈接:https://blog.csdn.net/weixin_73492487/article/details/146607026 創建對象時的內存分配過程? ① 加載類 ② 堆內存分配空間 ③ 默認初始化 ④ 顯式初始化 ⑤ 構造器執行 this和super能否同時…

筆記:遇見未來——6G協同創新技術研討會

https://www.cww.net.cn/article?id564308 研討會由中國移動研究院首席科學家易芝玲博士主持。來自清華大學-中國移動聯合研究院、北京郵電大學-中國移動研究院聯合創新中心、東南大學-中國移動研究院聯合創新中心、中關村泛聯移動通信技術創新應用研究院等合作載體的知名教授…

Python Cookbook-4.14 反轉字典

任務 給定一個字典,此字典將不同的鍵映射到不同的值。而你想創建一個反轉的字典,將各個值反映射到鍵。 解決方案 可以創建一個函數,此函數傳遞一個列表推導作為dict的參數以創建需要的字典。 def invert_dict(d):return dict([(v,k) for …

深度學習在測距模型中的應用

一、單目視覺測距和雙目視覺測距簡介 1、單目視覺測距 模型:深度估計(Depth Estimation) 原理:通過深度學習模型(如MonoDepth2、MiDaS)或傳統的計算機視覺方法(如單目相機結合物體大小推斷&am…

Linux Mem -- Slub內存分配器的幾點疑問及解答

目錄 1 怎樣通過object地址獲取其對應的struct slab? 2 struct page、struct folio和struct slab類型之間轉換,怎么保證內部關鍵數據的傳遞? 3 怎樣判斷一個內存空間是屬于slab、page管理? 4 struct page 結構中 __mapcou…

pip install cryptacular卡住,卡在downloading階段

筆者安裝pip install cryptacular卡在downloading階段,但不知道為何 Collecting cryptacularCreated temporary directory: /tmp/pip-unpack-qfbl8f08http://10.170.22.41:8082 "GET http://repo.huaweicloud.com/repository/pypi/packages/42/69/34d478310d6…

Lag-Llama時間序列模型簡單實現數據預測

前言: 最近在大模型預測,簡單了解了lag-llama開源項目,網上也有很多講解原理的,這里就將如何快速上手使用說一下,只懂得一點點皮毛,有錯誤的地方歡迎大佬指出。 簡單介紹: Lag-Llama 是一個開…

Plastiform復制膠泥:高精度表面復制與測量的高效工具

在工業制造和質量檢測領域,表面復制和測量是確保產品質量的關鍵環節。Plastiform復制膠泥作為一種創新材料,憑借其出色的性能和多樣化的應用,為用戶提供了可靠的解決方案。它能夠快速捕捉復雜表面的細節,確保測量結果的準確性&…

AI大模型、機器學習以及AI Agent開源社區和博客

以下梳理了適合學習 AI大模型、機器學習、AI Agent和多模態技術 的英文網站、社區、官網和博客,按類別分類整理: 一、官方網站與開源平臺 1. AI大模型 (Large Language Models) ? OpenAI ? 官網: openai.com ? 內容: GPT系列模型文檔、研究論文、AP…

python 上下文管理器with

with 上下文管理器 上下文管理器示例如下:若想不使用with關鍵字 上下文管理器 任何實現了 enter() 和 exit() 方法的對象都可稱之為上下文管理器,上下文管理器對象可以使用 with 關鍵字。 必須同時具有__enter__和__exit__,就可以使用with語句…

買賣股票的最佳時機(121)

121. 買賣股票的最佳時機 - 力扣&#xff08;LeetCode&#xff09; 解法&#xff1a; class Solution { public:int maxProfit(vector<int>& prices) {int cur_min prices[0];int max_profit 0;for (int i 1; i < prices.size(); i) {if (prices[i] > cur…

CesiumJS 本地數據瓦片加載南北兩極出現圓點問題

const imageryProvider new UrlTemplateImageryProvider({url: "/gisimg/{z}/{x}/{reverseY}.png",minimumLevel: 0,maximumLevel: 19})上面這段代碼是加載本地切片&#xff0c;但是有個致命問題就是會出現南北兩極顯示藍色圓點 解決方案&#xff1a; 加上這句話&am…

Linux編譯器gcc/g++使用完全指南:從編譯原理到動靜態鏈接

一、gcc/g基礎認知 在Linux開發環境中&#xff0c;gcc和g是我們最常用的編譯器工具&#xff1a; gcc&#xff1a;GNU C Compiler&#xff0c;專門用于編譯C語言程序g&#xff1a;GNU C Compiler&#xff0c;用于編譯C程序&#xff08;也可編譯C語言&#xff09; &#x1f4cc…

Vue學習筆記集--computed

computed 在 Vue 3 的 Composition API 中&#xff0c;computed 用于定義響應式計算屬性 它的核心特性是自動追蹤依賴、緩存計算結果&#xff08;依賴未變化時不會重新計算&#xff09; 基本用法 1. 定義只讀計算屬性 import { ref, computed } from vue;const count ref(…

飛致云榮獲“Alibaba Cloud Linux最佳AI鏡像服務商”稱號

2025年3月24日&#xff0c;阿里云云市場聯合龍蜥社區發布“2024年度Alibaba Cloud Linux最佳AI鏡像服務商”評選結果。 經過主辦方的嚴格考量&#xff0c;飛致云&#xff08;即杭州飛致云信息科技有限公司&#xff09;憑借旗下MaxKB開源知識庫問答系統、1Panel開源面板、Halo開…

Vue如何利用Postman和Axios制作小米商城購物車----簡版

實現功能&#xff1a;全選、單選、購物數量顯示、合計價格顯示 實現效果如下&#xff1a; 思路&#xff1a; 1.數據要利用寫在Postman里面&#xff0c;通過地址來調用Postman里面的數據。 2.寫完數據后&#xff0c;給寫的數據一個名字&#xff0c;然后加上一個空數組&#xf…

第一篇:系統分析師首篇

目錄 一、目標二、計劃三、完成情況1.宏觀思維導圖2.過程中的團隊管理和其它方面的思考 四、意外之喜(最少2點)1.計劃內的明確認知和思想的提升標志2.計劃外的具體事情提升內容和標志 一、目標 通過參加考試&#xff0c;訓練學習能力&#xff0c;而非單純以拿證為目的。 1.在復…

CSS學習筆記4——盒子模型

目錄 盒子模型是什么&#xff1f; 盒子模型的組成 一、div標簽 二、邊框屬性 1、border-style:邊框樣式 2、border-width:邊框寬度 3、border-color:邊框顏色、border&#xff1a;綜合設置 4、border-radius:圓角邊框 5、border-image&#xff1a;圖像邊框 三、邊距屬性…

復現文獻中的三維重建圖像生成,包括訓練、推理和可視化

要復現《One - 2 - 3 - 45 Fast Single Image to 3D Objects with Consistent Multi - View Generation and 3D Diffusion (CVPR)2024》文獻中的三維重建圖像生成&#xff0c;包括訓練、推理和可視化&#xff0c;并且確保代碼能正常運行&#xff0c;下面是基本的實現步驟和示例…

stable diffusion 本地部署教程 2025最新版

前提&#xff1a; 需要環境 git git下載地址Git - Downloading Package ? 直接裝即可 python3.10.6 下載地址 Python Release Python 3.10.6 | Python.org ? 記得python環境一定要3.10.6&#xff01;&#xff01;&#xff01; 第一個版本 項目地址https://github.…