擴散模型進化史

一幅精美的圖片,一段精彩的視頻,可能始于一片純粹的噪聲。

2024年的計算機視覺頂會CVPR上,擴散模型成為絕對主角。從圖像生成到視頻理解,從超分辨率到3D建模,擴散模型正以驚人的速度重塑著AIGC(AI生成內容)的每一個領域。

這些模型不僅展示了人工智能在創造力方面的巨大潛力,也在不斷解決著實際應用中的核心挑戰:如何讓生成更快、更可控、更公平。

擴散模型的核心:從混沌中創造秩序

擴散模型的工作原理仿佛是一種數字煉金術——通過逐步去噪的過程將隨機噪聲轉化為結構化的圖像。這個過程分為兩個關鍵階段:前向擴散和反向擴散。

在前向擴散過程中,模型逐步向訓練圖像添加噪聲,直到圖像變成完全隨機的噪聲。反向過程則是學習如何逆轉這種噪聲添加過程,從而從隨機噪聲中重建出原始圖像。

這種去噪過程需要多次迭代,傳統上需要數百甚至數千步計算,導致生成速度緩慢。這正是當前研究的重點突破方向之一——在保持質量的同時大幅提升生成速度

加速采樣:打破速度壁壘

擴散模型生成速度慢的主要原因在于其采樣過程需要多次迭代計算。CVPR 2024上提出的一種新方法通過優化時間步長來加速這一過程。

傳統方法使用均勻時間步長進行采樣,但這在使用較少采樣步驟時并不是最優選擇。新框架通過設計一個優化問題,尋求特定數值ODE求解器更合適的時間步長,將基本解和相應數值解之間的距離最小化。

實驗結果令人印象深刻:在CIFAR-10和ImageNet等數據集上,優化時間步長顯著提高了圖像生成性能,同時減少了采樣時間。這種方法與最先進的采樣方法UniPC結合時,表現尤為突出。

DistriFusion項目地址:https://github.com/mit-han-lab/distrifuser

分布式推理:高分辨率生成的突破

生成高分辨率圖像帶來的計算成本極高,往往導致交互式應用的延遲令人難以接受。DistriFusion應運而生,它通過利用多個GPU之間的并行性來解決這個問題。

該方法將模型輸入分成多個patch,每個分配給一個GPU。簡單實現這種方法會破壞patch之間的交互并丟失保真度,而考慮這種交互又會導致巨大的通信開銷。

DistriFusion的解決方案是利用擴散過程的順序性質,通過重復使用前一時間步的預計算特征圖為當前步驟提供上下文。這種方法支持異步通信,可以通過計算進行流水線處理。

大量實驗證明,DistriFusion可以應用于最近的Stable Diffusion XL而不會降低質量,相對于單個NVIDIA A100設備,可以實現高達6.1倍的加速

偏差問題:AI公平性的挑戰

擴散模型往往會反映訓練數據集中存在的偏差,在人臉生成中尤為令人擔憂——模型可能更偏愛某個人口群體而不是其他群體(例如女性比男性)。

CVPR 2024上提出的一種新方法可以在不依賴額外數據或模型重新訓練的情況下對擴散模型進行去偏置。這種稱為分布引導的方法強制生成的圖像遵循指定的屬性分布。

該方法建立在去噪UNet的潛在特征具有豐富的人口群體語義這一發現上,可以利用這些特征來引導去偏置生成。研究人員訓練了一個屬性分布預測器(ADP),這是一個將潛在特征映射到屬性分布的小型多層感知機。

這種方法減少了單個/多個屬性上的偏差,在無條件和文本條件下的擴散模型方面明顯優于過去的方法。此外,它還提出了通過生成數據對訓練集進行再平衡來訓練公平屬性分類器的下游應用。

SingDiffusion項目地址:https://github.com/PangzeCheung/SingDiffusion

起點和終點的奇異性問題

大多數擴散模型假設反向過程服從高斯分布,但這種近似在時間間隔的端點(t=0和t=1)處尚未得到嚴格驗證,尤其是在奇異點附近。

不恰當處理這些點會導致應用中的平均亮度問題,限制模型生成具有極端亮度或深暗度的圖像。

CVPR 2024上的研究從理論和實踐角度解決了這個問題。研究人員首先建立了反向過程逼近的誤差界限,展示了在奇異時間步驟時的高斯特征。基于這一理論認識,他們確認t=1的奇異點是有條件可消除的,而t=0時的奇異點是固有屬性。

基于這些結論,研究人員提出了SingDiffusion,這是一種新的即插即用方法,用于處理初始奇異時間步驟的采樣。這種方法不僅可以在沒有額外訓練的情況下有效解決平均亮度問題,還能提高模型的生成能力,實現顯著較低的FID得分。

實際應用:超越圖像生成

雖然圖像生成是擴散模型最著名的應用,但它們的能力遠不止于此。在CVPR 2024上,擴散模型被應用于各種視覺任務,包括超分辨率、圖像修復、目標檢測、甚至視頻生成

ViewDiff項目探索了使用文生圖模型生成3D一致圖像的方法。現有文本到3D方法使用預訓練文本到圖像擴散模型解決優化問題,或在合成數據上進行微調,這往往會導致沒有背景的非真實感3D物體。

ViewDiff提出利用預訓練的文本到圖像模型作為先驗,并從真實世界數據中單一去噪過程中學習生成多視角圖像。研究人員將3D體渲染和跨幀注意力層集成到現有文本到圖像模型的每個塊中,并設計了一種自回歸生成方法,可以從任意視點渲染出更具3D一致性的圖像。

與現有方法相比,ViewDiff生成的結果更加一致,并且具有更好的視覺質量——FID減少30%,KID減少37%。

ViewDiff項目頁面:https://lukashoel.github.io/ViewDiff/

無記憶生成:保護訓練數據版權

預訓練擴散模型及其輸出具有出色的合成高質量圖像的能力,加上開源特性,使得這些模型及其輸出可廣泛輕易獲得。這導致用戶在推斷過程中可能面臨訴訟風險,因為模型容易記憶并復制訓練數據。

反記憶指導(AMG)框架采用了三種有針對性的指導策略,應對圖像和caption重復,以及高度具體的用戶提示等主要記憶原因。AMG確保了無記憶輸出,同時保持高圖像質量和文本對齊。

AMG還具有創新的自動檢測系統,用于在推斷過程的每一步中檢測潛在的記憶,允許選擇性地應用指導策略,最大程度地不干擾原始的采樣過程。將AMG應用于預訓練的去噪擴散概率模型和穩定擴散的各種生成任務中,實驗結果表明,AMG是第一個成功消除所有記憶實例而對圖像質量和文本對齊幾乎沒有或輕微影響的方法

擴散模型的無限可能

擴散模型的發展速度令人驚嘆。從最初的簡單圖像生成,到現在的各種應用場景,擴散模型正在不斷突破人工智能創造的邊界。

在自動駕駛領域,甚至有公司開始探索利用擴散模型進行軌跡規劃。哈啰Robotaxi采用以擴散模型為輸出核心的新范式,解決傳統自回歸模型端到端的多模態問題。

這種方法的優勢在于,它能夠生成多樣化的軌跡樣本,而不是假設交通場景只有一個最好的處理策略。正如哈啰Robotaxi聯合創始人于乾坤解釋的:“同樣一個交通場景,兩個老司機的策略可能完全不同,并且都能安全通過,這就是所謂自動駕駛的多模態效應。”

隨著技術的不斷成熟,擴散模型很可能將進一步滲透到更多領域,從藝術創作到工業設計,從娛樂到教育,改變人們創造和溝通的方式。

技術的進步永遠不會停止,擴散模型的發展也不例外。從速度優化到偏差減少,從記憶消除到新應用探索,研究人員正在不斷解決著擴散模型面臨的挑戰。

盡管擴散模型已經表現出令人印象深刻的能力,但它們仍然處于發展的早期階段。未來的研究可能會帶來更快的采樣方法、更精細的控制能力,以及更廣泛的應用場景。

CVPR 2024論文合集:https://blog.csdn.net/lgzlgz3102/article/details/137852991

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/96471.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/96471.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/96471.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

一次 Linux 高負載 (Load) 異常問題排查實錄

一次 Linux 高負載(Load)異常排查實錄一、背景及排查過程材料二、排查分析2.1Load 的真正含義2.2:確認異常進程2.3:線程卡在哪(wchan)2.4:perf 采樣(用戶態/內核態熱點)2…

淺析Linux進程信號處理機制:基本原理及應用

文章目錄概述信號類型可靠信號與不可靠信號Fatal信號與Non Fatal信號不可捕獲/忽略信號信號工作機制信號處理方式信號嵌套處理信號使用信號發送kill命令注冊信號處理函數信號安全與函數可重入性可重入函數線程安全與可重入性相關參考概述 Linux信號機制是進程間通信的一種方式…

【學習K230-例程19】GT6700-TCP-Client

B站視頻 TCP TCP/IP(Transmission Control Protocol/Internet Protocol,傳輸控制協議/網際協議)是指能夠在多個不同網絡間實現信息傳輸的協議簇。TCP/IP 協議不僅僅指的是 TCP和 IP 兩個協議,而是指一個由 FTP、SMTP、TCP、UDP、I…

o2oa待辦流程和已辦流程表

在o2oa系統中每個用戶有兩種唯一標識:第一種是姓名個人釘釘ID(或者o2oa創建該用戶時設置的id)ORG_PERSON.xdistinguishedName劉準3013692136672430P第二種是姓名所在部門的釘釘id個人釘釘idORG_IDENTITY.xdistinguishedName劉準966488616_301…

QT零基礎入門教程

基礎篇第一章 QT 基礎認知1.1 什么是 QT(What)?定義:跨平臺 C 應用開發框架,不僅用于 UI 設計,還包含核心功能(如事件、網絡、數據庫)。?核心特性:?跨平臺:一套代碼支…

遠程依賴管理新范式:cpolar賦能Nexus全球協作

文章目錄 前言一. Docker安裝Nexus二. 本地訪問Nexus三. Linux安裝Cpolar四. 配置Nexus界面公網地址五. 遠程訪問 Nexus界面六. 固定Nexus公網地址七. 固定地址訪問Nexus 前言 Nexus作為一款企業級倉庫管理工具,其核心功能在于集中管理各類軟件依賴,提供…

Prompt技術深度解析:從基礎原理到前沿應用的全面指南

引言 在人工智能技術飛速發展的今天,Prompt技術(提示詞工程)已成為連接人類智慧與機器智能的重要橋梁。隨著GPT-4、Claude、Gemini等大型語言模型的廣泛應用,如何有效地與這些AI系統進行交互,已成為決定AI應用成功與否…

性能測試工具Jmeter之java.net.BindException: Address already in use

首先請參考連接:https://blog.csdn.net/weixin_46190208/article/details/115229733 。配置完注冊表后一般就能解決問題。但并未解決我的問題 注冊表的MaxUserPort,TcpTimedWaitDelay兩個參數我只能配置MaxUserPort,設置TcpTimedWaitDelay后&…

JDK 新特性

JDK 新特性引入模塊Java 9 開始引入了模塊(Module),目的是為了管理依賴。使用模塊可以按需打包 JRE 和進一步限制類的訪問權限。接口支持私有方法JAVA 9 開始,接口里可以添加私有方法,JAVA 8 對接口增加了默認方法的支…

如何高效應對網站反爬蟲策略?

現在大型網站的反爬策略越來越高明了,不僅是對IP訪問頻率、User-Agent請求頭進行異常識別,還會分析IP地址、瀏覽器指紋、JS動態加載、API逆向、行為模式等方式各種設卡,動不動跳出五花八門的驗證碼,非常難搞。 怎么應對反爬是個系…

c++ shared_ptr理解

不是一個智能指針對于一個計數器嗎?怎么變成共有資源的計數器了?你的意思是多個對象共用一個計數器?你問到了 std::shared_ptr 最核心、最精妙的設計機制!你的問題非常深刻:“不是一個智能指針對應一個計數器嗎&#x…

002 Rust環境搭建

Rust環境搭建 現在很多集成開發環境(IDE)基本上都支持Rust開發。官方公布的支持工具:https://www.rust-lang.org/zh-CN/tools 這里以Windows 10 64位系統 Visual Studio Code為例來搭建Rust開發環境。 Rust安裝 Rust 的編譯工具依賴 C 語言的編譯工具&#xff0…

【Unity進階】Unity發布PC端,隱藏并自定義默認標題欄

開發環境: Unity2019.3.16f1c1 - 個人版 Visual Studio Community 2019 Windows10 專業版 x64嘿,各位朋友們!當咱們歡歡喜喜地把項目打包成PC平臺的exe窗口程序,準備在電腦上一展游戲風采時,卻發現冒出來個Windows風格…

國產延時芯片EH3B05上電延時3秒開關機芯片方案超低功耗

EH3B05-4941-24A1延時開關芯片是一款專為低功耗電子產品設計的高效時序控制器件,其核心功能在于提供精確的多通道延時信號輸出。該芯片采用SOT23-6超小封裝,體積僅為2.9mm2.8mm1.3mm,特別適合空間受限的便攜式設備。其工作電壓范圍覆蓋2.0V至…

大數據與財務管理專業如何轉型做金融科技?

在數字經濟加速演進的今天,金融行業的邊界正在被數據與技術重新定義。傳統金融崗位正經歷深刻變革,而"金融科技"(FinTech)作為技術與金融深度融合的產物,已成為行業轉型升級的核心引擎。越來越多具備數據背景…

Windows、Linux 系統 nodejs 和 npm 版本更新及錯誤修復

一、推薦使用 nvm 工具,直接通過命令行安轉和切換各個版本 無論是 Windows 平臺,還是 Linux 平臺,都推薦使用 nvm 工具。 nvm(Node.js Version Management),是一個 nodejs 的版本管理工具。它是專門為解決…

【系列文章】Linux中的并發與競爭[03]-自旋鎖

【系列文章】Linux中的并發與競爭[03]-自旋鎖 該文章為系列文章:Linux中的并發與競爭中的第3篇 該系列的導航頁連接: 【系列文章】Linux中的并發與競爭-導航頁 文章目錄【系列文章】Linux中的并發與競爭[03]-自旋鎖一、自旋鎖二、實驗程序的編寫2.1驅動…

開始 ComfyUI 的 AI 繪圖之旅-Cosmos Predict2世界模型文生圖(全網首發,官網都沒有更新)(十三)

文章標題一、Cosmos-Predict21.Cosmos Predict2 Text2Image 工作流1.1 下載工作流文件1.2 手動模型安裝1.3 按步驟完成工作流運行本文介紹了如何在 ComfyUI 中完成 Cosmos-Predict2 文生圖的工作流 一、Cosmos-Predict2 Cosmos-Predict2 是由 NVIDIA 推出的新一代物理世界基礎模…

深度學習優化器進化史:從SGD到AdamW的原理與選擇

點擊 “AladdinEdu,同學們用得起的【H卡】算力平臺”,注冊即送-H卡級別算力,80G大顯存,按量計費,靈活彈性,頂級配置,學生更享專屬優惠。 引言:優化器——深度學習的引擎 在深度學習…

工商業屋頂分布式光伏監控系統助力園區企業錯峰有序用電

一、行業痛點與需求分析分布式光伏發電作為清潔能源的重要形式,近年來在工商業屋頂、戶用場景中快速普及。然而,其“小而散”的特性導致電網適應性、運維效率、安全管控等方面面臨顯著挑戰:1.電網適應性難題:高滲透率場景下&#…