一幅精美的圖片,一段精彩的視頻,可能始于一片純粹的噪聲。
2024年的計算機視覺頂會CVPR上,擴散模型成為絕對主角。從圖像生成到視頻理解,從超分辨率到3D建模,擴散模型正以驚人的速度重塑著AIGC(AI生成內容)的每一個領域。
這些模型不僅展示了人工智能在創造力方面的巨大潛力,也在不斷解決著實際應用中的核心挑戰:如何讓生成更快、更可控、更公平。
擴散模型的核心:從混沌中創造秩序
擴散模型的工作原理仿佛是一種數字煉金術——通過逐步去噪的過程將隨機噪聲轉化為結構化的圖像。這個過程分為兩個關鍵階段:前向擴散和反向擴散。
在前向擴散過程中,模型逐步向訓練圖像添加噪聲,直到圖像變成完全隨機的噪聲。反向過程則是學習如何逆轉這種噪聲添加過程,從而從隨機噪聲中重建出原始圖像。
這種去噪過程需要多次迭代,傳統上需要數百甚至數千步計算,導致生成速度緩慢。這正是當前研究的重點突破方向之一——在保持質量的同時大幅提升生成速度。
加速采樣:打破速度壁壘
擴散模型生成速度慢的主要原因在于其采樣過程需要多次迭代計算。CVPR 2024上提出的一種新方法通過優化時間步長來加速這一過程。
傳統方法使用均勻時間步長進行采樣,但這在使用較少采樣步驟時并不是最優選擇。新框架通過設計一個優化問題,尋求特定數值ODE求解器更合適的時間步長,將基本解和相應數值解之間的距離最小化。
實驗結果令人印象深刻:在CIFAR-10和ImageNet等數據集上,優化時間步長顯著提高了圖像生成性能,同時減少了采樣時間。這種方法與最先進的采樣方法UniPC結合時,表現尤為突出。
DistriFusion項目地址:https://github.com/mit-han-lab/distrifuser
分布式推理:高分辨率生成的突破
生成高分辨率圖像帶來的計算成本極高,往往導致交互式應用的延遲令人難以接受。DistriFusion應運而生,它通過利用多個GPU之間的并行性來解決這個問題。
該方法將模型輸入分成多個patch,每個分配給一個GPU。簡單實現這種方法會破壞patch之間的交互并丟失保真度,而考慮這種交互又會導致巨大的通信開銷。
DistriFusion的解決方案是利用擴散過程的順序性質,通過重復使用前一時間步的預計算特征圖為當前步驟提供上下文。這種方法支持異步通信,可以通過計算進行流水線處理。
大量實驗證明,DistriFusion可以應用于最近的Stable Diffusion XL而不會降低質量,相對于單個NVIDIA A100設備,可以實現高達6.1倍的加速。
偏差問題:AI公平性的挑戰
擴散模型往往會反映訓練數據集中存在的偏差,在人臉生成中尤為令人擔憂——模型可能更偏愛某個人口群體而不是其他群體(例如女性比男性)。
CVPR 2024上提出的一種新方法可以在不依賴額外數據或模型重新訓練的情況下對擴散模型進行去偏置。這種稱為分布引導的方法強制生成的圖像遵循指定的屬性分布。
該方法建立在去噪UNet的潛在特征具有豐富的人口群體語義這一發現上,可以利用這些特征來引導去偏置生成。研究人員訓練了一個屬性分布預測器(ADP),這是一個將潛在特征映射到屬性分布的小型多層感知機。
這種方法減少了單個/多個屬性上的偏差,在無條件和文本條件下的擴散模型方面明顯優于過去的方法。此外,它還提出了通過生成數據對訓練集進行再平衡來訓練公平屬性分類器的下游應用。
SingDiffusion項目地址:https://github.com/PangzeCheung/SingDiffusion
起點和終點的奇異性問題
大多數擴散模型假設反向過程服從高斯分布,但這種近似在時間間隔的端點(t=0和t=1)處尚未得到嚴格驗證,尤其是在奇異點附近。
不恰當處理這些點會導致應用中的平均亮度問題,限制模型生成具有極端亮度或深暗度的圖像。
CVPR 2024上的研究從理論和實踐角度解決了這個問題。研究人員首先建立了反向過程逼近的誤差界限,展示了在奇異時間步驟時的高斯特征。基于這一理論認識,他們確認t=1的奇異點是有條件可消除的,而t=0時的奇異點是固有屬性。
基于這些結論,研究人員提出了SingDiffusion,這是一種新的即插即用方法,用于處理初始奇異時間步驟的采樣。這種方法不僅可以在沒有額外訓練的情況下有效解決平均亮度問題,還能提高模型的生成能力,實現顯著較低的FID得分。
實際應用:超越圖像生成
雖然圖像生成是擴散模型最著名的應用,但它們的能力遠不止于此。在CVPR 2024上,擴散模型被應用于各種視覺任務,包括超分辨率、圖像修復、目標檢測、甚至視頻生成。
ViewDiff項目探索了使用文生圖模型生成3D一致圖像的方法。現有文本到3D方法使用預訓練文本到圖像擴散模型解決優化問題,或在合成數據上進行微調,這往往會導致沒有背景的非真實感3D物體。
ViewDiff提出利用預訓練的文本到圖像模型作為先驗,并從真實世界數據中單一去噪過程中學習生成多視角圖像。研究人員將3D體渲染和跨幀注意力層集成到現有文本到圖像模型的每個塊中,并設計了一種自回歸生成方法,可以從任意視點渲染出更具3D一致性的圖像。
與現有方法相比,ViewDiff生成的結果更加一致,并且具有更好的視覺質量——FID減少30%,KID減少37%。
ViewDiff項目頁面:https://lukashoel.github.io/ViewDiff/
無記憶生成:保護訓練數據版權
預訓練擴散模型及其輸出具有出色的合成高質量圖像的能力,加上開源特性,使得這些模型及其輸出可廣泛輕易獲得。這導致用戶在推斷過程中可能面臨訴訟風險,因為模型容易記憶并復制訓練數據。
反記憶指導(AMG)框架采用了三種有針對性的指導策略,應對圖像和caption重復,以及高度具體的用戶提示等主要記憶原因。AMG確保了無記憶輸出,同時保持高圖像質量和文本對齊。
AMG還具有創新的自動檢測系統,用于在推斷過程的每一步中檢測潛在的記憶,允許選擇性地應用指導策略,最大程度地不干擾原始的采樣過程。將AMG應用于預訓練的去噪擴散概率模型和穩定擴散的各種生成任務中,實驗結果表明,AMG是第一個成功消除所有記憶實例而對圖像質量和文本對齊幾乎沒有或輕微影響的方法。
擴散模型的無限可能
擴散模型的發展速度令人驚嘆。從最初的簡單圖像生成,到現在的各種應用場景,擴散模型正在不斷突破人工智能創造的邊界。
在自動駕駛領域,甚至有公司開始探索利用擴散模型進行軌跡規劃。哈啰Robotaxi采用以擴散模型為輸出核心的新范式,解決傳統自回歸模型端到端的多模態問題。
這種方法的優勢在于,它能夠生成多樣化的軌跡樣本,而不是假設交通場景只有一個最好的處理策略。正如哈啰Robotaxi聯合創始人于乾坤解釋的:“同樣一個交通場景,兩個老司機的策略可能完全不同,并且都能安全通過,這就是所謂自動駕駛的多模態效應。”
隨著技術的不斷成熟,擴散模型很可能將進一步滲透到更多領域,從藝術創作到工業設計,從娛樂到教育,改變人們創造和溝通的方式。
技術的進步永遠不會停止,擴散模型的發展也不例外。從速度優化到偏差減少,從記憶消除到新應用探索,研究人員正在不斷解決著擴散模型面臨的挑戰。
盡管擴散模型已經表現出令人印象深刻的能力,但它們仍然處于發展的早期階段。未來的研究可能會帶來更快的采樣方法、更精細的控制能力,以及更廣泛的應用場景。
CVPR 2024論文合集:https://blog.csdn.net/lgzlgz3102/article/details/137852991