目錄
1. 背景與挑戰
2. AdcSR模型概述
2.1 模型架構
2.2 訓練策略
3. 公式與原理
4. 創新點
5. 實驗與結果
5.1 實驗設置
5.2 結果對比
5.3 消融實驗
6. 結論
在計算機視覺領域,圖像超分辨率(Image Super-Resolution, ISR)一直是一個重要的研究方向。其目標是從低分辨率(Low-Resolution, LR)圖像中重建出高分辨率(High-Resolution, HR)圖像。然而,現實世界中的圖像退化過程復雜且未知,這使得實世界圖像超分辨率(Real-World Image Super-Resolution, Real-ISR)成為一個更具挑戰性的任務。本文將詳細介紹一種名為AdcSR的新型Real-ISR方法,該方法通過對抗擴散壓縮(Adversarial Diffusion Compression, ADC)框架,顯著提高了模型的效率和性能。
1. 背景與挑戰
傳統的ISR方法通常假設LR圖像是HR圖像的雙三次下采樣版本,但這種假設在現實世界中往往不成立。為了應對復雜的退化過程,研究者們提出了基于隨機退化操作和高階退化過程的Real-ISR方法。這些方法在合成數據上表現良好,但在實際應用中仍面臨計算成本高、推理速度慢等問題。
近年來,基于擴散模型(Diffusion Models)的方法如Stable Diffusion(SD)在圖像生成任務中表現出色。然而,這些方法通常需要多步推理,計算成本高昂,難以在實際部署中應用。為了解決這一問題,研究者們提出了多種一步推理的擴散模型,如OSEDiff和S3Diff。盡管這些方法在推理速度上有所提升,但它們仍然依賴于大規模的預訓練SD模型,計算成本和參數量仍然較高。
2. AdcSR模型概述
AdcSR是一種基于對抗擴散壓縮(ADC)框架的新型Real-ISR方法。其核心思想是通過結構化壓縮(模塊移除和剪枝)和對抗蒸餾(知識蒸餾與對抗損失)來簡化基于一步擴散網絡的Real-ISR模型,從而在保持生成能力的同時顯著提高效率。
2.1 模型架構
AdcSR模型通過移除不必要的模塊(如VAE編碼器、提示提取器、文本編碼器等)和剪枝剩余的可壓縮模塊(如去噪UNet和VAE解碼器)來實現結構化壓縮。具體來說,AdcSR模型包括以下三個模塊:
- ?PixelUnshuffle層?:將LR輸入圖像的像素重新排列到通道維度,以準備輸入到去噪UNet。
- ?剪枝后的SD UNet?:處理重新排列的LR圖像,保留原始深度,但不包含文本編碼器、CA層和時間嵌入層。
- ?剪枝后的VAE解碼器?:接收UNet的高維特征并生成超分辨率圖像。
2.2 訓練策略
AdcSR模型采用兩階段訓練策略:
- ?預訓練剪枝后的VAE解碼器?:在OpenImage和LAION-Face數據集上預訓練剪枝后的VAE解碼器,以恢復其解碼圖像的能力。
- ?對抗蒸餾?:在特征空間中對齊學生模型(AdcSR)和教師模型(OSEDiff)的特征,以補償性能損失。
3. 公式與原理
AdcSR模型的核心公式如下:
-
?LR圖像編碼?:
zLR?=EOSEDiff?(xLR?),c=C(xLR?) -
?一步擴散去噪?:
z^HR?=[zLR??1?αˉT???OSEDiff?(zLR?;T,c)]/αˉT?? -
?解碼生成HR圖像?:
x^HR?=DSD?(z^HR?)
在AdcSR中,VAE編碼器被移除,LR圖像直接通過PixelUnshuffle操作輸入到UNet。去噪UNet和VAE解碼器通過剪枝和預訓練來優化。
4. 創新點
AdcSR模型的主要創新點包括:
- ?結構化壓縮?:通過移除不必要的模塊和剪枝剩余的可壓縮模塊,顯著減少了模型的參數量和計算成本。
- ?對抗蒸餾?:在特征空間中對齊學生模型和教師模型的特征,以補償性能損失,保持生成能力。
- ?高效推理?:通過上述優化,AdcSR模型在推理速度、計算成本和參數量上均顯著優于現有的基于一步擴散的Real-ISR方法。
5. 實驗與結果
5.1 實驗設置
實驗在DIV2K-Val、RealSR和DRealSR數據集上進行,評估指標包括PSNR、SSIM、LPIPS、DISTS、NIQE、MUSIQ、MANIQA和CLIPIQA。
5.2 結果對比
如表1所示,AdcSR在多個指標上表現優異,特別是在PSNR、SSIM、LPIPS和DISTS等指標上優于現有的基于一步擴散的Real-ISR方法。
如圖2所示,AdcSR在視覺質量和模型效率上均表現出色,提供了最高的推理速度、最低的計算成本和第二少的參數量。
5.3 消融實驗
消融實驗進一步驗證了AdcSR模型中各個模塊的有效性。例如,移除VAE編碼器和優化UNet-VAE解碼器連接的實驗結果如表2和表3所示。
如圖3所示,AdcSR的訓練和推理過程清晰地展示了其結構化壓縮和對抗蒸餾的優勢。
6. 結論
AdcSR通過對抗擴散壓縮框架,顯著提高了基于一步擴散的Real-ISR模型的效率和性能。其結構化壓縮和對抗蒸餾策略在保持生成能力的同時,顯著減少了模型的參數量和計算成本。實驗結果表明,AdcSR在多個指標上優于現有的基于一步擴散的Real-ISR方法,提供了最高的推理速度和最低的計算成本。
AdcSR的成功為實世界圖像超分辨率任務提供了一種高效、可靠的解決方案,具有廣泛的應用前景。未來,研究者可以進一步探索AdcSR在其他SD-based方法中的應用,并集成更多的生成先驗,以進一步提升Real-ISR的性能。
論文地址:https://openaccess.thecvf.com/content/CVPR2025/papers/Chen_Adversarial_Diffusion_Compression_for_Real-World_Image_Super-Resolution_CVPR_2025_paper.pdf