[2025CVPR]AdcSR:一種高效實世界圖像超分辨率的對抗擴散壓縮方法

目錄

1. 背景與挑戰

2. AdcSR模型概述

2.1 模型架構

2.2 訓練策略

3. 公式與原理

4. 創新點

5. 實驗與結果

5.1 實驗設置

5.2 結果對比

5.3 消融實驗

6. 結論


在計算機視覺領域,圖像超分辨率(Image Super-Resolution, ISR)一直是一個重要的研究方向。其目標是從低分辨率(Low-Resolution, LR)圖像中重建出高分辨率(High-Resolution, HR)圖像。然而,現實世界中的圖像退化過程復雜且未知,這使得實世界圖像超分辨率(Real-World Image Super-Resolution, Real-ISR)成為一個更具挑戰性的任務。本文將詳細介紹一種名為AdcSR的新型Real-ISR方法,該方法通過對抗擴散壓縮(Adversarial Diffusion Compression, ADC)框架,顯著提高了模型的效率和性能。

1. 背景與挑戰

傳統的ISR方法通常假設LR圖像是HR圖像的雙三次下采樣版本,但這種假設在現實世界中往往不成立。為了應對復雜的退化過程,研究者們提出了基于隨機退化操作和高階退化過程的Real-ISR方法。這些方法在合成數據上表現良好,但在實際應用中仍面臨計算成本高、推理速度慢等問題。

近年來,基于擴散模型(Diffusion Models)的方法如Stable Diffusion(SD)在圖像生成任務中表現出色。然而,這些方法通常需要多步推理,計算成本高昂,難以在實際部署中應用。為了解決這一問題,研究者們提出了多種一步推理的擴散模型,如OSEDiff和S3Diff。盡管這些方法在推理速度上有所提升,但它們仍然依賴于大規模的預訓練SD模型,計算成本和參數量仍然較高。

2. AdcSR模型概述

AdcSR是一種基于對抗擴散壓縮(ADC)框架的新型Real-ISR方法。其核心思想是通過結構化壓縮(模塊移除和剪枝)和對抗蒸餾(知識蒸餾與對抗損失)來簡化基于一步擴散網絡的Real-ISR模型,從而在保持生成能力的同時顯著提高效率。

2.1 模型架構

AdcSR模型通過移除不必要的模塊(如VAE編碼器、提示提取器、文本編碼器等)和剪枝剩余的可壓縮模塊(如去噪UNet和VAE解碼器)來實現結構化壓縮。具體來說,AdcSR模型包括以下三個模塊:

  1. ?PixelUnshuffle層?:將LR輸入圖像的像素重新排列到通道維度,以準備輸入到去噪UNet。
  2. ?剪枝后的SD UNet?:處理重新排列的LR圖像,保留原始深度,但不包含文本編碼器、CA層和時間嵌入層。
  3. ?剪枝后的VAE解碼器?:接收UNet的高維特征并生成超分辨率圖像。

2.2 訓練策略

AdcSR模型采用兩階段訓練策略:

  1. ?預訓練剪枝后的VAE解碼器?:在OpenImage和LAION-Face數據集上預訓練剪枝后的VAE解碼器,以恢復其解碼圖像的能力。
  2. ?對抗蒸餾?:在特征空間中對齊學生模型(AdcSR)和教師模型(OSEDiff)的特征,以補償性能損失。

3. 公式與原理

AdcSR模型的核心公式如下:

  1. ?LR圖像編碼?:

    zLR?=EOSEDiff?(xLR?),c=C(xLR?)
  2. ?一步擴散去噪?:

    z^HR?=[zLR??1?αˉT???OSEDiff?(zLR?;T,c)]/αˉT??
  3. ?解碼生成HR圖像?:

    x^HR?=DSD?(z^HR?)

在AdcSR中,VAE編碼器被移除,LR圖像直接通過PixelUnshuffle操作輸入到UNet。去噪UNet和VAE解碼器通過剪枝和預訓練來優化。

4. 創新點

AdcSR模型的主要創新點包括:

  1. ?結構化壓縮?:通過移除不必要的模塊和剪枝剩余的可壓縮模塊,顯著減少了模型的參數量和計算成本。
  2. ?對抗蒸餾?:在特征空間中對齊學生模型和教師模型的特征,以補償性能損失,保持生成能力。
  3. ?高效推理?:通過上述優化,AdcSR模型在推理速度、計算成本和參數量上均顯著優于現有的基于一步擴散的Real-ISR方法。

5. 實驗與結果

5.1 實驗設置

實驗在DIV2K-Val、RealSR和DRealSR數據集上進行,評估指標包括PSNR、SSIM、LPIPS、DISTS、NIQE、MUSIQ、MANIQA和CLIPIQA。

5.2 結果對比

如表1所示,AdcSR在多個指標上表現優異,特別是在PSNR、SSIM、LPIPS和DISTS等指標上優于現有的基于一步擴散的Real-ISR方法。

如圖2所示,AdcSR在視覺質量和模型效率上均表現出色,提供了最高的推理速度、最低的計算成本和第二少的參數量。

5.3 消融實驗

消融實驗進一步驗證了AdcSR模型中各個模塊的有效性。例如,移除VAE編碼器和優化UNet-VAE解碼器連接的實驗結果如表2和表3所示。

如圖3所示,AdcSR的訓練和推理過程清晰地展示了其結構化壓縮和對抗蒸餾的優勢。

6. 結論

AdcSR通過對抗擴散壓縮框架,顯著提高了基于一步擴散的Real-ISR模型的效率和性能。其結構化壓縮和對抗蒸餾策略在保持生成能力的同時,顯著減少了模型的參數量和計算成本。實驗結果表明,AdcSR在多個指標上優于現有的基于一步擴散的Real-ISR方法,提供了最高的推理速度和最低的計算成本。

AdcSR的成功為實世界圖像超分辨率任務提供了一種高效、可靠的解決方案,具有廣泛的應用前景。未來,研究者可以進一步探索AdcSR在其他SD-based方法中的應用,并集成更多的生成先驗,以進一步提升Real-ISR的性能。

論文地址:https://openaccess.thecvf.com/content/CVPR2025/papers/Chen_Adversarial_Diffusion_Compression_for_Real-World_Image_Super-Resolution_CVPR_2025_paper.pdf

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/85145.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/85145.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/85145.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Go 語言中的字符串基本操作

這篇文章已經放到騰訊智能工作臺的知識庫啦,鏈接在這里:ima.copilot-Go 入門到入土。要是你有啥不懂的地方,就去知識庫找 AI 聊一聊吧。 本篇將詳細講解 Go 語言中與字符串相關的操作。 1、rune 和 字符串長度 1、Go 函數語法約定 在開始…

數學建模會議筆記

看似優化模型 建立整數規劃模型 用優化軟件、啟發式方法、精確方法求解 建立圖論和組合優化模型用組合優化方法、啟發式方法求解 建立博弈論模型 數據統計分析與可視化- 數據擬合、參數估計、插值、數據的標準化、去偽補全相關度分析、分類、聚類等 最優化理論和方法 線性規劃…

學習昇騰開發的六天--ACL應用開發之運行第一個實例

1、下載一個實例,運行一個圖像分類實例(環境:Ubuntu22.04,硬件:昇騰310B1,加速模塊:atlas 200i a2) samples: CANN Samples - Gitee.com 目錄結構如下: ├── data │…

可靈AI-快手公司自主研發的一款AI視頻與圖像生成工具

可靈AI是由快手公司自主研發的一款AI視頻與圖像生成工具,于2024年6月正式推出。以下是對其的詳細介紹: 核心功能 AI視頻生成: 文生視頻:輸入文字描述,AI可自動生成匹配的視頻片段。圖生視頻:上傳圖片&…

創客匠人解析:存量時代創始人 IP 打造與免費流量池策略

在存量競爭的商業環境中,企業如何突破增長瓶頸?創客匠人結合新潮傳媒創始人張繼學的實戰洞察,揭示 “品牌 IP” 雙輪驅動下的免費流量池構建邏輯,為知識變現與創始人 IP 打造提供新思路。 一、存量時代的流量革命:從…

提升語義搜索效率:LangChain 與 Milvus 的混合搜索實戰

我從不幻想人生能夠毫無波折,但我期望遭遇困境之際,自身能夠成為它的克星。 概述 LangChain與Milvus的結合構建了一套高效的語義搜索系統。LangChain負責處理多模態數據(如文本、PDF等)的嵌入生成與任務編排,Milvus作…

MySQL配置簡單優化與讀寫測試

測試方法 先使用sysbench對默認配置的MySQL單節點進行壓測,單表數據量為100萬,數據庫總數據量為2000萬,每次壓測300秒。 sysbench --db-drivermysql --time300 --threads10 --report-interval1 \--mysql-host192.168.0.10 --mysql-port3306…

獵板深耕透明 PCB,解鎖電子設計新邊界

在電子技術快速迭代的當下,獵板始終關注行業前沿,透明 PCB 作為極具創新性的技術,正在改變電子設備的設計與應用格局。? 從傳統的綠色、棕色 PCB 到如今的透明 PCB,其突破在于特殊基材與導電材料的運用,實現 85%-92%…

FLAML:快速輕量級自動機器學習框架

概述 FLAML(Fast and Lightweight AutoML)是微軟開發的一個高效的自動機器學習(AutoML)框架。它專注于在有限的計算資源和時間約束下,自動化機器學習管道的構建過程,包括特征工程、模型選擇、超參數調優等…

Github 以及 Docker的 wsl --list --online無法訪問問題

修改電腦DNS 騰訊 DNS IP:119.29.29.29 備用:182.254.116.116 阿里DNS IP:223.5.5.5 223.6.6.6 百度DNS IP:180.76.76.76 谷歌DNS IP:8.8.8.8

Go 語言中的變量和常量

這篇文章已經放到騰訊智能工作臺的知識庫啦,鏈接在這里:ima.copilot-Go 入門到入土。要是你有啥不懂的地方,就去知識庫找 AI 聊一聊吧。 1、變量的聲明與使用 我們來探討編程語言中最核心的概念之一:變量。 1、靜態語言中的變量…

破局傳統訂貨!云徙渠道訂貨系統賦能企業數字化渠道升級

在數字化浪潮的推動下,傳統經銷商訂貨模式面臨著諸多挑戰,如信息孤島、系統崩潰、移動化不足等問題。云徙渠道訂貨系統憑借其創新的數字化架構和強大的功能模塊,正在成為企業實現渠道數字化轉型的重要工具。 系統功能與創新 云徙渠道訂貨系統…

SQL關鍵字三分鐘入門:UNION 與 UNION ALL —— 數據合并全攻略

在處理數據時,有時我們需要將來自不同表或同一表的不同查詢結果合并在一起。例如: 合并兩個部門的員工名單;將多個地區的銷售數據匯總;顯示某段時間內所有新增和修改的記錄。 這時候,我們就需要用到 SQL 中非常強大的…

SNMPv3 的安全命名空間詳解

1. 安全命名空間的本質 安全命名空間是 SNMPv3 的核心安全機制,通過 上下文(Context) 實現: #mermaid-svg-6cV9146nTFF1zCMJ {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#merma…

【嵌入式硬件實例】-555定時器實現煙霧和易燃氣體泄露檢測

555定時器實現煙霧和易燃氣體泄露檢測 文章目錄 555定時器實現煙霧和易燃氣體泄露檢測1、555定時器介紹2、MQ-2 氣體/煙霧傳感器模塊介紹3、硬件準備與接線在本文中,我們將使用555定時器和MQ-2氣體傳感器構建一個氣體泄漏檢測和報警系統。它在煤氣泄漏期間用作家庭安全警報器。…

【機器人】DualMap 具身導航 | 動態場景 開放詞匯語義建圖 導航系統

DualMap 是一個在線的開放詞匯語義映射系統,使得機器人能夠通過自然語言查詢在動態變化的環境中理解和導航 雙地圖導航,結合全局抽象地圖進行高層次候選選擇,以及局部具體地圖進行精確目標定位,有效管理和更新環境中的動態變化。…

【Fifty Project - D37】

fifty project算是失敗了一半了 成功的那一半在于一定程度上拯救了我的作息和健康,兩個月前入職體檢的肝有點不健康,昨天復查發現全都回到了健康范圍!尿酸也在正常范圍!就是體重還是沒減下來hhh 失敗的一半在于自己很差勁的規劃能…

解碼危險品物流背后的“隱形防線”

當急救藥品跨越千里送達醫院,當新能源電池準時抵達生產線,當化工原料安全運往工廠……這些與日常生活息息相關的場景背后,有一群人始終在和時間賽跑,與風險博弈。他們不是超級英雄,而是危險品物流從業者——一個鮮少被…

Flutter Melos在外包團隊協作中的弊端與應對策略

引言 在大型Flutter項目開發中,Melos作為一款優秀的Monorepo管理工具,能夠有效協調多包項目的開發流程。然而,當項目涉及外包團隊協作時,Melos的使用會面臨一系列獨特的挑戰。本文將深入分析Flutter Melos在外包團隊協作環境中的…

<selectKey> 中的order 屬性

在 MyBatis 中&#xff0c;<selectKey> 標簽的 order 屬性用于指定生成主鍵值的 SQL 語句執行時機。 除了 AFTER&#xff0c;MyBatis 還支持另一種模式&#xff1a;BEFORE&#xff0c; 它們有明確的使用場景和區別&#xff1a; order"AFTER" 適用數據庫&#x…