【ICCV2025】計算機視覺|即插即用|ESC:顛覆Transformer!超強平替,ESC模塊性能炸裂!

圖片
論文地址:https://arxiv.org/pdf/2503.06671
代碼地址:https://github.com/dslisleedh/ESC


關注UP CV縫合怪,分享最計算機視覺新即插即用模塊,并提供配套的論文資料與代碼。
https://space.bilibili.com/473764881
圖片

摘要

本研究解決了Transformer在高效圖像超分辨率(SR)任務中的高計算開銷問題。基于對自注意力層間重復性的觀察,本研究引入了一個名為卷積注意力(ConvAttn)的卷積化自注意力模塊,它利用單個共享的大卷積核和動態卷積核來模擬自注意力的遠程建模能力和實例依賴加權。通過利用ConvAttn模塊,本研究顯著減少了對自注意力及其相關內存密集型操作的依賴,同時保持了Transformer的表示能力。此外,本研究克服了將Flash Attention集成到輕量級SR領域的挑戰,有效地緩解了自注意力固有的內存瓶頸。本研究使用Flash Attention將窗口大小擴展到32×32,而不是提出復雜的自注意力模塊,在Urban100 ×2上PSNR顯著提高了0.31dB,同時延遲和內存使用量分別降低了16倍和12.2倍。基于這些方法,本研究提出的網絡名為“用卷積模擬自注意力(ESC)”,與HiT-SRF相比,在Urban100 ×4上PSNR顯著提高了0.27dB延遲和內存使用量分別降低了3.7倍和6.2倍。大量實驗表明,盡管大部分自注意力被ConvAttn模塊取代,ESC仍保持了Transformer的遠程建模能力、數據可擴展性和表示能力
圖片

引言

Transformer在高效圖像超分辨率中的應用:用卷積模擬自注意力

本研究致力于解決Transformer在高效圖像超分辨率(SR)任務中的高計算開銷問題。當前,隨著多媒體內容和生成模型需求的顯著增長,SR技術的重要性日益凸顯,因為它能夠使用戶在資源受限的條件下享受高質量內容。因此,實際部署已成為SR任務中的一個關鍵考慮因素,促使許多SR研究在提高性能的同時降低計算復雜度和參數規模。Transformer在SR任務中取得了比卷積神經網絡(CNN)更優越的性能,同時具有更低的計算量和更少的參數,因此受到了廣泛關注。通過自注意力機制捕獲長距離依賴關系和執行依賴于輸入的加權,Transformer展現出強大的表征能力和增強的性能,尤其是在訓練數據量增加時。然而,許多研究忽略了自注意力機制造成的過度內存訪問,這是由于需要實例化分數矩陣以及利用內存密集型操作(如張量重塑和窗口掩碼)所導致的。在SR架構中,由于需要處理大特征圖而沒有patchify stem或下采樣階段,內存訪問問題更加嚴重。例如,即使SwinIR-light的計算量和參數規模分別比重建×2比例高清圖像的CNN少14.5倍和17倍,但其延遲卻高4.7倍,內存使用量也高2倍。因此,盡管Transformer的性能很有前景,但在資源受限的設備(如消費級GPU)上部署它們仍然具有挑戰性

本研究的初步分析表明,自注意力機制執行的相似性建模和提取的特征在多層之間保持高度一致。這一發現表明自注意力機制可能會提取重疊的特征,這意味著可以通過使用高效的替代方案來降低計算開銷而不損害表征能力。基于此發現,本研究提出了一種設計策略,僅在每個塊的第一層保留自注意力機制,而用本研究提出的高效替代方案——卷積注意力(ConvAttn)模塊——替換其余層。為了有效地模擬自注意力的長距離建模和依賴于實例的加權,ConvAttn模塊采用雙重機制運作。首先,它通過在整個網絡中應用具有共享的13×13大核的卷積來簡化自注意力的長距離交互,僅針對一部分通道進行操作。其次,生成動態核以捕獲依賴于輸入的加權,模仿自注意力的自適應特性。通過結合這些組件,ConvAttn模塊顯著減少了對內存密集型自注意力的依賴,同時保持了Transformer的表征能力

通過用ConvAttn替換大部分自注意力層,本研究利用這種效率進一步增強了剩余的自注意力層。具體而言,本研究擴大了自注意力的窗口大小,在僅略微增加計算量的情況下顯著提高了性能。然而,增加窗口大小會導致分數矩陣擴大,從而大幅增加峰值內存使用量。為了解決這個問題,本研究將Flash Attention引入到輕量級SR任務中,以避免實例化分數矩陣。本研究的優化實現允許將窗口大小擴展到32×32,同時將延遲和內存使用量分別減少16倍和12.2倍。基于這些方法,本研究介紹了一種名為“用卷積模擬自注意力(ESC)”的輕量級SR網絡。與ATD-light相比,所提出的ESC在Urban100 ×4上PSNR提高了0.1dB,同時速度提高了8.9倍。此外,ESC-light在Urban100 ×2上PSNR超過ELAN-light 0.29dB,同時延遲降低了22%。本研究通過引入ESC-FP進一步驗證了ESC在降低計算量和參數規模至關重要的場景下的有效性,ESC-FP在Manga109 ×4上的性能優于MambaIRV2-light,同時計算量和參數規模分別減少了20%和32%。通過廣泛的實驗,本研究證明了即使大部分自注意力被ConvAttn模塊取代,ESC仍然充分利用了Transformer的優勢,包括其大的感受野、表征能力以及關于數據量的可擴展性。本研究通過深入的實驗支持了這些結果,表明所提出的ConvAttn模塊提取的特征與自注意力機制相似

論文創新點

本研究提出了一個名為ESC的高效圖像超分辨率網絡,旨在降低Transformer在計算和內存方面的開銷。本研究的創新點主要體現在以下幾個方面:

  1. ? 基于卷積的注意力模塊(ConvAttn): ?

    • 本研究觀察到Transformer中自注意力機制的層間特征存在高度相似性,這表明自注意力機制在不同層提取的特征存在冗余。
    • 基于此,本研究設計了ConvAttn模塊,它結合了共享的大核卷積和動態生成的深度卷積核,以模擬自注意力機制的長距離建模能力和實例依賴的加權能力。
    • ConvAttn模塊有效地替代了Transformer中除了每個塊的第一層以外的其他自注意力層,從而顯著降低了對內存密集型自注意力操作的依賴,同時保持了Transformer的表示能力。
  2. 🚀 共享大核卷積: 🚀

    • ConvAttn 模塊中的共享大核卷積(LK)貫穿整個網絡,負責捕獲全局上下文信息和長距離依賴關系。
    • LK 的參數在所有層之間共享,從而減少了模型的整體參數量和計算開銷,并有助于穩定訓練。
  3. ?? 動態深度卷積核: ??

    • 為了模擬自注意力機制的實例依賴加權,ConvAttn 模塊引入了動態深度卷積核(DK)。
    • DK 根據輸入特征動態生成,能夠捕獲特定實例的局部特征。
    • DK與 LK 協同工作,在降低內存開銷的同時,實現了對全局和局部特征的有效建模。
  4. ?? Flash Attention的集成: ??

    • 為了進一步降低自注意力機制的內存開銷,本研究將Flash Attention集成到輕量級SR任務中。
    • Flash Attention 通過避免顯式計算和存儲注意力矩陣,顯著減少了自注意力操作的內存占用和延遲。
    • 本研究優化了 Flash Attention 的實現,使其能夠支持更大的窗口大小(32x32),從而在輕量級SR任務中實現了性能的顯著提升。
  5. 🌐 多尺度特征融合: 🌐

    • ESC 網絡巧妙地融合了局部和全局特征。ConvFFN 模塊提取局部特征,而 ConvAttn 模塊捕獲全局上下文信息。
    • 通過將這兩個模塊的輸出進行融合,ESC 網絡能夠有效地利用多尺度信息,從而提高了圖像超分辨率的性能。

通過這些創新,本研究提出的ESC網絡在多個圖像超分辨率基準數據集上取得了顯著的性能提升,同時顯著降低了計算和內存開銷。此外,本研究還證明了 ESC 網絡在數據擴展性和任意尺度超分辨率任務上的有效性,進一步驗證了其優越的泛化能力和實用價值。

論文實驗

圖片
圖片

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/921678.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/921678.shtml
英文地址,請注明出處:http://en.pswp.cn/news/921678.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【面試場景題】如何進行高并發系統的性能測試?

文章目錄一、明確測試目標與指標二、測試環境搭建三、測試工具選型四、測試場景設計五、執行測試與監控六、瓶頸分析與調優七、測試報告與迭代總結高并發系統的性能測試是驗證系統在極限流量下是否能保持穩定運行的關鍵環節,需要結合場景設計、工具選型、指標監控、…

攻防世界ReverseMe-120

這道題比較經典,涉及三個知識點,所以記錄一下。首先給了一個文件,detect it easy看了下,是32位exe。放入ida中,找下main函數,F5反編譯看一下偽代碼。int __cdecl main(int argc, const char **argv, const …

小白也能看懂,HTTP中的文件上傳與下載到底發生了什么?

HTTP 文件傳輸協議解析:上傳與下載 這份文檔會用最簡單的方式,帶你了解 HTTP 協議是如何處理文件下載和上傳的。我們會專注于協議本身,看看客戶端(比如你的瀏覽器)和服務端(網站服務器)之間到底…

快速構建數據集-假數據(生成劃分)

快速構建數據集-假數據1、torch.randn(?)2、HuggingFace Datasets(?)🔹1. 從字典生成🔹2. 從 pandas.DataFrame 生成🔹3. 批量生成“業務型”假數據(配合 Faker)&#…

[修訂版]Xenomai/IPIPE源代碼情景解析

[修訂版]Xenomai/IPIPE源代碼情景解析 第一章:Interrupt Pipeline介紹 1.1 I-pipe與Xenomai1.2 I-pipe核心概念1.3 拉取I-pipe代碼 第二章:I-pipe對ARM64異常的改造 2.1 ARM64中斷機制與異常處理2.2 EL0_IRQ 中斷改造之入口2.3 EL0_IRQ 中斷改造之中斷處…

【Qt開發】按鈕類控件(三)-> QCheckBox

目錄 1 -> 概述 2 -> 核心特性 2.1 -> 狀態管理 2.2 -> 信號機制 2.3 -> 外觀與文本 3 -> 應用場景 4 -> 代碼示例 5 -> 總結 1 -> 概述 QCheckBox 是 Qt 框架中提供的一個基礎控件,用于實現復選框功能。它允許用戶在兩種或三種…

在新發布的AI論文中 pytorch 和tensorflow 的使用比例

根據 2025 年最新的學術動態和行業報告,PyTorch 在 AI 論文中的使用比例已占據絕對主導地位,而 TensorFlow 的占比持續下降。以下是基于多個權威來源的綜合分析: 一、頂級會議中的框架分布 在 NeurIPS、ICML、CVPR 等頂級學術會議中&#xff…

3DXML格式是什么?用什么軟件可以打開?

3DXML 是一種開放標準的數據交換格式,主要用于三維 CAD(計算機輔助設計)模型的存儲和交換。它是由 Dassault Systmes 開發的一種文件格式,常用于 CATIA V6 和其他支持該格式的應用程序中。3DXML 文件可以包含完整的 3D 模型數據&a…

9月8日星期一今日早報簡報微語報早讀

9月8日星期一,農歷七月十七,早報#微語早讀。1、中國火箭與月亮同框,遙感四十號03組衛星發射成功;2、湖南郴州開發區改革:編制數由815名減至680名,精簡16.6%;3、水利部對廣東、廣西啟動洪水防御Ⅳ…

windows系統搭建MQTT服務器

1、MQTT 協議 MQTT協議:實現MQTT協議需要客戶端和服務器端通訊完成。 三種身份: 發布者(Publish)、代理(Broker)(服務器)、訂閱者(Subscribe)。 消息的發布者和訂閱者都是客戶端,消息代理是服務器,消息發布者可以同時是訂閱者。 MQTT&am…

從 GPT 到 LLaMA:解密 LLM 的核心架構——Decoder-Only 模型

🔥從 GPT 到 LLaMA:解密 LLM 的核心架構——Decoder-Only 模型 “為什么所有大模型(LLM)都長一個樣?” 因為它們都有一個共同的“基因”——Decoder-Only 架構。 在前面兩節中,我們學習了: BER…

Codeforces Round 1047 (Div. 3)

由于最近這三天的數學建模,讓我這個精力本來就不多的AI手更加力竭了,沒注意到昨晚的cf,所以今天來補題了。 比賽連接:比賽傳送門 A題: You are doing a research paper on the famous Collatz Conjecture. In your e…

C++經典的數據結構與算法之經典算法思想:貪心算法(Greedy)

貪心算法(Greedy Algorithm):通過局部最優達成全局最優的決策策略 貪心算法是一種通過每次選擇局部最優解來期望全局最優解的算法思想。它不考慮未來的影響,僅根據當前信息做出最優選擇,適用于具有貪心選擇性質和最優子…

LangChain實戰(二十一):構建自動化AI客服系統

本文是《LangChain實戰課》系列的第二十一篇,將帶領您構建一個完整的自動化AI客服系統。通過結合對話記憶、工具調用和業務知識庫,我們將創建一個能夠處理復雜客戶查詢的智能客服解決方案。 前言 在現代商業環境中,客戶服務是企業成功的關鍵因素之一。傳統客服系統往往面臨…

一人公司智能管理系統概述

系統概述 項目結構 Al_Compny系統采用前后端分離的全棧架構,項目根目錄下包含兩個主要子目錄:Al_Compny_backend(后端服務)和Al_Compny_frontend(前端應用)。核心功能模塊 Al_Compny系統是一個面向"一…

OpenWrt | 在 PPP 撥號模式下啟用 IPv6 功能

文章目錄一、WAN 口配置二、LAN 口配置三、IPv6 測試本文將詳細介紹 將光貓的網絡模式改成橋接之后使用路由器撥號的上網方式的情況下,在 OpenWrt 上使用 PPP 撥號模式上網時,啟用 IPv6 功能的方法。 一、WAN 口配置 首先,我們需要在 網絡 …

Java如何實現一個安全的登錄功能?

安全登錄系統完整教程 📋 目錄 項目概述技術棧安全特性項目結構核心組件詳解安全實現原理部署和運行安全最佳實踐常見問題解答進階擴展 🎯 項目概述 這是一個基于Spring Boot和Spring Security的完整安全登錄系統,專為初學者設計&#xff…

星辰誕愿——生日快樂

前言 今天這篇博客并非技術文章,而是慶祝我可愛的妹妹18歲生日以及介紹我半年以來的學習經歷 祝生網站:星辰誕愿(用戶列表里第一位就是我妹妹,希望大家能獻上自己的祝福,能分享轉發更好,我在此感謝大家。如果使用手機&…

基于STM32單片機的智能糧倉溫濕度檢測藍牙手機APP設計

基于STM32單片機的智能糧倉溫濕度檢測藍牙手機APP設計 1 系統功能介紹 本系統是一款基于STM32單片機的智能糧倉環境監測與控制裝置,核心目標是通過傳感器實時采集糧倉內的溫度和濕度信息,并結合藍牙通信模塊將數據傳輸至手機端,實現對糧倉環境…

簡單視頻轉換器 avi轉mp4

直接上代碼package com.example.videoconverter;import ws.schild.jave.Encoder; import ws.schild.jave.EncoderException; import ws.schild.jave.MultimediaObject; import ws.schild.jave.encode.AudioAttributes; import ws.schild.jave.encode.EncodingAttributes; impor…