?1. 研究背景與動機?
- ?問題?:Transformer在圖像超分辨率(SR)中計算復雜度隨空間分辨率呈二次增長,現有方法(如局部窗口、軸向條紋)因內容無關性無法有效捕獲長距離依賴。
- ?現有局限?:
- SPIN等聚類方法依賴稀疏聚類中心傳播信息,導致近似粗糙且推理速度慢(需迭代更新中心)。
- ATD引入字典學習但計算負擔大,不適合輕量化場景。
- ?解決方案?:提出 ?CATANet,通過內容感知令牌聚合實現高效長距離依賴建模,兼顧性能與速度。
?2. 方法設計?
?2.1 整體架構
?
三階段流程?:
- ?淺層特征提取?:3×3卷積映射LR圖像至高維特征。
- ?深層特征提取?:K個殘差組(RG),每個RG包含:
- ?令牌聚合塊(TAB)??:核心創新模塊。
- ?局部區域自注意力(LRSA)??:增強局部細節。
- 3×3卷積:細化特征并學習位置嵌入。
- ?圖像重建?:全局殘差信息 + LR上采樣 → 輸出HR圖像。
?2.2 令牌聚合塊(TAB)
?
- 四大組件?:
- ?內容感知令牌聚合(CATA)??:
- 共享全局令牌中心,僅訓練階段通過指數移動平均(EMA)更新(λ=0.999)。
- 按相似度將令牌分組(圖4),解決SPIN的推理延遲問題。
- ?子組劃分(S)??:平衡并行效率(圖3b),提升速度2倍(表6)。
- ?組內自注意力(IASA)??:
- 組內令牌交互,允許關注相鄰子組(圖3c),提升PSNR 0.02-0.05dB(表1)。
- 組內令牌交互,允許關注相鄰子組(圖3c),提升PSNR 0.02-0.05dB(表1)。
- ?組間交叉注意力(IRCA)??:
- 子組與令牌中心交叉注意力,增強全局交互(M?N控制計算量)。
- 子組與令牌中心交叉注意力,增強全局交互(M?N控制計算量)。
- ?1×1卷積?:融合IASA與IRCA輸出,加法融合優于拼接(表5)。
- ?內容感知令牌聚合(CATA)??:
?2.3 局部區域自注意力(LRSA)??
- 采用重疊塊機制(參考HPINet),學習局部細節特征。
- 配合ConvFFN進行通道維度特征交互。
?3. 實驗與分析?
?3.1 性能對比?
- ?數據集?:DIV2K訓練,Set5/Set14/B100/Urban100/Manga109測試。
- ?結果?(表2):
- ?輕量化優勢?:參數量(535K)低于SPIN(555K),PSNR顯著提升(×4最高+0.33dB)。
- ?視覺對比?:恢復邊緣更清晰,偽影更少(圖6)。
- ?速度?:推理速度達SPIN的5倍,比SwinIR快2倍。
?3.2 消融實驗?
- ?IASA+IRCA必要性?:移除后PSNR下降0.15–0.22dB(表3)。
- ?CATA設計?:優于Clustered Attention/NLSA等(表4)。
- ?子組劃分?:推理速度從188ms→86ms(表6)。
?
?3.3 可視化分析
- ?LAM熱力圖?:TAB捕獲更長距離依賴(圖5)。
- ?令牌分組?:內容相似區域被精準聚合。
?4. 結論與貢獻?
- ?核心貢獻?:
- ?CATANet?:首個結合內容感知令牌聚合與注意力的輕量化SR網絡。
- ?CATA模塊?:僅訓練階段更新令牌中心,消除推理延遲。
- ?雙注意力機制?:IASA實現細粒度長程交互,IRCA強化全局信息。
- ?性能突破?:PSNR最大提升0.60dB(自集成),推理速度翻倍,適用于移動設備。
?論文地址:https://arxiv.org/pdf/2503.06896v1