PR-2021

推薦深藍學院的《深度神經網絡加速:cuDNN 與 TensorRT》,課程面向就業,細致講解CUDA運算的理論支撐與實踐,學完可以系統化掌握CUDA基礎編程知識以及TensorRT實戰,并且能夠利用GPU開發高性能、高并發的軟件系統,感興趣可以直接看看鏈接:深藍學院《深度神經網絡加速:cuDNN 與 TensorRT》
在這里插入圖片描述


2. 核心思想分析

論文提出了一種基于通道注意力機制和空間圖卷積網絡的單幅圖像超分辨率(Single Image Super-Resolution, SISR)模型,稱為 CASGCN(Channel Attention and Spatial Graph Convolutional Network)。其核心思想是通過結合通道注意力機制空間圖卷積網絡,增強網絡對圖像特征的表達能力,解決傳統卷積神經網絡(CNN)在捕捉全局自相似性和空間相關性方面的局限性。

  • 通道注意力機制:通過對不同通道的特征進行加權,突出重要特征,抑制次要特征,從而提高特征提取的針對性。
  • 空間圖卷積網絡:利用圖結構建模圖像像素之間的全局空間相關性,突破傳統CNN固定感受野的限制,捕捉圖像中的非局部自相似性。
  • 多尺度特征提取:通過預處理模塊提取不同尺度的特征,增強模型對復雜紋理和結構的適應能力。
  • 全局融合策略:通過融合多個CASG模塊的中間輸出,保留長期信息,提高重建質量。

論文強調通過動態生成的鄰接矩陣(基于Gram矩陣)實現全局感受野,而無需額外參數,降低計算復雜度,同時結合殘差學習和全局融合策略,進一步提升性能。


3. 目標函數分析

論文的目標函數旨在最小化重建圖像 I S R I_{SR} ISR? 與高分辨率真實圖像 I H R I_{HR} IHR? 之間的差異,采用 L1損失函數,其數學表達式如下:

min ? θ L ( θ ) = 1 N ∑ i = 1 N ∥ F CASGCN ( I L R i ; θ ) ? I H R i ∥ 1 \min_{\theta} L(\theta) = \frac{1}{N} \sum_{i=1}^{N} \left\| \mathcal{F}_{\text{CASGCN}}(I_{LR}^i; \theta) - I_{HR}^i \right\|_1 θmin?L(θ)=N1?i=1N? ?FCASGCN?(ILRi?;θ)?IHRi? ?1?

  • 符號說明

    • θ \theta θ:網絡參數集合。
    • N N N:訓練樣本數量。
    • I L R i I_{LR}^i ILRi?:第 i i i 個低分辨率輸入圖像。
    • I H R i I_{HR}^i IHRi?:對應的第 i i i 個高分辨率真實圖像。
    • F CASGCN \mathcal{F}_{\text{CASGCN}} FCASGCN?:CASGCN網絡的映射函數,從低分辨率圖像生成超分辨率圖像。
    • ∥ ? ∥ 1 \left\| \cdot \right\|_1 ?1?:L1范數,表示像素級絕對誤差。
  • 選擇L1損失的理由

    • L1損失相比L2損失更能減少模糊效應,生成更銳利的圖像。
    • L1損失對異常值不敏感,訓練更穩定。
    • 論文提到,L1損失在先前工作中(如EDSR、RDN)已被證明有效,因此沿用此損失函數以保持一致性。

4. 目標函數的優化過程

優化過程通過最小化上述L1損失函數來更新網絡參數 θ \theta θ,具體步驟如下:

  1. 優化器

    • 使用 ADAM優化器,參數設置為 β 1 = 0.9 \beta_1 = 0.9 β1?=0.9 β 2 = 0.999 \beta_2 = 0.999 β2?=0.999 ? = 1 0 ? 8 \epsilon = 10^{-8} ?=10?8
    • ADAM通過自適應地調整學習率,加速梯度下降收斂,適合深層神經網絡的優化。
  2. 學習率策略

    • 初始學習率設為 1 0 ? 4 10^{-4} 10?4
    • 2 × 1 0 5 2 \times 10^5 2×105 次迭代,學習率減半,以逐步細化參數更新。
    • 這種學習率衰減策略有助于模型在早期快速收斂,后期穩定優化。
  3. 訓練設置

    • 數據增強:對800張訓練圖像進行隨機旋轉(90°、180°、270°)和水平翻轉,增加數據多樣性。
    • 批量處理:每個訓練批次包含16個大小為 32 × 32 32 \times 32 32×32 的低分辨率彩色圖像塊。
    • 迭代次數:通過多次迭代(具體次數未明確,但提到200個epoch用于消融實驗),優化網絡參數。
  4. 實現平臺

    • 使用 PyTorch 框架,運行在 Titan V GPU 上,確保高效計算。
  5. 幾何自集成(Geometric Self-ensemble)

    • 在測試階段,采用自集成策略,通過對輸入圖像進行8種幾何變換(翻轉和旋轉),生成多個增強輸入,分別通過網絡預測后逆變換并融合結果,進一步提升性能。

優化過程的核心是通過梯度下降迭代更新網絡參數,使L1損失最小化,從而提高重建圖像的質量。殘差學習和全局融合策略的引入進一步緩解了深層網絡的訓練難度,增強了梯度傳播。


5. 主要貢獻點

論文的主要貢獻點包括以下幾個方面:

  1. 提出CASGCN模型

    • 設計了一種新穎的通道注意力與空間圖卷積網絡(CASGCN),通過結合通道注意力機制和圖卷積網絡,增強特征表達能力,捕捉全局自相似性。
  2. 開發CASG模塊

    • 提出通道注意力與空間圖(CASG)模塊,包含通道注意力單元(CA)和空間感知圖單元(SG)。
    • 通道注意力單元通過加權機制突出重要特征;空間圖單元通過圖卷積層建模空間相關性。
    • 動態生成鄰接矩陣(基于Gram矩陣),無需額外參數即可實現全局感受野。
  3. 多尺度特征提取與全局融合

    • 引入預處理模塊,通過不同卷積核(3×3、5×5)提取多尺度特征。
    • 采用全局融合策略,融合多個CASG模塊的中間輸出,保留長期信息。
  4. 優異的實驗表現

    • 在多個標準數據集(如Set5、Set14、BSD100、Urban100、Manga109)上,CASGCN在雙三次(BI)和模糊降采樣(BD)退化模型下均表現出色,優于或媲美現有最先進方法。
    • 特別是在大尺度因子(如×8)下,CASGCN+表現最佳,顯示出強大的細節恢復能力。
  5. 模型效率

    • 與其他高性能模型(如RDN、RCAN)相比,CASGCN參數量更少,性能更高,實現了性能與模型大小的良好權衡。

6. 實驗結果分析

實驗在多個標準數據集上進行,評估指標包括 PSNR(峰值信噪比)和 SSIM(結構相似性),測試了雙三次(BI)和模糊降采樣(BD)兩種退化模型。以下是關鍵結果的總結:

6.1 雙三次(BI)退化模型
  • 數據集:Set5、Set14、BSD100、Urban100、Manga109。
  • 比較方法:包括SRCNN、FSRCNN、MemNet、DBPN、EDSR、RDN、NLRN、RCAN、HDRN、RFANet。
  • 結果
    • CASGCN和CASGCN+(自集成版本)在所有尺度(×2、×3、×4、×8)上均表現優異,PSNR和SSIM值達到最佳或次佳。
    • 尤其在×8尺度下,CASGCN+顯著優于其他方法,表明其在恢復高倍率超分辨率圖像細節方面的優勢。
    • 例如,在Manga109數據集上,CASGCN+在×8尺度下PSNR達到23.48,優于其他方法的23.16–23.40(表3)。
6.2 模糊降采樣(BD)退化模型
  • 數據集:與BI模型相同,尺度為×3。
  • 比較方法:SPMSR、SRCNN、FSRCNN、VDSR、IRCNN、SRMD、RDN、RCAN、RFANet。
  • 結果
    • CASGCN+在大多數數據集上PSNR和SSIM值最高,顯示出對復雜退化場景的適應性。
    • 視覺結果(圖8)表明,CASGCN能有效減少模糊偽影,恢復更銳利的邊緣,優于基于插值輸入的方法。
6.3 消融實驗
  • 預處理模塊:與殘差塊、稠密塊、Inception模塊相比,預處理模塊在Set14數據集上PSNR更高(如×2尺度下34.02 vs. 33.87–33.93,表1)。
  • CASG模塊:通道注意力與圖卷積的并行組合優于單獨使用或非局部塊(表2)。
  • 全局融合:添加預處理模塊、CASG模塊和全局融合后,PSNR逐步提升,驗證了各組件的有效性(表3)。
6.4 模型大小比較
  • CASGCN參數量少于RDN和RCAN,但性能更高(圖9),在Set5數據集上×3尺度下PSNR達到34.22,優于MemNet、DBPN、NLRN。
6.5 視覺效果
  • 在BI退化模型下(圖7),CASGCN恢復的細節更豐富,例如在Urban100的“img067”圖像中恢復了更多紋理細節。
  • 在BD退化模型下(圖8),CASGCN減少了模糊偽影,邊緣更清晰,顯示出對復雜退化的魯棒性。

7. 算法實現過程詳細解釋

CASGCN的實現過程可以分為網絡結構設計、前向傳播、訓練和測試四個部分,以下逐一詳細說明。

7.1 網絡結構

CASGCN由三個主要部分組成(圖2):

  1. 預處理模塊

    • 輸入低分辨率圖像 I L R I_{LR} ILR?,通過標準卷積層生成初始特征圖 H 0 H_0 H0?
      H 0 = F 0 ( I L R ) H_0 = \mathcal{F}_0(I_{LR}) H0?=F0?(ILR?)
    • 預處理模塊采用雙分支結構,分別使用3×3和5×5卷積核提取不同尺度特征,類似Inception架構:
      H pre = F pre ( H 0 ) H_{\text{pre}} = \mathcal{F}_{\text{pre}}(H_0) Hpre?=Fpre?(H0?)
    • 兩個分支的特征通過共享信息,增強多尺度特征表達。
  2. CASG模塊

    • N N N 個CASG塊堆疊組成,每個CASG塊包含通道注意力單元(CA)和空間感知圖單元(SG)。
    • 通道注意力單元
      • 采用類似SE塊的結構,通過全局平均池化壓縮空間維度,生成通道描述符。
      • 使用全連接層和Sigmoid激活函數生成通道權重,重新縮放特征圖:
        H CA = σ ( W 2 ? ReLU ( W 1 ? GAP ( H ) ) ) ? H H_{\text{CA}} = \sigma(W_2 \cdot \text{ReLU}(W_1 \cdot \text{GAP}(H))) \cdot H HCA?=σ(W2??ReLU(W1??GAP(H)))?H
        其中 GAP \text{GAP} GAP 為全局平均池化, W 1 W_1 W1? W 2 W_2 W2? 為全連接層參數, σ \sigma σ 為Sigmoid函數。
    • 空間感知圖單元
      • 將特征圖視為圖結構,節點為像素,邊由鄰接矩陣定義。
      • 動態計算鄰接矩陣 A A A,使用Gram矩陣捕捉特征間的空間相關性:
        A = softmax ( H T H ) A = \text{softmax}(H^T H) A=softmax(HTH)
        其中 H H H 為展平后的特征圖, softmax \text{softmax} softmax 歸一化相關性。
      • 圖卷積操作更新節點特征:
        H SG = A ? H ? W H_{\text{SG}} = A \cdot H \cdot W HSG?=A?H?W
        其中 W W W 為可學習的權重矩陣。
    • CA和SG單元的輸出并行融合,形成CASG塊輸出:
      H CASG = Concat ( H CA , H SG ) H_{\text{CASG}} = \text{Concat}(H_{\text{CA}}, H_{\text{SG}}) HCASG?=Concat(HCA?,HSG?)
    • 采用殘差學習緩解訓練難度:
      H L R = F CASG ( H pre ) + H 0 H_{LR} = \mathcal{F}_{\text{CASG}}(H_{\text{pre}}) + H_0 HLR?=FCASG?(Hpre?)+H0?
  3. 上采樣模塊

    • 使用子像素卷積或轉置卷積將 H L R H_{LR} HLR? 上采樣至目標分辨率:
      I S R = F up ( H L R ) I_{SR} = \mathcal{F}_{\text{up}}(H_{LR}) ISR?=Fup?(HLR?)
  4. 全局融合

    • 多個CASG塊的中間輸出通過拼接融合,保留長期信息:
      H fusion = Concat ( H 1 , H 2 , … , H N ) H_{\text{fusion}} = \text{Concat}(H_1, H_2, \ldots, H_N) Hfusion?=Concat(H1?,H2?,,HN?)
7.2 前向傳播
  • 輸入 I L R I_{LR} ILR?,通過預處理模塊生成 H pre H_{\text{pre}} Hpre?
  • H pre H_{\text{pre}} Hpre? 依次通過 N N N 個CASG塊,每個塊計算通道注意力和空間圖卷積,融合后輸出 H L R H_{LR} HLR?
  • H L R H_{LR} HLR? 通過上采樣模塊生成超分辨率圖像 I S R I_{SR} ISR?
  • 計算 I S R I_{SR} ISR? I H R I_{HR} IHR? 的L1損失,驅動網絡優化。
7.3 訓練
  • 數據準備:使用800張圖像,增強后生成 32 × 32 32 \times 32 32×32 的LR圖像塊。
  • 優化:通過ADAM優化器最小化L1損失,學習率從 1 0 ? 4 10^{-4} 10?4 逐步衰減。
  • 實現細節:使用PyTorch在Titan V GPU上訓練,批大小為16。
7.4 測試
  • 自集成:對測試圖像應用8種幾何變換,生成增強輸入,分別預測后逆變換并平均。
  • 評估:在標準數據集上計算PSNR和SSIM,比較視覺質量。

8. 總結

這篇論文通過提出CASGCN模型,結合通道注意力機制和空間圖卷積網絡,顯著提升了單幅圖像超分辨率的性能。其核心在于動態鄰接矩陣、多尺度特征提取和全局融合策略,有效捕捉全局自相似性和通道重要性。實驗結果驗證了其在BI和BD退化模型下的優越性,尤其在大尺度因子下表現突出。算法實現清晰,訓練和測試過程高效,模型在性能和參數量之間取得了良好平衡,為SISR領域提供了新的研究思路。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/83294.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/83294.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/83294.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

unity使用ZXing.Net生成二維碼

下載鏈接 https://github.com/micjahn/ZXing.Net 放到Plugins下即可使用

Ubuntu 編譯SRS和ZLMediaKit用于視頻推拉流

SRS實現視頻的rtmp webrtc推流 ZLMediaKit編譯生成MediaServer實現rtsp推流 SRS指定某個固定網卡,修改程序后重新編譯 打開SRS-4.0.0/trunk/src/app/srs_app_rtc_server.cpp,在 232 行后面添加: ZLMediaKit編譯后文件存放在ZLMediakit/rele…

如何備考GRE?

1.引言 GRE和雅思不太相同,首先GRE是美國人的考試,思維方式和很多細節和英系雅思不一樣。所以底層邏輯上我覺得有點區別。 難度方面,我感覺GRE不容易考低分,但考高分較難。雅思就不一樣了不僅上限難突破,下限還容易6…

uniapp|商品列表加入購物車實現拋物線動畫效果、上下左右拋入、多端兼容(H5、APP、微信小程序)

以uniapp框架為基礎,詳細解析商品列表加入購物車拋物線動畫的實現方案。通過動態獲取商品點擊位置與購物車坐標,結合CSS過渡動畫模擬拋物線軌跡,實現從商品圖到購物車圖標的動態效果。 目錄 核心實現原理坐標動態計算拋物線軌跡模擬?動畫元素控制代碼實現詳解模板層設計腳本…

React中使用openLayer畫地圖

OpenLayers(簡稱ol)是一個?開源的WebGIS前端開發庫?,基于JavaScript實現,主要用于在網頁中嵌入動態二維地圖。 官方網站: https://openlayers.org 中文官網: https://openlayers.vip 大家可以去參考學習…

WHAT - 緩存命中 Cache Hit 和緩存未命中 Cache Miss

文章目錄 一、什么是緩存命中?二、前端開發要知道哪些緩存機制(以及命中條件)?1. 瀏覽器緩存(主要針對靜態資源)常見的緩存位置關鍵 HTTP 頭字段(決定命中與否) 2. 前端應用層緩存&a…

10 個可靠的 Android 文件傳輸應用程序

Android 文件傳輸是 Android 用戶的常見需求。我們經常需要將文件從一臺 Android 設備傳輸到 PC 或 Mac。但我們怎樣才能做到這一點呢?俗話說,工欲善其事,必先利其器。因此,首先了解 10 個鋒利的 Android 文件傳輸應用程序&#x…

AlphaEvolve:LLM驅動的算法進化革命與科學發現新范式

AlphaEvolve:LLM驅動的算法進化革命與科學發現新范式 本文聚焦Google DeepMind最新發布的AlphaEvolve,探討其如何通過LLM與進化算法的結合,在數學難題突破、計算基礎設施優化等領域實現革命性進展。從48次乘法優化44矩陣相乘到數據中心資源利…

Java大師成長計劃之第24天:Spring生態與微服務架構之分布式配置與API網關

📢 友情提示: 本文由銀河易創AI(https://ai.eaigx.com)平臺gpt-4-turbo模型輔助創作完成,旨在提供靈感參考與技術分享,文中關鍵數據、代碼與結論建議通過官方渠道驗證。 在微服務架構中,如何管理…

eSwitch manager 簡介

eSwitch manager 的定義和作用 eSwitch manager 通常指的是能夠配置和管理 eSwitch(嵌入式交換機)的實體或接口。在 NVIDIA/Mellanox 的網絡架構中,Physical Function(PF)在 switchdev 模式下充當 eSwitch manager&am…

最新開源 TEN VAD 與 Turn Detection 讓 Voice Agent 對話更擬人 | 社區來稿

關鍵詞:對話式 AI | 語音智能體 | Voice Agent | VAD | 輪次檢測 | 聲網 | TEN GPT-4o 所展示對話式 AI 的新高度,正一步步把我們在電影《Her》中看到的 AI 語音體驗變成現實。AI 的語音交互正在變得更豐富、更流暢、更易用,成為構建多模態智…

AI實踐用例---日程規劃(通用日程管理文件ICS)靈感踩坑日常

我是一位踐行獨立開發者之路的菜鳥開發者。 由于執行力較差,常常有很多想法但是很多時候沒有去踐行。 所以我有了讓大模型為我生成日程安排的想法,這確實可以,很簡單。只需要將你的想法告訴ai就行了。 例如: 發給AI的提示詞: 我想你幫我對,嗯,未來的一年做一個嗯,大…

大疆無人機??DRC 鏈路

在大疆上云API中,??DRC 鏈路??通常指 ??Device-Cloud Remote Control Link(設備-云端遠程控制鏈路)??,它是無人機(或設備)與云端服務之間建立的??實時控制與數據傳輸通道??,用于實現…

tomcat一閃而過,按任意鍵繼續以及控制臺中文亂碼問題

問題描述 今天在打開tomcat,啟動startup.bat程序時 tomcat直接閃退,后面查找資料后發現,可以通過編輯startup.bat文件內容,在最后一行加入pause即可讓程序不會因為異常而終止退出 這樣方便查看tomcat所爆出的錯誤: 然后,我明確看到我的tomcat啟動程序顯示如下的內容,沒有明確…

中大型水閘安全監測系統解決方案

一、方案概述 中大型水閘作為水利工程的重要組成部分,承擔著調節水位、控制水流、防洪排澇等多重功能,在防洪減災、水資源配置、生態環境改善等方面發揮著巨大作用。然而,由于歷史原因,許多水閘存在建設標準偏低、質量較差、配套設…

軌跡誤差評估完整流程總結(使用 evo 工具)

roslaunch .launch rosbag play your_dataset.bag -r 2.0 ? 第二步:錄制估計軌跡 bash 復制編輯 rosbag record -O traj_only.bag /aft_mapped_to_init 運行一段時間后 CtrlC 停止,生成 traj_only.bag 第三步:提取估計軌跡和真值軌跡為…

Linux任務管理與守護進程

目錄 任務管理 jobs,fg,bg 進程組概念 任務概念 守護進程 守護進程的概念 守護進程的查看 守護進程的創建 ?編輯模擬實現daemon函數 任務管理 每當有一個用戶登錄Linux時,系統就會創建一個會話(session) 任何…

Json rpc 2.0比起傳統Json在通信中的優勢

JSON-RPC 2.0 相較于直接使用傳統 JSON 進行通信,在協議規范性、開發效率、通信性能等方面具有顯著優勢。以下是核心差異點及技術價值分析: 一、結構化通信協議,降低開發成本 傳統 JSON 通信需要開發者自定義數據結構和處理邏輯,…

機器學習與人工智能:NLP分詞與文本相似度分析

DIY AI & ML NLP — Tokenization & Text Similarity by Jacob Ingle in Data Science Collective 本文所使用的數據是在 Creative Commons license 下提供的。盡管我們已盡力確保信息的準確性和完整性,但我們不對數據的完整性或可靠性做任何保證。數據的使…

RK3568平臺OpenHarmony系統移植可行性評估

https://docs.openharmony.cn/pages/v5.0/zh-cn/device-dev/quick-start/quickstart-appendix-compiledform.md 官方給的標準系統就是RK3568, 所以肯定可以, 關于硬件加速部分 看了鴻蒙RK3568開發板的GPU編譯配置,只能說能用 https://docs.openharmony.cn/pages/v4.1/zh-cn/…