【論文筆記】Contrastive Learning for Compact Single Image Dehazing(AECR-Net)

在這里插入圖片描述

文章目錄

  • 問題
  • 創新
  • 網絡
  • 主要貢獻
    • Autoencoder-like Dehazing Network
          • Adaptive Mixup for Feature Preserving
          • Dynamic Feature Enhancement
            • 1. 可變形卷積的使用
            • 2. 擴展感受野
            • 3. 減少網格偽影
            • 4. 融合空間結構信息
    • Contrastive Regularization
      • 1. 核心思想
      • 2. 正樣本對和負樣本對的構建
      • 3. 潛在特征空間
      • 4.對比損失函數
      • 4. 對比正則化的數學表示
      • 5. 對比正則化的作用
      • 6. 與感知損失的對比
      • 7. 實現細節
      • 8. 總結

問題

  1. 現有的基于深度學習的去霧方法只采用清晰的圖像作為正樣本來指導去霧網絡的訓練,而沒有利用負信息。
  2. 它們大多側重于增強去霧網絡,增加深度和寬度,導致對計算和內存的需求很大。

創新

  1. 一種基于對比學習的對比正則化(CR)方法,分別利用模糊圖像和清晰圖像作為負樣本和正樣本的信息。
  2. 開發了一種基于類自編碼器(AE)框架的緊湊型除霧網絡

網絡

在這里插入圖片描述

將這種帶有自編碼器和對比正則化的去霧網絡稱為AECR-Net。

主要貢獻

  1. 提出了一種新的ACER-Net,通過對比正則化和高度緊湊的基于自編碼器的去霧網絡有效地生成高質量的無霧圖像。與最先進的方法相比,AECR-Net實現了最佳的參數-性能權衡。
  2. 提出的對比正則化作為一種通用正則化可以進一步提高各種最先進的除霧網絡的性能。
  3. 提出的類自編碼器(AE)消霧網絡中的自適應混合模塊和動態特征增強模塊分別有助于消霧模型自適應地保持信息流和增強網絡的變換能力

Autoencoder-like Dehazing Network

在這里插入圖片描述

  1. 編碼器-解碼器的對稱結構。
    • 編碼器部分
      通過下采樣操作(如卷積層)將輸入圖像壓縮到低分辨率空間,提取高層次的特征表示。在你的網絡中,編碼器部分使用了 4 倍下采樣操作(例如,一個步幅為 1 的常規卷積和兩個步幅為 2 的卷積層)。
    • 解碼器部分
      通過上采樣操作(如反卷積或插值)將低分辨率特征圖恢復到原始分辨率,生成去霧后的圖像。在你的網絡中,解碼器部分使用了 4 倍上采樣和一個常規卷積。
  2. 通過下采樣和上采樣操作實現低維特征學習和圖像重建。
    • 自編碼器的核心目標是將輸入數據壓縮到一個低維潛在空間,從而學習到數據的高效表示。在這個網絡中,下采樣操作將輸入圖像壓縮到低分辨率空間,FA 模塊在這些低分辨率特征上進行學習,提取去霧任務所需的關鍵特征。
    • 自編碼器的最終目標是從低維表示中重建原始數據。在這個網絡中,解碼器部分通過上采樣操作將低分辨率特征圖恢復到原始分辨率,生成去霧后的圖像。
  3. 引入自適應混合和動態特征增強模塊,改善特征保留和重建質量。
    • 自編碼器通常面臨的一個問題是特征丟失,尤其是在深層網絡中。為了解決這個問題,該網絡引入了自適應混合(Adaptive Mixup)和動態特征增強模塊(DFE),通過動態融合下采樣層和上采樣層的特征,保留更多的細節信息。
  4. 通過減少 FA 模塊數量,實現緊湊模型設計。
    • 自編碼器通常被設計為緊湊模型,以減少計算和存儲開銷。該網絡通過顯著減少 FA 模塊的數量(從 57 個減少到 6 個),實現了模型的輕量化。
Adaptive Mixup for Feature Preserving

在這里插入圖片描述

  1. 動態特征融合:通過可學習因子動態調整特征融合的權重。

    • 核心思想:自適應混合通過可學習因子動態調整下采樣層和上采樣層特征的融合權重,而不是使用固定的權重(如簡單的加法或拼接)。
    • 公式表示
      在這里插入圖片描述
  2. 特征保留:自適應混合通過融合下采樣層和上采樣層的特征,保留了淺層特征中的細節信息。解決了淺層特征丟失的問題,保留了邊緣、輪廓等細節信息。

  3. 可學習因子 σ(θi):通過訓練學習的參數,用于動態調整特征融合的權重。σ(θi)的值由 sigmoid 函數計算,范圍在 (0, 1) 之間。

  4. 多層級融合:在不同尺度上融合特征,提升網絡的表達能力。自適應混合操作應用于多個層級(如兩個下采樣層和兩個上采樣層),從而在不同尺度上融合特征。

Dynamic Feature Enhancement

在這里插入圖片描述

1. 可變形卷積的使用
  • 可變形卷積通過以下步驟實現
  1. 偏移量預測:首先,通過一個額外的卷積層預測每個采樣點的偏移量(offset)。這些偏移量表示卷積核的采樣位置相對于固定網格位置的偏移。
  2. 動態采樣:根據預測的偏移量,卷積核的采樣位置會動態調整,從而能夠更好地捕捉圖像中的結構化信息。
  3. 特征融合:通過動態調整后的卷積核進行卷積操作,生成新的特征圖。
  • 核心思想
    動態特征增強模塊(DFE)通過 可變形卷積(Deformable Convolution) 實現。可變形卷積允許卷積核的采樣位置根據輸入數據的局部結構動態調整,從而捕捉更多重要信息。
  • 與傳統卷積的對比
    • 傳統卷積使用固定網格核,采樣位置是規則的、均勻分布的。
    • 可變形卷積通過可學習的偏移量(offset)調整采樣位置,使其能夠適應輸入數據的幾何變換和局部結構變化。
2. 擴展感受野
  • 感受野(Receptive Field)
    感受野是指卷積神經網絡中某一層的一個神經元能夠“看到”的輸入圖像的區域大小。
  • DFE 的作用
    DFE 通過可變形卷積擴展了感受野,并使其具有自適應形狀,從而提升了網絡的特征表達能力。
3. 減少網格偽影
  • 網格偽影(Gridding Artifacts)
    空洞卷積(Dilated Convolution)雖然可以擴大感受野,但可能會導致網格偽影。
  • DFE 的優勢
    DFE 通過可變形卷積的動態采樣機制,避免了網格偽影的產生,從而提升了圖像質量。
4. 融合空間結構信息
  • 空間結構信息(Spatially Structured Information)
    指圖像中與空間位置相關的特征信息,如邊緣、紋理、形狀等。
  • DFE 的作用
    DFE 通過可變形卷積動態調整采樣位置,使網絡能夠更有效地融合空間結構信息。

Contrastive Regularization

在這里插入圖片描述

對比正則化(Contrastive Regularization, CR) 是一種基于對比學習思想的正則化方法,旨在通過拉近正樣本對的表示并推遠負樣本對的表示,約束模型的解空間,從而提升模型的性能。以下是對對比正則化的詳細理解:


1. 核心思想

對比正則化的核心思想來源于對比學習(Contrastive Learning),其目標是通過學習一種表示,使得:

  • 正樣本對(相似的樣本)在特征空間中盡可能接近。
  • 負樣本對(不相似的樣本)在特征空間中盡可能遠離。

在圖像去霧任務中,對比正則化的具體目標是:

  • 恢復圖像 ( \hat{J} ) 拉近清晰圖像 ( J )(正樣本對)。
  • 恢復圖像 ( \hat{J} ) 推離霧霾圖像 ( I )(負樣本對)。

2. 正樣本對和負樣本對的構建

  • 正樣本對
    由清晰圖像 ( J ) 和恢復圖像 ( \hat{J} ) 組成。目標是讓恢復圖像盡可能接近清晰圖像。
  • 負樣本對
    由恢復圖像 ( \hat{J} ) 和霧霾圖像 ( I ) 組成。目標是讓恢復圖像盡可能遠離霧霾圖像。

3. 潛在特征空間

為了進行對比,需要將圖像映射到一個潛在特征空間。在這里,潛在特征空間是通過一個固定的預訓練模型(如 VGG-19)提取的中間特征表示的。這些特征能夠捕捉圖像的語義信息(如邊緣、紋理、形狀等)。


4.對比損失函數

對比正則化的目標是最小化恢復圖像與清晰圖像之間的距離,同時最大化恢復圖像與霧霾圖像之間的距離。具體來說,對比正則化的損失函數可以表示為:
在這里插入圖片描述

4. 對比正則化的數學表示

對比正則化的目標函數可以表示為:
在這里插入圖片描述
通過最小化正樣本對的距離并最大化負樣本對的距離,約束模型的解空間。


5. 對比正則化的作用

  1. 拉近正樣本對
    通過最小化清晰圖像和恢復圖像在特征空間中的距離,使恢復圖像盡可能接近清晰圖像。
  2. 推遠負樣本對
    通過最大化霧霾圖像和恢復圖像在特征空間中的距離,使恢復圖像盡可能遠離霧霾圖像。
  3. 約束解空間
    通過對比正樣本對和負樣本對,約束模型的解空間,避免過擬合,提升泛化能力。

6. 與感知損失的對比

  • 感知損失(Perceptual Loss)
    僅通過清晰圖像和恢復圖像在特征空間中的距離來約束模型(僅使用正樣本)。
  • 對比正則化(CR)
    不僅使用清晰圖像和恢復圖像(正樣本對),還使用霧霾圖像和恢復圖像(負樣本對)來約束模型。

優勢
對比正則化通過引入負樣本對,進一步約束解空間,從而提升模型的去霧效果。


7. 實現細節

  • 特征提取
    從預訓練模型(如 VGG-19)的不同層中提取特征,以捕捉多尺度的語義信息。
  • 距離度量
    使用 L1 距離度量特征空間中的距離。
  • 權重系數
    不同層的特征可能對任務的重要性不同,因此引入權重系數 ( $ \omega_i $ )來平衡各層的貢獻。

8. 總結

對比正則化(CR)通過引入對比學習的思想,利用正樣本對和負樣本對約束模型的解空間,從而提升去霧效果。其核心思想是:

  • 拉近恢復圖像和清晰圖像的距離(正樣本對)。
  • 推遠恢復圖像和霧霾圖像的距離(負樣本對)。

通過這種方式,CR 不僅能夠提升恢復圖像的質量,還能避免過擬合,增強模型的泛化能力。

?感謝你的閱讀,希望本文能夠對你有所幫助。如果你喜歡我的內容,記得點贊關注收藏我的博客,我會繼續分享更多的內容。?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/73452.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/73452.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/73452.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

異步加載錯誤如何解決

首先是 提供兩張圖 如果數據過多的情況下我在所內和住家形式頻繁的來回切換 導致數據展示的不一樣 大家是不是有這樣的問題 這個是導致了數據展示有問題的情況 住家的情況本來是沒有幾層的 下面我幫大家解決一下 // 防止異步延遲 const Noop () > { } const lhl (resDa…

編譯支持 RKmpp 和 RGA 的 ffmpeg 源碼

一、前言 RK3588 支持VPU硬件解碼,需要rkmpp進行調用;支持2D圖像加速,需要 RGA 進行調用。 這兩個庫均能通過 ffmpeg-rockchip 進行間接調用,編譯時需要開啟對應的功能。 二、依賴安裝 編譯ffmpeg前需要編譯 rkmpp 和 RGA&#xf…

數據科學/數據分析暑期實習題目匯總

文章目錄 1. 孤立森林算法2. python私有屬性代碼解釋1. 類的定義2. 構造方法 `__init__`3. 創建類的實例4. 訪問私有屬性總結python列表拷貝代碼示例與分析內存地址不同的原因驗證對其中一個列表修改不會影響另一個列表記錄一些值得記錄的題目。 1. 孤立森林算法 異常點判斷的…

Java多線程與高并發專題——原子類和 volatile、synchronized 有什么異同?

原子類和 volatile異同 首先,通過我們對原子類和的了解,原子類和volatile 都能保證多線程環境下的數據可見性。在多線程程序中,每個線程都有自己的工作內存,當多個線程訪問共享變量時,可能會出現一個線程修改了共享變…

207、【圖論】孤島的總面積

題目 思路 相比于 206、【圖論】島嶼數量,就是在這個代碼的基礎上。先遍歷邊界,將邊界連接的島嶼變為0,然后再計算一遍當前為1的島嶼面積。 代碼實現 import collectionsn, m list(map(int, input().split())) graph []for _ in range(n…

大模型最新面試題系列:微調篇之微調基礎知識

一、全參數微調(Full-Finetune) vs 參數高效微調(PEFT)對比 1. 顯存使用差異 全參數微調:需存儲所有參數的梯度(如GPT-3 175B模型全量微調需約2.3TB顯存)PEFT:以LoRA為例&#xff…

【GPT入門】第21課 langchain核心組件

【GPT入門】第21課 langchain核心組件 1. langchain 核心組件2.文檔加載器 Document loader3.文檔處理器3.1 langchain_text_splitters3.3 FAISS向量數據庫和向量檢索主要作用應用場景4. 對話歷史管理1. langchain 核心組件 模型 I/O 封裝 LLMs:大語言模型 Chat Models:一般…

應急響應靶機練習-Linux2

1.背景 前景需要:看監控的時候發現webshell告警,領導讓你上機檢查你可以救救安服仔嗎!! 挑戰內容: (1)提交攻擊者IP (2)提交攻擊者修改的管理員密碼(明文) (…

分享一個免費的CKA認證學習資料

關于CKA考試 CKA(Certified Kubernetes Administrator)是CNCF基金會(Cloud Native Computing Foundation)官方推出的Kubernetes管理員認證計劃,用于證明持有人有履行Kubernetes管理的知識,技能等相關的能力…

【PTA題目解答】7-2 簡化的插入排序(15分)

1.題目 本題要求編寫程序&#xff0c;將一個給定的整數插到原本有序的整數序列中&#xff0c;使結果序列仍然有序。 輸入格式&#xff1a; 輸入在第一行先給出非負整數N&#xff08;<10&#xff09;&#xff1b;第二行給出N個從小到大排好順序的整數&#xff1b;第三行給…

【最新】 ubuntu24安裝 1panel 保姆級教程

系統&#xff1a;ubuntu24.04.1 安裝軟件 &#xff1a;1panel 第一步&#xff1a;更新系統 sudo apt update sudo apt upgrade 如下圖 第二步&#xff1a;安裝1panel&#xff0c;運行如下命令 curl -sSL https://resource.fit2cloud.com/1panel/package/quick_start.sh -o …

UE4-UE5虛幻引擎,前置學習一--Console日志輸出經常崩潰,有什么好的解決辦法

有些差異 這么牛逼的引擎&#xff0c;居然有這種入門級別的問題&#xff0c;一觸發清理&#xff0c;大概率(80%)會崩潰 無論虛幻5還是UE4都有這個問題&#xff0c;挺煩人的 實在忍不了了&#xff0c;這次&#xff0c;今天 就想問問有什么好的處理方法么&#xff1f;&#x…

【微服務】Nacos 配置動態刷新(簡易版)(附配置)

文章目錄 1、實現方法2、配置依賴 yaml3、驗證效果 1、實現方法 環境&#xff1a;Nacos、Java、SpringBoot等 主要是在boostrap.yaml中的data-id屬性下配置refresh:true來實現動態更新 2、配置依賴 yaml 具體的版本參考官方的說明&#xff1a;官方版本說明 <!--讀取boo…

設計模式之備忘錄設計模式

備忘錄設計模式&#xff08;Memento Pattern&#xff09; 在不破壞封閉的前提下&#xff0c;捕獲一個對象的內部狀態&#xff0c;保存對象的某個狀態&#xff0c;以便在適當的時候恢復對象&#xff0c;又叫做快照模式&#xff0c;屬于行為模式備忘錄模式實現的方式需要保證被保…

pytest 框架學習總結

視頻&#xff1a;pytest01-快速上手_嗶哩嗶哩_bilibili 資料&#xff1a;pytest 框架 - 白月黑羽 基于 Python 語言的自動化測試框架 最知名的 有如下 3 款unittest、pytest、robotframework 前兩款框架主要&#xff08;或者說很大程度上&#xff09;是 聚焦 在 白盒單元測試…

Day16:最小的k個數

倉庫管理員以數組 stock 形式記錄商品庫存表&#xff0c;其中 stock[i] 表示對應商品庫存余量。請返回庫存余量最少的 cnt 個商品余量&#xff0c;返回 順序不限。 示例 1&#xff1a; 輸入&#xff1a;stock [2,5,7,4], cnt 1 輸出&#xff1a;[2]示例 2&#xff1a; 輸入…

【最后203篇系列】016 Q201架構思考

前言 Q200已經達到了我既定的目標&#xff0c;在最近的3個月&#xff0c;我需要進一步完善&#xff0c;達到可以試產的程度。 在這個過程當中&#xff0c;許多知識和體會一直在變。 qtv200到目前&#xff0c;雖然通過習慣(每晚運行離線策略和比對)方式維持了注意力的集中&…

音視頻入門基礎:RTP專題(20)——通過FFprobe顯示RTP流每個packet的信息

通過FFprobe命令&#xff1a; ffprobe -protocol_whitelist "file,rtp,udp" -of json -show_packets XXX.sdp 可以顯示SDP描述的RTP流每個packet&#xff08;數據包&#xff09;的信息&#xff1a; 對于RTP流&#xff0c;上述的“packet”&#xff08;數據包&#…

信息系統運行管理員教程6--信息系統安全

信息系統運行管理員教程6–信息系統安全 第1節 信息系統安全概述 1.信息系統安全的概念 信息系統安全是指保障計算機及其相關設備、設施&#xff08;含網絡&#xff09;的安全&#xff0c;運行環境的安全&#xff0c;信息的安全&#xff0c;實現信息系統的正常運行。信息系統…

LLM后訓練:解鎖大型語言模型推理能力的關鍵路徑

引言&#xff1a;從語言生成到邏輯推理的躍遷 大型語言模型&#xff08;LLMs&#xff09;通過預訓練掌握了海量語言模式&#xff0c;但其核心缺陷——幻覺、邏輯斷裂、價值觀偏差——暴露了單純預訓練的局限性。后訓練&#xff08;Post-Training&#xff09;作為預訓練后的精修…