文章目錄
- 問題
- 創新
- 網絡
- 主要貢獻
- Autoencoder-like Dehazing Network
- Adaptive Mixup for Feature Preserving
- Dynamic Feature Enhancement
- 1. 可變形卷積的使用
- 2. 擴展感受野
- 3. 減少網格偽影
- 4. 融合空間結構信息
- Contrastive Regularization
- 1. 核心思想
- 2. 正樣本對和負樣本對的構建
- 3. 潛在特征空間
- 4.對比損失函數
- 4. 對比正則化的數學表示
- 5. 對比正則化的作用
- 6. 與感知損失的對比
- 7. 實現細節
- 8. 總結
問題
- 現有的基于深度學習的去霧方法只采用清晰的圖像作為正樣本來指導去霧網絡的訓練,而沒有利用負信息。
- 它們大多側重于增強去霧網絡,增加深度和寬度,導致對計算和內存的需求很大。
創新
- 一種基于對比學習的對比正則化(CR)方法,分別利用模糊圖像和清晰圖像作為負樣本和正樣本的信息。
- 開發了一種基于類自編碼器(AE)框架的緊湊型除霧網絡
網絡
將這種帶有自編碼器和對比正則化的去霧網絡稱為AECR-Net。
主要貢獻
- 提出了一種新的ACER-Net,通過對比正則化和高度緊湊的基于自編碼器的去霧網絡有效地生成高質量的無霧圖像。與最先進的方法相比,AECR-Net實現了最佳的參數-性能權衡。
- 提出的對比正則化作為一種通用正則化可以進一步提高各種最先進的除霧網絡的性能。
- 提出的類自編碼器(AE)消霧網絡中的自適應混合模塊和動態特征增強模塊分別有助于消霧模型自適應地保持信息流和增強網絡的變換能力
Autoencoder-like Dehazing Network
- 編碼器-解碼器的對稱結構。
- 編碼器部分:
通過下采樣操作(如卷積層)將輸入圖像壓縮到低分辨率空間,提取高層次的特征表示。在你的網絡中,編碼器部分使用了 4 倍下采樣操作(例如,一個步幅為 1 的常規卷積和兩個步幅為 2 的卷積層)。 - 解碼器部分:
通過上采樣操作(如反卷積或插值)將低分辨率特征圖恢復到原始分辨率,生成去霧后的圖像。在你的網絡中,解碼器部分使用了 4 倍上采樣和一個常規卷積。
- 編碼器部分:
- 通過下采樣和上采樣操作實現低維特征學習和圖像重建。
- 自編碼器的核心目標是將輸入數據壓縮到一個低維潛在空間,從而學習到數據的高效表示。在這個網絡中,下采樣操作將輸入圖像壓縮到低分辨率空間,FA 模塊在這些低分辨率特征上進行學習,提取去霧任務所需的關鍵特征。
- 自編碼器的最終目標是從低維表示中重建原始數據。在這個網絡中,解碼器部分通過上采樣操作將低分辨率特征圖恢復到原始分辨率,生成去霧后的圖像。
- 引入自適應混合和動態特征增強模塊,改善特征保留和重建質量。
- 自編碼器通常面臨的一個問題是特征丟失,尤其是在深層網絡中。為了解決這個問題,該網絡引入了自適應混合(Adaptive Mixup)和動態特征增強模塊(DFE),通過動態融合下采樣層和上采樣層的特征,保留更多的細節信息。
- 通過減少 FA 模塊數量,實現緊湊模型設計。
- 自編碼器通常被設計為緊湊模型,以減少計算和存儲開銷。該網絡通過顯著減少 FA 模塊的數量(從 57 個減少到 6 個),實現了模型的輕量化。
Adaptive Mixup for Feature Preserving
-
動態特征融合:通過可學習因子動態調整特征融合的權重。
- 核心思想:自適應混合通過可學習因子動態調整下采樣層和上采樣層特征的融合權重,而不是使用固定的權重(如簡單的加法或拼接)。
- 公式表示:
-
特征保留:自適應混合通過融合下采樣層和上采樣層的特征,保留了淺層特征中的細節信息。解決了淺層特征丟失的問題,保留了邊緣、輪廓等細節信息。
-
可學習因子 σ(θi):通過訓練學習的參數,用于動態調整特征融合的權重。σ(θi)的值由 sigmoid 函數計算,范圍在 (0, 1) 之間。
-
多層級融合:在不同尺度上融合特征,提升網絡的表達能力。自適應混合操作應用于多個層級(如兩個下采樣層和兩個上采樣層),從而在不同尺度上融合特征。
Dynamic Feature Enhancement
1. 可變形卷積的使用
- 可變形卷積通過以下步驟實現:
- 偏移量預測:首先,通過一個額外的卷積層預測每個采樣點的偏移量(offset)。這些偏移量表示卷積核的采樣位置相對于固定網格位置的偏移。
- 動態采樣:根據預測的偏移量,卷積核的采樣位置會動態調整,從而能夠更好地捕捉圖像中的結構化信息。
- 特征融合:通過動態調整后的卷積核進行卷積操作,生成新的特征圖。
- 核心思想:
動態特征增強模塊(DFE)通過 可變形卷積(Deformable Convolution) 實現。可變形卷積允許卷積核的采樣位置根據輸入數據的局部結構動態調整,從而捕捉更多重要信息。 - 與傳統卷積的對比:
- 傳統卷積使用固定網格核,采樣位置是規則的、均勻分布的。
- 可變形卷積通過可學習的偏移量(offset)調整采樣位置,使其能夠適應輸入數據的幾何變換和局部結構變化。
2. 擴展感受野
- 感受野(Receptive Field):
感受野是指卷積神經網絡中某一層的一個神經元能夠“看到”的輸入圖像的區域大小。 - DFE 的作用:
DFE 通過可變形卷積擴展了感受野,并使其具有自適應形狀,從而提升了網絡的特征表達能力。
3. 減少網格偽影
- 網格偽影(Gridding Artifacts):
空洞卷積(Dilated Convolution)雖然可以擴大感受野,但可能會導致網格偽影。 - DFE 的優勢:
DFE 通過可變形卷積的動態采樣機制,避免了網格偽影的產生,從而提升了圖像質量。
4. 融合空間結構信息
- 空間結構信息(Spatially Structured Information):
指圖像中與空間位置相關的特征信息,如邊緣、紋理、形狀等。 - DFE 的作用:
DFE 通過可變形卷積動態調整采樣位置,使網絡能夠更有效地融合空間結構信息。
Contrastive Regularization
對比正則化(Contrastive Regularization, CR) 是一種基于對比學習思想的正則化方法,旨在通過拉近正樣本對的表示并推遠負樣本對的表示,約束模型的解空間,從而提升模型的性能。以下是對對比正則化的詳細理解:
1. 核心思想
對比正則化的核心思想來源于對比學習(Contrastive Learning),其目標是通過學習一種表示,使得:
- 正樣本對(相似的樣本)在特征空間中盡可能接近。
- 負樣本對(不相似的樣本)在特征空間中盡可能遠離。
在圖像去霧任務中,對比正則化的具體目標是:
- 將恢復圖像 ( \hat{J} ) 拉近清晰圖像 ( J )(正樣本對)。
- 將恢復圖像 ( \hat{J} ) 推離霧霾圖像 ( I )(負樣本對)。
2. 正樣本對和負樣本對的構建
- 正樣本對:
由清晰圖像 ( J ) 和恢復圖像 ( \hat{J} ) 組成。目標是讓恢復圖像盡可能接近清晰圖像。 - 負樣本對:
由恢復圖像 ( \hat{J} ) 和霧霾圖像 ( I ) 組成。目標是讓恢復圖像盡可能遠離霧霾圖像。
3. 潛在特征空間
為了進行對比,需要將圖像映射到一個潛在特征空間。在這里,潛在特征空間是通過一個固定的預訓練模型(如 VGG-19)提取的中間特征表示的。這些特征能夠捕捉圖像的語義信息(如邊緣、紋理、形狀等)。
4.對比損失函數
對比正則化的目標是最小化恢復圖像與清晰圖像之間的距離,同時最大化恢復圖像與霧霾圖像之間的距離。具體來說,對比正則化的損失函數可以表示為:
4. 對比正則化的數學表示
對比正則化的目標函數可以表示為:
通過最小化正樣本對的距離并最大化負樣本對的距離,約束模型的解空間。
5. 對比正則化的作用
- 拉近正樣本對:
通過最小化清晰圖像和恢復圖像在特征空間中的距離,使恢復圖像盡可能接近清晰圖像。 - 推遠負樣本對:
通過最大化霧霾圖像和恢復圖像在特征空間中的距離,使恢復圖像盡可能遠離霧霾圖像。 - 約束解空間:
通過對比正樣本對和負樣本對,約束模型的解空間,避免過擬合,提升泛化能力。
6. 與感知損失的對比
- 感知損失(Perceptual Loss):
僅通過清晰圖像和恢復圖像在特征空間中的距離來約束模型(僅使用正樣本)。 - 對比正則化(CR):
不僅使用清晰圖像和恢復圖像(正樣本對),還使用霧霾圖像和恢復圖像(負樣本對)來約束模型。
優勢:
對比正則化通過引入負樣本對,進一步約束解空間,從而提升模型的去霧效果。
7. 實現細節
- 特征提取:
從預訓練模型(如 VGG-19)的不同層中提取特征,以捕捉多尺度的語義信息。 - 距離度量:
使用 L1 距離度量特征空間中的距離。 - 權重系數:
不同層的特征可能對任務的重要性不同,因此引入權重系數 ( $ \omega_i $ )來平衡各層的貢獻。
8. 總結
對比正則化(CR)通過引入對比學習的思想,利用正樣本對和負樣本對約束模型的解空間,從而提升去霧效果。其核心思想是:
- 拉近恢復圖像和清晰圖像的距離(正樣本對)。
- 推遠恢復圖像和霧霾圖像的距離(負樣本對)。
通過這種方式,CR 不僅能夠提升恢復圖像的質量,還能避免過擬合,增強模型的泛化能力。
?感謝你的閱讀,希望本文能夠對你有所幫助。如果你喜歡我的內容,記得點贊關注收藏我的博客,我會繼續分享更多的內容。?