DNF: Decouple and Feedback Network for Seeing in the Dark

DNF:用于暗光視覺的解耦與反饋網絡

摘要

RAW 數據的獨特屬性在低光照圖像增強方面展現出巨大潛力。然而,現有架構在單階段和多階段方法中的固有局限性限制了其性能。跨兩個不同域(噪聲到干凈和 RAW 到 sRGB)的混合映射,由于域模糊性 (domain ambiguity) 誤導了單階段方法多階段方法僅通過每個階段的結果圖像傳播信息,忽略了有損圖像級數據流中的豐富特征。在本文中,我們探究了解決這些瓶頸的通用方案,并提出了一種解耦與反饋 (Decouple aNd Feedback) 框架,縮寫為 DNF。為了緩解域模糊性,我們解耦了特定領域的子任務,并充分利用了 RAW 和 sRGB 域中的獨特屬性。通過反饋機制實現跨階段的特征傳播,避免了由圖像級數據流引起的信息損失。我們方法的兩個關鍵見解令人滿意地解決了基于 RAW 數據的低光照圖像增強的固有局限性,使我們的方法以僅 19% 的參數大幅超越之前的最先進方法,在 SID 的 Sony 和 Fuji 子集上分別實現了 0.97dB 和 1.30dB 的 PSNR 提升。

1 引言

低光照場景下的成像越來越受到關注,尤其是隨著智能手機和監控系統上夜景模式的普及。然而,由于極低的信噪比,低光照圖像增強 (Low-Light Image Enhancement, LLIE) 是一項具有挑戰性的任務。最近,深度學習解決方案被廣泛研究以解決不同數據域中的這一任務,范圍從基于 sRGB 的方法 [14, 15, 21, 40] 到基于 RAW 的方法 [2, 7, 35, 47]。與 sRGB 數據相比,包含未處理信號的 RAW 數據在三個方面對 LLIE 有益:1) 在 RAW 域中,信號與光子計數線性相關,2) 在圖像信號處理 (Image Signal Processing, ISP) 流水線 [33] 之前,RAW 圖像上的噪聲分布是可處理的 (tractable),3) RAW 格式更高的位深記錄了更多可區分的低強度信號。

在這里插入圖片描述
在這里插入圖片描述

在這里插入圖片描述

開創性工作 SID [2] 提出了一個用于基于 RAW 的 LLIE 的大規模配對數據集,重新點燃了對數據驅動方法的興趣。如圖 1 所示,一類工作 [2, 5, 12, 13, 22, 42] 專注于設計單階段網絡架構,另一類 [4, 7, 35, 47] 則利用多階段網絡進行漸進式增強。盡管性能有很大提升,但兩種架構仍然受到固有局限性的制約。首先,當前的單階段方法強制神經網絡學習從噪聲 RAW 域到干凈 sRGB 域的直接映射,跨越兩個不同域(噪聲到干凈和 RAW 到 sRGB)的混合映射會誤導整體增強過程,導致域模糊性問題。例如,RAW 圖像中可處理的噪聲在色彩空間轉換過程中會被映射到不可預測的分布。因此,色彩偏移和未處理的噪聲不可避免地出現在最終結果中。其次,現有的多階段方法通過級聯子網絡組成流程,每個子網絡負責基于上一階段的輸出圖像進行漸進式增強。在它們采用圖像級數據流的設計下,只有圖像在多個階段間前向傳播,后一階段只能從前一階段的結果中獲取信息。同時,每個階段中的每個子網絡都可能由于下采樣操作或單獨的目標函數 [41] 而導致信息損失。因此,次優的性能與有損圖像級數據流密切相關。誤差隨著階段傳播、累積和放大,最終無法重建紋理細節。
在這里插入圖片描述
為了利用 RAW 圖像在 LLIE 中的潛力,需要一個超越上述兩個限制的通用流程。具體來說,神經網絡應該利用不同域中的上述優點 [7],而不是被域模糊性所混淆。根據 RAW 和 sRGB 域的獨特屬性,有必要將增強解耦為特定領域的子任務。在探索了 RAW 域中的線性和可處理噪聲之后,可以有意識地執行從 RAW 域到 sRGB 域的色彩空間轉換,而不受噪聲干擾。此外,流程不能阻礙階段間的通信,而不是僅允許一小部分有損信息通過的圖像級數據流。由于不同的子任務,每個層級的中間特征往往是互補的 [20, 46]。同時,多尺度特征保留了紋理和上下文信息,為后續階段提供了額外的指導 [41]。因此,需要不同階段的特征在數據流中傳播,聚合豐富的特征并保持信息的完整性。特定領域的解耦,加上特征級數據流,有助于提高可學習性以獲得更好的增強性能,并保持方法的可解釋性。

基于這些原則,我們提出了一個解耦與反饋 (Decouple and Feedback, DNF) 框架,包含以下為基于 RAW 的 LLIE 量身定制的設計。增強過程被解耦為兩個特定領域的子任務:RAW 域中的去噪 [30, 33, 45, 48] 和到 sRGB 域的色彩恢復 [8, 28, 39],如圖 1(c)1(c)1(c) 所示。在先前工作 [27] 中常用的編碼器-解碼器架構下,子網絡中的每個模塊都源自每個域的專有屬性:用于 RAW 去噪的通道獨立去噪 (Channel Independent Denoising, CID) 塊,以及用于色彩渲染的矩陣化色彩校正 (Matrixed Color Correction, MCC) 塊。此外,我們不使用不準確的去噪 RAW 圖像,而是將來自 RAW 解碼器的多尺度特征作為去噪先驗。然后,這些特征通過提出的門控融合模塊 (Gated Fusion Modules, GFM) 流入共享的 RAW 編碼器,自適應地區分紋理細節和殘留噪聲。經過去噪先驗反饋 (Denoising Prior Feedback) 后,信號進一步與噪聲區分開來,在 RAW 域中產生完整且豐富的特征。得益于特征級數據流,MCC 塊的解碼器可以有效地處理剩余的增強和到 sRGB 域的色彩轉換。

主要貢獻總結如下:

  • 特定領域任務解耦擴展了對 RAW 和 sRGB 域中獨特屬性的利用,避免了域模糊性。
  • 由去噪先驗反饋賦能的特征級數據流減少了誤差累積,并聚合了跨階段的互補特征。
  • 與之前的最先進方法相比,所提出的方法僅使用 19% 的參數和 63% 的 FLOPs 就獲得了顯著的提升,例如在 SID 的 Sony 數據集上 PSNR 提高了 0.97dB,在 SID 的 Fuji 數據集上 PSNR 提高了 1.30dB。

2 相關工作

基于 RAW 的低光照圖像增強

正如我們在第 1 節提到的,由于其獨特的屬性,RAW 圖像在極低光照條件下的圖像增強中得到了廣泛探索。如圖 1 所示,基于 RAW 的方法通常根據是否存在中間監督分為兩類:單階段和多階段。單階段方法 [2, 5, 12, 13, 22, 42] 旨在迫使深度神經網絡學習從噪聲 RAW 域到干凈 sRGB 域的直接映射。為了獲得更好的性能,采用了多種嘗試,包括相似性和感知損失 [42]、殘差學習 [22]、多尺度特征 [5] 和輕量化 [12, 13]。然而,由于域模糊性,上述單階段方法通常無法恢復紋理細節。多階段方法 [4, 7, 35, 47] 被提出來解決單階段方法的局限性。通過在 sRGB 域上進行中間監督,EEMEFN [47] 和 LDC [35] 在第二階段重建了細節。不同域上的中間監督用于不同的目的,例如 RAW 域用于解耦 [7],單色域用于低光照信息補充 [4]。然而,所有現有的多階段方法共享相同的架構,級聯編碼器-解碼器 [27]。它們的圖像級數據流導致了跨階段的誤差累積。我們提出的方法與現有方法在兩個方面不同:1) 采用特定領域解耦架構以充分利用 RAW 和 sRGB 格式的特性。2) 采用特征級反饋架構來處理圖像級數據流的誤差累積。

解耦機制

解耦機制旨在將原始任務劃分為幾個更簡單的子任務,然后顯式地攻克它們。通過適當的解耦,神經網絡可以更容易收斂,從而獲得更好的性能。Li 等人 [18] 將外推任務解耦為邊界框布局生成、分割布局生成和圖像生成。合理的解耦通過邊界框和分割布局這兩個立足點減少了文本和圖像之間的領域差距。最近的修復 (inpainting) 工作 [16, 25, 26] 旨在將修復任務解耦為結構和紋理重建以獲得更好的結果。在高級任務 [11] 中,將領域自適應任務解耦為特征分布對齊和分割獲得了性能提升。我們通過特定領域任務解耦來實現這一機制,將 LLIE 任務解耦為 RAW 去噪和色彩恢復。

反饋機制

反饋機制使網絡能夠訪問先前狀態的掌握情況。這一思想已應用于許多任務:分類 [37]、超分辨率 [17, 19] 和點云補全 [36]。引入反饋機制后,Li 等人 [19] 采用課程學習策略進行漸進式恢復。Yan 等人 [36] 旨在利用高分辨率特征通過反饋機制豐富低分辨率特征。所有現有方法都應用反饋機制來逐步完成單一任務,這與我們的方法不同。我們的反饋機制使我們的網絡能夠在兩個不同的子任務之間進行通信,并且是在不同的領域中。

3 方法

在這里插入圖片描述
如圖 2 所示,提出的解耦與反饋框架包含兩個階段:RAW 去噪和色彩渲染,以漸進式增強低光照 RAW 圖像。給定輸入圖像 XrawX_{raw}Xraw?,乘以預定義的放大倍數 [2] 后,放大的圖像 XXX 首先在 RAW 域中被編碼器 ErawE_{raw}Eraw? 和解碼器 DrawD_{raw}Draw? 去噪。然后,我們不使用不準確的 Y^raw\hat{Y}_{raw}Y^raw? 進行色彩渲染,而是將來自 DrawD_{raw}Draw? 的去噪特征 Fdn\mathbf{F}_{dn}Fdn? 反饋給 Eraw′E^{\prime}_{raw}Eraw?,利用去噪先驗進一步區分信號,并在 RAW 域中組合出豐富的特征。最后,sRGB 解碼器 DrgbD_{rgb}Drgb? 接收 RAW 域中的多尺度特征,渲染出 sRGB 域中的最終輸出 Y^rgb\hat{Y}_{rgb}Y^rgb?

具體來說,一個共享編碼器 ErawE_{raw}Eraw? 和兩個解碼器 (DrawD_{raw}Draw?DrgbD_{rgb}Drgb?) 是專門為通過特定領域任務解耦(包含任務特定塊,見第 3.1 節)解耦的子任務設計的。引入了通道獨立去噪 (Channel Independent Denoising, CID) 塊來學習 RAW 域中不同顏色通道中可處理且獨立的噪聲分布。根據色彩空間的定義,矩陣化色彩校正 (Matrixed Color Correction, MCC) 塊使用全局矩陣變換完成到 sRGB 域的剩余增強。此外,我們結合了一個去噪先驗反饋機制以避免跨階段的誤差累積。利用從 RAW 解碼器提取的去噪特征 Fdn\mathbf{F}_{dn}Fdn?,RAW 編碼器用高頻信息豐富了淺層特征。此外,提出了一個帶門控機制 [17] 的門控融合模塊 (Gated Fusion Module, GFM),用于自適應地探索埋在噪聲中的細節(見第 3.2 節)。

特定領域任務解耦

我們提出特定領域任務解耦 (Domain-Specific Task Decoupling) 來處理由噪聲到干凈和 RAW 到 sRGB 的混合映射引起的域模糊性。噪聲 RAW 和干凈 sRGB 域之間的鴻溝使得網絡難以學習跨越這兩個域的直接映射。因此,我們建議在鴻溝之間引入對干凈 RAW 域的中間監督,以緩解直接學習混合映射的困難。通過對干凈 RAW 域的中間監督,我們可以:1) 將增強解耦為 RAW 去噪和色彩恢復,2) 充分利用 RAW 圖像上噪聲分布可處理的特性進行去噪,3) 減少色彩恢復過程中的噪聲干擾,從而減少色彩偏移。

在 RAW 域中去噪。 如圖 2 所示,我們堆疊多個通道獨立去噪 (CID) 塊來實現 RAW 編碼器 ErawE_{raw}Eraw? 和 RAW 解碼器 DrawD_{raw}Draw?。CID 塊的設計基于以下兩個先驗知識:1) RAW 格式的低光照圖像受到與信號無關的噪聲影響,該噪聲服從零均值分布 [9, 33],2) 由于不同通道的信號在 RAW 域中本質上相關性較低 [34, 24],噪聲分布往往在通道間是獨立的。因此,我們需要對幾乎相同的信號(相鄰像素)進行突發觀測 (burst observations) 以去除零均值噪聲的干擾。此外,在去噪過程中防止通道間信息交換對于處理通道獨立噪聲分布是必不可少的。根據以上討論,我們在 CID 塊中引入具有大核的深度卷積 (depth-wise convolution) 進行去噪。CID 塊的詳細結構如圖 3(a) 所示。具體來說,對于輸入特征 FinF_{in}Fin?,經過通道獨立去噪塊后的輸出特征 FoutF_{out}Fout? 可以表示為:

Fout=MLP(DConv7(Fin))+Fin,F_{out}=\texttt{MLP}(\texttt{DConv7}(F_{in}))+F_{in},Fout?=MLP(DConv7(Fin?))+Fin?,

其中 DConv7\texttt{DConv7}DConv7 是使用 7×77\times 77×7 核的深度卷積。MLP 由兩個逐點卷積層 (point-wise convolutional layers) 和一個 GELU [6] 非線性函數實現。同時,設置了一個殘差開關 (residual switch) 來執行兩種不同的功能(通過權重共享的 CID 塊),詳見第 3.2 節。

從 RAW 到 sRGB 的色彩校正。 矩陣變換通常用于規范的 ISP 流水線 [23]。由于全局共享的設置,如環境光照和色彩空間規范,圖像的色彩主要通過通道級矩陣變換來增強或轉換到另一個色彩空間。遵循這一原則,我們引入矩陣化色彩校正 (Matrixed Color Correction, MCC) 塊來執行全局色彩增強以及局部細化,如圖 3(b) 所示。對于 sRGB 解碼器 DrgbD_{rgb}Drgb?,我們堆疊多個 MCC 塊進行色彩校正。該塊的設計受益于轉置自注意力 (transposed self-attention) 的最新進展 [38]。它的全局感受野和通道級操作非常適合規范 ISP 中的色彩校正。給定輸入源特征 Fsource∈RC×H×WF_{source}\in\mathbb{R}^{C\times H\times W}Fsource?RC×H×W,首先通過一個 1×11\times 11×1 卷積層、一個 3×33\times 33×3 深度卷積和一個展平 (flatten) 操作生成查詢 Q∈RC×HWQ\in\mathbb{R}^{C\times HW}QRC×HW、鍵 K∈RC×HWK\in\mathbb{R}^{C\times HW}KRC×HW 和值 V∈RC×HWV\in\mathbb{R}^{C\times HW}VRC×HW 的向量。然后,通過矩陣乘法獲得變換矩陣 M∈RC×CM\in\mathbb{R}^{C\times C}MRC×C。該過程可以表示為:

Q,K,V=Flatten(DConv3(PConv(Fsource))),Q,K,V=\texttt{Flatten}(\texttt{DConv3}(\texttt{PConv}(F_{source} ))),Q,K,V=Flatten(DConv3(PConv(Fsource?))),

M=Softmax(Q?KT/λ),M=\texttt{Softmax}(Q\cdot K^{T}/\lambda),M=Softmax(Q?KT/λ),

其中應用縮放系數 λ\lambdaλ 以保證數值穩定性。然后,色彩向量 VVV 被矩陣 MMM 變換,在特征級執行色彩空間轉換。色彩變換后的目標特征可以通過 Ftarget=M?VF_{target}=M\cdot VFtarget?=M?V 獲得。作為全局矩陣變換的補充,我們使用一個深度卷積和一個逐點卷積來進一步細化局部細節。

去噪先驗反饋

在以前的基于 RAW 的方法 [4, 7, 35, 47] 中,一部分高頻內容在增強過程中被錯誤地識別為噪聲,嚴重惡化了最終結果,導致細節丟失并產生有損數據流。為了避免現有多階段方法的有損圖像級數據流,我們提出了一種具有特征級信息傳播的去噪先驗反饋 (Denoising Prior Feedback) 機制。我們將 Fdn={Fdn1,Fdn2,...,FdnL}\mathbf{F}_{dn}=\{F_{dn}^{1},F_{dn}^{2},...,F_{dn}^{L}\}Fdn?={Fdn1?,Fdn2?,...,FdnL?} 表示為從 RAW 解碼器 DrawD_{raw}Draw? 提取的一組去噪特征,其中 LLL 表示階段數。Fdn\mathbf{F}_{dn}Fdn? 的每個元素主要包含 RAW 域中不同尺度的最終噪聲估計信息。具體來說,這些特征使噪聲更易區分,并作為進一步去噪的指導。通過將去噪特征集 Fdn\mathbf{F}_{dn}Fdn? 通過多個反饋連接 [19, 1, 29] 重路由到 RAW 編碼器的相應階段,編碼器利用上一次估計逐漸生成更好的去噪特征以進行進一步增強。因此,sRGB 解碼器 DrgbD_{rgb}Drgb? 可以更專注于色彩校正。反饋流程如圖 2 所示,可表示為:

Fdn=Draw(Eraw(X)),Frdn=Eraw′(X,Fdn),\mathbf{F}_{dn}=D_{raw}(E_{raw}(X)),\quad F_{rdn}=E^{\prime}_{raw}(X,\mathbf{F}_{dn}),Fdn?=Draw?(Eraw?(X)),Frdn?=Eraw?(X,Fdn?),

其中 FrdnF_{rdn}Frdn? 表示將轉發到 sRGB 解碼器的精煉去噪特征。Eraw′E^{\prime}_{raw}Eraw? 表示 RAW 編碼器,它不僅包含 ErawE_{raw}Eraw? 的權重,還配備了 LLL 個門控融合模塊 (GFMs)。每個 GFM 負責處理來自 Fdn\mathbf{F}_{dn}Fdn? 的一個反饋特征。

門控融合模塊 (Gated Fusion Modules, GFM)。 GFM 旨在通過門控機制 [17] 自適應地融合反饋噪聲估計與初始去噪特征。在特征門控期間,我們希望有用的信息能沿空間和通道維度自適應地被選擇和合并。為了效率,我們使用一個逐點卷積和一個深度卷積 [3] 分別聚合通道和局部內容信息。然后,我們將混合特征沿通道維度分成兩部分,FgatelF^{l}_{gate}Fgatel?FconlF^{l}_{con}Fconl?。經過 GELU 非線性函數激活后,FgatelF^{l}_{gate}Fgatel? 通過逐點乘法對 FconlF^{l}_{con}Fconl? 進行門控。我們通過這種門控機制實現了空間和通道的自適應性。GFM 的詳細結構如圖 3? 所示。在第 lll 個 (l∈{1,2,...,L}l\in\{1,2,...,L\}l{1,2,...,L}) 階段的操作可以表示為:

Fgatel,Fconl=DConv3(PConv([Frawl,Fdnl])),F^{l}_{gate},F^{l}_{con} =\text{DConv3}(\text{PConv}([F^{l}_{raw},F^{l}_{dn}])),Fgatel?,Fconl?=DConv3(PConv([Frawl?,Fdnl?])),

Ffusel=PConv(Fconl⊙GELU(Fgatel))+Frawl,F^{l}_{fuse} =\text{PConv}(F^{l}_{con}\odot\text{GELU}(F^{l}_{gate}))+F^{l}_{raw},Ffusel?=PConv(Fconl?GELU(Fgatel?))+Frawl?,

其中 DConv3 和 PConv 分別表示核為 3×33\times 33×3 的深度卷積和逐點卷積。⊙\odot 表示哈達瑪積 (hadamard product)。FrawlF^{l}_{raw}Frawl? 是在原始 RAW 編碼器中第 lll 個上采樣層之后獲得的特征。FflF^{l}_{f}Ffl? 是對應的融合特征。

一個逐點卷積在這個融合特征上執行通道混合。混合后的特征被送入 RAW 編碼器中的下一個 CID 塊以進行進一步精煉。

殘差開關機制 (Residual Switch Mechanism)。 如圖 2 所示,我們僅在 RAW 域的去噪階段保留全局捷徑 (global shortcut) 以獲得更好的去噪效果 [22, 43],而在色彩恢復階段移除它以避免噪聲 RAW 域和干凈 sRGB 域之間的模糊連接。因此,編碼器在去噪時需要執行噪聲估計,而在色彩恢復時需要重建信號。為了在單個編碼器中實現這兩種矛盾的功能,我們提出了一種簡單而有效的殘差開關機制 (Residual Switch Mechanism, RSM),如圖 3(a) 所示,使共享 RAW 編碼器中的 CID 塊能夠產生兩種矛盾的特征:噪聲和信號。在具有全局殘差連接的去噪階段,局部殘差捷徑 (local residual shortcuts) 被關閉以估計噪聲。相反,在渲染階段觸發局部殘差,通過捷徑上的原始特征抵消噪聲,最終重建信號。如圖 4 所示,共享 RAW 編碼器的 CID 塊能夠通過 RSM 在不同階段產生兩種不同的特征。然而,沒有 RSM,權重共享的 CID 塊在色彩恢復階段無法區分噪聲和信號,導致特征模糊。殘留的噪聲阻礙了色彩校正過程,并再次引入了域模糊性。

訓練目標

為了順序完成由特定領域任務解耦解耦出的 RAW 去噪和色彩恢復子任務,我們在不同域上引入了兩種不同的監督,干凈 RAW 和干凈 sRGB。真實標簽 (ground truth) 是清晰的 RAW 圖像 YrawY_{raw}Yraw?。我們將去噪解碼器的輸出 RAW 圖像表示為 Y^raw\hat{Y}_{raw}Y^raw?。我們網絡的損失函數是:

L=∥Yraw?Y^raw∥1+∥Yrgb?Y^rgb∥1,L=\left\|Y_{raw}-\hat{Y}_{raw}\right\|_{1}+\left\|Y_{rgb}-\hat{Y}_{ rgb}\right\|_{1},L=?Yraw??Y^raw??1?+?Yrgb??Y^rgb??1?,

其中 YrgbY_{rgb}Yrgb? 是真實標簽 sRGB 圖像。值得注意的是,在我們的方法中,RAW 監督和 sRGB 監督都只采用了 L1L_{1}L1? 損失,而不是像之前的方法 [7, 30, 32, 42, 47] 那樣混合復雜的損失函數。訓練細節和詳細的網絡架構可在補充材料中找到。

4 實驗與分析

數據集與評估指標

我們在兩個不同的基于 RAW 的 LLIE 數據集上對我們的 DNF 進行了基準測試,暗光視覺 (See-In-the-Dark, SID) [2] 數據集和單色 RAW 配對 (Mono-Colored Raw Paired, MCR) [4] 數據集。SID [2] 數據集包含 5094 張極低光照 RAW 圖像及相應的正常光照參考圖像,由兩臺相機拍攝:采用 Bayer 傳感器、分辨率為 4240 × 2832 的 Sony A752,以及采用 X-Trans 傳感器、分辨率為 6000 × 4000 的 Fuji X-T2。低光照圖像的曝光時間從 0.1s 到 0.033s 不等,參考圖像的曝光時間是低光照圖像的 100 到 300 倍。請注意,在 Sony 子集的測試集中,三個場景的長短對沒有對齊,因此我們在測試階段遵循之前的方法 [22, 47] 丟棄這些圖像。為了公平比較,所有對比方法都在相同的設置下進行評估。MCR [4] 數據集包含 4980 張分辨率為 1280 × 1024 的訓練和測試圖像,包括 3984 張低光照 RAW 圖像、498 張單色圖像和 498 張 sRGB 圖像。包含室內和室外兩種不同的場景,設置了不同的曝光時間,室內場景為 1/256s 到 3/8s,室外場景為 1/4096s 到 1/32s。然而,沒有提供 RAW 格式的真實標簽,而這對于訓練我們的方法是必不可少的。因此,我們選擇每個場景曝光時間最長的圖像作為 RAW 真實標簽。同時,單色圖像在我們的 DNF 中不予考慮。我們將 PSNR、SSIM [31] 和 LPIPS [44] 分別作為像素級、結構性和感知評估的定量評估指標。

與最先進方法的比較

我們在 SID [2] 和 MCR [4] 數據集的 Sony 和 Fuji 兩個子集上評估我們的 DNF,并將其與最先進的基于 RAW 的 LLIE 方法進行比較,包括單階段方法 SID [2], DID [22], SGN [5], LLPack-Net [12] 和 RRT [13],以及多階段方法 EEMEFN [47], LDC [35], RRENet [7] 和 MCR [4]。

定量評估。 如表 1 和表 2 所示,我們的方法大幅超越了之前的最先進方法。在 SID 數據集上,我們的 DNF 取得了最佳的 PSNR 和 LPIPS 分數,在 Sony 和 Fuji 子集上分別比第二名方法提高了 0.97 dB 和 1.30 dB 的 PSNR,以及 0.005 和 0.023 的 LPIPS。請注意,LDC [35] 和 MCR [4] 是在不同的方案1下訓練和測試的,這可能導致更好的性能。關于復雜度,我們的 DNF 的參數量和 FLOPs 明顯少于當前最佳方法( MCR 和 EEMEFN)。我們的網絡分別比 MCR 和 EEMEFN 少用了 1/5 和 1/15 的參數,以及 3/5 和 1/13 的 FLOPs。在 MCR 數據集上,如表 2 所示,我們的方法實現了最佳的 PSNR 和 SSIM 分數,以更少的參數和 FLOPs 超過了之前的最先進方法 0.31dB(PSNR)和 0.07(SSIM)。

定性評估。 圖 5 和圖 6 展示了在 SID [2] 數據集上的定性結果。可以看出,由于去噪能力有限,對比方法增強的結果存在嚴重的內容失真和偽影。此外,得益于解耦和反饋架構,色彩轉換和增強更準確,不受噪聲干擾,因此表現出更好的色彩一致性以及更真實、生動的色彩渲染。我們的方法成功地抑制了密集的噪聲,同時保留了豐富的紋理細節。在 MCR 數據集上的定性比較可在補充材料中找到。

消融研究

我們對提出的 DNF 進行了廣泛的消融研究。所有實驗均在 SID [2] 的 Sony 子集上進行。

特定領域任務解耦。 為了更好地評估我們特定領域任務解耦的影響,我們在去噪解碼器上引入了不同類型的中間監督,如表 3 所示。1) 沒有監督 (w/o Sup.) 無法將去噪先驗反饋回共享 RAW 編碼器,導致 PSNR 下降 0.14dB。2) sRGB 監督 (sRGB Sup.) 將主任務解耦為第一階段增強和細節重建,類似于 [47, 35]。第一階段增強由于直接從噪聲 RAW 學習到干凈 sRGB 域而遭受域模糊性,導致 PSNR 下降 0.42dB。sRGB Sup. 和 w/o Sup. 之間的比較(下降 0.28dB)表明域模糊性嚴重制約了網絡的性能。

去噪先驗反饋。 為了驗證我們基于反饋機制的框架的有效性,我們首先在表 3 中檢查了我們框架的單階段和多階段(兩階段,類似于大多數現有方法 [7, 4, 47, 35])變體。1) 單階段變體(通過直接級聯 RAW 編碼器和 sRGB 解碼器)導致 PSNR 下降 0.46dB。2) 多階段變體簡單地級聯了兩個分別配備 CID 塊和 MCC 塊的 UNet [27]。有損圖像級數據流嚴重惡化了性能,導致 PSNR 下降 0.30dB。

門控融合模塊 (Gated Fusion Module)
采用了其他三種融合模塊:傳統的卷積層(下降 0.22dB)、沒有門控機制的深度卷積(下降 0.27dB)和專用于特征融合的 SKFF [10, 40] 模塊(下降 0.25dB)。由于門控機制提供的逐像素選擇,我們的方法享有最佳性能。

殘差開關機制 (Residual Switch Mechanism)。 如表 4 所示,與完全不使用任何殘差捷徑相比,利用全局殘差捷徑提高了性能(上升 0.06dB)。然而,色彩恢復階段的全局捷徑會通過引入域模糊性而限制性能(下降 0.03dB)。使用或禁用所有局部捷徑的實驗引入了功能矛盾,從而導致不同程度的性能下降(與 DNF 相比分別下降 0.33dB 和 0.30dB)。與實現殘差開關機制的另一種方法(在去噪時開啟或在色彩恢復時關閉)相比,在色彩恢復階段開啟 CID 塊的局部捷徑提供了更多關于圖像內容的信息,從而實現了更高的性能。

與其他特征級數據流的比較。 如表 5 所示,與一個特征級數據流的多階段框架相比,我們的模型產生了最佳性能,這驗證了殘差開關機制 (RSM) 的有效性。該特征級多階段框架保留了門控融合模塊,但涉及兩個不同的 RAW 編碼器。結果表明,權重共享的編碼器可以通過我們提出的 RSM 執行兩種不同的功能。此外,噪聲估計和信號重建這兩種互補功能相互補充,以實現更好的性能。

5 結論

鑒于 RAW 格式的獨特屬性,我們提出了一種用于基于 RAW 的低光照圖像增強的解耦與反饋框架。作為一個通用流程,提出的 DNF 克服了先前方法的固有局限性。特定領域任務解耦消除了單階段方法引起的域模糊性,而去噪先驗反饋取代了采用有損圖像級數據流的多階段方法。顯著的性能和廣泛的實驗表明了所提出框架的優越性,以及 RAW 圖像在低光照增強方面的巨大潛力。

局限性。 所提出框架的一個剩余局限性(也與大多數現有方法共享)是輸入圖像的放大倍數是根據曝光時間預先定義的。在極低光照條件下,估計正常光照在現實場景中至關重要且困難。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/90352.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/90352.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/90352.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

論文精讀《Frequency domain watermarking: An overview》

1. 數字水印技術基礎概念與發展背景 數字水印技術作為信息隱藏領域的核心分支,其發展歷程可以追溯到20世紀90年代中期計算機網絡和信息技術的快速發展時期。隨著大量版權作品以數字文件形式存在,電子出版逐漸普及,傳統的版權保護方法面臨前所未有的挑戰。數字水印技術應運而…

北斗短報文兜底、5G-A增強:AORO P1100三防平板構建應急通信網絡

公網中斷的災區現場,泥石流阻斷了最后一條光纜。一支救援隊卻在廢墟間有序穿行,隊長手中的三防平板正閃爍著北斗衛星信號,定位坐標與傷亡信息化作一行行短報文,穿透通信孤島直達指揮中心。這是AORO P1100三防平板搭載的北斗短報文…

Java排序算法之<冒泡排序>

目錄 1、冒泡排序介紹 2、算法步驟 3、Java 實現(帶優化) 4、算法復雜度分析 5、優點與缺點 前言 排序算法的“進化路線”: 冒泡排序 → 選擇排序 → 插入排序 → 希爾排序 → 快速排序 → 歸并排序 → 堆排序↓Java 內置排序&#xff…

生活毫無頭緒就毫無頭緒吧(7.24)

最近好長一段時間沒有記錄了明顯感覺自己陷入了混亂中作息規律,專注力,心流,營養的飯菜如今下筆也沒有什么頭緒,前些日子本有感想但是又疲于記錄,忘了許許多多最近在寫論文,但嘗試了游泳——蛙泳感覺太神奇…

vulhub-master 靶場Apache(httpd)漏洞

apache_parsing_vulnerability 漏洞原理在Apache1.x/2.x中Apache 解析?件的規則是從右到左開始判斷解析,如果后綴名為不可識別?件解析,就再往左判斷。如 1.php.xxxxx,Apache會試圖識別你的代碼,從右往左一個一個試。漏洞攻略參加一個1.php.jpg文件&…

Python 數據分析(一):NumPy 基礎知識

目錄 1. 簡介2. 使用 2.1 ndarray2.2 數據類型2.3 索引與切片2.4 副本與視圖2.5 軸的概念2.6 基本運算2.7 常用操作 1. 簡介 NumPy(Numerical Python)是一個開源的 Python 科學計算擴展庫,主要用來處理任意維度數組與矩陣,通常…

編程與數學 03-002 計算機網絡 04_數據鏈路層功能

編程與數學 03-002 計算機網絡 04_數據鏈路層功能一、數據鏈路層的基本任務(一)封裝成幀(二)差錯控制(三)流量控制二、差錯檢測與糾正方法(一)常用的差錯檢測碼(二&#…

latex中既控制列內容位置又控制列寬,使用>{\centering\arraybackslash}p{0.85cm}

示例:\usepackage{array} % 為 >{...} 修飾符提供支持\begin{table*}[ht!]\centering \begin{tabular}{p{2.8cm} >{\centering\arraybackslash}p{0.85cm} >{\centering\arraybackslash}p{0.85cm} >{\centering\arraybackslash}p{0.85cm} >{\ce…

醫療數據挖掘Python機器學習案例

1. 醫療數據挖掘概述 醫療數據挖掘是從大量的醫療數據中提取有價值信息和知識的過程,旨在輔助醫療決策、疾病預測、治療方案優化等。隨著醫療信息化的發展,電子病歷、醫療影像、基因數據等多源異構數據不斷積累,為醫療數據挖掘提供了豐富的素…

人工智能概述

🌟 歡迎來到AI奇妙世界! 🌟 親愛的開發者朋友們,大家好!👋 我是人工智能領域的探索者與分享者,很高興在CSDN與你們相遇!🎉 在這里,我將持續輸出AI前沿技術、實…

C++性能優化擂臺技術文章大綱

引言性能優化在C開發中的重要性擂臺賽形式的優勢:激發創意,展示不同優化技巧目標讀者:中高級C開發者擂臺賽規則設計統一基準測試環境(硬件、編譯器、優化標志)參賽代碼需通過功能正確性驗證性能指標:執行時…

AI人工智能時代,Bard的智能家政服務助手

AI人工智能時代,Bard的智能家政服務助手 關鍵詞:人工智能、智能家居、Bard助手、機器學習、自然語言處理、物聯網、智能服務 摘要:本文深入探討了AI人工智能時代下,基于Bard技術的智能家政服務助手的實現原理、技術架構和應用場景。我們將從核心技術入手,分析其背后的機器…

MySQL(155)什么是MySQL的事件調度器?

MySQL的事件調度器(Event Scheduler)是一種強大的工具,用于在指定的時間間隔或特定時間點自動執行SQL語句。它類似于操作系統中的任務計劃程序或Cron作業,適用于需要定時執行的任務,如數據歸檔、定期報告生成、定時清理…

【Zephyr開發實踐系列】09_LittleFs文件系統操作

文章目錄前言編寫目的術語和縮寫詞方案選擇一、Littlefs介紹二、Littlefs搭建步驟1.設備樹構建2.自動掛載流程(二選一)2.1設備樹啟用自動掛載2.2 在 littlefs_fs.c 中,設備樹宏會被展開2.3 模塊注冊初始化2.4 初始化階段2.4.1注冊Littlefs文件…

保護板測試儀:守護電池安全的“幕后衛士”

在現代科技飛速發展的今天,電池作為各類電子設備和新能源系統的核心動力源,其安全性與穩定性直接關系到設備的正常運行和使用者的安全。而保護板作為電池的“安全衛士”,承擔著過充保護、過放保護、短路保護等關鍵功能。保護板測試儀則是專門…

【unitrix】 6.11 二進制數字標準化模塊(normalize.rs)

一、源碼 這個模塊實現了類型級別的二進制數標準化處理&#xff0c;確保二進制數在組合時保持最簡形式。 //! 二進制數字標準化模塊 //! //! 提供二進制數字(B<H, L>)的組合前標準化功能&#xff0c;確保數字以最簡形式表示&#xff0c; //! 避免同一數值有不同表示形式。…

解決OpenHarmony中找不到pthread_cancel和pthread_setcanceltype等libc符號的問題

筆者在移植三方庫到OpenHarmony時遇到了pthread_cancel和pthread_setcanceltype函數找不到的問題&#xff0c;將解決辦法分享如下&#xff1a; OpenHarmony的使用的c庫musl中注釋了這些函數的導出&#xff0c;在third_party/musl/libc.map.txt將屏蔽的函數中取消注釋即可

Python編程進階知識之第五課處理數據(matplotlib)

簡介matplotlib 是 Python 中最流行的數據可視化庫之一&#xff0c;它可以創建各種高質量的圖表。無論是簡單的折線圖&#xff0c;還是復雜的 3D 圖形&#xff0c;matplotlib 都能輕松應對。它提供了類似 MATLAB 的繪圖接口&#xff0c;使得用戶可以非常方便地進行圖表的創建和…

rust-所有權

什么是所有權 所有權是一組規則&#xff0c;它決定了 Rust 程序如何管理內存。所有運行中的程序都必須管理它們對計算機內存的使用方式。某些語言使用垃圾回收&#xff08;GC&#xff09;&#xff0c;在程序運行時定期查找不再使用的內存&#xff1b;另一些語言則要求程序員顯式…

破解哈希極化:基于主動路徑規劃的智算網絡負載均衡方案

如今人工智能&#xff08;AI&#xff09;和大模型訓練的蓬勃發展&#xff0c;大規模AI算力集群&#xff08;智算集群&#xff09;已成為關鍵基礎設施。這類集群對網絡性能&#xff0c;特別是高吞吐、低延遲和無損特性有著嚴苛要求&#xff0c;RoCE因此被廣泛應用。然而&#xf…