DNF:用于暗光視覺的解耦與反饋網絡
摘要
RAW 數據的獨特屬性在低光照圖像增強方面展現出巨大潛力。然而,現有架構在單階段和多階段方法中的固有局限性限制了其性能。跨兩個不同域(噪聲到干凈和 RAW 到 sRGB)的混合映射,由于域模糊性 (domain ambiguity) 誤導了單階段方法。多階段方法僅通過每個階段的結果圖像傳播信息,忽略了有損圖像級數據流中的豐富特征。在本文中,我們探究了解決這些瓶頸的通用方案,并提出了一種解耦與反饋 (Decouple aNd Feedback) 框架,縮寫為 DNF。為了緩解域模糊性,我們解耦了特定領域的子任務,并充分利用了 RAW 和 sRGB 域中的獨特屬性。通過反饋機制實現跨階段的特征傳播,避免了由圖像級數據流引起的信息損失。我們方法的兩個關鍵見解令人滿意地解決了基于 RAW 數據的低光照圖像增強的固有局限性,使我們的方法以僅 19% 的參數大幅超越之前的最先進方法,在 SID 的 Sony 和 Fuji 子集上分別實現了 0.97dB 和 1.30dB 的 PSNR 提升。
1 引言
低光照場景下的成像越來越受到關注,尤其是隨著智能手機和監控系統上夜景模式的普及。然而,由于極低的信噪比,低光照圖像增強 (Low-Light Image Enhancement, LLIE) 是一項具有挑戰性的任務。最近,深度學習解決方案被廣泛研究以解決不同數據域中的這一任務,范圍從基于 sRGB 的方法 [14, 15, 21, 40] 到基于 RAW 的方法 [2, 7, 35, 47]。與 sRGB 數據相比,包含未處理信號的 RAW 數據在三個方面對 LLIE 有益:1) 在 RAW 域中,信號與光子計數線性相關,2) 在圖像信號處理 (Image Signal Processing, ISP) 流水線 [33] 之前,RAW 圖像上的噪聲分布是可處理的 (tractable),3) RAW 格式更高的位深記錄了更多可區分的低強度信號。
開創性工作 SID [2] 提出了一個用于基于 RAW 的 LLIE 的大規模配對數據集,重新點燃了對數據驅動方法的興趣。如圖 1 所示,一類工作 [2, 5, 12, 13, 22, 42] 專注于設計單階段網絡架構,另一類 [4, 7, 35, 47] 則利用多階段網絡進行漸進式增強。盡管性能有很大提升,但兩種架構仍然受到固有局限性的制約。首先,當前的單階段方法強制神經網絡學習從噪聲 RAW 域到干凈 sRGB 域的直接映射,跨越兩個不同域(噪聲到干凈和 RAW 到 sRGB)的混合映射會誤導整體增強過程,導致域模糊性問題。例如,RAW 圖像中可處理的噪聲在色彩空間轉換過程中會被映射到不可預測的分布。因此,色彩偏移和未處理的噪聲不可避免地出現在最終結果中。其次,現有的多階段方法通過級聯子網絡組成流程,每個子網絡負責基于上一階段的輸出圖像進行漸進式增強。在它們采用圖像級數據流的設計下,只有圖像在多個階段間前向傳播,后一階段只能從前一階段的結果中獲取信息。同時,每個階段中的每個子網絡都可能由于下采樣操作或單獨的目標函數 [41] 而導致信息損失。因此,次優的性能與有損圖像級數據流密切相關。誤差隨著階段傳播、累積和放大,最終無法重建紋理細節。
為了利用 RAW 圖像在 LLIE 中的潛力,需要一個超越上述兩個限制的通用流程。具體來說,神經網絡應該利用不同域中的上述優點 [7],而不是被域模糊性所混淆。根據 RAW 和 sRGB 域的獨特屬性,有必要將增強解耦為特定領域的子任務。在探索了 RAW 域中的線性和可處理噪聲之后,可以有意識地執行從 RAW 域到 sRGB 域的色彩空間轉換,而不受噪聲干擾。此外,流程不能阻礙階段間的通信,而不是僅允許一小部分有損信息通過的圖像級數據流。由于不同的子任務,每個層級的中間特征往往是互補的 [20, 46]。同時,多尺度特征保留了紋理和上下文信息,為后續階段提供了額外的指導 [41]。因此,需要不同階段的特征在數據流中傳播,聚合豐富的特征并保持信息的完整性。特定領域的解耦,加上特征級數據流,有助于提高可學習性以獲得更好的增強性能,并保持方法的可解釋性。
基于這些原則,我們提出了一個解耦與反饋 (Decouple and Feedback, DNF) 框架,包含以下為基于 RAW 的 LLIE 量身定制的設計。增強過程被解耦為兩個特定領域的子任務:RAW 域中的去噪 [30, 33, 45, 48] 和到 sRGB 域的色彩恢復 [8, 28, 39],如圖 1(c)1(c)1(c) 所示。在先前工作 [27] 中常用的編碼器-解碼器架構下,子網絡中的每個模塊都源自每個域的專有屬性:用于 RAW 去噪的通道獨立去噪 (Channel Independent Denoising, CID) 塊,以及用于色彩渲染的矩陣化色彩校正 (Matrixed Color Correction, MCC) 塊。此外,我們不使用不準確的去噪 RAW 圖像,而是將來自 RAW 解碼器的多尺度特征作為去噪先驗。然后,這些特征通過提出的門控融合模塊 (Gated Fusion Modules, GFM) 流入共享的 RAW 編碼器,自適應地區分紋理細節和殘留噪聲。經過去噪先驗反饋 (Denoising Prior Feedback) 后,信號進一步與噪聲區分開來,在 RAW 域中產生完整且豐富的特征。得益于特征級數據流,MCC 塊的解碼器可以有效地處理剩余的增強和到 sRGB 域的色彩轉換。
主要貢獻總結如下:
- 特定領域任務解耦擴展了對 RAW 和 sRGB 域中獨特屬性的利用,避免了域模糊性。
- 由去噪先驗反饋賦能的特征級數據流減少了誤差累積,并聚合了跨階段的互補特征。
- 與之前的最先進方法相比,所提出的方法僅使用 19% 的參數和 63% 的 FLOPs 就獲得了顯著的提升,例如在 SID 的 Sony 數據集上 PSNR 提高了 0.97dB,在 SID 的 Fuji 數據集上 PSNR 提高了 1.30dB。
2 相關工作
基于 RAW 的低光照圖像增強
正如我們在第 1 節提到的,由于其獨特的屬性,RAW 圖像在極低光照條件下的圖像增強中得到了廣泛探索。如圖 1 所示,基于 RAW 的方法通常根據是否存在中間監督分為兩類:單階段和多階段。單階段方法 [2, 5, 12, 13, 22, 42] 旨在迫使深度神經網絡學習從噪聲 RAW 域到干凈 sRGB 域的直接映射。為了獲得更好的性能,采用了多種嘗試,包括相似性和感知損失 [42]、殘差學習 [22]、多尺度特征 [5] 和輕量化 [12, 13]。然而,由于域模糊性,上述單階段方法通常無法恢復紋理細節。多階段方法 [4, 7, 35, 47] 被提出來解決單階段方法的局限性。通過在 sRGB 域上進行中間監督,EEMEFN [47] 和 LDC [35] 在第二階段重建了細節。不同域上的中間監督用于不同的目的,例如 RAW 域用于解耦 [7],單色域用于低光照信息補充 [4]。然而,所有現有的多階段方法共享相同的架構,即級聯編碼器-解碼器 [27]。它們的圖像級數據流導致了跨階段的誤差累積。我們提出的方法與現有方法在兩個方面不同:1) 采用特定領域解耦架構以充分利用 RAW 和 sRGB 格式的特性。2) 采用特征級反饋架構來處理圖像級數據流的誤差累積。
解耦機制
解耦機制旨在將原始任務劃分為幾個更簡單的子任務,然后顯式地攻克它們。通過適當的解耦,神經網絡可以更容易收斂,從而獲得更好的性能。Li 等人 [18] 將外推任務解耦為邊界框布局生成、分割布局生成和圖像生成。合理的解耦通過邊界框和分割布局這兩個立足點減少了文本和圖像之間的領域差距。最近的修復 (inpainting) 工作 [16, 25, 26] 旨在將修復任務解耦為結構和紋理重建以獲得更好的結果。在高級任務 [11] 中,將領域自適應任務解耦為特征分布對齊和分割獲得了性能提升。我們通過特定領域任務解耦來實現這一機制,將 LLIE 任務解耦為 RAW 去噪和色彩恢復。
反饋機制
反饋機制使網絡能夠訪問先前狀態的掌握情況。這一思想已應用于許多任務:分類 [37]、超分辨率 [17, 19] 和點云補全 [36]。引入反饋機制后,Li 等人 [19] 采用課程學習策略進行漸進式恢復。Yan 等人 [36] 旨在利用高分辨率特征通過反饋機制豐富低分辨率特征。所有現有方法都應用反饋機制來逐步完成單一任務,這與我們的方法不同。我們的反饋機制使我們的網絡能夠在兩個不同的子任務之間進行通信,并且是在不同的領域中。
3 方法
如圖 2 所示,提出的解耦與反饋框架包含兩個階段:RAW 去噪和色彩渲染,以漸進式增強低光照 RAW 圖像。給定輸入圖像 XrawX_{raw}Xraw?,乘以預定義的放大倍數 [2] 后,放大的圖像 XXX 首先在 RAW 域中被編碼器 ErawE_{raw}Eraw? 和解碼器 DrawD_{raw}Draw? 去噪。然后,我們不使用不準確的 Y^raw\hat{Y}_{raw}Y^raw? 進行色彩渲染,而是將來自 DrawD_{raw}Draw? 的去噪特征 Fdn\mathbf{F}_{dn}Fdn? 反饋給 Eraw′E^{\prime}_{raw}Eraw′?,利用去噪先驗進一步區分信號,并在 RAW 域中組合出豐富的特征。最后,sRGB 解碼器 DrgbD_{rgb}Drgb? 接收 RAW 域中的多尺度特征,渲染出 sRGB 域中的最終輸出 Y^rgb\hat{Y}_{rgb}Y^rgb?。
具體來說,一個共享編碼器 ErawE_{raw}Eraw? 和兩個解碼器 (DrawD_{raw}Draw? 和 DrgbD_{rgb}Drgb?) 是專門為通過特定領域任務解耦(包含任務特定塊,見第 3.1 節)解耦的子任務設計的。引入了通道獨立去噪 (Channel Independent Denoising, CID) 塊來學習 RAW 域中不同顏色通道中可處理且獨立的噪聲分布。根據色彩空間的定義,矩陣化色彩校正 (Matrixed Color Correction, MCC) 塊使用全局矩陣變換完成到 sRGB 域的剩余增強。此外,我們結合了一個去噪先驗反饋機制以避免跨階段的誤差累積。利用從 RAW 解碼器提取的去噪特征 Fdn\mathbf{F}_{dn}Fdn?,RAW 編碼器用高頻信息豐富了淺層特征。此外,提出了一個帶門控機制 [17] 的門控融合模塊 (Gated Fusion Module, GFM),用于自適應地探索埋在噪聲中的細節(見第 3.2 節)。
特定領域任務解耦
我們提出特定領域任務解耦 (Domain-Specific Task Decoupling) 來處理由噪聲到干凈和 RAW 到 sRGB 的混合映射引起的域模糊性。噪聲 RAW 和干凈 sRGB 域之間的鴻溝使得網絡難以學習跨越這兩個域的直接映射。因此,我們建議在鴻溝之間引入對干凈 RAW 域的中間監督,以緩解直接學習混合映射的困難。通過對干凈 RAW 域的中間監督,我們可以:1) 將增強解耦為 RAW 去噪和色彩恢復,2) 充分利用 RAW 圖像上噪聲分布可處理的特性進行去噪,3) 減少色彩恢復過程中的噪聲干擾,從而減少色彩偏移。
在 RAW 域中去噪。 如圖 2 所示,我們堆疊多個通道獨立去噪 (CID) 塊來實現 RAW 編碼器 ErawE_{raw}Eraw? 和 RAW 解碼器 DrawD_{raw}Draw?。CID 塊的設計基于以下兩個先驗知識:1) RAW 格式的低光照圖像受到與信號無關的噪聲影響,該噪聲服從零均值分布 [9, 33],2) 由于不同通道的信號在 RAW 域中本質上相關性較低 [34, 24],噪聲分布往往在通道間是獨立的。因此,我們需要對幾乎相同的信號(相鄰像素)進行突發觀測 (burst observations) 以去除零均值噪聲的干擾。此外,在去噪過程中防止通道間信息交換對于處理通道獨立噪聲分布是必不可少的。根據以上討論,我們在 CID 塊中引入具有大核的深度卷積 (depth-wise convolution) 進行去噪。CID 塊的詳細結構如圖 3(a) 所示。具體來說,對于輸入特征 FinF_{in}Fin?,經過通道獨立去噪塊后的輸出特征 FoutF_{out}Fout? 可以表示為:
Fout=MLP(DConv7(Fin))+Fin,F_{out}=\texttt{MLP}(\texttt{DConv7}(F_{in}))+F_{in},Fout?=MLP(DConv7(Fin?))+Fin?,
其中 DConv7\texttt{DConv7}DConv7 是使用 7×77\times 77×7 核的深度卷積。MLP 由兩個逐點卷積層 (point-wise convolutional layers) 和一個 GELU [6] 非線性函數實現。同時,設置了一個殘差開關 (residual switch) 來執行兩種不同的功能(通過權重共享的 CID 塊),詳見第 3.2 節。
從 RAW 到 sRGB 的色彩校正。 矩陣變換通常用于規范的 ISP 流水線 [23]。由于全局共享的設置,如環境光照和色彩空間規范,圖像的色彩主要通過通道級矩陣變換來增強或轉換到另一個色彩空間。遵循這一原則,我們引入矩陣化色彩校正 (Matrixed Color Correction, MCC) 塊來執行全局色彩增強以及局部細化,如圖 3(b) 所示。對于 sRGB 解碼器 DrgbD_{rgb}Drgb?,我們堆疊多個 MCC 塊進行色彩校正。該塊的設計受益于轉置自注意力 (transposed self-attention) 的最新進展 [38]。它的全局感受野和通道級操作非常適合規范 ISP 中的色彩校正。給定輸入源特征 Fsource∈RC×H×WF_{source}\in\mathbb{R}^{C\times H\times W}Fsource?∈RC×H×W,首先通過一個 1×11\times 11×1 卷積層、一個 3×33\times 33×3 深度卷積和一個展平 (flatten) 操作生成查詢 Q∈RC×HWQ\in\mathbb{R}^{C\times HW}Q∈RC×HW、鍵 K∈RC×HWK\in\mathbb{R}^{C\times HW}K∈RC×HW 和值 V∈RC×HWV\in\mathbb{R}^{C\times HW}V∈RC×HW 的向量。然后,通過矩陣乘法獲得變換矩陣 M∈RC×CM\in\mathbb{R}^{C\times C}M∈RC×C。該過程可以表示為:
Q,K,V=Flatten(DConv3(PConv(Fsource))),Q,K,V=\texttt{Flatten}(\texttt{DConv3}(\texttt{PConv}(F_{source} ))),Q,K,V=Flatten(DConv3(PConv(Fsource?))),
M=Softmax(Q?KT/λ),M=\texttt{Softmax}(Q\cdot K^{T}/\lambda),M=Softmax(Q?KT/λ),
其中應用縮放系數 λ\lambdaλ 以保證數值穩定性。然后,色彩向量 VVV 被矩陣 MMM 變換,在特征級執行色彩空間轉換。色彩變換后的目標特征可以通過 Ftarget=M?VF_{target}=M\cdot VFtarget?=M?V 獲得。作為全局矩陣變換的補充,我們使用一個深度卷積和一個逐點卷積來進一步細化局部細節。
去噪先驗反饋
在以前的基于 RAW 的方法 [4, 7, 35, 47] 中,一部分高頻內容在增強過程中被錯誤地識別為噪聲,嚴重惡化了最終結果,導致細節丟失并產生有損數據流。為了避免現有多階段方法的有損圖像級數據流,我們提出了一種具有特征級信息傳播的去噪先驗反饋 (Denoising Prior Feedback) 機制。我們將 Fdn={Fdn1,Fdn2,...,FdnL}\mathbf{F}_{dn}=\{F_{dn}^{1},F_{dn}^{2},...,F_{dn}^{L}\}Fdn?={Fdn1?,Fdn2?,...,FdnL?} 表示為從 RAW 解碼器 DrawD_{raw}Draw? 提取的一組去噪特征,其中 LLL 表示階段數。Fdn\mathbf{F}_{dn}Fdn? 的每個元素主要包含 RAW 域中不同尺度的最終噪聲估計信息。具體來說,這些特征使噪聲更易區分,并作為進一步去噪的指導。通過將去噪特征集 Fdn\mathbf{F}_{dn}Fdn? 通過多個反饋連接 [19, 1, 29] 重路由到 RAW 編碼器的相應階段,編碼器利用上一次估計逐漸生成更好的去噪特征以進行進一步增強。因此,sRGB 解碼器 DrgbD_{rgb}Drgb? 可以更專注于色彩校正。反饋流程如圖 2 所示,可表示為:
Fdn=Draw(Eraw(X)),Frdn=Eraw′(X,Fdn),\mathbf{F}_{dn}=D_{raw}(E_{raw}(X)),\quad F_{rdn}=E^{\prime}_{raw}(X,\mathbf{F}_{dn}),Fdn?=Draw?(Eraw?(X)),Frdn?=Eraw′?(X,Fdn?),
其中 FrdnF_{rdn}Frdn? 表示將轉發到 sRGB 解碼器的精煉去噪特征。Eraw′E^{\prime}_{raw}Eraw′? 表示 RAW 編碼器,它不僅包含 ErawE_{raw}Eraw? 的權重,還配備了 LLL 個門控融合模塊 (GFMs)。每個 GFM 負責處理來自 Fdn\mathbf{F}_{dn}Fdn? 的一個反饋特征。
門控融合模塊 (Gated Fusion Modules, GFM)。 GFM 旨在通過門控機制 [17] 自適應地融合反饋噪聲估計與初始去噪特征。在特征門控期間,我們希望有用的信息能沿空間和通道維度自適應地被選擇和合并。為了效率,我們使用一個逐點卷積和一個深度卷積 [3] 分別聚合通道和局部內容信息。然后,我們將混合特征沿通道維度分成兩部分,即,FgatelF^{l}_{gate}Fgatel? 和 FconlF^{l}_{con}Fconl?。經過 GELU 非線性函數激活后,FgatelF^{l}_{gate}Fgatel? 通過逐點乘法對 FconlF^{l}_{con}Fconl? 進行門控。我們通過這種門控機制實現了空間和通道的自適應性。GFM 的詳細結構如圖 3? 所示。在第 lll 個 (l∈{1,2,...,L}l\in\{1,2,...,L\}l∈{1,2,...,L}) 階段的操作可以表示為:
Fgatel,Fconl=DConv3(PConv([Frawl,Fdnl])),F^{l}_{gate},F^{l}_{con} =\text{DConv3}(\text{PConv}([F^{l}_{raw},F^{l}_{dn}])),Fgatel?,Fconl?=DConv3(PConv([Frawl?,Fdnl?])),
Ffusel=PConv(Fconl⊙GELU(Fgatel))+Frawl,F^{l}_{fuse} =\text{PConv}(F^{l}_{con}\odot\text{GELU}(F^{l}_{gate}))+F^{l}_{raw},Ffusel?=PConv(Fconl?⊙GELU(Fgatel?))+Frawl?,
其中 DConv3 和 PConv 分別表示核為 3×33\times 33×3 的深度卷積和逐點卷積。⊙\odot⊙ 表示哈達瑪積 (hadamard product)。FrawlF^{l}_{raw}Frawl? 是在原始 RAW 編碼器中第 lll 個上采樣層之后獲得的特征。FflF^{l}_{f}Ffl? 是對應的融合特征。
一個逐點卷積在這個融合特征上執行通道混合。混合后的特征被送入 RAW 編碼器中的下一個 CID 塊以進行進一步精煉。
殘差開關機制 (Residual Switch Mechanism)。 如圖 2 所示,我們僅在 RAW 域的去噪階段保留全局捷徑 (global shortcut) 以獲得更好的去噪效果 [22, 43],而在色彩恢復階段移除它以避免噪聲 RAW 域和干凈 sRGB 域之間的模糊連接。因此,編碼器在去噪時需要執行噪聲估計,而在色彩恢復時需要重建信號。為了在單個編碼器中實現這兩種矛盾的功能,我們提出了一種簡單而有效的殘差開關機制 (Residual Switch Mechanism, RSM),如圖 3(a) 所示,使共享 RAW 編碼器中的 CID 塊能夠產生兩種矛盾的特征:噪聲和信號。在具有全局殘差連接的去噪階段,局部殘差捷徑 (local residual shortcuts) 被關閉以估計噪聲。相反,在渲染階段觸發局部殘差,通過捷徑上的原始特征抵消噪聲,最終重建信號。如圖 4 所示,共享 RAW 編碼器的 CID 塊能夠通過 RSM 在不同階段產生兩種不同的特征。然而,沒有 RSM,權重共享的 CID 塊在色彩恢復階段無法區分噪聲和信號,導致特征模糊。殘留的噪聲阻礙了色彩校正過程,并再次引入了域模糊性。
訓練目標
為了順序完成由特定領域任務解耦解耦出的 RAW 去噪和色彩恢復子任務,我們在不同域上引入了兩種不同的監督,即干凈 RAW 和干凈 sRGB。真實標簽 (ground truth) 是清晰的 RAW 圖像 YrawY_{raw}Yraw?。我們將去噪解碼器的輸出 RAW 圖像表示為 Y^raw\hat{Y}_{raw}Y^raw?。我們網絡的損失函數是:
L=∥Yraw?Y^raw∥1+∥Yrgb?Y^rgb∥1,L=\left\|Y_{raw}-\hat{Y}_{raw}\right\|_{1}+\left\|Y_{rgb}-\hat{Y}_{ rgb}\right\|_{1},L=?Yraw??Y^raw??1?+?Yrgb??Y^rgb??1?,
其中 YrgbY_{rgb}Yrgb? 是真實標簽 sRGB 圖像。值得注意的是,在我們的方法中,RAW 監督和 sRGB 監督都只采用了 L1L_{1}L1? 損失,而不是像之前的方法 [7, 30, 32, 42, 47] 那樣混合復雜的損失函數。訓練細節和詳細的網絡架構可在補充材料中找到。
4 實驗與分析
數據集與評估指標
我們在兩個不同的基于 RAW 的 LLIE 數據集上對我們的 DNF 進行了基準測試,即暗光視覺 (See-In-the-Dark, SID) [2] 數據集和單色 RAW 配對 (Mono-Colored Raw Paired, MCR) [4] 數據集。SID [2] 數據集包含 5094 張極低光照 RAW 圖像及相應的正常光照參考圖像,由兩臺相機拍攝:采用 Bayer 傳感器、分辨率為 4240 × 2832 的 Sony A752,以及采用 X-Trans 傳感器、分辨率為 6000 × 4000 的 Fuji X-T2。低光照圖像的曝光時間從 0.1s 到 0.033s 不等,參考圖像的曝光時間是低光照圖像的 100 到 300 倍。請注意,在 Sony 子集的測試集中,三個場景的長短對沒有對齊,因此我們在測試階段遵循之前的方法 [22, 47] 丟棄這些圖像。為了公平比較,所有對比方法都在相同的設置下進行評估。MCR [4] 數據集包含 4980 張分辨率為 1280 × 1024 的訓練和測試圖像,包括 3984 張低光照 RAW 圖像、498 張單色圖像和 498 張 sRGB 圖像。包含室內和室外兩種不同的場景,設置了不同的曝光時間,室內場景為 1/256s 到 3/8s,室外場景為 1/4096s 到 1/32s。然而,沒有提供 RAW 格式的真實標簽,而這對于訓練我們的方法是必不可少的。因此,我們選擇每個場景曝光時間最長的圖像作為 RAW 真實標簽。同時,單色圖像在我們的 DNF 中不予考慮。我們將 PSNR、SSIM [31] 和 LPIPS [44] 分別作為像素級、結構性和感知評估的定量評估指標。
與最先進方法的比較
我們在 SID [2] 和 MCR [4] 數據集的 Sony 和 Fuji 兩個子集上評估我們的 DNF,并將其與最先進的基于 RAW 的 LLIE 方法進行比較,包括單階段方法 SID [2], DID [22], SGN [5], LLPack-Net [12] 和 RRT [13],以及多階段方法 EEMEFN [47], LDC [35], RRENet [7] 和 MCR [4]。
定量評估。 如表 1 和表 2 所示,我們的方法大幅超越了之前的最先進方法。在 SID 數據集上,我們的 DNF 取得了最佳的 PSNR 和 LPIPS 分數,在 Sony 和 Fuji 子集上分別比第二名方法提高了 0.97 dB 和 1.30 dB 的 PSNR,以及 0.005 和 0.023 的 LPIPS。請注意,LDC [35] 和 MCR [4] 是在不同的方案1下訓練和測試的,這可能導致更好的性能。關于復雜度,我們的 DNF 的參數量和 FLOPs 明顯少于當前最佳方法(即 MCR 和 EEMEFN)。我們的網絡分別比 MCR 和 EEMEFN 少用了 1/5 和 1/15 的參數,以及 3/5 和 1/13 的 FLOPs。在 MCR 數據集上,如表 2 所示,我們的方法實現了最佳的 PSNR 和 SSIM 分數,以更少的參數和 FLOPs 超過了之前的最先進方法 0.31dB(PSNR)和 0.07(SSIM)。
定性評估。 圖 5 和圖 6 展示了在 SID [2] 數據集上的定性結果。可以看出,由于去噪能力有限,對比方法增強的結果存在嚴重的內容失真和偽影。此外,得益于解耦和反饋架構,色彩轉換和增強更準確,不受噪聲干擾,因此表現出更好的色彩一致性以及更真實、生動的色彩渲染。我們的方法成功地抑制了密集的噪聲,同時保留了豐富的紋理細節。在 MCR 數據集上的定性比較可在補充材料中找到。
消融研究
我們對提出的 DNF 進行了廣泛的消融研究。所有實驗均在 SID [2] 的 Sony 子集上進行。
特定領域任務解耦。 為了更好地評估我們特定領域任務解耦的影響,我們在去噪解碼器上引入了不同類型的中間監督,如表 3 所示。1) 沒有監督 (w/o Sup.) 無法將去噪先驗反饋回共享 RAW 編碼器,導致 PSNR 下降 0.14dB。2) sRGB 監督 (sRGB Sup.) 將主任務解耦為第一階段增強和細節重建,類似于 [47, 35]。第一階段增強由于直接從噪聲 RAW 學習到干凈 sRGB 域而遭受域模糊性,導致 PSNR 下降 0.42dB。sRGB Sup. 和 w/o Sup. 之間的比較(下降 0.28dB)表明域模糊性嚴重制約了網絡的性能。
去噪先驗反饋。 為了驗證我們基于反饋機制的框架的有效性,我們首先在表 3 中檢查了我們框架的單階段和多階段(兩階段,類似于大多數現有方法 [7, 4, 47, 35])變體。1) 單階段變體(通過直接級聯 RAW 編碼器和 sRGB 解碼器)導致 PSNR 下降 0.46dB。2) 多階段變體簡單地級聯了兩個分別配備 CID 塊和 MCC 塊的 UNet [27]。有損圖像級數據流嚴重惡化了性能,導致 PSNR 下降 0.30dB。
門控融合模塊 (Gated Fusion Module)
采用了其他三種融合模塊:傳統的卷積層(下降 0.22dB)、沒有門控機制的深度卷積(下降 0.27dB)和專用于特征融合的 SKFF [10, 40] 模塊(下降 0.25dB)。由于門控機制提供的逐像素選擇,我們的方法享有最佳性能。
殘差開關機制 (Residual Switch Mechanism)。 如表 4 所示,與完全不使用任何殘差捷徑相比,利用全局殘差捷徑提高了性能(上升 0.06dB)。然而,色彩恢復階段的全局捷徑會通過引入域模糊性而限制性能(下降 0.03dB)。使用或禁用所有局部捷徑的實驗引入了功能矛盾,從而導致不同程度的性能下降(與 DNF 相比分別下降 0.33dB 和 0.30dB)。與實現殘差開關機制的另一種方法(在去噪時開啟或在色彩恢復時關閉)相比,在色彩恢復階段開啟 CID 塊的局部捷徑提供了更多關于圖像內容的信息,從而實現了更高的性能。
與其他特征級數據流的比較。 如表 5 所示,與一個特征級數據流的多階段框架相比,我們的模型產生了最佳性能,這驗證了殘差開關機制 (RSM) 的有效性。該特征級多階段框架保留了門控融合模塊,但涉及兩個不同的 RAW 編碼器。結果表明,權重共享的編碼器可以通過我們提出的 RSM 執行兩種不同的功能。此外,噪聲估計和信號重建這兩種互補功能相互補充,以實現更好的性能。
5 結論
鑒于 RAW 格式的獨特屬性,我們提出了一種用于基于 RAW 的低光照圖像增強的解耦與反饋框架。作為一個通用流程,提出的 DNF 克服了先前方法的固有局限性。特定領域任務解耦消除了單階段方法引起的域模糊性,而去噪先驗反饋取代了采用有損圖像級數據流的多階段方法。顯著的性能和廣泛的實驗表明了所提出框架的優越性,以及 RAW 圖像在低光照增強方面的巨大潛力。
局限性。 所提出框架的一個剩余局限性(也與大多數現有方法共享)是輸入圖像的放大倍數是根據曝光時間預先定義的。在極低光照條件下,估計正常光照在現實場景中至關重要且困難。