AI-ISP論文Learning to See in the Dark解讀

論文地址：Learning to See in the Dark

圖1. 利用卷積網絡進行極微光成像。黑暗的室內環境。相機處的照度小于0.1勒克斯。索尼α7S II傳感器曝光時間為1/30秒。(a) 相機在ISO 8000下拍攝的圖像。(b) 相機在ISO 409600下拍攝的圖像。該圖像存在噪點和色彩偏差。? 我們的卷積網絡應用于(a)中原始傳感器數據所生成的圖像。

摘要

由于光子數量少和信噪比低，低光照成像頗具挑戰性。短曝光圖像存在噪聲問題，而長曝光會導致圖像模糊，且往往不切實際。人們已經提出了各種去噪、去模糊和增強技術，但在諸如夜間視頻幀率成像等極端條件下，它們的效果有限。為推動基于學習的低光照圖像處理流程的發展，我們引入了一個原始短曝光低光照圖像數據集，以及相應的長曝光參考圖像。利用這個數據集，我們基于全卷積網絡的端到端訓練，開發了一個處理低光照圖像的流程。該網絡直接對原始傳感器數據進行處理，取代了許多傳統的圖像處理流程，而傳統流程在處理此類數據時往往效果不佳。我們在新數據集上取得了有前景的結果，分析了影響性能的因素，并指出了未來工作的方向。

1. 引言

噪聲存在于任何成像系統中，而在低光照環境下，它讓成像變得尤其具有挑戰性。高感光度（ISO）可用于提高亮度，但同時也會放大噪聲。可以采用諸如縮放或直方圖拉伸之類的后處理方法，但由于光子數量少，這些方法無法解決低信噪比（SNR）的問題。在低光照環境中有一些物理方法來提高信噪比，包括增大光圈、延長曝光時間以及使用閃光燈。但這些方法各有其典型的缺點。例如，延長曝光時間可能會因相機抖動或物體移動而導致圖像模糊。

低光照下的快速成像難題在計算攝影領域廣為人知，但至今仍未得到解決。研究人員已提出了用于低光照圖像去噪、去模糊和增強的技術[34, 16, 42]。這些技術通常假定圖像是在光線稍暗且噪聲水平適中的環境中拍攝的。相比之下，我們關注的是在光照嚴重受限（如月光下）且曝光時間短（理想情況下為視頻幀率）的極微光成像。在這種情況下，傳統的相機處理流程會失效，圖像必須從原始傳感器數據中重建。

圖1展示了我們的設定。環境極其黑暗：相機處的光照不足0.1勒克斯。曝光時間設置為1/30秒，光圈為f/5.6。即使使用通常被認為較高的ISO 8000，盡管索尼全畫幅傳感器的感光度很高，相機拍攝出的圖像基本上仍是黑色的。當ISO達到409,600（這遠遠超出了大多數相機的能力范圍）時，場景內容可辨，但圖像暗淡、有噪聲，且顏色失真。正如我們將展示的，即使是最先進的去噪技術[32]也無法去除此類噪聲，也無法解決色彩偏差問題。另一種方法是使用連拍圖像[24, 14]，但連拍對齊算法在極微光條件下可能會失效，而且連拍處理流程并非為視頻拍攝而設計（例如，由于連拍中使用了“幸運成像”技術）。

我們提出了一種新的圖像處理流程，通過數據驅動的方法來應對極微光攝影的挑戰。具體而言，我們訓練深度神經網絡，以學習針對低光照原始數據的圖像處理流程，包括顏色轉換、去馬賽克、降噪和圖像增強。該流程采用端到端的訓練方式，以避免傳統相機處理流程在這種情況下出現的噪聲放大和誤差累積問題。

現有的大多數低光照圖像處理方法都是在合成數據或沒有真實參考的真實低光照圖像上進行評估的。據我們所知，目前尚無公開數據集可用于使用多樣化的真實世界數據和真實參考來訓練和測試快速低光照圖像處理技術。因此，我們收集了一個新的數據集，其中包含在低光照條件下快速曝光拍攝的原始圖像。每張低光照圖像都有對應的長曝光高質量參考圖像。我們在新數據集上取得了有前景的結果：低光照圖像放大倍數高達300倍，同時成功實現了降噪和正確的顏色轉換。我們系統地分析了該流程的關鍵要素，并討論了未來的研究方向。

lux（勒克斯）是一個用于衡量光照強度的國際單位制導出單位，以下是關于它的詳細解釋：

定義：勒克斯被定義為每平方米的流明數，即(1)勒克斯等于(1)流明/平方米（(1 lx = 1 lm/m^{2})）。流明是光通量的單位，它表示光源在單位時間內發出的光的總量。勒克斯主要用于描述被照表面所接收到的光的強度，也就是表示某一區域表面被照亮的程度。
實際應用場景
- 室內照明設計：在設計辦公室、教室、商場等室內空間的照明時，需要根據不同的功能和活動要求，確保達到合適的勒克斯數值。例如，一般辦公室的桌面照明通常要求達到300 - 500勒克斯，以保證工作人員能夠清晰地看到文件和操作設備；而臥室的照明可能只需要100 - 200勒克斯，營造出較為柔和舒適的氛圍。
- 道路照明：道路照明的亮度也以勒克斯為單位來衡量。城市主干道的照明一般需要達到15 - 20勒克斯左右，以確保車輛和行人在夜間能夠安全通行；而小區內的道路照明可能相對較低，在5 - 10勒克斯左右。
- 攝影領域：攝影師在拍攝時需要考慮環境的勒克斯值，以確定合適的曝光參數。在低光照環境下，如光照強度低于1勒克斯的極暗環境，拍攝會變得非常困難，需要使用高感光度、長曝光時間或輔助照明設備來獲得清晰的圖像；而在陽光充足的戶外，光照強度可能達到10000勒克斯以上，此時需要注意控制曝光，避免照片過曝。
與其他光照單位的關系：在光照度量中，還有其他一些單位，如坎德拉（cd）是發光強度的單位，它描述的是光源在特定方向上的發光能力；而英尺燭光（fc）是英制單位制中的光照強度單位，(1)英尺燭光等于(1)流明/平方英尺，與勒克斯的換算關系為(1)英尺燭光約等于(10.764)勒克斯。

前面提到的“幸運成像”技術，“lucky imaging”即幸運成像，是一種主要用于天文攝影的成像技術，以下是具體介紹：

技術原理：采用多次短時間（100毫秒或以下）曝光的方式，然后從大量拍攝的照片中挑選出受大氣影響最少的部分照片，再對這些照片進行移動和疊加，最終生成一張圖像。由于大氣湍流等因素會嚴重影響地基望遠鏡的成像質量，長時間曝光會使圖像變得模糊，而幸運成像通過選取受大氣干擾小的短曝光圖像進行合成，能有效減少大氣噪聲的影響，獲得清晰度較高的圖像。
應用實例：在拍攝天體時，可能會拍攝高達50000張照片，然后從中篩選出受大氣擾動影響最小的部分用于最終圖像的合成。英國劍橋大學和美國加州理工學院的天文學家曾將該技術應用于美國加州200英尺口徑的Palomar望遠鏡，得到了25000光年外的M13球狀星團以及貓眼星云（Cat’s Eye Nebula）的圖像，其分辨率約是哈勃的兩倍。

2. 相關工作

低光照圖像的計算處理在文獻中已有廣泛研究。我們簡要回顧一下現有方法。

圖像去噪：圖像去噪是底層視覺領域一個發展較為成熟的課題。已提出了許多方法，運用了諸如全變分 [36]、小波域處理 [33]、稀疏編碼 [9, 28]、核范數最小化 [12] 以及三維變換域濾波（BM3D）[7] 等技術。這些方法通常基于特定的圖像先驗知識，如平滑性、稀疏性、低秩性或自相似性。研究人員也探索了深度網絡在去噪方面的應用，包括堆疊稀疏去噪自編碼器（SSDA）[39, 1]、可訓練非線性反應擴散（TNRD）[6]、多層感知器 [3]、深度自編碼器 [26] 以及卷積網絡 [17, 41]。當在特定噪聲水平下進行訓練時，這些數據驅動的方法能夠與諸如BM3D和稀疏編碼等最先進的經典技術相媲美。不幸的是，大多數現有方法都是在合成數據上進行評估的，比如添加了高斯噪聲或椒鹽噪聲的圖像。最近一項針對真實數據的細致評估發現，在真實圖像上BM3D的表現優于更新的技術 [32]。聯合去噪與去馬賽克也得到了研究，包括近期使用深度網絡的工作 [15, 10]，但這些方法是在合成的拜耳模式和合成噪聲上進行評估的，而非在極微光條件下采集的真實圖像。

除了單圖像去噪，多圖像去噪也得到了關注，并且由于從場景中收集到了更多信息，它能取得更好的效果 [31, 23, 19, 24, 14, 29]。特別是，Liu等人 [24] 以及Hasinoff等人 [14] 提出對同一場景的連拍圖像進行去噪。雖然這些流程通常很有效，但可能會很復雜，涉及參考圖像選擇（“幸運成像”）以及圖像間的密集對應估計。我們專注于一條互補的研究路線，探究單圖像處理能達到何種程度。

低光照圖像增強：多種技術已被應用于增強低光照圖像的對比度。一種經典選擇是直方圖均衡化，它平衡了整個圖像的直方圖。另一種廣泛使用的技術是伽馬校正，它在壓縮亮像素的同時增加暗區域的亮度。更先進的方法會進行更全面的全局分析和處理，例如使用逆暗通道先驗 [8, 29]、小波變換 [27]、Retinex模型 [30] 以及光照圖估計 [13]。然而，這些方法通常假定圖像已經很好地呈現了場景內容。它們沒有對圖像噪聲進行明確建模，并且通常將現成的去噪方法作為后處理步驟。相比之下，我們考慮的是極微光成像，其存在嚴重的噪聲和色彩失真，超出了現有增強流程的適用條件。
含噪圖像數據集：盡管有許多關于圖像去噪的研究，但大多數現有方法都是在合成數據上進行評估的，例如添加了高斯噪聲或椒鹽噪聲的干凈圖像。RENOIR數據集 [2] 被提出用于對真實含噪圖像的去噪進行基準測試。然而，正如文獻 [32] 所報道的，RENOIR數據集中的圖像對存在空間錯位問題。連拍圖像已被用于在低光照條件下去噪 [24]，但相關數據集并不包含可靠的真實參考數據。谷歌HDR + 數據集 [14] 并非針對極微光成像：數據集中的大多數圖像是在白天拍攝的。最近的達姆施塔特噪聲數據集（DND）[32] 旨在滿足去噪領域對真實數據的需求，但這些圖像也是在白天拍攝的，并不適用于低光照圖像處理的評估。據我們所知，目前沒有包含原始低光照圖像及相應真實參考的公開數據集。因此，我們收集了這樣一個數據集，以支持該領域系統的可重復性研究。

表1. “暗光可視”（SID）數據集包含5094張原始短曝光圖像，每張圖像都有一張對應的長曝光參考圖像。這些圖像由兩臺相機采集（上下排列）。從左至右依次為：輸入圖像與參考圖像的曝光時間比、濾鏡陣列、輸入圖像的曝光時間，以及每種條件下的圖像數量。

圖2. “暗光可視”（SID）數據集的示例圖像。前兩行是室外圖像，后幾行是室內圖像。前面展示的是長曝光參考（真實）圖像，后面展示的是短曝光輸入圖像（基本為黑色）。相機處的照度通常在室外為0.2到5勒克斯，在室內為0.03到0.3勒克斯。

3. 暗光可視數據集

我們收集了一個新的數據集，用于訓練和基準測試原始低光照圖像的單圖像處理。“暗光可視”（SID）數據集包含5094張原始短曝光圖像，每張都有對應的長曝光參考圖像。需要注意的是，多張短曝光圖像可以對應同一張長曝光參考圖像。例如，我們收集了短曝光圖像序列來評估連拍去噪方法。序列中的每張圖像都被視為一張獨特的低光照圖像，因為每張這樣的圖像都包含真實的成像偽影，對訓練和測試很有用。SID中不同的長曝光參考圖像數量為424張。

該數據集包含室內和室外圖像。室外圖像通常在夜間月光或路燈下拍攝。室外場景中相機處的照度一般在0.2勒克斯到5勒克斯之間。室內圖像的光照更暗，是在關閉普通燈光、專門設置微弱間接照明的封閉房間內拍攝的。室內場景中相機處的照度一般在0.03勒克斯到0.3勒克斯之間。

輸入圖像的曝光時間設置在1/30秒到1/10秒之間。相應的參考（真實）圖像是以長100到300倍的曝光時間拍攝的，即10到30秒。由于參考圖像的曝光時間必然較長，數據集中的所有場景都是靜態的。數據集總結見表1。圖2 展示了一小部分參考圖像樣本。每個條件下約20%的圖像被隨機選出來組成測試集，另外10%被選作驗證集。

圖像是使用兩臺相機拍攝的：索尼α7S II和富士X - T2。這兩臺相機的傳感器不同：索尼相機配備全畫幅拜耳傳感器，富士相機配備APS - C規格的 X - Trans傳感器。這有助于在不同濾鏡陣列產生的圖像上評估低光照圖像處理流程。索尼圖像的分辨率為4240×2832，富士圖像的分辨率為6000×4000。索尼相機使用了兩種不同的鏡頭來收集圖像。

相機安裝在穩固的三腳架上。我們使用無反相機以避免因反光鏡翻動產生振動。在每個場景中，光圈、ISO、對焦和焦距等相機設置都經過調整，以最大化參考（長曝光）圖像的質量。拍攝完長曝光參考圖像后，通過手機遠程應用程序將曝光時間縮短100到300倍，拍攝一系列短曝光圖像。在拍攝長曝光和短曝光圖像之間，不會觸碰相機。我們收集短曝光圖像序列，以便與理想的連拍成像流程進行比較，后者得益于完美的對齊。

長曝光參考圖像可能仍包含一些噪聲，但感知質量足夠高，可作為真實參照。我們的目標應用場景是在低光照條件下生成感知效果良好的圖像，而不是徹底去除所有噪聲或最大化圖像對比度。

4. 方法

4.1 流程

從成像傳感器獲取原始數據后，傳統的圖像處理流程會應用一系列模塊，如白平衡、去馬賽克、去噪、銳化、色彩空間轉換、伽馬校正等。這些模塊通常針對特定相機進行調校。姜等人[18]提出使用大量局部的、線性的以及經過學習的（L3）濾波器，來近似現代消費級成像系統中復雜的非線性流程。然而，無論是傳統流程還是L3流程，都無法成功應對快速低光照成像，因為它們無法處理極低的信噪比。哈西諾夫等人[14]描述了一種用于智能手機相機的連拍成像流程。該方法通過對齊和融合多張圖像能產生不錯的效果，但會引入一定程度的復雜性，例如由于需要進行密集的對應關系估計，并且可能不容易擴展到視頻拍攝，比如因使用了“幸運成像”技術。

我們提議使用端到端學習來對快速低光照圖像進行直接的單圖像處理。具體而言，我們訓練一個全卷積網絡（FCN）[22, 25]來執行整個圖像處理流程。近期研究表明，純全卷積網絡可以有效地表示許多圖像處理算法[40, 5]。我們受此啟發，探究將這種方法應用于極微光成像。我們不是對傳統相機處理流程生成的普通sRGB圖像進行操作，而是對原始傳感器數據進行處理。

圖3（b）展示了所提出流程的結構。對于拜耳陣列，我們將輸入數據整合為四個通道，并相應地在每個維度上將空間分辨率降低一半。對于X - Trans陣列（圖中未展示），原始數據以6×6的塊排列；我們通過交換相鄰元素將其整合為9個通道，而非36個通道。我們減去黑電平，并按所需的放大倍數（例如100倍或300倍）對數據進行縮放。經過整合和放大的數據被輸入到全卷積網絡中。輸出是一個具有一半空間分辨率的12通道圖像。這個尺寸減半的輸出由一個亞像素層進行處理，以恢復原始分辨率[37]。

經過初步探索，我們聚焦于構成流程核心的全卷積網絡的兩種通用結構：一種是最近用于快速圖像處理的多尺度上下文聚合網絡（CAN）[5]，另一種是U-net[35]。其他研究探索了殘差連接[20, 34, 41]，但在我們的場景中，我們并未發現其有幫助，這可能是因為我們的輸入和輸出采用不同的色彩空間表示。影響我們選擇架構的另一個考慮因素是內存消耗：我們選擇了能夠在GPU內存中處理全分辨率圖像（例如分辨率為4240×2832或6000×4000）的架構。因此，我們避免了需要處理小圖像塊并重新組合它們的全連接層[26]。我們默認的架構是U-net[35]。

放大倍數決定了輸出圖像的亮度。在我們的流程中，放大倍數在外部設置，并作為輸入提供給流程，類似于相機中的ISO設置。圖4展示了不同放大倍數的效果。用戶可以通過設置不同的放大因子來調整輸出圖像的亮度。在測試時，該流程執行盲去噪和顏色轉換。網絡直接在sRGB空間中輸出處理后的圖像。

圖4. 放大因子對“暗光可視”（SID）數據集中一張室內圖像局部區域的影響（索尼100倍放大子集）。放大因子作為外部輸入提供給我們的處理流程，類似于相機中的ISO設置。放大因子越高，圖像越亮。本圖展示了我們的處理流程在不同放大因子下的輸出結果。

4.2 訓練

我們使用L1損失和Adam優化器[21]從零開始訓練網絡。在訓練過程中，網絡的輸入是短曝光圖像的原始數據，而真實標簽是相應的在sRGB色彩空間中的長曝光圖像（由原始圖像處理庫libraw處理）。我們針對每臺相機訓練一個網絡。在訓練和測試中，放大倍數均設置為輸入圖像與參考圖像之間的曝光差異（例如100倍、250倍或300倍）。在每次迭代中，我們隨機裁剪出一個512×512的圖像塊用于訓練，并通過隨機翻轉和旋轉進行數據增強。學習率初始設置為(10^{{-4})，在2000個epoch后降至(10}{-5})。訓練持續4000個epoch。

圖5. （a）富士X - T2相機在夜間拍攝的圖像，感光度ISO為800，光圈f/7.1，曝光時間1/30秒。相機處的照度約為1勒克斯。（b）使用傳統流程處理原始數據，無法有效應對數據中的噪聲和色彩偏差問題。（c）我們基于相同原始數據得到的處理結果。

圖6. 將在“暗光可視”（SID）數據集上訓練的網絡應用于iPhone 6s智能手機拍攝的低光照原始圖像。(a) 一張由iPhone 6s在夜間拍攝的原始圖像，感光度ISO為400，光圈f/2.2，曝光時間0.05秒。該圖像經過傳統圖像處理流程處理，并調整亮度以匹配參考圖像。(b) 我們網絡的輸出結果，放大倍數為100倍。

圖7. 來自索尼300倍放大子集的一張圖像。(a) 經傳統圖像處理流程和線性縮放處理的低光照輸入圖像。(b) 與(a)相同，但后續進行了BM3D去噪處理。? 我們的處理結果。

表2. 采用感知實驗對比所提出的流程與BM3D和連拍去噪。如文中所述，該實驗對基線有利。在所提出的單圖像流程在具有挑戰性的300倍放大子集上仍顯著優于基線，在相對容易的100倍放大子集上與基線表現相當。

5. 實驗

5.1 定性結果與感知實驗

與傳統流程對比。我們最初的基線是傳統相機處理流程，在量化前進行放大操作（我們使用與我們的流程相同的放大倍數）。圖5、圖6和圖7展示了與該基線的定性對比。在極微光條件下，傳統流程生成的圖像存在嚴重的噪聲和顏色失真問題。

與去噪和連拍處理對比。自然而然的下一步是對傳統流程的輸出事后應用現有的去噪算法。近期一項針對真實數據的細致評估表明，在真實圖像上，BM3D [7] 的表現優于更新的去噪模型 [32]。因此，我們將BM3D作為參考去噪算法。圖7展示了結果。請注意，BM3D是一種非盲去噪方法，需要外部指定噪聲水平作為參數。較小的噪聲水平設置可能會在圖像中留下明顯可感知的噪聲，而較大的噪聲水平設置可能會過度平滑。如圖7所示，這兩種情況可能在同一圖像中同時存在，因為均勻加性噪聲并非真實低光照圖像的合適模型。相比之下，我們的流程執行盲去噪操作，能夠局部適應數據。此外，事后去噪并不能解決傳統流程輸出中存在的其他偽影，例如顏色失真。

我們還與連拍去噪（burst denoising） [24, 14] 進行對比。由于我們數據集中的圖像序列已經對齊，所以與之對比的連拍成像流程是理想化的：它得益于完美對齊，而這在實際中并不存在。因為對齊已經完成，我們通過對8張圖像序列取逐像素中位數來進行連拍去噪。
使用參考長曝光圖像，從峰值信噪比（PSNR）/ 結構相似性指數（SSIM）方面進行對比，對BM3D和連拍處理并不公平，因為這些基線必須使用經過不同處理的輸入圖像。為了進行公平對比，我們使用參考圖像的白平衡系數來減少顏色偏差。此外，我們逐通道將提供給基線的圖像縮放至與參考圖像相同的均值。這些調整使得基線生成的圖像在顏色和亮度方面外觀上更接近參考圖像。請注意，這相當于使用先驗信息來幫助基線。

為了評估我們的流程、BM3D去噪和連拍去噪所生成圖像的相對質量，我們基于在亞馬遜Mechanical Turk平臺 [4] 上部署的盲隨機A/B測試進行了一項感知實驗。每次對比都會向一名Mechanical Turk工作人員展示由兩種不同流程生成的對應圖像，工作人員必須判斷哪張圖像質量更高。圖像對以隨機順序呈現，左右順序也隨機，且不表明不同圖像的來源。10名Mechanical Turk工作人員共進行了1180次對比。表2展示了工作人員選擇我們所展示流程生成的圖像，而非基線之一生成的對應圖像的比例。我們使用測試集的兩個子集的圖像進行了實驗：索尼300倍放大（具有挑戰性）和索尼100倍放大（相對容易）。在具有挑戰性的300倍放大子集上，我們的流程顯著優于基線，而在相對容易的100倍放大子集上，與基線表現相當。請記住，由于為基線提供的數據進行了先驗預處理，該實驗對基線是有利的。還要注意，連拍去噪使用了8張完美對齊圖像的信息。

智能手機圖像的定性結果。我們預計，為特定相機傳感器訓練專門的網絡時將獲得最佳效果。然而，我們關于跨傳感器泛化的初步實驗表明，這可能并非總是必要的。我們將在SID數據集的索尼子集上訓練的模型應用于由iPhone 6s智能手機拍攝的圖像，該手機也具有拜耳濾鏡陣列和14位原始數據。我們使用一款應用手動設置ISO和其他參數，并導出原始數據進行處理。圖6展示了一個具有代表性的結果。由傳統流程處理的低光照數據存在嚴重的噪聲和顏色偏移。我們的網絡雖然是在來自不同相機的圖像上訓練的，但其處理結果具有良好的對比度、低噪聲和調整得當的顏色。

圖8. 富士300倍放大測試集中一個圖像塊在不同網絡架構下的對比。(a) 使用多尺度上下文聚合網絡（CAN）結構，顏色未正確恢復。(b) 使用U-net。放大查看細節。

圖9. 直方圖拉伸的效果。(a) 索尼100倍放大子集中經直方圖拉伸處理的參考圖像。(b) 在經直方圖拉伸處理的圖像上訓練后得到的輸出結果。墻體上出現了偽影。? 在未經直方圖拉伸處理的圖像上訓練后得到的輸出結果。該結果較暗，但更干凈。(d) 對?中的圖像進行后處理，應用直方圖拉伸后的效果。

圖10. 極微光條件下（室內暗室，0.2勒克斯）信號恢復有限。(a) 索尼300倍放大子集中的一張輸入圖像，經傳統流程處理并放大以匹配參考圖像。(b) 對(a)應用BM3D去噪后的結果。? 利用8張圖像進行連拍去噪：由于連拍的所有圖像都存在嚴重偽影，結果仍然不佳。(d) 我們網絡的處理結果；仔細查看可明顯發現細節有所丟失。

5.2 控制變量實驗

表3（第一行）報告了所提出流程在峰值信噪比（PSNR）和結構相似性（SSIM）[38]方面的準確度。現在我們來描述一系列控制變量實驗，以評估流程中不同元素的影響。

網絡結構：我們首先比較不同的網絡架構。表3（第二行）報告了用多尺度上下文聚合網絡（CAN）[5]替代U - net[35]（我們的默認架構）的結果。U - net在兩個數據集上都有更高的PSNR。盡管CAN生成的圖像具有更高的SSIM，但它們有時會出現色彩丟失的情況。圖8展示了富士300倍放大子集中的一個圖像塊，CAN未能正確還原這里的顏色。
輸入色彩空間：大多數現有的去噪方法都是對已經過傳統圖像處理流程處理的sRGB圖像進行操作。我們發現，在極微光條件下，直接對原始傳感器數據進行操作要有效得多。表3（第三行）展示了將所提出的流程應用于傳統流程生成的sRGB圖像時的結果。
損失函數：我們默認使用L1損失，但也評估了許多其他損失函數。如表3（第四行和第五行）所示，用L2或SSIM[43]替代L1損失會產生相當的結果。我們沒有觀察到這些損失函數中的任何一個在感知上有系統性的優勢。添加全變分損失并不能提高準確度。添加生成對抗網絡（GAN）損失[11]會顯著降低準確度。
數據排列：原始傳感器數據所有顏色都在單個通道中。為卷積網絡排列原始數據的常見選擇是將顏色值整合到不同通道中，并相應降低空間分辨率，或者復制和屏蔽不同顏色[10]。我們默認使用整合方式。如表3（第六行）所示，對拜耳數據（索尼子集）進行屏蔽操作得到的PSNR/SSIM比整合方式更低；屏蔽方法的一個典型感知偽影是輸出圖像中某些色調的丟失。

X - Trans數據的結構與拜耳數據非常不同，它以6×6的塊排列。一種選擇是將其整合到36個通道中。相反，我們通過在相鄰元素之間交換一些值來創建一個3×3的模式，然后將其整合到9個通道中。如表3（第七行）所示，6×6的整合方式得到的PSNR/SSIM更低；一個典型的感知偽影是顏色和細節的丟失。

后處理：在最初的實驗中，我們在參考圖像的處理流程中加入了直方圖拉伸。因此，網絡除了要學習處理流程的其他部分，還必須學習直方圖拉伸。盡管嘗試了許多網絡架構和損失函數，我們都未能成功訓練網絡來完成這項任務。如表3（第八行）所示，當對參考圖像應用直方圖拉伸時（因此網絡必須學習直方圖拉伸），網絡的準確度會顯著下降。我們的實驗表明，我們的流程不容易學習對整幅圖像的全局直方圖統計進行建模和操作，并且在面對這項任務時容易過度擬合訓練數據。因此，我們將直方圖拉伸從流程中去除，并視情況作為后處理應用。圖9展示了一個典型結果，嘗試學習直方圖拉伸會在測試時產生明顯的偽影。在未拉伸的參考圖像上訓練的結果雖然更暗，但更清晰。

6. 討論

由于光子數量少和信噪比低，快速低光照成像面臨巨大挑戰。在亞勒克斯光照條件下以視頻幀率進行暗光成像，使用傳統信號處理技術被認為是不切實際的。在本文中，我們提出了“暗光可視”（SID）數據集，旨在支持開發數據驅動的方法，以實現這種極端條件下的成像。利用SID數據集，我們開發了一種簡單的處理流程，相較于傳統的低光照圖像處理方法有所改進。所提出的流程基于全卷積網絡的端到端訓練。實驗結果令人鼓舞，在SID數據上成功實現了噪聲抑制和正確的顏色轉換。

這項工作為未來的研究開辟了諸多可能性。我們的研究未涉及高動態范圍（HDR）色調映射（注意圖1?中的飽和區域）。SID數據集存在局限性，它不包含人物和動態物體。所提出流程的結果并不完美，未來的研究工作有望進一步改進，尤其是300倍放大子集極具挑戰性。圖10(d)展示了該方法輸出結果中存在的一些瑕疵。

所提出流程的另一個局限在于，放大倍數必須在外部選定。若能從輸入圖像中推斷出合適的放大倍數，就像自動感光度（Auto ISO）那樣，將會很有幫助。此外，我們目前假定針對特定的相機傳感器訓練專門的網絡。我們關于跨傳感器泛化的初步實驗結果令人振奮，未來的研究可以進一步探索低光照成像網絡的泛化能力。

未來研究的另一個方向是運行時優化。所提出的流程處理全分辨率的索尼和富士圖像分別需要0.38秒和0.66秒；雖然可以實時生成低分辨率預覽，但對于全分辨率的實時處理而言，這個速度還不夠快。

我們期待未來的研究能夠通過系統地優化網絡架構和訓練過程等方式，進一步提升圖像質量。我們希望SID數據集以及我們的實驗發現能夠激發并支持此類系統性研究。