Retinexformer：基于 Retinex 的單階段 Transformer 低光照圖像增強方法

? ? ? ? 開頭發點牢騷：本來做的好好都都要中期了，導師怎么突然給我換題目啊。真是繃不住了......又要從頭開始學了，唉！

原論文鏈接：Retinexformer: One-stage Retinex-based Transformer for Low-light Image Enhancement

? ? ? ?低光照圖像增強算法多基于Retinex理論，但傳統模型忽略暗區噪聲和光照過程中引入的失真，且現有方法依賴多階段CNN訓練，難以建模長距離依賴，效率低下。文章搭建了①單階段Retinex框架（ORF），可以通過光照估計即直接預測光照提升圖（而非傳統光照圖），避免數值不穩定問題。同時，還能做到噪聲修復，端到端聯合優化光照增強與失真修復。②光照引導Transformer（IGT）：IG-MSA自注意力：利用光照特征動態引導不同亮度區域的交互，降低計算復雜度（線性復雜度）。

現有技術分析：

傳統Retinex方法：

?Retinex理論認為圖像可分解為?反射分量（物體固有屬性，如顏色和紋理）和?光照分量（環境光照）。增強時，通過調整光照分量（如提升暗區亮度）來改善視覺效果。

具體步驟為：①估計光照分量（通常通過高斯濾波或優化方法）。

? ? ? ? ? ? ? ? ? ? ? ②計算反射分量：R=I/L（圖像除以光照圖）。

? ? ? ? ? ? ? ? ? ? ? ③對反射分量進行對比度增強或直方圖拉伸。

缺點：假設圖像無噪聲且光照均勻，導致增強后出現噪聲放大或顏色失真。

基于CNN的方法

利用卷積神經網絡（CNN）建模Retinex分解過程，通常分階段處理光照和反射分量。依賴多階段訓練流程，難以捕捉長距離依賴關系。

具體步驟：①分解網絡：輸入低光圖像，輸出反射圖?R?和光照圖?L。

? ? ? ? ? ? ? ? ? ②反射去噪網絡：對?R?進行去噪（如使用U-Net）。

? ? ? ? ? ? ? ? ? ③光照調整網絡：調整?L?以生成增強后的光照圖。

? ? ? ? ? ? ? ? ? ④融合階段：將調整后的?R?和?L?融合為最終圖像。

Transformer方法

Transformer通過自注意力機制捕捉全局依賴，理論上適合建模圖像中的長距離關系。

步驟：①將圖像分割為塊（Patch），展平為序列。

? ? ? ? ? ?②計算每個塊之間的注意力權重（Query-Key-Value）。

? ? ? ? ? ?③加權聚合Value生成輸出特征。

全局自注意力計算復雜度高（與圖像尺寸平方成正比），難以直接應用于高分辨率圖像。

論文方案創新點：

技術方案與創新點

單階段Retinex框架（ORF）

修正Retinex模型：引入擾動項（ $\hat{\mathbf{R}}$ 和 $\tilde{\mathbf{L}}$ ）建模噪聲和失真，更貼合真實場景。
光照估計與增強：直接預測“光照提升圖”? $\tilde{\mathbf{L}}$ （而非傳統光照圖L），避免除法操作帶來的數值不穩定問題。
端到端訓練：將光照估計和圖像修復整合到單階段流程，簡化訓練過程。

光照引導Transformer（IGT）

IG-MSA自注意力機制：利用光照特征引導不同光照區域的交互，降低計算復雜度。
復雜度優化：將自注意力計算復雜度從? $O(HW^2)$ ?降至? $O(HW)$ ?，支持多尺度特征處理。
U型架構設計：結合下采樣和上采樣分支，通過跳躍連接保留細節信息。

方法

①?單階段Retinex框架（ORF）

a. 修正Retinex模型

傳統模型： $\mathbf{I}=\mathbf{R}\odot\mathbf{L}$ （圖像=反射分量×光照分量）。
引入擾動項：? ? ? ? ? ? ? ? ? ? ? ? ?? $\mathbf{I}=(\mathbf{R}+\hat{\mathbf{R}})\odot(\mathbf{L}+\tilde{\mathbf{L}})$
其中：

? ? ? ? ? ? ? ? ? $\hat{\mathbf{R}}$ ：暗區噪聲和偽影（如高ISO噪聲）。

? ? ? ? ? ? ? ? ? $\tilde{\mathbf{L}}$ ：光照估計誤差（如過曝光或顏色失真）。

在Retinex理論中，符號?⊙?表示?逐元素乘法（Element-wise Multiplication），即兩個矩陣（或張量）中對應位置的元素相乘。
例如，若圖像大小為 H×W×3，則每個像素點?(i,j)?的RGB值由反射分量R(i,j)?和光照分量?L(i,j)?的乘積決定。

傳統Retinex模型：I = R ⊙ L?

Retinex理論認為，人眼感知的圖像（I）由兩部分組成：

反射分量? Reflectance

表示物體的固有屬性，如顏色、紋理、材質（如紅色蘋果的紅色是反射屬性）。

特點：與光照無關，是“理想”的無光照影響的圖像。

光照分量? Illumination

表示環境光照的分布（如陽光、燈光的方向和強度）。

特點：通常假設是平滑的（低頻分量），且取值范圍在?[0,1]。

數學表達式：? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? $\mathbf{I}(i,j,c)=\mathbf{R}(i,j,c)\cdot\mathbf{L}(i,j)$

圖像生成過程：每個像素點 (i,j)?的RGB值（通道?c）等于反射分量 R(i,j,c)?乘以光照分量 L(i,j)。

物理意義：在光照強（L?值大）的區域，反射分量被“照亮”，反之在暗區（L?值小）則顯得暗淡。

b. 光照估計與初步增強：將低光照圖像變亮

輸入：低光圖像? $I$ ?和光照先驗圖? $L_p$ （通道均值）。
網絡結構（圖2a-i）：
1. 特征融合：將? $I$ ?和? $L_p$ ??拼接后通過1×1?卷積融合。
2. 區域交互建模：使用深度可分離 9×9?卷積，捕捉不同光照區域的上下文信息，生成光照特征? $F_{lu}$ 。
3. 光照提升圖生成：通過 1×1?卷積從 Flu??生成三通道光照提升圖? $\tilde{\mathbf{L}}$ （RGB通道獨立建模非線性光照變化）。
4. 初步增強： $\mathbf{I}_{lu}=\mathbf{I}\odot\tilde{\mathbf{L}}$

$\mathbf{I}\odot\mathbf{\bar{L}}=\mathbf{R}+\mathbf{R}\odot(\mathbf{\hat{L}}\odot\mathbf{\bar{L}})+(\mathbf{\hat{R}}\odot(\mathbf{L}+\mathbf{\hat{L}}))\odot\mathbf{\bar{L}}$

$\widehat{R} \odot (L+\widehat{L} )$ ：暗場景中的噪聲和偽影

$R \odot (\widehat{L}+ \overline{L})$ ：表示由light-up過程引起的過曝光/曝光不足和顏色失真

$\mathbf{I}_{lu}=\mathbf{I}\odot\mathbf{\bar{L}}=\mathbf{R}+\mathbf{C}$

ORF設計如公式（5）所示：

$(\mathbf{I}_{lu},\mathbf{F}_{lu})=\mathcal{E}(\mathbf{I},\mathbf{L}_{p}),\quad\mathbf{I}_{en}=\mathcal{R}(\mathbf{I}_{lu},\mathbf{F}_{lu})$

$\varepsilon$ ：光照估計（illumination estimator）
$\Re$ ：corruption restorer
$L_{p} \in \mathbb{R}^{H \times W}$ ：I的光照先驗圖， $L_{p}=main_{c}(I)$ ， $main_{c}$ 表示沿著通道維度計算每個像素的平均值。
$F_{lu} \in \mathbb{R}^{H \times W \times C}$ ：light-up feature
$I_{en} \in \mathbb{R}^{H \times W \times C}$ ：增強后的圖

②. 光照引導Transformer（IGT）

目標：修復初步增強圖像 $I_{lu}$ 中的噪聲、偽影和曝光問題，同時建模長距離依賴。

網絡結構（圖2a-ii）

IGT采用U型架構（類似U-Net），包含下采樣和上采樣分支，通過跳躍連接保留細節。

輸入：初步增強圖像? $I_{lu}$ ?和光照特征? $F_{lu}$ ?。
核心模塊：Illumination-Guided Attention Block (IGAB)。

? ? ? ? 降采樣分支中，經過一個步長為2的3×3的卷積、一個IGAB、一個步長為2的4×4卷積、兩個IGAB和一個步長為2的4×4的卷積層生成分層特征。經過兩個IGBA
? ? ? ? 上采樣分支是一個對稱結構，用步長為2的反卷積操作deconv2×2來升級特征。跳躍連接用來減輕下采樣分支帶來的信息損失。上采樣分支輸出一個殘差圖像，然后增強的圖像

IGAB塊詳解（圖2b）

每個IGAB塊包含：

層歸一化（LayerNorm）：穩定訓練。
光照引導自注意力（IG-MSA）：核心創新模塊。
前饋網絡（FFN）：增強非線性表達能力。

IG-MSA機制（圖2c）

a. 傳統自注意力問題
全局計算所有像素對的注意力權重，復雜度為? $O(HW\times ×HW)$ ，無法處理高分辨率圖像。

b. IG-MSA的改進

Token化：將輸入特征圖? $\mathbf{F}_{in}\in\mathbb{R}^{H\times W\times C}$ ?展平為? $HW\times ×C$ ?的序列。
多頭拆分：將序列按通道分為?k?個頭。 $\mathbf{X}=[\mathbf{X}_{1},\mathbf{X}_{2},\cdots,\mathbf{X}_{k}]$
光照特征引導：
1. 將光照特征? $F_{lu}$ ?同樣展平并拆分為?k?個頭。 $\mathbf{Y}=[\mathbf{Y}_1,\mathbf{Y}_2,\cdots,\mathbf{Y}_k]$
2. 注意力計算：
  $\mathrm{Attention}(\mathbf{Q}_i,\mathbf{K}_i,\mathbf{V}_i,\mathbf{Y}_i)=(\mathbf{Y}_i\odot\mathbf{V}_i)\mathrm{softmax}\left(\frac{\mathbf{K}_i^T\mathbf{Q}_i}{\alpha_i}\right)$
  其中? $Y_i$ 是光照特征的第? $i$ ?個頭，用于調制注意力權重。

c. 復雜度優化

傳統全局自注意力：復雜度? $O(HW^2)$ 。
IG-MSA：復雜度 $O(HW)$ （公式10），支持多尺度特征處理。

? ? ? ? ? ? ? ? ? ?? $\begin{aligned} \mathcal{O}(\mathrm{IG-MSA}) & =k\cdot[d_{k}\cdot(d_{k}\cdot HW)+HW\cdot(d_{k}\cdot d_{k})], \\ & =2HWkd_{k}^{2}=2HWk(\frac{C}{k})^{2}=\frac{2HWC^{2}}{k}. \end{aligned}$

核心流程

光照估計（E模塊）
- 輸入低光圖像II和光照先驗圖 $L_p$ （通道均值）。
- 通過深度可分離卷積建模不同光照區域的交互，生成光照提升圖 $\tilde{\mathbf{L}}$ 和初步增強圖像 $I_{lu}$ 。
圖像修復（R模塊，即IGT）
- 輸入 $I_{lu}$ ?和光照特征 $F_{lu}$ 。
- 通過光照引導的自注意力（IG-MSA）修復噪聲、偽影、曝光問題，輸出殘差圖Ire?。
- 最終增強圖像： $\mathbf{I}_{en}=\mathbf{I}_{lu}+\mathbf{I}_{re}$