? ? ? ? 開頭發點牢騷:本來做的好好都都要中期了,導師怎么突然給我換題目啊。真是繃不住了......又要從頭開始學了,唉!
原論文鏈接:Retinexformer: One-stage Retinex-based Transformer for Low-light Image Enhancement
? ? ? ?低光照圖像增強算法多基于Retinex理論,但傳統模型忽略暗區噪聲和光照過程中引入的失真,且現有方法依賴多階段CNN訓練,難以建模長距離依賴,效率低下。文章搭建了①單階段Retinex框架(ORF),可以通過光照估計即直接預測光照提升圖(而非傳統光照圖),避免數值不穩定問題。同時,還能做到噪聲修復,端到端聯合優化光照增強與失真修復。②光照引導Transformer(IGT):IG-MSA自注意力:利用光照特征動態引導不同亮度區域的交互,降低計算復雜度(線性復雜度)。
現有技術分析:
-
傳統Retinex方法:
?Retinex理論認為圖像可分解為?反射分量(物體固有屬性,如顏色和紋理)和?光照分量(環境光照)。增強時,通過調整光照分量(如提升暗區亮度)來改善視覺效果。
具體步驟為:①估計光照分量(通常通過高斯濾波或優化方法)。
? ? ? ? ? ? ? ? ? ? ? ②計算反射分量:R=I/L(圖像除以光照圖)。
? ? ? ? ? ? ? ? ? ? ? ③對反射分量進行對比度增強或直方圖拉伸。
缺點:假設圖像無噪聲且光照均勻,導致增強后出現噪聲放大或顏色失真。
-
基于CNN的方法
利用卷積神經網絡(CNN)建模Retinex分解過程,通常分階段處理光照和反射分量。依賴多階段訓練流程,難以捕捉長距離依賴關系。
具體步驟:①分解網絡:輸入低光圖像,輸出反射圖?R?和光照圖?L。
? ? ? ? ? ? ? ? ? ②反射去噪網絡:對?R?進行去噪(如使用U-Net)。
? ? ? ? ? ? ? ? ? ③光照調整網絡:調整?L?以生成增強后的光照圖。
? ? ? ? ? ? ? ? ? ④融合階段:將調整后的?R?和?L?融合為最終圖像。
-
Transformer方法
Transformer通過自注意力機制捕捉全局依賴,理論上適合建模圖像中的長距離關系。
步驟:①將圖像分割為塊(Patch),展平為序列。
? ? ? ? ? ?②計算每個塊之間的注意力權重(Query-Key-Value)。
? ? ? ? ? ?③加權聚合Value生成輸出特征。
全局自注意力計算復雜度高(與圖像尺寸平方成正比),難以直接應用于高分辨率圖像。
論文方案創新點:
技術方案與創新點
單階段Retinex框架(ORF)
- 修正Retinex模型:引入擾動項(
和
)建模噪聲和失真,更貼合真實場景。
- 光照估計與增強:直接預測“光照提升圖”?
(而非傳統光照圖L),避免除法操作帶來的數值不穩定問題。
- 端到端訓練:將光照估計和圖像修復整合到單階段流程,簡化訓練過程。
光照引導Transformer(IGT)
- IG-MSA自注意力機制:利用光照特征引導不同光照區域的交互,降低計算復雜度。
- 復雜度優化:將自注意力計算復雜度從?
?降至?
?,支持多尺度特征處理。
- U型架構設計:結合下采樣和上采樣分支,通過跳躍連接保留細節信息。
方法
①?單階段Retinex框架(ORF)
a. 修正Retinex模型
-
傳統模型:
(圖像=反射分量×光照分量)。
-
引入擾動項:? ? ? ? ? ? ? ? ? ? ? ? ??
-
其中:
? ? ? ? ? ? ? ? ?:暗區噪聲和偽影(如高ISO噪聲)。
? ? ? ? ? ? ? ? ?:光照估計誤差(如過曝光或顏色失真)。
在Retinex理論中,符號?
⊙
?表示?逐元素乘法(Element-wise Multiplication),即兩個矩陣(或張量)中對應位置的元素相乘。
例如,若圖像大小為 H×W×3,則每個像素點?(i,j)?的RGB值由反射分量R(i,j)?和光照分量?L(i,j)?的乘積決定。
傳統Retinex模型:
I = R ⊙ L
?Retinex理論認為,人眼感知的圖像(I)由兩部分組成:
反射分量? Reflectance
表示物體的固有屬性,如顏色、紋理、材質(如紅色蘋果的紅色是反射屬性)。
特點:與光照無關,是“理想”的無光照影響的圖像。
光照分量? Illumination
表示環境光照的分布(如陽光、燈光的方向和強度)。
特點:通常假設是平滑的(低頻分量),且取值范圍在?[0,1]。
數學表達式:? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
圖像生成過程:每個像素點 (i,j)?的RGB值(通道?c)等于反射分量 R(i,j,c)?乘以光照分量 L(i,j)。
物理意義:在光照強(L?值大)的區域,反射分量被“照亮”,反之在暗區(L?值小)則顯得暗淡。
b. 光照估計與初步增強:將低光照圖像變亮
-
輸入:低光圖像?
?和光照先驗圖?
(通道均值)。
-
網絡結構(圖2a-i):
-
特征融合:將?
?和?
??拼接后通過1×1?卷積融合。
-
區域交互建模:使用深度可分離 9×9?卷積,捕捉不同光照區域的上下文信息,生成光照特征?
。
-
光照提升圖生成:通過 1×1?卷積從 Flu??生成三通道光照提升圖?
(RGB通道獨立建模非線性光照變化)。
-
初步增強:
-
:暗場景中的噪聲和偽影
:表示由light-up過程引起的過曝光/曝光不足和顏色失真
ORF設計如公式(5)所示:
:光照估計(illumination estimator)
:corruption restorer
:I的光照先驗圖,
,
表示沿著通道維度計算每個像素的平均值。
:light-up feature
:增強后的圖
②. 光照引導Transformer(IGT)
目標:修復初步增強圖像中的噪聲、偽影和曝光問題,同時建模長距離依賴。
網絡結構(圖2a-ii)
IGT采用U型架構(類似U-Net),包含下采樣和上采樣分支,通過跳躍連接保留細節。
-
輸入:初步增強圖像?
?和光照特征?
?。
-
核心模塊:Illumination-Guided Attention Block (IGAB)。
? ? ? ? 降采樣分支中,經過一個步長為2的3×3的卷積、一個IGAB、一個步長為2的4×4卷積、兩個IGAB和一個步長為2的4×4的卷積層生成分層特征。經過兩個IGBA
? ? ? ? 上采樣分支是一個對稱結構,用步長為2的反卷積操作deconv2×2來升級特征。跳躍連接用來減輕下采樣分支帶來的信息損失。上采樣分支輸出一個殘差圖像,然后增強的圖像
IGAB塊詳解(圖2b)
每個IGAB塊包含:
-
層歸一化(LayerNorm):穩定訓練。
-
光照引導自注意力(IG-MSA):核心創新模塊。
-
前饋網絡(FFN):增強非線性表達能力。
IG-MSA機制(圖2c)
a. 傳統自注意力問題
全局計算所有像素對的注意力權重,復雜度為?,無法處理高分辨率圖像。
b. IG-MSA的改進
-
Token化:將輸入特征圖?
?展平為?
?的序列。
-
多頭拆分:將序列按通道分為?k?個頭。
-
光照特征引導:
-
將光照特征?
?同樣展平并拆分為?k?個頭。
-
注意力計算:
其中?
是光照特征的第?
?個頭,用于調制注意力權重。
-
c. 復雜度優化
-
傳統全局自注意力:復雜度?
。
-
IG-MSA:復雜度
(公式10),支持多尺度特征處理。
? ? ? ? ? ? ? ? ? ??
核心流程
-
光照估計(E模塊)
-
輸入低光圖像II和光照先驗圖
(通道均值)。
-
通過深度可分離卷積建模不同光照區域的交互,生成光照提升圖
和初步增強圖像
。
-
-
圖像修復(R模塊,即IGT)
-
輸入
?和光照特征
。
-
通過光照引導的自注意力(IG-MSA)修復噪聲、偽影、曝光問題,輸出殘差圖Ire?。
-
最終增強圖像:
-
實驗結果
?略