《MambaLLIE：基于隱式Retinex感知的低光照增強框架與全局-局部狀態空間建模》學習筆記

Paper:2405.16105

Github:GitHub - wengjiangwei/MambaLLIE

摘要

一、介紹

二、相關工作

2.1 低光圖像增強

2.2 視覺空間狀態模型

三、方法

3.1 預備知識

3.2 整體流程

3.3?全局優先-局部次之狀態空間塊

四、實驗

4.1 基準數據集與實施細節

4.2 對比實驗

4.3 真實場景實驗評估

低光照目標檢測

用戶感知研究

4.4 消融實驗

五、局限性與討論

摘要

低光照圖像增強領域的最新進展主要由基于Retinex理論的學習框架主導，這些框架普遍采用卷積神經網絡（CNN）和Transformer架構。然而，經典Retinex理論主要解決全局光照退化問題，卻忽視了暗光條件下噪聲與模糊等局部退化現象。此外，受限于有限的感受野，CNN與Transformer難以有效捕捉全局退化特征。盡管狀態空間模型（SSMs）在長序列建模中展現出潛力，但在視覺數據中融合局部不變性與全局上下文時仍面臨挑戰。本文提出MambaLLIE——一種基于隱式Retinex感知的低光照增強框架，其核心在于全局優先-局部次之的狀態空間設計。我們首先構建局部增強型狀態空間模塊（LESSM），通過在二維選擇性掃描機制中引入增強型局部偏置，有效保留局部二維依賴關系從而優化傳統SSMs。進一步提出隱式Retinex感知選擇性核模塊（IRSK），采用空間變化操作實現特征動態選擇，通過自適應核選擇過程適應不同輸入特征。所設計的全局-局部狀態空間塊（GLSSB）以LayerNorm為核心整合LESSM與IRSK模塊，使MambaLLIE能夠實現全面的全局長程建模與靈活的局部特征聚合。大量實驗表明，MambaLLIE在多項指標上顯著優于當前最先進的CNN與Transformer方法。

一、介紹

低光照圖像增強是計算機視覺領域的一項極具挑戰性的任務，主要源于光照條件不足與傳感器退化問題。此類退化圖像通常同時存在全局可見性低下和局部色彩失真、噪聲等復合缺陷，不僅影響人類視覺感知，還會對目標檢測等高層視覺任務產生負面影響。

傳統增強方法如直方圖均衡化[1]和伽馬校正[5]通過全局映射操作進行圖像優化，但往往難以有效處理局部退化問題。近年來，基于卷積神經網絡（CNN）與Transformer的方法逐漸占據主導地位[43, 52, 13, 31, 46, 3]。其中，CNN方法[43, 52, 13, 31, 45]通過有效聚合局部信息取得顯著進展，但受限于固定感受野與權重共享策略，存在局部歸納偏差問題，導致模型對輸入變化的適應性不足。另一方面，Transformer方法[46, 3, 50]借助自注意力機制建立長程依賴關系，獲得更大且自適應的感受野，但其原始注意力機制的計算復雜度隨輸入尺寸呈平方級增長，帶來顯著計算負擔。

近期，Mamba[8, 25, 22]在計算機視覺領域引發廣泛關注。這類內部狀態空間模型（SSMs）展現出線性復雜度下建模全局信息的潛力。然而，直接將視覺狀態空間模型應用于低光圖像增強存在明顯局限——SSMs專為長程建模設計，缺乏有效捕捉局部信息的靈活性[54]。如圖1所示，典型視覺狀態空間模型MambaIR[14]雖相比CNN與Transformer方法具有更廣的感受野，但在精細局部交互處理方面仍顯不足。

本研究提出MambaLLIE創新框架，在全局優先-局部次之的狀態空間模型中融合隱式Retinex感知機制。該框架不僅探索了狀態空間模型在低光增強中的應用潛力，還通過Retinex感知結構提供顯隱雙重引導。核心創新包括：首創的全局-局部狀態空間塊（GLSSB），通過增強型狀態空間實現全局長程退化建模與局部特征聚合；引入Retinex感知選擇性核機制，借助特定空間操作實現光照強度的自適應調節。

本工作的主要貢獻可歸納為三方面：

首先，提出整合局部增強狀態空間模塊與隱式Retinex感知選擇性核模塊的新型全局-局部狀態空間塊，有效捕捉復雜全局-局部依賴關系；

其次，設計隱式Retinex感知選擇性核機制指導深層神經表征，無需復雜結構設計即可實現光照組件的自主分離與融合，突破了顯式方法的局限性；

最后，在基準數據集與真實場景中的實驗驗證表明，本方法在各項指標上均顯著優于現有最先進方法。

二、相關工作

2.1 低光圖像增強

低光照圖像增強方法當前主要可分為端到端學習與基于Retinex理論的兩大范式[21]。LLNet[27]率先通過監督學習將深度神經網絡應用于該任務，開創性地構建了端到端增強框架。LightenNet[2]基于卷積神經網絡（CNN）實現單圖像對比度增強，而MBLLEN[29]通過多分支CNN架構融合豐富特征。SNR-Net[46]、Restormer[50]、LLFormer[18]及文獻[30]等方法則引入自注意力機制，顯著提升了模型性能。然而，這類端到端模型主要依賴訓練數據分布，忽視了內在的光照先驗信息。

相比之下，ZeroDCE[13]、RUAS[24]及其后續改進方法[31,7,41]通過精準建模物理先驗實現圖像增強，展現出獨特優勢。但由于缺乏理想參考指導，其性能與監督學習方法仍存在差距。

在監督式Retinex模型中，主流方法通過將圖像分解為光照圖與反射圖進行優化增強。Retinex-Net[43]開創性地將增強流程劃分為分解、調整與重建三個階段，為后續研究奠定基礎。KinD[52]與URetinex-Net[45]分別提出創新性多分支架構與多階段框架，但在模型復雜度與計算效率間的平衡仍面臨挑戰。近期，RetinexFormer[3]采用高效Transformer實現單階段Retinex增強，Diff-Retinex[49]則結合Transformer分解網絡與生成擴散模型進行結果重建。盡管這些方法持續推進Retinex理論的應用，但其直接套用經典Retinex框架的做法仍存在固有局限性。

2.2 視覺空間狀態模型

視覺狀態空間模型。狀態空間模型（State Space Models, SSMs）[11,10,9]作為新興序列建模方法，最初在自然語言處理（NLP）領域取得突破性進展，成功應用于語言理解[35]、內容推理[54]等任務。近年來，該模型在計算機視覺（CV）領域也引發廣泛研究。S4ND[32]率先將狀態空間機制引入CV任務，通過將傳統模型中的Conv2D層與自注意力層替換為S4ND模塊實現創新。VMamba[25]通過彌合有序序列與視覺圖像的非因果性鴻溝，構建具有全局感受野的視覺選擇性狀態空間模型。Vim[53]提出具有位置感知能力的雙向狀態空間建模，實現了全局視覺感知。LocalMamba[15]專注于局部掃描策略以保持上下文依賴關系，而EfficientVMamba[34]通過增加卷積分支設計輕量化SSMs，同步學習全局與局部表征特征。MambaIR[14]則結合卷積與通道注意力機制增強模型能力。然而，現有視覺狀態空間模型對局部信息捕捉仍顯不足，因其原始SSMs專為長序列設計，未能充分考慮視覺數據固有的局部不變性特征。

三、方法

本研究致力于構建一種融合全局優先-局部次之狀態空間架構的隱式Retinex感知低光照增強框架。本節首先對Retinex理論與狀態空間模型進行理論溯源與框架概覽，繼而系統闡述所提出的MambaLLIE方法的技術細節。

3.1 預備知識

Retinex理論。經典Retinex理論[20]將低光照圖像建模為反射率圖與光照圖的乘積分解。如文獻[31,37]所述，顯式Retinex方法主要遵循兩種范式：其一僅估計光照圖并將反射率圖直接作為增強結果；其二同步估計反射率與光照圖并通過優化重建正常光照圖像。具體而言，給定低光照圖像 $L\in R^{H\times W\times3}$ （H、W分別表示圖像高度與寬度），其數學表達可形式化為：

$L = R \odot I, N = \tilde{R} \odot \tilde{I}$ ?

其中⊙表示逐元素乘法，反射率圖 $R\in R^{H \times W \times3}$ 表征物體的固有屬性，光照圖 $I \in R^{H \times W}$ 描述光照條件， $N \in R^{H \times W \times3}$ 為重建的正常光照圖像， $\tilde{R}$ 與 $\tilde{I}$ 分別為估計的反射率與光照圖。

第一種范式忽略了傳感器退化導致的噪聲與偽影，且逐像素光照調整策略存在固有局限性；第二種范式雖能通過雙圖優化提升增強效果，但需設計復雜的多分支網絡架構與約束條件指導模型訓練[52]。

狀態空間模型。以結構化狀態空間序列模型（S4）[10]與 Mamba[8]為代表的狀態空間模型（SSMs），本質上是連續線性時不變（LTI）系統[44]的數學抽象。給定一維輸入序列x(t)∈R，系統通過隱狀態 $h(t) \in R^m$ 將其映射為輸出序列y(t)∈R，其連續形式可表示為線性常微分方程（ODE）：

h'(t) = Ah(t) + Bx(t)
y(t) = Ch(t) + Dx(t)?

其中m為狀態維度， $A \in R^{m \times m}$ ?為狀態矩陣， $B \in R^{m \times1}$ ?與 $C \in R^{1\times m}$ 分別為輸入/輸出投影矩陣，D∈R為直通參數。

由于原始SSMs為連續系統，實際計算需通過零階保持器（ZOH）將其離散化。具體而言，將連續參數{A,B}轉換為離散參數{ $\overline{A}, \overline{B}$ }：

$\overline{A} = \exp(\Delta A), \overline{B} = (\Delta A)^{-1}(\exp(\Delta A) - I) \cdot \Delta B$

其中Δ為步長參數。離散化后系統方程可改寫為：

$h_t = \overline{A}h_{t-1} + \overline{B}x_t y_t = Ch_t + Dx_t$

然而，上述系統對輸入變化缺乏動態適應性。為此，Mamba[8]提出選擇性狀態空間模型，使參數隨輸入動態調整：

其中 $f_B(x_t)$ 、 $f_C(x_t)$ 與 $f_A(x_t)$ 為線性投影函數，將輸入特征擴展至隱狀態維度。雖然SSMs擅長長序列建模，但其在捕捉復雜局部信息方面存在固有局限。針對視覺數據，VMamba[25]與Vim[53]提出位置感知掃描策略以保持圖像二維結構完整性，但其定向序列掃描機制仍忽略了像素鄰域的空間關聯特性。受文獻[54]啟發，本研究構建全局優先-局部次之狀態空間，通過先驗全局感知引導局部細節補充，有效彌補現有模型在局部信息建模方面的不足。

3.2 整體流程

MambaLLIE整體架構。如圖2(a)所示，本框架采用經典U型編解碼結構，主要由卷積下采樣層、全局-局部狀態空間塊（GLSSB）與上采樣層構成。編碼器通過跳躍連接與對稱解碼器進行特征融合，其核心創新體現于以下設計：

給定低光照圖像 $L\in R^{H\times W \times 3}$ ，首先通過3×3卷積層提取初始特征 $F \in R^{H \times W \times C}$ 。進一步將圖像均值先驗 $L_{mean} \in R^{H \times W}$ 與最大值先驗 $L_{max} \in R^{H \times W}$ 拼接為增強輸入 $L_p \in R^{H \times W \times 5}$ ：

$L_p = \text{Concat}(L, \text{mean}(L), \text{max}(L))$

GLSSB核心模塊作為框架基本單元，每個GLSSB包含局部增強型狀態空間模塊（LESSM）與隱式Retinex感知選擇性核模塊（IRSK），其間通過LayerNorm層進行特征規整。增強輸入 $L_p$ ?經卷積投影后輸入GLSSB，輸出特征記為 $F_g \in R^{H \times W \times C}$ 。

通過三級下采樣操作（i=0,1,2）逐級提取深層特征，其維度變化遵循 $F_g \in R^{H/2^i \times W/2^i \times 2^i C}$ 。對稱上采樣層通過跳躍連接融合編碼器-解碼器對應尺度特征，最終經3×3卷積輸出殘差特征 $F_{out} \in R^{H \times W \times 3}$ 。

增強圖像通過 $N = F_{out} + L$ 實現端到端重建，有效保留原始圖像低頻信息。

3.3?全局優先-局部次之狀態空間塊

如圖2(b)所示，全局-局部狀態空間塊（GLSSB）遵循"層歸一化→LESSM→層歸一化→IRSK"的級聯結構，其設計靈感源于Transformer[38]與Mamba[8]的基礎模塊構建范式。給定輸入特征 $F_{g}^{i-1} \in R^{H \times W \times C}$ ，其處理流程可形式化描述如下：

通過層歸一化（LayerNorm）與局部增強型狀態空間模塊（LESSM）實現全局依賴建模：

$M = \text{LESSM}(\text{LayerNorm}(F_{g}^{i-1})) + F_{g}^{i-1}$

再次應用層歸一化后，由隱式Retinex感知選擇性核模塊（IRSK）實現局部特征自適應調節：

$F_{g}^{i} = \text{IRSK}(\text{LayerNorm}(M)) + M$

局部增強型狀態空間模塊。現有狀態空間模型[6,10,8]擅長捕捉長程依賴中的因果處理特性，但其單向掃描機制難以建模視覺數據的非因果關系。盡管[53,25,34]等研究通過多方向2D掃描策略改進視覺數據處理，但這些方法仍忽視視覺數據的局部不變性——固定掃描模式會擴大鄰域數據的空間距離并擾亂因果關聯。

如圖2(c)所示，我們在傳統連續線性時不變系統框架下引入增強型局部偏置項 $e(L_p)$ ，通過保持局部二維依賴性優化狀態空間模型。改進后的系統方程可表述為：

$h_t = \overline{A}h_{t-1} + \overline{B}x_t ,y_t = Ch_t + Dx_t + e(L_p)$

其中 $e(L_p)$ 為獨立于隱狀態空間的局部偏置項。具體實現時，給定特征 $F \in R^{H \times W \times 5}$ 與光照特征 $L_p \in R^{H \times W \times C}$ ，模型通過層歸一化與LESSM模塊整合空間長程依賴。參照[8]的設計，輸入特征被拆分為 $\tilde{F}_1$ 和 $\tilde{F}2$ 兩個分支進行處理。第一分支通過線性層投影后執行深度可分離卷積與SiLU激活函數，隨后注入增強型局部偏置并進行層歸一化；第二分支則通過線性層投影與SiLU激活函數處理。最終，兩分支特征通過逐元素乘積實現交互，并由線性層投影回原始特征空間。該過程可形式化描述為：

$F_1 = \text{LayerNorm}(\text{2DSSM}(\text{SiLU}(\text{DWConv}(\text{Linear}(F_1)))) + \text{Conv}(L_p))$

$F_2 = \text{SiLU}(\text{Linear}(F_2))$

$F{out} = \text{Linear}(F_1 \odot F_2)$

隱式Retinex感知選擇性核模塊。本研究進一步構建隱式Retinex感知選擇性核網絡以增強特征整合能力。如圖2(d)所示，IRSK模塊通過可調卷積核構建多尺度深度卷積序列，基于光照先驗實現空間選擇性特征篩選。受LSKNet[23]啟發，對每個選擇性核輸出的特征圖施加Sigmoid激活函數，從光照先驗中提取獨立光照圖。該過程可形式化描述為：

$\tilde{F}_k = \tilde{F}_{out}, \tilde{F}_{k+1} = f^k_{\text{DWconv}}(\tilde{F}_k)$

"SK-1"和"SK-2"分別代表?選擇性核分支（Selective Kernel Branch 1 和 Branch 2）

通過殘差連接將Retinex感知圖與輸入特征拼接后，依次執行深度卷積、GELU激活函數與標準卷積操作。具體實現流程包含兩個關鍵步驟：

光照圖分離：將光照先驗特征經卷積與Sigmoid激活分解為雙通道權重圖
$\left \{ S_1, S_2 \right \}= \text{Chunk}(\text{Sigmoid}(\text{Conv}(L_p)))$
特征自適應融合：通過加權求和實現多尺度特征選擇
? $F_g = \text{Conv}(\text{GELU}(\text{DWConv}(\sum_{k=1}^K \tilde{F}_k S_k + F_{out})))$

四、實驗

4.1 基準數據集與實施細節

數據集。實驗采用五個成對低光照數據集進行評估：LOL-V2-real[48]、LOL-v2-syn[48]、SMID[4]、SDSD-indoor[39]與SDSD-outdoor[39]。其中，LOL-V2-real包含689對真實低光-正常光訓練樣本及100對測試樣本；LOL-v2-syn提供900對合成訓練樣本與100對測試樣本；SMID數據集包含15,763對短曝光-長曝光訓練圖像及其余測試樣本；SDSD-indoor與SDSD-outdoor均選自SDSD靜態數據集，分別包含62對室內場景與116對室外場景訓練樣本，以及6對室內與10對室外測試樣本。

實施細節。基于PyTorch[33]框架在NVIDIA 4090 GPU服務器上實現MambaLLIE。訓練階段將圖像對隨機裁剪為128×128圖像塊作為輸入，采用旋轉與翻轉等數據增強策略，批次大小設為8。優化過程采用Adam[19]優化器（β?=0.9，β?=0.999），總迭代次數為1.5×10?。初始學習率設為2×10??，并通過余弦退火策略逐步衰減。損失函數選用平均絕對誤差（MAE），評估指標采用峰值信噪比（PSNR）與結構相似性（SSIM）[42]。

4.2 對比實驗

定量對比分析。如表1所示，本研究將MambaLLIE與11種最先進的圖像增強方法進行性能對比，包括RetinexNet[43]、DeepUPE[40]、SID[4]、KinD[52]、MIRNet[51]、EnGan[17]、Restormer[50]、SNR-Net[46]、QuadPrior[41]、MambaIR[14]及RetinexFormer[3]。實驗結果表明：

MambaLLIE在PSNR（峰值信噪比）與SSIM（結構相似性）指標上全面超越現有方法。在LOL-V2-real與SDSD-outdoor數據集上，其SSIM指標與最優方法持平。

參數量相近的情況下，MambaLLIE較基于Transformer的最優方法RetinexFormer平均提升0.2 dB，較早期Transformer方法SNR-Net在全數據集平均提升1 dB。

MambaLLIE在五個基準數據集上的PSNR提升分別為：1.70 dB（LOL-V2-real）、0.32 dB（LOL-V2-syn）、2.19 dB（SMID）、1.15 dB（SDSD-indoor）與0.25 dB（SDSD-outdoor）。

相較RetinexNet、DeepUPE及KinD等傳統Retinex模型，MambaLLIE在所有數據集上的PSNR提升均超過7 dB，驗證了深度學習框架的顯著優勢。

定性對比分析。圖3-4展示了MambaLLIE與最新方法的視覺對比結果：

現有方法普遍存在光照補償不足問題（圖3），無法有效恢復暗部細節。例如，RetinexNet在極低光區域產生色塊偽影，而SNR-Net則出現局部過曝。圖4所示，傳統方法易引發色彩失真（如KinD的綠色偏移）與細節模糊（如MambaIR的紋理丟失）。MambaLLIE則通過隱式Retinex感知機制，在提升整體亮度的同時，忠實保持顏色真實性（與Ground Truth色彩分布一致），并精細恢復毛發紋理、建筑邊緣等高頻細節。對于傳感器噪聲與運動模糊共存的場景（如SMID數據集），MambaLLIE展現出更強的退化解耦能力，相較Diff-Retinex的擴散模型方案，其重建結果噪聲抑制更徹底且細節更銳利。

4.3 真實場景實驗評估

低光照圖像增強在真實場景中面臨雙重挑戰：需同時提升下游任務（如暗光目標檢測）性能并滿足人類視覺感知需求。本節通過兩項實驗驗證MambaLLIE的實際應用價值。

低光照目標檢測

采用ExDark數據集[26]評估增強算法對高層視覺任務的增益。該數據集包含7,363張標注12類邊界框的低光圖像（5,890張訓練/1,473張測試）。所有監督方法均在LOL-V2-syn數據集預訓練后，通過不同增強方法處理低光圖像，并以YOLOv3[36]作為目標檢測器進行微調。

如表2所示，MambaLLIE在平均精度（mAP）上優于所有對比方法，尤其在車輛（Car）、椅子（Chair）、杯子（Cup）與桌子（Table）類別中表現最佳。圖5(a)的視覺對比表明：相較于次優方法SCI，MambaLLIE增強后的圖像使檢測器能在極暗區域（如兩人與椅子的場景）成功定位目標，而其他方法均失效。

用戶感知研究

為評估增強結果的人類視覺感知質量，本研究開展用戶調研。從基準數據集與ExDark數據集中隨機選取7張不同光照條件的低光圖像，使用各方法預訓練模型進行增強。70名參與者從以下維度進行1（最差）至5（最優）評分：

整體視覺效果（光照均衡性、自然度）
局部細節保留（紋理清晰度、邊緣銳度）
色彩失真與噪聲（顏色保真度、偽影抑制）

如表3所示，MambaLLIE在所有評分維度均獲最高分。圖5(b)展示典型樣例對比：相較于其他算法，MambaLLIE增強結果在保持色彩自然的同時，顯著提升暗部細節（如樹葉紋理、建筑窗格結構），且無過曝或色偏現象。

4.4 消融實驗

隱式Retinex感知框架對比。本研究通過對比端到端模型、顯式Retinex模型與隱式Retinex框架驗證方法有效性。具體而言：

Baseline-1：移除Retinex感知引導機制，直接通過輸入估計增強結果
Baseline-2：顯式估計光照圖并通過逐元素乘法調整亮度

如表4所示，隱式Retinex框架較Baseline-1在PSNR指標上提升1.25 dB，較Baseline-2提升1.00 dB，驗證隱式引導機制在退化建模中的優勢。

全局-局部狀態空間消融分析。針對GLSSB核心組件LESSM與IRSK進行模塊級驗證：

LESSM效果：相比使用原始狀態空間塊的Baseline-1與Baseline-2，LESSM分別帶來0.33 dB與0.08 dB的PSNR提升，證明局部增強偏置對空間建模的有效性
IRSK效果：IRSK模塊相較原始SSM提升0.96 dB（Baseline-1）、0.74 dB（Baseline-2）與0.63 dB（單LESSM配置），表明選擇性核機制對特征融合的關鍵作用
聯合效能：當LESSM與IRSK協同工作時，MambaLLIE取得最高PSNR（28.45 dB）與SSIM（0.923），驗證全局-局部協同設計的必要性

選擇性核行為分析。如圖6所示，隱式Retinex感知機制通過互補特征學習正負光照分量：

核選擇模式：IRSK在淺層優先使用小核（3×3）聚焦局部細節，深層采用大核（5×5）實現跨區域特征融合，避免傳統檢測任務中大核引發的邊緣填充問題
與LSKNet對比：LSKNet[23]采用遞增核尺寸策略以適應檢測任務的大感受野需求，但圖像增強任務中連續填充會加劇邊緣偽影。MambaLLIE的逆向核尺寸設計（小→大）既可快速捕獲局部信息，又能通過深層大核實現全局特征整合

五、局限性與討論

本研究通過隱式Retinex感知引導與全局-局部狀態空間框架，有效解決了低光增強中的全局光照不足與局部退化問題，但仍存在以下局限性：

先驗依賴性：相較于端到端方法，本框架需設計合理的光照先驗（如均值/最大值先驗），其性能部分依賴于先驗經驗。在極端場景（如全黑區域占比超過80%），先驗估計可能失效，需結合語義信息優化。
評估指標偏差：現有增強模型（包括本工作）多以均方誤差（MSE）為損失函數，依賴PSNR/SSIM作為評價指標。然而，這些指標與人類視覺感知存在固有偏差。為此，我們通過真實場景實驗（目標檢測任務與用戶調研）補充驗證方法的實用性，緩解指標局限性。

未來工作將探索：