Paper:2405.16105
Github:GitHub - wengjiangwei/MambaLLIE
目錄
摘要
一、介紹
二、相關工作
2.1 低光圖像增強
2.2 視覺空間狀態模型
三、方法
3.1 預備知識
3.2 整體流程
3.3?全局優先-局部次之狀態空間塊
四、實驗
4.1 基準數據集與實施細節
4.2 對比實驗
4.3 真實場景實驗評估
低光照目標檢測
用戶感知研究
4.4 消融實驗
五、局限性與討論
摘要
低光照圖像增強領域的最新進展主要由基于Retinex理論的學習框架主導,這些框架普遍采用卷積神經網絡(CNN)和Transformer架構。然而,經典Retinex理論主要解決全局光照退化問題,卻忽視了暗光條件下噪聲與模糊等局部退化現象。此外,受限于有限的感受野,CNN與Transformer難以有效捕捉全局退化特征。盡管狀態空間模型(SSMs)在長序列建模中展現出潛力,但在視覺數據中融合局部不變性與全局上下文時仍面臨挑戰。本文提出MambaLLIE——一種基于隱式Retinex感知的低光照增強框架,其核心在于全局優先-局部次之的狀態空間設計。我們首先構建局部增強型狀態空間模塊(LESSM),通過在二維選擇性掃描機制中引入增強型局部偏置,有效保留局部二維依賴關系從而優化傳統SSMs。進一步提出隱式Retinex感知選擇性核模塊(IRSK),采用空間變化操作實現特征動態選擇,通過自適應核選擇過程適應不同輸入特征。所設計的全局-局部狀態空間塊(GLSSB)以LayerNorm為核心整合LESSM與IRSK模塊,使MambaLLIE能夠實現全面的全局長程建模與靈活的局部特征聚合。大量實驗表明,MambaLLIE在多項指標上顯著優于當前最先進的CNN與Transformer方法。
一、介紹
低光照圖像增強是計算機視覺領域的一項極具挑戰性的任務,主要源于光照條件不足與傳感器退化問題。此類退化圖像通常同時存在全局可見性低下和局部色彩失真、噪聲等復合缺陷,不僅影響人類視覺感知,還會對目標檢測等高層視覺任務產生負面影響。
傳統增強方法如直方圖均衡化[1]和伽馬校正[5]通過全局映射操作進行圖像優化,但往往難以有效處理局部退化問題。近年來,基于卷積神經網絡(CNN)與Transformer的方法逐漸占據主導地位[43, 52, 13, 31, 46, 3]。其中,CNN方法[43, 52, 13, 31, 45]通過有效聚合局部信息取得顯著進展,但受限于固定感受野與權重共享策略,存在局部歸納偏差問題,導致模型對輸入變化的適應性不足。另一方面,Transformer方法[46, 3, 50]借助自注意力機制建立長程依賴關系,獲得更大且自適應的感受野,但其原始注意力機制的計算復雜度隨輸入尺寸呈平方級增長,帶來顯著計算負擔。
近期,Mamba[8, 25, 22]在計算機視覺領域引發廣泛關注。這類內部狀態空間模型(SSMs)展現出線性復雜度下建模全局信息的潛力。然而,直接將視覺狀態空間模型應用于低光圖像增強存在明顯局限——SSMs專為長程建模設計,缺乏有效捕捉局部信息的靈活性[54]。如圖1所示,典型視覺狀態空間模型MambaIR[14]雖相比CNN與Transformer方法具有更廣的感受野,但在精細局部交互處理方面仍顯不足。
本研究提出MambaLLIE創新框架,在全局優先-局部次之的狀態空間模型中融合隱式Retinex感知機制。該框架不僅探索了狀態空間模型在低光增強中的應用潛力,還通過Retinex感知結構提供顯隱雙重引導。核心創新包括:首創的全局-局部狀態空間塊(GLSSB),通過增強型狀態空間實現全局長程退化建模與局部特征聚合;引入Retinex感知選擇性核機制,借助特定空間操作實現光照強度的自適應調節。
本工作的主要貢獻可歸納為三方面:
首先,提出整合局部增強狀態空間模塊與隱式Retinex感知選擇性核模塊的新型全局-局部狀態空間塊,有效捕捉復雜全局-局部依賴關系;
其次,設計隱式Retinex感知選擇性核機制指導深層神經表征,無需復雜結構設計即可實現光照組件的自主分離與融合,突破了顯式方法的局限性;
最后,在基準數據集與真實場景中的實驗驗證表明,本方法在各項指標上均顯著優于現有最先進方法。
二、相關工作
2.1 低光圖像增強
低光照圖像增強方法當前主要可分為端到端學習與基于Retinex理論的兩大范式[21]。LLNet[27]率先通過監督學習將深度神經網絡應用于該任務,開創性地構建了端到端增強框架。LightenNet[2]基于卷積神經網絡(CNN)實現單圖像對比度增強,而MBLLEN[29]通過多分支CNN架構融合豐富特征。SNR-Net[46]、Restormer[50]、LLFormer[18]及文獻[30]等方法則引入自注意力機制,顯著提升了模型性能。然而,這類端到端模型主要依賴訓練數據分布,忽視了內在的光照先驗信息。
相比之下,ZeroDCE[13]、RUAS[24]及其后續改進方法[31,7,41]通過精準建模物理先驗實現圖像增強,展現出獨特優勢。但由于缺乏理想參考指導,其性能與監督學習方法仍存在差距。
在監督式Retinex模型中,主流方法通過將圖像分解為光照圖與反射圖進行優化增強。Retinex-Net[43]開創性地將增強流程劃分為分解、調整與重建三個階段,為后續研究奠定基礎。KinD[52]與URetinex-Net[45]分別提出創新性多分支架構與多階段框架,但在模型復雜度與計算效率間的平衡仍面臨挑戰。近期,RetinexFormer[3]采用高效Transformer實現單階段Retinex增強,Diff-Retinex[49]則結合Transformer分解網絡與生成擴散模型進行結果重建。盡管這些方法持續推進Retinex理論的應用,但其直接套用經典Retinex框架的做法仍存在固有局限性。
2.2 視覺空間狀態模型
視覺狀態空間模型。狀態空間模型(State Space Models, SSMs)[11,10,9]作為新興序列建模方法,最初在自然語言處理(NLP)領域取得突破性進展,成功應用于語言理解[35]、內容推理[54]等任務。近年來,該模型在計算機視覺(CV)領域也引發廣泛研究。S4ND[32]率先將狀態空間機制引入CV任務,通過將傳統模型中的Conv2D層與自注意力層替換為S4ND模塊實現創新。VMamba[25]通過彌合有序序列與視覺圖像的非因果性鴻溝,構建具有全局感受野的視覺選擇性狀態空間模型。Vim[53]提出具有位置感知能力的雙向狀態空間建模,實現了全局視覺感知。LocalMamba[15]專注于局部掃描策略以保持上下文依賴關系,而EfficientVMamba[34]通過增加卷積分支設計輕量化SSMs,同步學習全局與局部表征特征。MambaIR[14]則結合卷積與通道注意力機制增強模型能力。然而,現有視覺狀態空間模型對局部信息捕捉仍顯不足,因其原始SSMs專為長序列設計,未能充分考慮視覺數據固有的局部不變性特征。
三、方法
本研究致力于構建一種融合全局優先-局部次之狀態空間架構的隱式Retinex感知低光照增強框架。本節首先對Retinex理論與狀態空間模型進行理論溯源與框架概覽,繼而系統闡述所提出的MambaLLIE方法的技術細節。
3.1 預備知識
Retinex理論。經典Retinex理論[20]將低光照圖像建模為反射率圖與光照圖的乘積分解。如文獻[31,37]所述,顯式Retinex方法主要遵循兩種范式:其一僅估計光照圖并將反射率圖直接作為增強結果;其二同步估計反射率與光照圖并通過優化重建正常光照圖像。具體而言,給定低光照圖像(H、W分別表示圖像高度與寬度),其數學表達可形式化為:
?
其中⊙表示逐元素乘法,反射率圖表征物體的固有屬性,光照圖
描述光照條件,
為重建的正常光照圖像,
與
分別為估計的反射率與光照圖。
第一種范式忽略了傳感器退化導致的噪聲與偽影,且逐像素光照調整策略存在固有局限性;第二種范式雖能通過雙圖優化提升增強效果,但需設計復雜的多分支網絡架構與約束條件指導模型訓練[52]。
狀態空間模型。以結構化狀態空間序列模型(S4)[10]與 Mamba[8]為代表的狀態空間模型(SSMs),本質上是連續線性時不變(LTI)系統[44]的數學抽象。給定一維輸入序列x(t)∈R,系統通過隱狀態將其映射為輸出序列y(t)∈R,其連續形式可表示為線性常微分方程(ODE):
h'(t) = Ah(t) + Bx(t)
y(t) = Ch(t) + Dx(t)?
其中m為狀態維度,?為狀態矩陣,
?與
分別為輸入/輸出投影矩陣,D∈R為直通參數。
由于原始SSMs為連續系統,實際計算需通過零階保持器(ZOH)將其離散化。具體而言,將連續參數{A,B}轉換為離散參數{}:
其中Δ為步長參數。離散化后系統方程可改寫為:
然而,上述系統對輸入變化缺乏動態適應性。為此,Mamba[8]提出選擇性狀態空間模型,使參數隨輸入動態調整:
其中、
與
為線性投影函數,將輸入特征擴展至隱狀態維度。雖然SSMs擅長長序列建模,但其在捕捉復雜局部信息方面存在固有局限。針對視覺數據,VMamba[25]與Vim[53]提出位置感知掃描策略以保持圖像二維結構完整性,但其定向序列掃描機制仍忽略了像素鄰域的空間關聯特性。受文獻[54]啟發,本研究構建全局優先-局部次之狀態空間,通過先驗全局感知引導局部細節補充,有效彌補現有模型在局部信息建模方面的不足。
3.2 整體流程
MambaLLIE整體架構。如圖2(a)所示,本框架采用經典U型編解碼結構,主要由卷積下采樣層、全局-局部狀態空間塊(GLSSB)與上采樣層構成。編碼器通過跳躍連接與對稱解碼器進行特征融合,其核心創新體現于以下設計:
給定低光照圖像,首先通過3×3卷積層提取初始特征
。進一步將圖像均值先驗
與最大值先驗
拼接為增強輸入
:
GLSSB核心模塊作為框架基本單元,每個GLSSB包含局部增強型狀態空間模塊(LESSM)與隱式Retinex感知選擇性核模塊(IRSK),其間通過LayerNorm層進行特征規整。增強輸入?經卷積投影后輸入GLSSB,輸出特征記為
。
通過三級下采樣操作(i=0,1,2)逐級提取深層特征,其維度變化遵循。對稱上采樣層通過跳躍連接融合編碼器-解碼器對應尺度特征,最終經3×3卷積輸出殘差特征
。
增強圖像通過實現端到端重建,有效保留原始圖像低頻信息。
3.3?全局優先-局部次之狀態空間塊
如圖2(b)所示,全局-局部狀態空間塊(GLSSB)遵循"層歸一化→LESSM→層歸一化→IRSK"的級聯結構,其設計靈感源于Transformer[38]與Mamba[8]的基礎模塊構建范式。給定輸入特征,其處理流程可形式化描述如下:
通過層歸一化(LayerNorm)與局部增強型狀態空間模塊(LESSM)實現全局依賴建模:
再次應用層歸一化后,由隱式Retinex感知選擇性核模塊(IRSK)實現局部特征自適應調節:
局部增強型狀態空間模塊。現有狀態空間模型[6,10,8]擅長捕捉長程依賴中的因果處理特性,但其單向掃描機制難以建模視覺數據的非因果關系。盡管[53,25,34]等研究通過多方向2D掃描策略改進視覺數據處理,但這些方法仍忽視視覺數據的局部不變性——固定掃描模式會擴大鄰域數據的空間距離并擾亂因果關聯。
如圖2(c)所示,我們在傳統連續線性時不變系統框架下引入增強型局部偏置項,通過保持局部二維依賴性優化狀態空間模型。改進后的系統方程可表述為:
其中為獨立于隱狀態空間的局部偏置項。具體實現時,給定特征
與光照特征
,模型通過層歸一化與LESSM模塊整合空間長程依賴。參照[8]的設計,輸入特征被拆分為
和
兩個分支進行處理。第一分支通過線性層投影后執行深度可分離卷積與SiLU激活函數,隨后注入增強型局部偏置并進行層歸一化;第二分支則通過線性層投影與SiLU激活函數處理。最終,兩分支特征通過逐元素乘積實現交互,并由線性層投影回原始特征空間。該過程可形式化描述為:
隱式Retinex感知選擇性核模塊。本研究進一步構建隱式Retinex感知選擇性核網絡以增強特征整合能力。如圖2(d)所示,IRSK模塊通過可調卷積核構建多尺度深度卷積序列,基于光照先驗實現空間選擇性特征篩選。受LSKNet[23]啟發,對每個選擇性核輸出的特征圖施加Sigmoid激活函數,從光照先驗中提取獨立光照圖。該過程可形式化描述為:
"SK-1"和"SK-2"分別代表?選擇性核分支(Selective Kernel Branch 1 和 Branch 2)
通過殘差連接將Retinex感知圖與輸入特征拼接后,依次執行深度卷積、GELU激活函數與標準卷積操作。具體實現流程包含兩個關鍵步驟:
-
光照圖分離:將光照先驗特征經卷積與Sigmoid激活分解為雙通道權重圖
-
特征自適應融合:通過加權求和實現多尺度特征選擇
?
四、實驗
4.1 基準數據集與實施細節
數據集。實驗采用五個成對低光照數據集進行評估:LOL-V2-real[48]、LOL-v2-syn[48]、SMID[4]、SDSD-indoor[39]與SDSD-outdoor[39]。其中,LOL-V2-real包含689對真實低光-正常光訓練樣本及100對測試樣本;LOL-v2-syn提供900對合成訓練樣本與100對測試樣本;SMID數據集包含15,763對短曝光-長曝光訓練圖像及其余測試樣本;SDSD-indoor與SDSD-outdoor均選自SDSD靜態數據集,分別包含62對室內場景與116對室外場景訓練樣本,以及6對室內與10對室外測試樣本。
實施細節。基于PyTorch[33]框架在NVIDIA 4090 GPU服務器上實現MambaLLIE。訓練階段將圖像對隨機裁剪為128×128圖像塊作為輸入,采用旋轉與翻轉等數據增強策略,批次大小設為8。優化過程采用Adam[19]優化器(β?=0.9,β?=0.999),總迭代次數為1.5×10?。初始學習率設為2×10??,并通過余弦退火策略逐步衰減。損失函數選用平均絕對誤差(MAE),評估指標采用峰值信噪比(PSNR)與結構相似性(SSIM)[42]。
4.2 對比實驗
定量對比分析。如表1所示,本研究將MambaLLIE與11種最先進的圖像增強方法進行性能對比,包括RetinexNet[43]、DeepUPE[40]、SID[4]、KinD[52]、MIRNet[51]、EnGan[17]、Restormer[50]、SNR-Net[46]、QuadPrior[41]、MambaIR[14]及RetinexFormer[3]。實驗結果表明:
MambaLLIE在PSNR(峰值信噪比)與SSIM(結構相似性)指標上全面超越現有方法。在LOL-V2-real與SDSD-outdoor數據集上,其SSIM指標與最優方法持平。
參數量相近的情況下,MambaLLIE較基于Transformer的最優方法RetinexFormer平均提升0.2 dB,較早期Transformer方法SNR-Net在全數據集平均提升1 dB。
MambaLLIE在五個基準數據集上的PSNR提升分別為:1.70 dB(LOL-V2-real)、0.32 dB(LOL-V2-syn)、2.19 dB(SMID)、1.15 dB(SDSD-indoor)與0.25 dB(SDSD-outdoor)。
相較RetinexNet、DeepUPE及KinD等傳統Retinex模型,MambaLLIE在所有數據集上的PSNR提升均超過7 dB,驗證了深度學習框架的顯著優勢。
定性對比分析。圖3-4展示了MambaLLIE與最新方法的視覺對比結果:
現有方法普遍存在光照補償不足問題(圖3),無法有效恢復暗部細節。例如,RetinexNet在極低光區域產生色塊偽影,而SNR-Net則出現局部過曝。圖4所示,傳統方法易引發色彩失真(如KinD的綠色偏移)與細節模糊(如MambaIR的紋理丟失)。MambaLLIE則通過隱式Retinex感知機制,在提升整體亮度的同時,忠實保持顏色真實性(與Ground Truth色彩分布一致),并精細恢復毛發紋理、建筑邊緣等高頻細節。對于傳感器噪聲與運動模糊共存的場景(如SMID數據集),MambaLLIE展現出更強的退化解耦能力,相較Diff-Retinex的擴散模型方案,其重建結果噪聲抑制更徹底且細節更銳利。
4.3 真實場景實驗評估
低光照圖像增強在真實場景中面臨雙重挑戰:需同時提升下游任務(如暗光目標檢測)性能并滿足人類視覺感知需求。本節通過兩項實驗驗證MambaLLIE的實際應用價值。
低光照目標檢測
采用ExDark數據集[26]評估增強算法對高層視覺任務的增益。該數據集包含7,363張標注12類邊界框的低光圖像(5,890張訓練/1,473張測試)。所有監督方法均在LOL-V2-syn數據集預訓練后,通過不同增強方法處理低光圖像,并以YOLOv3[36]作為目標檢測器進行微調。
如表2所示,MambaLLIE在平均精度(mAP)上優于所有對比方法,尤其在車輛(Car)、椅子(Chair)、杯子(Cup)與桌子(Table)類別中表現最佳。圖5(a)的視覺對比表明:相較于次優方法SCI,MambaLLIE增強后的圖像使檢測器能在極暗區域(如兩人與椅子的場景)成功定位目標,而其他方法均失效。
用戶感知研究
為評估增強結果的人類視覺感知質量,本研究開展用戶調研。從基準數據集與ExDark數據集中隨機選取7張不同光照條件的低光圖像,使用各方法預訓練模型進行增強。70名參與者從以下維度進行1(最差)至5(最優)評分:
-
整體視覺效果(光照均衡性、自然度)
-
局部細節保留(紋理清晰度、邊緣銳度)
-
色彩失真與噪聲(顏色保真度、偽影抑制)
如表3所示,MambaLLIE在所有評分維度均獲最高分。圖5(b)展示典型樣例對比:相較于其他算法,MambaLLIE增強結果在保持色彩自然的同時,顯著提升暗部細節(如樹葉紋理、建筑窗格結構),且無過曝或色偏現象。
4.4 消融實驗
隱式Retinex感知框架對比。本研究通過對比端到端模型、顯式Retinex模型與隱式Retinex框架驗證方法有效性。具體而言:
-
Baseline-1:移除Retinex感知引導機制,直接通過輸入估計增強結果
-
Baseline-2:顯式估計光照圖并通過逐元素乘法調整亮度
如表4所示,隱式Retinex框架較Baseline-1在PSNR指標上提升1.25 dB,較Baseline-2提升1.00 dB,驗證隱式引導機制在退化建模中的優勢。
全局-局部狀態空間消融分析。針對GLSSB核心組件LESSM與IRSK進行模塊級驗證:
-
LESSM效果:相比使用原始狀態空間塊的Baseline-1與Baseline-2,LESSM分別帶來0.33 dB與0.08 dB的PSNR提升,證明局部增強偏置對空間建模的有效性
-
IRSK效果:IRSK模塊相較原始SSM提升0.96 dB(Baseline-1)、0.74 dB(Baseline-2)與0.63 dB(單LESSM配置),表明選擇性核機制對特征融合的關鍵作用
-
聯合效能:當LESSM與IRSK協同工作時,MambaLLIE取得最高PSNR(28.45 dB)與SSIM(0.923),驗證全局-局部協同設計的必要性
選擇性核行為分析。如圖6所示,隱式Retinex感知機制通過互補特征學習正負光照分量:
-
核選擇模式:IRSK在淺層優先使用小核(3×3)聚焦局部細節,深層采用大核(5×5)實現跨區域特征融合,避免傳統檢測任務中大核引發的邊緣填充問題
-
與LSKNet對比:LSKNet[23]采用遞增核尺寸策略以適應檢測任務的大感受野需求,但圖像增強任務中連續填充會加劇邊緣偽影。MambaLLIE的逆向核尺寸設計(小→大)既可快速捕獲局部信息,又能通過深層大核實現全局特征整合
五、局限性與討論
本研究通過隱式Retinex感知引導與全局-局部狀態空間框架,有效解決了低光增強中的全局光照不足與局部退化問題,但仍存在以下局限性:
-
先驗依賴性:相較于端到端方法,本框架需設計合理的光照先驗(如均值/最大值先驗),其性能部分依賴于先驗經驗。在極端場景(如全黑區域占比超過80%),先驗估計可能失效,需結合語義信息優化。
-
評估指標偏差:現有增強模型(包括本工作)多以均方誤差(MSE)為損失函數,依賴PSNR/SSIM作為評價指標。然而,這些指標與人類視覺感知存在固有偏差。為此,我們通過真實場景實驗(目標檢測任務與用戶調研)補充驗證方法的實用性,緩解指標局限性。
未來工作將探索:
-
自監督先驗學習:通過對比學習框架自動提取場景自適應光照先驗,降低人工設計依賴性
-
感知驅動優化:引入無參考圖像質量評估指標(如NIQE)聯合訓練,增強模型對人類視覺偏好的適應性