ADSUNet: Accumulation-Difference-Based Siamese U-Net for inter-frame Infrared Dim and Small Target Detection
作者單位:哈爾濱工業大學空間光學工程研究中心
引用: Liuwei Zhang, Yuyang Xi, Zhipeng Wang, Wang Zhang, Fanjiao Tan, Qingyu Hou, ADSUNet: Accumulation-Difference-Based Siamese U-Net for inter-frame Infrared Dim and Small Target Detection.
論文下載鏈接 中科院1區TOP,IF=7.5,Pattern Recognition (2025), doi: https://doi.org/10.1016/j.patcog.2025.111942
代碼已經開源:https://github.com/zhanglw882/ADSUNet
紅外暗弱小目標檢測(Infrared dim and small target, IRDST)旨在對圖像中的弱小目標進行精確定位,目前已經得到了廣泛的研究。基于空間信息的單幀檢測方法可以檢測到高信雜比的IRDST,但是很難檢測低信雜比的IRDST。為了解決這一問題,一些傳統的方法傾向于結合時空信息來檢測IRDST。然而,這些方法需要調整許多超參數以適應不同的復雜背景。基于學習的多幀檢測方法正在興起,能克服這個缺陷,但是也存在信息冗余和低效的問題。本文提出了一種基于累積差分孿生U型網絡(Accumulation-Difference-Based Siamese U-Net,ADSUNet)的紅外暗弱小目標檢測方法。該方法通過將傳統的幀間灰度差異特征和空間顯著積累特征融入到輕量的鄰幀端到端網絡框架中,提高了低信雜比下IRDST的綜合性能,并且保持了良好的實時性與輕量化。首先,利用Siamese網絡提取幀間圖像中IRDST的多尺度空間顯著特征;隨后,利用所提出的累積-差異注意力模塊自適應融合幀間特征圖,確保充分有效地利用IRDST的高維幀間時空信息。最后,通過解碼網絡還原特征圖的尺度,得到IRDST的概率似然圖。與其他方法相比,ADSUNet在目標可探測性、抑制虛警性、實時性等方面達到了最先進的水平,在兩個數據集(SCR < 3)上AUC值分別為0.993和0.998,FPS達到30.97,參數量僅為1.498 M。
1、論文動機
為了實現紅外弱小目標的準確檢測,近年來人們提出了很多方法,按照方法類型可以分為基于模型驅動的傳統方法與基于數據驅動的智能方法這兩大類。其中基于模型驅動的傳統方法主要有基于濾波的方法、基于稀疏和低秩的方法和基于人類視覺系統(HVS)的方法。傳統方法主要從紅外小目標與背景之間的特征差異出發,通過設計手工制作的特征模型與利用先驗知識,對紅外弱小目標進行增強處理,對背景、雜波、噪聲進行有效抑制,從而實現紅外小目標的檢測。經過驗證,這些方法在簡單背景和高強度紅外小目標的場景中取得了不錯的效果,但是由于人工特征提取的固有局限性,這些方法對于復雜多變的場景下紅外弱小目標的檢測能力差,尤其是在面向低信雜比目標檢測時,紅外小目標的檢測性能顯著下降。
基于數據驅動的方法主要指采用深度學習技術進行紅外弱小目標檢測,這類方法利用卷積網絡強大的非線性表征能力從大量標注數據中有效地提取深層特征,智能自主地學習紅外弱小目標特征以及其與背景的差異,從而實現紅外小目標與背景的精確分離,能夠高精度的完成紅外弱小目標的檢測。例如:Hou等人提出了魯棒紅外小目標檢測網絡(RISTDnet),巧妙地設計了固定權重與可變權重卷積網絡級聯組合的方式學習紅外弱小目標的深層特征,通過一系列實驗證明了網絡對復雜背景下不同尺寸紅外小目標的檢測能力。Li等人提出的密集嵌套注意網絡(DNANet)采用了稠密卷積架構增強了深度特征層間的信息交互和特征融合,避免了深層語義中紅外小目標特征的丟失,顯著提高了紅外小目標的檢測性能。還有很多基于深度學習的方法提出,都為紅外小目標檢測技術的發展貢獻了新的思路和解決方案。
但是在低信雜比條件下進行紅外弱小目標檢測時,由于目標信號微弱且空間不顯著,僅依賴于采用空域的檢測方法難以有效的檢測紅外弱小目標。在這種情況下,一批研究人員開始新的探索,即采用有限數量的連續幀數據來進行低信雜比紅外弱小目標的檢測。利用時間序列數據有助于捕捉紅外弱小目標的時空信息,以提高低信雜比紅外弱小目標的檢測能力。對相鄰兩幀紅外小目標區域時空特征進行分析,如圖1所示,由于探測器的高幀頻成像,紅外小目標在像面上的位移有限,因此相鄰兩幀通過能量的累加可提高弱小目標的顯著性,同時紅外小目標存在微動效應,通過幀間差分可獲得紅外小目標的幀間變化與運動特征。如果可以把能量累加與幀間差分特征進行有效的融合,將大幅提高低信雜比目標的檢測能力。進一步的,可采用深度學習的方式自主的進行鄰幀圖像空域顯著性的提取與能量累加-幀間差分的智能融合,端到端的實現鄰近兩幀圖像到紅外小目標概率的映射。
基于上述分析,研究提出了一種創新的紅外弱小目標鄰幀檢測網絡(Inter-frame Infrared Small Target Detection),該網絡是基于累積-差分U型孿生網絡架構。總結來說,本文主要的貢獻總結如下。
1)針對低信雜比紅外小目標檢測問題,我們提出了一個基于累積-差分模塊U型孿生網絡的紅外弱小目標鄰幀檢測算法框架,基于U型孿生網絡、累積-差分注意力模塊與解碼模塊融合鄰幀的時空信息,端到端的實現了基于鄰幀圖像的紅外弱小目標的檢測。
2)采用了共享權重的孿生網絡提取鄰近兩幀圖像的多尺度空域顯著性特征,在解碼網絡中通過上采樣將深層特征與淺層特征融合獲得紅外小目標概率圖,實現了兩幀圖像與紅外小目標概率圖的映射。
3)在U型網絡的跳連接中設計了累積-差分注意力模塊融合鄰幀信息,通過幀間空域顯著性特征與幀間的差異特征的融合,并對融合后的特征引入了注意力機制,進一步提高了紅外小目標幀間時空特征的提取能力;
4)實驗結果證明提出方法的優越性。與現有方法相比,提出的方法對于低信雜比的紅外弱小目標能夠保持很小的性能下降,并在提出的新測試集上保持優異性能,體現出很強的泛化能力,并且具有更小的網絡復雜度和更高的實時性。
2、方法部分
在本節中,將介紹ADSUNet的具體實現方法。首先,描述了ADSUNet的主體結構,緊接著展開介紹了網絡的三大組成結構:Encoder、Accumulation-Difference Attention Module、Decoder,其中主要介紹提出的Accumulation-Difference Attention Module,最后,介紹網絡的損失函數。
A. Framework Overview
通過端到端網絡充分融合相鄰兩幀紅外圖像的信息,使網絡自主的學習紅外弱小目標的空間顯著性特征及幀間時空特征,其中時空特征主要指紅外小目標時空的能量累加以及紅外小目標運動導致的幀間微變差異,以增強對低信雜比、微動紅外弱小目標的檢測能力。如圖2所示,提出網絡的總體結構受Unet和Siamese Network的啟發,主要由三大部分構成:Encoder(Section III-B)、Accumulation-Difference Attention Module(Section III-C)、Decoder(Section III-D)。
Section III-B介紹了用于提取紅外圖像中紅外弱小目標多尺度高維深度特征的孿生網絡,該結構采用了兩路分支分別對輸入的相鄰兩幀圖像進行處理,通過4次下采樣獲得不同尺度的特征,并在下采樣中拓寬深度特征的維度,有效的獲取輸入圖像的空域特征,兩支路網絡的權重參數共享,有利于收斂。Section III-C介紹提出的Accumulation-Difference Attention Module,該模塊增加在Unet的跳連接中,在模塊中首先對兩路網絡獲得的特征圖進行差分處理與累加處理得到差分特征與累加特征,其次將差分特征與累加特征進行級聯拼接并利用注意力機制來自主調解差分特征與累加特征(Accumulation-Difference)的融合,獲得紅外弱小目標幀間時空特征。Section III-D和Section III-E分別介紹深層特征多級逐層解碼網絡(Decoder)和損失函數。
B. Encoder
由于紅外小目標是尺度定義為1×1~9×9像素的目標,因此在下采樣的過程中如果采用很深層的特征提取網絡,紅外小目標的語義信息在深層網絡中會消失,并不能有助于紅外小目標的檢測。所以,編碼器采用了經典的ResNet18作為主干網絡來提取圖像的多尺度特征,由于ResNet18中僅有3次降采樣,經過降采樣后,特征圖尺寸從H×W降低到(H/8)×(W/8),在最深層仍能夠保留紅外小目標的語義信息。經過Decoder,特征維度從1擴張到128維,更多的通道數有助于紅外弱小目標細節特征的表示。
編碼器可以生成多尺度特征,其中高層特征保留了較強的語義信息,而低層特征保留了細節信息。根據輸出特征圖的尺寸,編碼器分為4層。
為了鄰幀紅外圖像特征的有效學習,編碼器中兩個網絡分支之間的權重是共享的。通過共享權重,在一次訓練中能夠同時有效的利用兩幀輸入圖像的信息進行權重參數的迭代優化,加快了網絡的收斂。
C. Accumulation-Difference Attention Module
Accumulation-Difference Attention Module負責鄰幀輸入圖像的融合處理操作,共采用了4個Accumulation-Difference Attention Module分別對4級尺度的特征圖進行處理,Accumulation-Difference Attention Module主要包括了累積-差分融合處理機制與注意力機制兩大部分,如圖3所示。
D. Decoder
在Decoder進行多級的幀間Accumulation Feature and Difference Feature的融合,通過上采樣將低分辨率的深層語義特征進行擴展,使其能夠與上一層高分辨率特征圖尺寸進行對齊實現融合,經過逐級的深層語義特征與淺層細節特征的融合,逐步遞進來獲取紅外小目標精確的檢測結果。
E. Loss Function
mIoU(Mean Intersection over Union)是一種常用的圖像分割任務的評價指標,用于衡量預測結果與真實Label之間的相似度,基于mIoU指標衍生的mIoU損失對于樣本類別分布不平衡的分割任務具有很強的魯棒性。紅外小目標檢測實際上也是一種圖像分割任務,同時紅外小目標占圖像的像素數低于0.15%,是典型的小樣本檢測任務。因此本文采用了mIoU損失。
3、實驗部分
【具體的其它內容請參考發表的原文】
為闡述我們方法的性能,我們將提出的方法與state-of-the-art的紅外弱小目標檢測方法進行比對,包括了傳統方法(MPCM,HBMLCM,WSLCM,RLCM,TLLCM,NIPPS,RIPT,WLDM,FKRW,MGRG,STLCF)及基于深度學習的方法(ISTDU_Net、RISTD_Net、DNA_Net、DTUM_Net)。所有的傳統方法采用的參數使用它們的默認參數,基于深度學習的方法均在訓練集上進行了重新的訓練以獲得最新權重,算法具體參數設置如表6所示。
- Quantitative Results:
在紅外小目標的檢測性能方面,與其他算法進行ROC曲線性能的對比,繪制的ROC曲線如下圖所示。
首先,從算法類型對檢測性能影響的角度,基于深度學習的算法普遍優于傳統算法,說明了數據驅動的深度學習方法在紅外小目標檢測上的優勢。
進一步的,通過觀察不同方法在測試數據集上得到的ROC曲線可以看出,無論是高信雜比目標還是低信雜比目標,本文提出方法的ROC曲線均處于坐標軸的左上角區域,但是如RLCM、WSLCM、RIPT、RISTDU_Net等算法在低信雜比目標的測試序列(NUDT-MIRSDT Low SNR、IFIRDST Test_SeqB)上性能下降尤其明顯,表明了目前的大部分算法只適用于高信雜比的紅外小目標,對低信雜比目標的檢測性能有限。
進一步的,我們統計了在NUDT-MIRSDT與IFIRDST上TPR、FPR及AUC結果,如表7、表8所示:
從上述結果不難得到結論:
(1)在表7中,觀察不同算法在High SNR測試集(NUDT-MIRSDT High SNR)與Low SNR測試集(NUDT-MIRSDT Low SNR)上的AUC值,不難發現大部分算法在Low SNR測試集上的AUC出現大幅下降,如MPCM、WSLCM、RIPT、STLCF、DNA_Net等算法的AUC值分別下降了0.371、0.471、0.245、0.225、0.201,說明了算法性能很大程度上受到目標信雜比的影響,大部分算法對于低信雜比的紅外弱小目標檢測性能有限。
(2)繼續在表7中,我們的算法與DTUM_Net的TPR、FPR、AUC明顯優于相對比的其它算法,尤其是在Low SNR測試集(NUDT-MIRSDT Low SNR)上,AUC分別能達到0.993與0.995,相比于High SNR測試集(NUDT-MIRSDT High SNR)僅下降了0.006、0.004。表明了我們的算法與DTUM_Net具有對低信雜比紅外弱小目標的檢測能力。
(3)在表8中可以看到提出網絡模型的復雜度、算法實時性與其它基于深度學習方法的對比情況。提出算法的參數量僅為1.498M,FLOPS為24.89GFLOPS,是對比算法中運算次數最小的。FPS達到30.97,能滿足實時性要求,是基于深度學習方法中效率最快的。 - Qualitative Results:
如圖7所示,我們展示了NUDT-MIRSDT測試集上10幅典型輸入圖像的算法處理結果,根據前面定量分析結果,展示的算法包括了NIPPS、STLCF、ISTDU Net、RISTD Net、DTUM Net與我們提出的算法,它們都是定量分析中性能較好的方法。
其中Img1~Img4來自NUDT-MIRSDT High SNR,紅外小目標信雜比高,所列的6個算法能夠有效的檢測到其中的紅外小目標,僅NIPPS在Img4中出現了目標的漏檢。
但是,針對目標信雜比低的Img5-Img10( From NUDT-MIRSDT Low SNR),NIPPS、STLCF與RISTD_Net都沒有檢測到真實的目標,均產生了漏檢,ISTDU_Net成功檢測到Img6、Img8中的目標,而其它測試圖像中的目標也沒有成功被檢測到。
我們提出的算法與DTUM_Net對所有測試圖像中的目標都能成功檢測,但是在測試圖像Img2、Img3、Img4、Img5中,DTUM_Net算法在紅外小目標周邊產生了與目標主體分離的檢出區域,導致目標檢出區域不完整與潛在虛警。而本文提出的方法能夠完整的檢出紅外弱小目標,且沒有產生虛警。
我們對提出算法進行了特征圖的可視化工作,采用了GradCAM作為可視化模型。如圖9所示,展示了ADSUNet的Decoder中4級特征圖的可視化結果,對應了網絡的最深層到最淺層。
其中熱力圖的深色區域表明該區域對最終檢測結果的貢獻程度高,可以理解為網絡的注意力集中在熱力圖的深色區域。可以看出,通過Decoder中不斷的上采樣操作,將深層的語義特征與淺層的細節紋理特征逐漸融合,網絡的注意力最終都集中在紅外小目標所在的區域,符合網絡模型的預期,也表明了提出的ADSUNet是有效的。
4、CONCLUSION
在本文中,我們采用端到端的設計實現了鄰幀圖像的紅外弱小目標檢測,提出的ADSUNet面向低信雜比紅外弱小目標的檢測表現出了優異的性能。ADSUNet以孿生網絡與U型網絡為基礎,利用我們設計的差分-累加注意力模塊(Accumulation-Difference Attention Module)有效的融合了鄰幀圖像的時空信息,主要包括了空間顯著性累加特征與時空差異信息,能夠實現低虛警率下的紅外弱小目標檢測。在開源數據集上進行了性能對比測試,與其他算法相比,尤其針對低信雜比的紅外弱小目標,ROC、AUC等指標均優于其它現有的算法,在新提出的測試集上仍能保持優異的水平,說明網絡的強泛化能力。并且算法模型參數量僅為1.498M易于輕量化算力平臺的部署,FPS能高達30.97,滿足紅外小目標檢測的實時性要求。
The authors would like to thank the National University of Defense Technology (NUDT) in Changsha, China, for providing the NUDT-MIRSDT dataset.