一、背景
無人機(UAVs)在城市自動巡邏中發揮著重要作用,但它們在圖像識別方面面臨挑戰,尤其是小目標檢測和目標遮擋問題。此外,無人機的高速飛行要求檢測系統具備實時處理能力。
為解決這些問題,我們提出了一種新的實時目標檢測網絡(RTD-Net),它結合了卷積神經網絡(CNN)和Transformer的優勢。RTD-Net特別設計了特征融合模塊(FFM)和高效卷積Transformer塊(ECTB),以增強小目標和遮擋目標的檢測能力。同時,輕量級特征提取模塊(LEM)確保了網絡的高效運行,滿足實時性需求。
我們的實驗表明,RTD-Net在UAV圖像數據集上實現了高精度和高速度的檢測性能,且在嵌入式設備上也表現出良好的實時檢測能力,為智能城市監控提供了一種有效的技術解決方案。
二、相關工作
無人機(UAV)在智能監控和城市巡邏中的應用日益增多,它們為自動目標檢測提供了新的視角。然而,UAV圖像的目標檢測面臨幾個挑戰:
- 小目標檢測:由于UAV飛行高度較高,地面目標在圖像中呈現較小,難以檢測。
- 目標遮擋:城市環境中的遮擋物,如樹木和建筑物,會阻斷目標的視覺連續性,影響檢測性能。
- 實時性能要求:無人機的快速移動要求檢測系統具備高速處理能力。
為了應對這些挑戰,研究人員已經探索了多種方法:
-
傳統方法:早期的研究依賴于手工特征提取和機器學習分類器,如SIFT和SVM,這些方法依賴于專家知識且不夠靈活。
-
基于CNN的方法:隨著深度學習的發展,基于CNN的方法已經成為主流。這些方法通過端到端學習提高了檢測精度,但通常計算量大,難以滿足實時性要求。
-
基于Transformer的方法:最近,Transformer因其在處理序列數據中的長距離依賴關系的能力而受到關注。將其應用于圖像檢測,可以增強模型對遮擋目標的識別能力,但計算成本較高。
本研究提出的RTD-Net,通過結合CNN和Transformer的優勢,旨在實現對UAV圖像中小目標和遮擋目標的高效檢測。我們通過設計輕量級特征提取模塊和高效的Transformer塊,減少了計算量,同時通過特征融合模塊提升了小目標的檢測性能。
三、提出的網絡框架
為了提高無人機在復雜環境下的目標檢測能力,我們提出了一個名為RTD-Net的實時目標檢測網絡,其整體結構如圖1所示:
圖1:RTD-Net體系結構概述
這個網絡特別設計以應對小目標檢測、遮擋目標識別和實時處理的需求。RTD-Net的關鍵組成部分包括:
1.RTD-Net概述
- RTD-Net是一個單階段檢測網絡,它直接從輸入圖像預測目標的位置和類別,然后通過非最大抑制(NMS)處理來獲取最終檢測結果。
- 網絡設計考慮了檢測精度和速度的平衡,特別適用于資源受限的嵌入式設備。
2.輕量級特征提取模塊(LEM):
LEM是網絡的骨干部分,它使用同質多分支架構來減少計算量和參數數量。如圖2所示,通過1x1的卷積核整合通道信息,然后通過3x3的卷積核進行特征提取,有效降低了模型的復雜性:
圖2:LEM
3.高效卷積Transformer塊(ECTB):
設計了一個基于CNN和變壓器的ECTB,標準變壓器塊主要由MHSA層和線性層組成,如圖3所示:
圖3:不同變壓器塊的結構。(a)標準變壓器塊。(b)瓶頸變壓器(BoT)塊。?擬議的ECTB。
ECTB是網絡的核心創新之一,它結合了CNN和Transformer的優勢。通過引入卷積多頭自注意力(CMHSA)機制,ECTB能夠提取圖像的全局特征,并通過上下文信息改善遮擋目標的識別。
4.特征融合模塊(FFM):
FFM基于雙向特征金字塔網絡(BiFPN)設計,用于融合不同層級的特征。通過特征融合,FFM增強了模型對小目標的檢測能力,提高了特征的表達能力。
5.注意力預測頭(APH):
- APH采用了基于歸一化的注意力模塊(NAM),用于提高模型對復雜場景中目標的注意力集中能力。
- APH通過通道和空間兩個獨立的維度來推斷輸入圖像的注意力,如圖4所示,并將其應用于輸入特征圖,以提升檢測精度。
圖4:(a)通道注意機制。(b)空間注意機制
這些組件共同工作,使得RTD-Net能夠在保持高檢測精度的同時,滿足UAV在資源受限環境中的實時性要求。
四、實驗
為了全面評估RTD-Net的性能,我們在多個方面進行了實驗,包括在自定義的UAV圖像數據集和標準的MS COCO2017數據集上的評估,以及在嵌入式平臺上的實時性能測試。
1.數據集準備:
我們收集并創建了一個包含9630張圖像的UAV圖像數據集,這些圖像涵蓋了不同的天氣條件、光照環境和城市郊區背景。
數據集被分為訓練集(60%)、驗證集(20%)和測試集(20%),包含七種常見的地面目標類別:轎車、行人、摩托車、自行車、卡車、公交車和三輪車。
圖像中的目標根據平均面積比例(AAR)被分為大、中、小三類,以模擬真實世界中UAV檢測的挑戰。
2.在UAV圖像數據集上的結果:
我們使用平均精度(mAP)作為主要的評估指標,以衡量模型在不同類別和不同大小目標上的檢測性能。RTD-Net在該數據集上達到了86.4%的mAP,超過了其他現有的最先進方法,同時在NVIDIA GTX1080Ti上實現了312幀/秒的高檢測速度。
我們還進行了詳盡的對比實驗,將RTD-Net與多種最新的目標檢測模型進行了比較,包括Faster R-CNN、SSD、YOLO系列等,證明了RTD-Net在檢測精度和速度上的優勢。
3.在MS COCO2017數據集上的結果:
為了測試RTD-Net的泛化能力,我們在標準的MS COCO2017數據集上進行了額外的評估。
RTD-Net在COCO2017數據集上的表現與UAV圖像數據集上的表現一致,顯示出良好的泛化能力和在不同場景下的適用性,COCO2017中的可視化結果:
4.嵌入式平臺測試:
我們在NVIDIA Jetson TX2嵌入式平臺上測試了RTD-Net的實時性能,這是評估其在實際UAV應用中的適用性的關鍵步驟。
- 在不使用TensorRT優化的情況下,RTD-Net在TX2上達到了33.4幀/秒的檢測速度,滿足了實時檢測的要求。
- 使用TensorRT優化后,檢測速度略有下降,但模型的檢測精度提高了,證明了RTD-Net在資源受限設備上的實際應用潛力。
通過這些詳細的實驗,我們全面驗證了RTD-Net在目標檢測任務中的高性能,特別是在UAV視覺系統中的實際應用價值。
五、結論
本研究成功開發了一種名為RTD-Net的實時目標檢測網絡,專為無人機(UAV)視覺系統設計,以應對城市自動巡邏中的復雜挑戰。通過精心設計的網絡結構,包括輕量級特征提取模塊(LEM)、高效卷積Transformer塊(ECTB)和特征融合模塊(FFM),RTD-Net在檢測精度和速度上均取得了顯著的性能。
- 檢測精度:在UAV圖像數據集上,RTD-Net實現了86.4%的mAP,特別是在小目標和遮擋目標的檢測上,相比現有技術有顯著提升。
- 實時性能:在NVIDIA Jetson TX2嵌入式設備上,RTD-Net展現了滿足實時處理需求的能力,檢測速度達到33.4幀/秒,證明了其在資源受限環境中的實用性。
- 泛化能力:在MS COCO2017數據集上的測試進一步證實了RTD-Net良好的泛化能力,表明該模型不僅適用于特定的UAV視覺任務,也能泛化到其他目標檢測場景。
總之,RTD-Net的有效性在多個層面得到了驗證,其在智能監控和自動化巡邏等領域具有廣泛的應用前景。未來的工作將探索該模型在更多樣化的實際場景中的應用,并進一步優化其性能。