目標檢測:視覺系統中的CNN-Transformer融合網絡

一、背景

無人機(UAVs)在城市自動巡邏中發揮著重要作用,但它們在圖像識別方面面臨挑戰,尤其是小目標檢測和目標遮擋問題。此外,無人機的高速飛行要求檢測系統具備實時處理能力。

為解決這些問題,我們提出了一種新的實時目標檢測網絡(RTD-Net),它結合了卷積神經網絡(CNN)和Transformer的優勢。RTD-Net特別設計了特征融合模塊(FFM)和高效卷積Transformer塊(ECTB),以增強小目標和遮擋目標的檢測能力。同時,輕量級特征提取模塊(LEM)確保了網絡的高效運行,滿足實時性需求。

我們的實驗表明,RTD-Net在UAV圖像數據集上實現了高精度和高速度的檢測性能,且在嵌入式設備上也表現出良好的實時檢測能力,為智能城市監控提供了一種有效的技術解決方案。

二、相關工作

無人機(UAV)在智能監控和城市巡邏中的應用日益增多,它們為自動目標檢測提供了新的視角。然而,UAV圖像的目標檢測面臨幾個挑戰:

  1. 小目標檢測:由于UAV飛行高度較高,地面目標在圖像中呈現較小,難以檢測。
  2. 目標遮擋:城市環境中的遮擋物,如樹木和建筑物,會阻斷目標的視覺連續性,影響檢測性能。
  3. 實時性能要求:無人機的快速移動要求檢測系統具備高速處理能力。

為了應對這些挑戰,研究人員已經探索了多種方法:

  • 傳統方法:早期的研究依賴于手工特征提取和機器學習分類器,如SIFT和SVM,這些方法依賴于專家知識且不夠靈活。

  • 基于CNN的方法:隨著深度學習的發展,基于CNN的方法已經成為主流。這些方法通過端到端學習提高了檢測精度,但通常計算量大,難以滿足實時性要求。

  • 基于Transformer的方法:最近,Transformer因其在處理序列數據中的長距離依賴關系的能力而受到關注。將其應用于圖像檢測,可以增強模型對遮擋目標的識別能力,但計算成本較高。

本研究提出的RTD-Net,通過結合CNN和Transformer的優勢,旨在實現對UAV圖像中小目標和遮擋目標的高效檢測。我們通過設計輕量級特征提取模塊和高效的Transformer塊,減少了計算量,同時通過特征融合模塊提升了小目標的檢測性能。

三、提出的網絡框架

為了提高無人機在復雜環境下的目標檢測能力,我們提出了一個名為RTD-Net的實時目標檢測網絡,其整體結構如圖1所示:
image.png

圖1:RTD-Net體系結構概述

這個網絡特別設計以應對小目標檢測、遮擋目標識別和實時處理的需求。RTD-Net的關鍵組成部分包括:

1.RTD-Net概述

  • RTD-Net是一個單階段檢測網絡,它直接從輸入圖像預測目標的位置和類別,然后通過非最大抑制(NMS)處理來獲取最終檢測結果。
  • 網絡設計考慮了檢測精度和速度的平衡,特別適用于資源受限的嵌入式設備。

2.輕量級特征提取模塊(LEM):

LEM是網絡的骨干部分,它使用同質多分支架構來減少計算量和參數數量。如圖2所示,通過1x1的卷積核整合通道信息,然后通過3x3的卷積核進行特征提取,有效降低了模型的復雜性:

image.png

圖2:LEM

3.高效卷積Transformer塊(ECTB):

設計了一個基于CNN和變壓器的ECTB,標準變壓器塊主要由MHSA層和線性層組成,如圖3所示:
image.png

圖3:不同變壓器塊的結構。(a)標準變壓器塊。(b)瓶頸變壓器(BoT)塊。?擬議的ECTB。

ECTB是網絡的核心創新之一,它結合了CNN和Transformer的優勢。通過引入卷積多頭自注意力(CMHSA)機制,ECTB能夠提取圖像的全局特征,并通過上下文信息改善遮擋目標的識別。
外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳

4.特征融合模塊(FFM):

FFM基于雙向特征金字塔網絡(BiFPN)設計,用于融合不同層級的特征。通過特征融合,FFM增強了模型對小目標的檢測能力,提高了特征的表達能力。

5.注意力預測頭(APH):

  • APH采用了基于歸一化的注意力模塊(NAM),用于提高模型對復雜場景中目標的注意力集中能力。
  • APH通過通道和空間兩個獨立的維度來推斷輸入圖像的注意力,如圖4所示,并將其應用于輸入特征圖,以提升檢測精度。
    image.png

圖4:(a)通道注意機制。(b)空間注意機制

這些組件共同工作,使得RTD-Net能夠在保持高檢測精度的同時,滿足UAV在資源受限環境中的實時性要求。

四、實驗

為了全面評估RTD-Net的性能,我們在多個方面進行了實驗,包括在自定義的UAV圖像數據集和標準的MS COCO2017數據集上的評估,以及在嵌入式平臺上的實時性能測試。

1.數據集準備:

我們收集并創建了一個包含9630張圖像的UAV圖像數據集,這些圖像涵蓋了不同的天氣條件、光照環境和城市郊區背景。
image.png

數據集被分為訓練集(60%)、驗證集(20%)和測試集(20%),包含七種常見的地面目標類別:轎車、行人、摩托車、自行車、卡車、公交車和三輪車。

圖像中的目標根據平均面積比例(AAR)被分為大、中、小三類,以模擬真實世界中UAV檢測的挑戰。

2.在UAV圖像數據集上的結果:

我們使用平均精度(mAP)作為主要的評估指標,以衡量模型在不同類別和不同大小目標上的檢測性能。RTD-Net在該數據集上達到了86.4%的mAP,超過了其他現有的最先進方法,同時在NVIDIA GTX1080Ti上實現了312幀/秒的高檢測速度。

我們還進行了詳盡的對比實驗,將RTD-Net與多種最新的目標檢測模型進行了比較,包括Faster R-CNN、SSD、YOLO系列等,證明了RTD-Net在檢測精度和速度上的優勢。

3.在MS COCO2017數據集上的結果:

為了測試RTD-Net的泛化能力,我們在標準的MS COCO2017數據集上進行了額外的評估。
RTD-Net在COCO2017數據集上的表現與UAV圖像數據集上的表現一致,顯示出良好的泛化能力和在不同場景下的適用性,COCO2017中的可視化結果:
image.png

4.嵌入式平臺測試:

我們在NVIDIA Jetson TX2嵌入式平臺上測試了RTD-Net的實時性能,這是評估其在實際UAV應用中的適用性的關鍵步驟。
image.png

  • 在不使用TensorRT優化的情況下,RTD-Net在TX2上達到了33.4幀/秒的檢測速度,滿足了實時檢測的要求。
  • 使用TensorRT優化后,檢測速度略有下降,但模型的檢測精度提高了,證明了RTD-Net在資源受限設備上的實際應用潛力。

通過這些詳細的實驗,我們全面驗證了RTD-Net在目標檢測任務中的高性能,特別是在UAV視覺系統中的實際應用價值。

五、結論

本研究成功開發了一種名為RTD-Net的實時目標檢測網絡,專為無人機(UAV)視覺系統設計,以應對城市自動巡邏中的復雜挑戰。通過精心設計的網絡結構,包括輕量級特征提取模塊(LEM)、高效卷積Transformer塊(ECTB)和特征融合模塊(FFM),RTD-Net在檢測精度和速度上均取得了顯著的性能。

  • 檢測精度:在UAV圖像數據集上,RTD-Net實現了86.4%的mAP,特別是在小目標和遮擋目標的檢測上,相比現有技術有顯著提升。
  • 實時性能:在NVIDIA Jetson TX2嵌入式設備上,RTD-Net展現了滿足實時處理需求的能力,檢測速度達到33.4幀/秒,證明了其在資源受限環境中的實用性。
  • 泛化能力:在MS COCO2017數據集上的測試進一步證實了RTD-Net良好的泛化能力,表明該模型不僅適用于特定的UAV視覺任務,也能泛化到其他目標檢測場景。

總之,RTD-Net的有效性在多個層面得到了驗證,其在智能監控和自動化巡邏等領域具有廣泛的應用前景。未來的工作將探索該模型在更多樣化的實際場景中的應用,并進一步優化其性能。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/88508.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/88508.shtml
英文地址,請注明出處:http://en.pswp.cn/web/88508.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

揭示宇宙的隱藏對稱性:群論-AI云計算拓展核心內容

通過利用云計算,借助群論對宇宙對稱性的探索,從離散群和李群等基礎概念,逐步深入到量子力學和更高自旋系統中的高級應用。 對稱性遠不止是美學上的吸引力;它是編織在宇宙結構中的一個基本原則。從雪花的復雜圖案到控制粒子的基本定…

前端項目vue3項目集成eslint@9.x跟prettier

tips: 這些涉及編輯器的修改不一定能及時生效,如果沒有生效,可以試試重啟編輯器窗口 編輯器集成 我的編輯器是vscode,需要安裝這兩個編輯器插件eslint prettier我這個配置主要是通過eslint提供的配置cli命令生成,在里面加入了對pr…

登錄超時問題的排查方法與預防經驗分享

??一、排查方法????檢查網絡連接??確保網絡穩定,嘗試重啟路由器或切換網絡(如從WiFi切換到移動數據)。使用命令(如 ping 或 traceroute)測試網絡連通性,排查是否存在丟包或高延遲。??驗證服務端狀…

uniapp,Anroid10+版本如何保存圖片并刪除

Android 10系統開始 進一步增強了平臺功能,為外部存儲設備上的應用和用戶數據提供了更好的保護。作為這項工作的一部分,平臺引入了進一步的改進,以簡化向分區存儲的轉換。 為了讓用戶更好地控制自己的文件,保護用戶隱私數據&#…

Jenkins Pipeline 語法

Pipeline 簡介 Jenkins2.x 的核心是使用 pipeline 來構建項目,也就是流水線,將 Jenkins1.0 版本中基于表單的配置信息比如 JDK/SVN 以及參數的配置都轉變成了代碼,即 pipeline as Code。 傳統的表單方式有以下缺點: 需要大量的 web 表單交互,有時候需要進行很多次的切換…

搭建滲透測試環境

一、基于docker搭建靶場 #此步驟需要科學上網 #從軟件源中下載 docker.io 和 docker -compose 軟件包及其依賴項。 sudo apt-get install docker.io docker-compose #查看docker版本 docker -v #查看docker信息 docker info #重啟docker服務 sudo systemctl daemon-reload sudo…

(一)OpenCV——噪聲去除(降噪)

高斯濾波器(針對高斯噪聲) 高斯噪聲是指它的概率密度函數服從高斯分布(即正態分布)的一類噪聲。常見的高斯噪聲包括起伏噪聲、宇宙噪聲、熱噪聲和散粒噪聲等等。 高斯濾波(Gaussian filter) 包含許多種,包括低通、帶…

百度開源文心 4.5 系列開源大模型 GitCode 本地化部署,硅基流動:文心 vs. DeepSeek vs. Qwen 3.0 深度測評

百度開源文心 4.5 系列開源大模型 GitCode 本地化部署,硅基流動:文心 vs. DeepSeek vs. Qwen 3.0 深度測評 文章目錄百度開源文心 4.5 系列開源大模型 GitCode 本地化部署,硅基流動:文心 vs. DeepSeek vs. Qwen 3.0 深度測評背景百…

「日拱一碼」022 機器學習——數據劃分

目錄 基于單次隨機劃分的方法 普通單次隨機劃分(train_test_split) 分層單次隨機劃分(使用 train_test_split 的 stratify 參數) 基于多次隨機劃分的方法 普通多次隨機劃分(ShuffleSplit) 分層多次隨機劃分(StratifiedShuffleSplit…

lora網關

所需配置的引腳,SPI傳輸,PG13復位(輸出引腳,推挽輸出),PE2忙碌(輸入引腳,浮空輸入)PE6PE5輸出。若利用延時處理按鍵消抖,hal庫里用systick中斷實現延時&#…

5G IMS注冊關鍵一步:UE如何通過ePCO獲取P-CSCF地址

看似簡單的P-CSCF地址傳遞,背后是5G核心網控制面與用戶面的精密協作。ePCO作為高效的信令載體,承載著IMS業務觸達的第一把鑰匙。 在5G網絡中建立IMS PDN連接時,UE(用戶設備)獲取P-CSCF(Proxy-Call Session Control Function)地址是IMS業務(如VoLTE、VoNR)成功注冊和運…

JVM方法區的運行時常量區到底存儲哪些數據?

JDK8以后,運行時常量池邏輯上屬于方法區;但: 其中的字符串常量池實際位置移至到了java堆;其中一些符號引用也存儲到了元空間;字符串常量池,元空間,運行時常量區的具體關系請看這篇博客&#xf…

Go defer(二):從匯編的角度理解延遲調用的實現

Go的延遲調用機制會在當前函數返回前執行傳入的函數,它會經常被用于關閉文件描述符、關閉數據庫連接以及解鎖資源。之前的文章( Go defer(一):延遲調用的使用及其底層實現原理詳解 )詳細介紹了defer的使用以…

Android 12系統源碼_分屏模式(一)從最近任務觸發分屏模式

前言 打開MainActivity,然后進入最近任務觸發分屏,可以成功進入分屏模式。 本篇文章我們來具體梳理一下這個過程的源碼調用流程。 一 launcher3階段 1.1 源碼 //packages/apps/Launcher3/quickstep/src/com/android/quickstep/views/TaskView.java publi…

Flask 入門教程:用 Python 快速搭建你的第一個 Web 應用

文章目錄前言一、什么是 Flask?📌 Flask 的優勢1. 輕量靈活2. 易于上手3. 可擴展性強4. 自由度高5. 社區活躍,資料豐富Flask 主要用來做什么?二、Flask快速入門1.創建一個Flask項目2.開啟debug,修改host,端…

實習第一個小需求樣式問題總結

Vue2 vxe-table Element UI 表頭下拉詳情實現總結一、核心功能實現表頭下拉按鈕交互初始嘗試 expand-change 事件無法滿足需求&#xff0c;改用 vxe-table 的 toggle-row-expand 事件&#xff1a;<vxe-table toggle-row-expand"handleExpandChange"><temp…

Linux中LVM邏輯卷擴容

在Linux系統中對根目錄所在的LVM邏輯卷進行擴容&#xff0c;需要依次完成 物理卷擴容 ? 卷組擴容 ? 邏輯卷擴容 ? 文件系統擴容 四個步驟。以下是詳細操作流程&#xff1a;一、確認當前磁盤和LVM狀態# 1. 查看磁盤空間使用情況 df -h /# 2. 查看塊設備及LVM層級關系 lsblk# …

微軟365 PDF導出功能存在本地文件包含漏洞,可泄露敏感服務器數據

微軟365的"導出為PDF"功能近期被發現存在嚴重的本地文件包含(Local File Inclusion, LFI)漏洞&#xff0c;攻擊者可利用該漏洞獲取服務器端的敏感數據&#xff0c;包括配置文件、數據庫憑證和應用程序源代碼。該漏洞由安全研究員Gianluca Baldi發現并報告給微軟&…

臺球 PCOL:極致物理還原的網頁斯諾克引擎(附源碼深度解析)

> 無需下載,打開瀏覽器即可體驗專業級斯諾克!本文將揭秘網頁版臺球游戲的物理引擎與渲染核心技術 在游戲開發領域,臺球物理模擬一直被視為**剛體動力學皇冠上的明珠**。今天我們要解析的**臺球 PCOL**(Pure Canvas Online Billiards)正是一款突破性的網頁版斯諾克游戲…

springboot-2.3.3.RELEASE升級2.7.16,swagger2.9.2升級3.0.0過程

一、pom文件版本修改<parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>2.7.16</version><relativePath/> </parent>如果用到了“spring-boot-starter…