復雜背景下無人機影像小目標檢測:MPE-YOLO抗遮擋與抗背景干擾設計

目錄

一、引言

二、挑戰和貢獻

密集小目標和遮擋

實時性要求與精度權衡

復雜背景

三、MPE-YOLO模型細節

多級特征集成器(MFI)

感知增強卷積(PEC)

增強范圍C2f模塊(ES-C2f)

四、Coovally AI模型訓練與應用平臺

五、實驗

消融實驗

對比實驗

可視化分析

泛化研究

總結


一、引言

無人機航拍技術已廣泛應用于城市規劃、交通監控、災害評估等領域。通過自動分析航拍圖像中的目標(如車輛、行人、建筑物),我們可以快速獲取地理信息、監測城市動態。然而,現有的檢測算法在復雜環境下的小目標識別和準確率方面存在不足。針對這一問題,本文提出了一種基于YOLOv8的改進模型,即MPE-YOLO

screenshot_2025-04-27_14-40-57.png

論文題目:

MPE?YOLO: enhanced small target detection in aerial imaging

論文鏈接:

https://www.nature.com/articles/s41598-024-68934-2


二、挑戰和貢獻

在無人機航拍圖像中,目標檢測面臨幾個具體的挑戰:

  • 密集小目標和遮擋

低空拍攝的圖像通常包含大量密集的小目標,尤其是在城市或復雜地形中。由于距離較遠,這些目標在圖像中顯得較小,并且容易被遮擋。例如,建筑物可能相互遮擋,或者樹木可能遮擋停放的車輛。這種遮擋會導致目標特征被部分隱藏,從而影響檢測算法的性能。即使是先進的檢測算法,也難以在高密度和嚴重遮擋的環境中準確識別和定位所有目標。

  • 實時性要求與精度權衡

無人機航拍圖像目標檢測必須滿足實時性要求,尤其是在監控和應急響應場景中。實現實時檢測需要降低算法的計算復雜度,而這往往與檢測精度相沖突。高精度檢測算法通常需要大量的計算資源和時間,而實時性要求算法能夠快速處理海量數據。挑戰在于如何在確保實時性的同時保持較高的檢測精度。這需要優化網絡架構,以有效地平衡參數數量和精度。

  • 復雜背景

航拍圖像通常包含大量不相關的背景信息,例如建筑物、樹木和道路。背景信息的復雜性和多樣性會干擾小物體的正確檢測。此外,小物體的特征本身就不那么明顯。傳統的單階段和雙階段算法主要關注全局特征,可能會忽略對小物體檢測至關重要的細粒度特征。這些算法往往無法捕捉小物體的細節,導致檢測精度較低。因此,迫切需要更先進的深度學習模型和算法來處理這些細微的特征,從而提高小物體檢測的準確性。

針對上述問題,本研究基于 YOLOv8 模型提出了一種名為 MPE-YOLO 的算法,該算法在保持輕量級模型的同時,提升了小物體的檢測精度。

本研究的主要貢獻如下:

  • 開發了一個具有分層結構的多級特征集成器 (MFI) 模塊,用于合并不同級別的圖像特征,從而增強場景理解能力并提高物體檢測精度。

  • 提出了一個感知增強卷積 (PEC) 模塊,該模塊利用多切片操作和通道維度串聯來擴展感受野,從而提升模型捕獲目標細節信息的能力。

  • 通過結合所提出的增強型范圍-C2f (ES-C2f) 操作并引入高效的特征選擇和利用機制,進一步增強了特征的選擇性使用,有效提高了小物體檢測的精度和魯棒性。

  • 經過與其他各種目標檢測模型的全面對比實驗,MPE-YOLO 的性能顯著提升,證明了其有效性。


三、MPE-YOLO模型細節

2.png

與其他模型相比,YOLOv8s 在準確率和模型復雜度之間取得了平衡。因此,本研究選擇 YOLOv8s 作為基線網絡。

3.png

如圖所示,通過設計多級特征集成器(MFI)模塊,優化小目標特征的表示和信息融合,減少特征融合過程中的信息損失。感知增強卷積(PEC)模塊的引入取代了傳統的卷積層,擴展了網絡的細粒度特征處理能力,顯著提升了復雜背景下小目標的識別精度。將主干網絡中最后兩個下采樣層和20*20尺寸目標的檢測層替換為160*160尺寸小目標的檢測層,使模型能夠更加關注小目標的細節。最后,通過增強的scope-C2f(ES-C2f)模塊,利用通道擴展和多尺度卷積核的堆疊,進一步提升了模型的特征提取效率和運算效率。結合這些改進,MPE-YOLO在復雜環境下的小物體檢測任務中取得了良好的表現,并顯著提升了模型的準確率和性能。

  • 多級特征集成器(MFI)

4.png

在目標檢測任務中,由于尺寸限制,小目標的特征表示往往不清晰,這會導致它們在特征融合過程中被忽略或丟失,從而降低檢測性能。為了有效解決這一問題,借鑒Res2Net的結構,設計了一種創新的多級特征集成器(MFI)。MFI模塊的結構如圖所示,旨在通過一系列細節策略優化小目標的特征表示和信息融合,減少特征信息的丟失,并抑制冗余和噪聲。

MFI模塊利用卷積操作降低輸入特征圖的通道維數,從而簡化后續計算過程。然后將輸入特征圖均勻分為4組,分別提取不同層次的語義信息(低層細節+高層語義),最后在通道維度融合,提升對小目標的感知能力。

  • 感知增強卷積(PEC)

5.png

傳統的卷積神經網絡通常面臨諸如感受野固定、上下文信息利用不足以及環境感知受限等挑戰。尤其是在小目標檢測中,這些限制會顯著抑制模型的性能。為了克服這些問題,我們引入了感知增強卷積(PEC),如圖所示,這是一個專為骨干網絡設計的模塊,旨在取代傳統的卷積層。PEC的主要優勢在于,它在模型提取主要特征的階段引入了一個新維度,可以顯著擴展感受野并更有效地整合上下文信息,從而進一步加深模型對小目標及其環境的理解。

PEC模塊將輸入特征圖切割為4個子塊,拼接后壓縮通道維度,通過這種精細的空間維度劃分,生成的小塊在確保信息覆蓋均勻的同時,保留了重要的空間信息。為了實現更深層次的特征提取,還結合瓶頸結構強化細節提取,從而進一步提升了特征的計算效率。

  • 增強范圍C2f模塊(ES-C2f)

6.png

在處理航拍圖像中的小目標或低對比度目標時,原YOLOv8的C2f模塊對小目標特征表達能力不足,ES-C2f模塊專注于提升網絡捕捉細節的能力和特征利用效率,尤其是在小目標和低對比度目標的表達方面。通過擴展通道容量和多尺度卷積堆疊,增強對微小目標的敏感度。

ES-C2f模塊引入通道擴展策略,該策略致力于通過更廣泛的特征表示來增強網絡對小目標細節的敏感度,并提高對低對比度目標環境的適應性。為了在兼顧計算效率的同時擴展通道容量,ES-C2f 模塊巧妙地集成了一系列壓縮層。不僅簡化了特征表示,還保留了關鍵信息的捕獲。


四、Coovally AI模型訓練與應用平臺

如果你也想要使用模型進行訓練或改進,Coovally平臺滿足你的要求!

Coovally平臺整合了國內外開源社區1000+模型算法各類公開識別數據集,無論是YOLO系列模型還是Transformer系列視覺模型算法,平臺全部包含,均可一鍵下載助力實驗研究與產業應用。

圖片

圖片

而且在該平臺上,無需配置環境、修改配置文件等繁瑣操作,一鍵上傳數據集,使用模型進行訓練與結果預測,全程高速零代碼

圖片

具體操作步驟可參考:YOLO11全解析:從原理到實戰,全流程體驗下一代目標檢測

平臺鏈接:https://www.coovally.com

如果你想要另外的模型算法數據集,歡迎后臺或評論區留言,我們找到后會第一時間與您分享!


五、實驗

批次大小設置為 4 以避免內存溢出,學習率設置為 0.01,采用余弦退火算法調整學習率,隨機梯度下降 (SGD) 的動量設置為 0.937,并使用馬賽克法進行數據增強。輸入圖形的分辨率統一設置為 640×640。所有模型共訓練 200 個 epoch,訓練過程中未使用任何預訓練模型,以確保實驗的公平性。選擇隨機權重初始化,確保每個模型的初始權重來自同一分布。表1列出了訓練環境配置。

7.png

  • 消融實驗

8.png

其中A代表添加MFI模塊,B代表改進網絡結構,C代表添加PEC模塊,D代表添加ES-C2f模塊。

  • 僅添加MFI模塊:參數量減少0.8M,mAP0.5提升1.6%(達32.9%),模型體積縮減至19.8MB。

  • 疊加網絡結構調整:移除冗余檢測頭,新增160×160小目標檢測層,mAP0.5再提升1.8%(達34.7%),但延遲從9ms增至12ms。

  • 引入PEC模塊:通過特征切割與通道拼接,mAP0.5提升至35.9%,模型參數量僅增加0.4M。

  • 整合ES-C2f模塊:最終mAP0.5達37.0%,參數量4.4M,體積8.7MB,較基線壓縮60%以上。

模塊的逐級疊加驗證了各組件對小目標檢測的貢獻,MFI優化特征融合,PEC增強細節感知,ES-C2f提升通道表達能力。

  • 對比實驗

9.png

10.png

在VisDrone數據集上,觀察到最經典的YOLOv5s模型在小目標檢測中,mAP0.5準確率為26.8%,APs準確率為7.0%。YOLOv6 的表現略差,mAP0.5 為 26.6%,AP 為 6.7%,但盡管如此,兩種方法的性能差異并不大。模型大小和參數數量明顯不同,YOLOv6 的模型大小幾乎是 YOLOv5 的三倍,參數數量則增加了一倍多。

YOLOX-s 將 mAP0.5 提升至 29.5%,AP 提升至 8.8%,表明檢測效果顯著提升。然而,這種提升是以模型大小增加(50.4 MB)和參數數量增加(8.9 MB)為代價的。

YOLOv8 和 YOLOv8m。 YOLOv8s 模型的 mAP0.5 準確率和 AP 準確率分別為 31.3% 和 8.2%,表明結構優化帶來了顯著的提升。YOLOv8m 模型的 mAP0.5 準確率和 AP 準確率分別達到了 35.4% 和 9.8%。

與 YOLO 系列的傳統架構相比,RT-DETR-R18 模型的 mAP0.5 和 AP 準確率均取得了較高的分數(35.9% vs. 10.2%),并且它采用了 DETR 架構。

MPE-YOLO在精度與輕量化上實現雙重突破,參數量僅為YOLOv8s的40%,但mAP0.5提升5.7%。

  • 可視化分析

11.png

12.png

通過精心挑選圖像樣本,將基線模型和 MPE-YOLO 模型應用于目標檢測。如圖所示,在多種場景和挑戰性條件下,MPE-YOLO 模型的檢測置信度顯著優于基線模型。這體現在其識別的目標邊界框具有更高的置信度得分,并且這些得分與實際目標更加一致。更重要的是,MPE-YOLO 在降低誤報和漏報方面也表現出顯著的提升,能夠準確識別和識別大多數目標,同時最大限度地減少非目標區域的誤識別。此外,即使在陰影或光照條件不佳的情況下,MPE-YOLO 也能實現較低的漏檢率。

改進的MPE-YOLO模型展現了其更卓越的特征提取和目標定位能力,體現在它所反映的高響應區域更加集中且強化。該特征在熱力圖上呈現為更明亮的區域,緊密貼合目標的實際位置和輪廓,表明MPE-YOLO模型能夠有效地聚焦重要信號。此外,與基線模型相比,改進模型生成的熱力圖中目標周圍散落的熱點更少,從而降低了誤檢和誤報的可能性。

  • 泛化研究

14.png

13.png

通過對表中兩個不同的遙感圖像數據集RSOD和AI-TOD進行的全面對比測試,MPE-YOLO模型展現了其卓越的泛化能力。測試結果表明,與現有的幾種先進目標檢測模型相比,MPEYOLO模型在mAP0.5和mAP0.5:0.95兩個關鍵性能指標上表現出較高的準確率,尤其是在平均目標尺寸僅為12.8像素的AI-TOD數據集上。

實驗結果表明,MPE-YOLO 具有強大的檢測能力,即使在小目標檢測場景下也能保持較高的準確率,證明了其在遙感圖像分析領域的實用性和有效性。下圖顯示,YOLOv8 對較小目標的漏檢數量顯著高于 MPE-YOLO,而 MPE-YOLO 的漏檢數量明顯較少。

15.png

16.png


總結

MPE-YOLO通過多級特征融合、擴大感受野、增強細節感知三大策略,顯著提升了航拍圖像中小目標的檢測精度,同時保持模型輕量化,適合部署在無人機等資源受限設備。MPE-YOLO的精準表現,為無人機實時監測、災害救援、智慧城市等場景提供了可靠的技術基石。

歡迎留言交流或私信獲取資源,我們也會持續更新相關項目與案例,如果你有想要了解的模型或數據集也可以留言哦,我們會竭盡全力去尋找的!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/78459.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/78459.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/78459.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【C++】13.list的模擬實現

首先,我們需要把鏈表管理起來,也就是把一個個節點管理起來,但是每個節點的信息我們也需要管理,例如節點的前驅指針和后驅指針,以及節點的值,所以我們這里先封裝兩個類來管理節點和鏈表。 namespace Ro {te…

TinyVue v3.22.0 正式發布:深色模式上線!集成 UnoCSS 圖標庫!TypeScript 類型支持全面升級!

我們非常高興地宣布,2025年4月7日,TinyVue發布了v3.22.0🎉。 本次 3.22.0 版本主要有以下重大變更: 支持深色模式增加基于 UnoCSS 的圖標庫更豐富的 TypeScript 類型聲明支持 XSS 配置 詳細的 Release Notes 請參考&#xff1a…

超級創新思路:基于CBAM-Transformer的強化學習時間序列預測模型(Python\matlab實現)

首先聲明,該模型為原創!原創!原創!且該思路還未有成果發表,感興趣的小伙伴可以借鑒!需要完整代碼可私信或評論! 本方案可用于醫療、金融、交通、零售、光伏功率預測、估計預測、天氣預測、流量預測、故障檢測等領域! 目錄 首先聲明,該模型為原創!原創!原創!且該思…

Apache Sqoop數據采集問題

Sqoop數據采集格式問題 一、Sqoop工作原理二、Sqoop命令格式三、Oracle數據采集格式問題四、Sqoop增量采集方案 Apache Sqoop是一款開源的工具,主要用于在Hadoop(Hive)與傳統的數據庫(mysql、postgresql…)間進行數據的傳遞,可以將一個關系型數據庫&…

Grok發布了Grok Studio 和 Workspaces兩個強大的功能。該如何使用?如何使用Grok3 API?

最近Grok又更新了幾個功能:Grok Studio 和 Workspaces。 其中 Grok Studio 主要功能包括: 代碼執行:在預覽標簽中運行 HTML 片段、Python、JavaScript 等。 Google Drive 集成:附加并處理 Docs、Sheets、Slides等文件。 協作工…

Vue選項式 API 與組合式 API

選項式 API 與組合式 API 選項式 API 選項式 API 是 Vue 2 中常用的開發方式&#xff0c;在 Vue 3 里依舊得到支持。它把組件邏輯劃分為不同的選項&#xff0c;像 data、methods、computed 等。 <template><div><p>Count: {{ count }}</p><button…

SiamMask中的分類分支、回歸分支與Mask分支,有何本質差異?

SiamMask中的分類分支、回歸分支與Mask分支&#xff0c;有何本質差異&#xff1f; 一、引言二、分支定位與任務目標三、網絡結構與感受野設計3.1 分類分支&#xff08;Classification Head&#xff09;3.2 回歸分支&#xff08;Regression Head&#xff09;3.3 Mask分支&#x…

threejs學習day02

場景、相機、渲染器 一、創建3D場景 // 引入threejs import * as THREE from three// 創建一個三維場景scene const scene new THREE.Scene();// 給三維場景添加物品 const geometry new THREE.BoxGeometry(100,100,100) // 形狀 const meterial new THREE.MeshBasicMat…

K8S Pod 常見數據存儲方案

假設有如下三個節點的 K8S 集群&#xff1a; k8s31master 是控制節點 k8s31node1、k8s31node2 是工作節點 容器運行時是 containerd 一、理論介紹 1.1、Volumes 卷 Kubernetes 的卷是 pod 的?個組成部分&#xff0c;因此像容器?樣在 pod 的規范&#xff08;pod.spec&#x…

【MySQL數據庫】函數操作

目錄 1&#xff0c;日期函數 2&#xff0c;字符串函數 3&#xff0c;數學函數 1&#xff0c;日期函數 樣例&#xff1a; 獲得年月日 select current_date(); 獲取時分秒 select current_time(); 獲得時間戳 select current_timestamp(); 在日期的基礎上加日期 在2025年4月27…

【每日隨筆】文化屬性 ① ( 天機 | 強勢文化與弱勢文化 | 文化屬性的形成與改變 | 強勢文化 具備的特點 )

文章目錄 一、文化屬性1、天機2、文化屬性的強勢文化與弱勢文化強勢文化弱勢文化 二、文化屬性的形成與改變1、文化屬性形成2、文化屬性改變3、文化知識的階層 三、強勢文化 具備的 特點 一、文化屬性 1、天機 如果想要 了解這個世界的 底層架構 , 就需要掌握 洞察事物本質 的能…

【Fifty Project - D18】

感覺自己就不是計劃星球人&#xff0c;雖然fifty project要求每天早上完成一天的計劃&#xff0c;但是對于一個p人腦子&#xff0c;強制自己按照計劃行事真的太難了。我也理解在早晨花費時間做好一天的計劃有很多好處&#xff0c;但是實際行動起來完成率極低。p人的世界里變動太…

Linux系統編程 day11 鎖 (兩天沒有更新了,中期完就休息了)

鎖的注意事項 1、盡量保證鎖的粒度&#xff0c;越小越好。(訪問共享數據前&#xff0c;加鎖&#xff0c;訪問結束后立即解鎖) 2、互斥鎖&#xff0c;本質是結構體&#xff0c;但是可以看成整數&#xff0c;初值為1。(pthread_mutex_init調用成功) 3、加鎖&#xff1a; --操作…

【Maven】特殊pom.xml配置文件 - BOM

文章目錄 特殊pom.xml配置文件 - BOM一、例子二、注意事項1.特殊的子pom.xml文件2.dependencyManagement 特殊pom.xml配置文件 - BOM 僅用于集中管理項目依賴版本 在 Maven 中&#xff0c;BOM 用于定義一個項目的依賴版本的集合&#xff0c;通常用于管理一組共享的依賴版本。這…

《代碼整潔之道》第5章 格式 - 筆記

你應該選擇一套管理代碼格式的簡單規則。如果是團隊&#xff0c;應該選擇一套團隊一致同意采用的簡單格式規則。 最重要的原則&#xff1a;一致性&#xff08;Consistency&#xff09;&#xff01; 沒有完美的格式規范&#xff0c;但有統一的規范。 整個團隊&#xff08;或者…

C++ 類與對象(中)—— 默認成員函數與運算符重載的深度解析:構造函數,析構函數,拷貝構造函數,賦值運算符重載,普通取地址重載,const取地址重載

在 C 中&#xff0c;類的默認成員函數是編譯器自動生成的重要機制&#xff0c;合理利用這些函數可以簡化代碼編寫&#xff0c;同時避免資源管理錯誤。本文將從構造函數、析構函數、拷貝構造函數、賦值運算符重載等核心內容展開&#xff0c;結合具體案例深入解析。 一、默認成員…

【KWDB創作者計劃】_企業級多模數據庫實戰:用KWDB實現時序+關系數據毫秒級融合(附代碼、性能優化與架構圖)

一、技術背景與行業痛點 1.1 多模數據融合挑戰 場景痛點&#xff1a; 工業物聯網設備每秒產生百萬級傳感器數據&#xff08;時序數據&#xff09;。需關聯設備檔案&#xff08;關系數據&#xff09;生成設備健康報告&#xff0c;傳統方案需多數據庫跳轉&#xff0c;延遲>5…

w~嵌入式C語言~合集4

我自己的原文哦~ https://blog.51cto.com/whaosoft/13870376 一、STM32怎么選型 什么是 STM32 STM32&#xff0c;從字面上來理解&#xff0c;ST是意法半導體&#xff0c;M是Microelectronics的縮寫&#xff0c;32表示32位&#xff0c;合起來理解&#xff0c;STM32就是指S…

Multisim使用教程詳盡版--(2025最新版)

一、Multisim14前言 1.1、主流電路仿真軟件 1. Multisim&#xff1a;NI開發的SPICE標準仿真工具&#xff0c;支持模擬/數字電路混合仿真&#xff0c;內置豐富的元件庫和虛擬儀器&#xff08;示波器、頻譜儀等&#xff09;&#xff0c;適合教學和競賽設計。官網&#xff1a;艾…

分布式理論和事務

微服務和分布式 微服務 是一種軟件架構風格&#xff0c;它將應用程序拆分成一系列小型、獨立的服務&#xff0c;每個服務專注于單一功能&#xff0c;彼此通過輕量級通信機制&#xff08;如 API&#xff09;進行交互。微服務通常是松耦合的&#xff0c;可以獨立開發、部署和擴展…