目標檢測是計算機視覺核心方向之一,也是發論文的熱門領域!
近來不僅YOLO算法迎來了新突破,迭代出YOLOv12!Mamba、大模型等新技術的發展,也給該領域注入了全新的力量,取得了諸多顯著成果。比如性能飆升82.31%的SAM-PM;推理速度狂提270%的Fusion-Mamba……
為方便大家厘清領域發展脈絡,找到更多idea啟發,早點發出自己的頂會,我給大家梳理了135個前沿算法模型,并配有相應的論文和代碼。這些模型共涵蓋:YOLO改進、Transformer+目標檢測、MLP+目標檢測、擴散模型+目標檢測、Mamba+目標檢測、大模型+目標檢測等6大類!
[目標檢測算法教程,戳藍字即可學習]
這才是科研人該學的!一口氣學完目標檢測六大算法-R-CNN、Fast R-CNN、YOLO、SSD等,原理到實戰,太通俗易懂了!機器學習|深度學習|計算機視覺
【全198集】這才是科研人該學的計算機視覺教程!一口氣學完Python、OpenCV、深度學習、PyTorch框架、卷積神經網絡、目標檢測、圖像分割,通俗易懂!?
1.YOLO改進
論文:YOLO12
內容
該論文介紹了一種新型的實時目標檢測框架YOLOv12,它首次將注意力機制深度集成到YOLO系列中,打破了傳統CNN架構在YOLO框架中的主導地位。YOLOv12通過提出“區域注意力”模塊和“殘差高效層聚合網絡”等創新設計,顯著提高了檢測精度,同時保持了與之前版本相當的推理速度。
論文:Multi-Branch Auxiliary Fusion YOLO with ?Re-parameterization Heterogeneous ?Convolutional for accurate object detection
內容
改論文提出了一種名為MAF-YOLO的新型目標檢測框架,旨在通過改進YOLO系列中常用的PAFPN結構來提升多尺度特征融合的效率和適應性,并行化大核卷積和多個小核卷積來擴大感知范圍,同時保留小目標信息;引入了全局異構核選擇機制,通過動態調整不同分辨率特征層中的卷積核大小來擴大網絡的有效感受野。
2.基于Transformer的目標檢測
論文:RT-DETRv3: Real-time End-to-End Object Detection with Hierarchical Dense Positive Supervision
內容
該論文提出了RT-DETRv3,一種基于Transformer的實時端到端目標檢測算法。它通過引入層次化的密集正樣本監督方法來解決傳統RT-DETR中由于匈牙利匹配策略導致的稀疏監督問題。
3.基于多層感知機(MLP)的目標檢測
論文:MLP-DINO: Category Modeling and Query Graphing with ?Deep MLPfor Object Detection
內容
該論文本文提出了一種新的目標檢測模型MLP-DINO,旨在解決基于Transformer的目標檢測器中存在的類別預測對邊界框預測敏感以及查詢分布不平衡的問題。MLP-DINO通過引入深度MLP模型來同時捕獲長距離和短距離信息,并提出了查詢無關類別監督方法來解耦類別預測和邊界框預測過程。
4.基于擴散模型的目標檢測
論文:MonoDiff : Monocular 3D Object Detection and Pose Estimation with Diffusion Models
內容
該論文提出了MonoDiff,這是一個用于單目3D目標檢測和姿態估計的新型框架,它利用擴散模型從單張圖像中估計3D邊界框和方向。該方法通過采用高斯混合模型來初始化正向擴散過程中的噪聲采樣,解決了不同維度上邊界框尺寸變化導致的不確定性問題,并利用2D檢測信息通過3D/2D投影對應關系提供額外的監督信號。
5.基于Mamba的目標檢測
論文:Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection
內容
該論文提出了一種名為 Mamba-YOLO-World 的新型開放詞匯目標檢測模型,旨在解決現有 YOLO-World 模型在特征融合機制上的局限性,通過并行引導選擇性掃描和串行引導選擇性掃描算法,實現了線性復雜度和全局引導感受野的多模態特征融合。
6.大模型時代的目標檢測
論文:SAM-PM:Enhancing Video Camouflaged Object Detection using ?Spatio-Temporal Attention
內容
本文提出了一種名為 SAM-PM的新方法,用于提升視頻偽裝目標檢測的性能。SAM-PM 通過引入時空交叉注意力機制的傳播模塊,解決了 Segment Anything Model(SAM)在處理偽裝目標時的局限性。
論文:DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding
內容
本文介紹了 DINO-X,這是一個由 IDEA 研究團隊開發的統一目標中心視覺模型,專門用于開放世界目標檢測和理解任務。DINO-X 基于 Transformer 的編碼器-解碼器架構,通過支持文本提示、視覺提示和定制化提示,擴展了輸入選項以簡化長尾目標檢測。
目標檢測論文系列算法匯總:目標檢測135個前沿算法模型匯總,源碼https://www.bilibili.com/opus/1053662589917069313?spm_id_from=333.1387.0.0