【計算機視覺】目標檢測:yoloV1~yoloV11項目論文及對比

在這里插入圖片描述

以下是 YOLO (You Only Look Once) 系列模型從 V1 到 V11 的詳細介紹和項目地址(截至2024年7月)。YOLO 是目標檢測領域的里程碑模型,以其 實時性高精度 著稱,廣泛應用于自動駕駛、安防監控、工業檢測等領域。


YOLOv1 (2016)

📌 論文: You Only Look Once: Unified, Real-Time Object Detection
📌 代碼: Darknet (C 實現)
📌 特點

  • 首個 單階段(one-stage) 目標檢測模型,直接回歸邊界框和類別。
  • 使用 全卷積網絡(FCN),速度快但精度較低。
  • 輸入分辨率 448×448,在 Pascal VOC 上 mAP 63.4

YOLOv2 (YOLO9000, 2017)

📌 論文: YOLO9000: Better, Faster, Stronger
📌 代碼: Darknet
📌 特點

  • 引入 Batch Normalization,提升訓練穩定性。
  • 使用 Anchor Boxes 提高定位精度。
  • 提出 Darknet-19 骨干網絡,比 V1 更快更準。
  • 支持 多尺度訓練(Multi-Scale Training),輸入分辨率可調。
  • 在 Pascal VOC 上 mAP 78.6,可檢測 9000+ 類別(YOLO9000)。

YOLOv3 (2018)

📌 論文: YOLOv3: An Incremental Improvement
📌 代碼: Darknet
📌 特點

  • 采用 Darknet-53 骨干網絡(帶殘差連接)。
  • 引入 多尺度預測(FPN-like),提升小目標檢測能力。
  • 使用 Binary Cross-Entropy (BCE) Loss 替代 Softmax 分類。
  • 在 COCO 上 mAP 33.0,速度 65 FPS(Titan X)。

YOLOv4 (2020)

📌 論文: YOLOv4: Optimal Speed and Accuracy of Object Detection
📌 代碼: Darknet
📌 特點

  • 引入 CSPDarknet53 骨干網絡,提升特征提取能力。
  • 采用 PANet + SPP 增強多尺度特征融合。
  • 使用 Mosaic Data AugmentationCIoU Loss 提升訓練效果。
  • 在 COCO 上 mAP 43.5,速度 62 FPS(Tesla V100)。

YOLOv5 (2020)

📌 論文: 無官方論文(Ultralytics 團隊開發)
📌 代碼: Ultralytics YOLOv5 (PyTorch)
📌 特點

  • PyTorch 實現,更易部署和訓練。
  • 引入 Focus 模塊 減少計算量。
  • 支持 Auto Learning Rate & Batch Size
  • 提供 多個預訓練模型(YOLOv5s, m, l, x)
  • 在 COCO 上 mAP 50.7(YOLOv5x)。

YOLOv6 (2022)

📌 論文: YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications
📌 代碼: Meituan YOLOv6
📌 特點

  • 美團(Meituan) 團隊開發,面向工業應用。
  • 采用 EfficientRep 骨干網絡RepVGG 風格 結構。
  • 引入 Anchor-Free + SimOTA 標簽分配策略。
  • 在 COCO 上 mAP 52.8(YOLOv6-L)。

YOLOv7 (2022)

📌 論文: YOLOv7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors
📌 代碼: WongKinYiu YOLOv7
📌 特點

  • 提出 Extended Efficient Layer Aggregation Network (E-ELAN)
  • 引入 Model Scaling & Compound Scaling 優化推理速度。
  • 支持 輔助訓練頭(Auxiliary Head) 提升小目標檢測。
  • 在 COCO 上 mAP 56.8(YOLOv7-E6E)。

YOLOv8 (2023)

📌 論文: 無官方論文(Ultralytics 團隊開發)
📌 代碼: Ultralytics YOLOv8
📌 特點

  • 支持 目標檢測 + 實例分割 + 姿態估計
  • 采用 Anchor-Free + Distribution Focal Loss
  • 提供 CLI & Python API,易于部署。
  • 在 COCO 上 mAP 53.9(YOLOv8x)。

YOLOv9 (2024)

📌 論文: YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information
📌 代碼: WongKinYiu YOLOv9
📌 特點

  • 提出 PGI (Programmable Gradient Information) 解決信息丟失問題。
  • 采用 GELAN (Generalized Efficient Layer Aggregation Network) 骨干。
  • 在 COCO 上 mAP 63.0(YOLOv9-E),SOTA 性能

YOLOv10 (2024)

📌 論文: YOLOv10: Real-Time End-to-End Object Detection
📌 代碼: THU-MIG YOLOv10
📌 特點

  • 清華 MIG 團隊 提出,無 NMS(Non-Maximum Suppression)。
  • 采用 Consistent Dual Assignments 提升端到端訓練。
  • 在 COCO 上 mAP 56.8(YOLOv10-X),速度更快

YOLOv11 (2024)

📌 論文: 尚未正式發布(社區改進版)
📌 代碼: 社區實現
📌 特點

  • 目前 非官方版本,部分改進包括:
    • 更輕量級設計(適合移動端)。
    • 改進的注意力機制(如 EMA、SimAM)。
    • 結合 Diffusion 模型 進行數據增強。

總結

版本年份骨干網絡關鍵改進mAP (COCO)項目地址
YOLOv12016Darknet單階段檢測63.4 (VOC)Darknet
YOLOv22017Darknet-19Anchor Boxes78.6 (VOC)Darknet
YOLOv32018Darknet-53多尺度預測33.0Darknet
YOLOv42020CSPDarknet53PANet + SPP43.5Darknet
YOLOv52020CSPNetPyTorch 實現50.7Ultralytics
YOLOv62022EfficientRepAnchor-Free52.8Meituan
YOLOv72022E-ELAN輔助訓練頭56.8WongKinYiu
YOLOv82023CSPDarknet多任務支持53.9Ultralytics
YOLOv92024GELANPGI 機制63.0WongKinYiu
YOLOv102024CSPNet無 NMS56.8THU-MIG
YOLOv112024社區改進輕量化-社區

如何選擇 YOLO 版本?

  • 工業部署 → YOLOv5 / YOLOv8(PyTorch 生態友好)
  • 最高精度 → YOLOv9 / YOLOv10
  • 移動端/嵌入式 → YOLOv5s / YOLOv8n
  • 學術研究 → YOLOv7 / YOLOv9

YOLO 系列仍在快速發展,建議關注 Ultralytics、Meituan、WongKinYiu 等團隊的最新研究! 🚀

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/80334.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/80334.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/80334.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

推薦系統架構設計

1.分析用戶行為數據?:? 收集用戶的活躍時間、點擊行為、瀏覽歷史等數據。?分析用戶的活躍模式,確定用戶最活躍的時間段。?kafka flink 數據庫 分析用戶行為并存儲 2. 預生成推薦內容?:? 在用戶活躍時間之前,預先生成推薦…

BERT類模型

1. BERT類模型是否需要處理 [CLS] 或池化? 那首先搞懂 [CLS] 和池化 (1)[CLS] 的作用 BERT 的輸入格式中,每個序列的開頭會添加一個特殊的 [CLS] Token(Classification Token)。它的設計初衷是為分類任務…

我的世界云端服務器具體是指什么?

我的世界云端服務器是指一種基于互聯網的多人游戲服務器,將游戲服務器運行在云平臺上,而不是在本地計算機中,這使用戶不需要考慮自身電腦的性能和網絡穩定性,只需要通過網絡連接到云端服務器,就可以享受到順暢的游戲體…

軟考(信息系統運行管理員)

第一章 信息系統運維概述 1.1 信息系統概述 信息的含義和類型 信息的含義: 一般:人們關心的事情的消息或知識。香農(信息論創始人):用來減少隨機不確定性的東西(標志著信息科學進入定量研究階段&#xff…

Unity基礎學習(九)輸入系統全解析:鼠標、鍵盤與軸控制

目錄 一、Input類 1. 鼠標輸入 2. 鍵盤輸入 3. 默認軸輸入 (1) 基礎參數 (2)按鍵綁定參數 (3)輸入響應參數 (4)輸入類型與設備參數 (5)不同類型軸的參…

VBA將PDF文檔內容逐行寫入Excel

VBA是無法直接讀取PDF文檔的,但結合上期我給大家介紹了PDF轉換工具xpdf-tools-4.05,先利用它將PDF文檔轉換為TXT文檔,然后再將TXT的內容寫入Excel,這樣就間接實現了將PDF文檔的內容導入Excel的操作。下面的代碼將向大家演示如何實…

Spring Boot之MCP Client開發全介紹

Spring AI MCP(模型上下文協議,Model Context Protocol)客戶端啟動器為 Spring Boot 應用程序中的 MCP 客戶端功能提供了自動配置支持。它支持同步和異步兩種客戶端實現方式,并提供了多種傳輸選項。 MCP 客戶端啟動器提供以下功能: 多客戶端實例管理 支持管理多個客戶端實…

[題解]2023CCPC黑龍江省賽 - Folder

來源:F.Folder - Codeforces題意:給定由 n ( 1 ≤ n ≤ 1 0 5 ) n(1\le n\le 10^5) n(1≤n≤105)個結點組成的樹,每次操作可將一棵子樹接到其他結點上。求將樹轉換為一棵斜樹的最小操作次數。關鍵詞:思維(簽到)題解:斜…

string[字符串中第一個的唯一字符][藍橋杯]

使用哈希表解決 class Solution { public:int firstUniqChar(string s) {int arr[26];for(int i0;i<s.size();i){arr[s[i]-a];}for(int i0;i<s.size();i){if(arr[s[i]-a]1)return i;}return -1;} };

【深度學習-Day 8】讓數據說話:Python 可視化雙雄 Matplotlib 與 Seaborn 教程

Langchain系列文章目錄 01-玩轉LangChain&#xff1a;從模型調用到Prompt模板與輸出解析的完整指南 02-玩轉 LangChain Memory 模塊&#xff1a;四種記憶類型詳解及應用場景全覆蓋 03-全面掌握 LangChain&#xff1a;從核心鏈條構建到動態任務分配的實戰指南 04-玩轉 LangChai…

Flink 實時數據一致性與 Exactly-Once 語義保障實戰

在構建企業級實時數倉的過程中,“數據一致性” 是保障指標準確性的核心能力,尤其是在金融、電商、醫療等對數據敏感度極高的場景中。Flink 作為流批一體的實時計算引擎,其內建的 Exactly-Once 語義為我們提供了強有力的保障機制。本篇將圍繞如何實現端到端的數據一致性、如何…

傅利葉十周年,升級核心戰略:“有溫度”的具身智能藍圖

5月9日&#xff0c;傅利葉十周年慶典暨首屆具身智能生態峰會在上海正式召開。本次大會以“十年共創&#xff0c;具身成翼”為主題&#xff0c;匯聚了來自通用機器人與醫療康復領域的頂尖專家學者、合作伙伴與投資機構&#xff0c;共同探索具身智能在未來十年的技術應用與生態發…

Docker中mysql鏡像保存與導入

一、Docker中mysql鏡像保存 Docker 的 MySQL 鏡像保存通常有兩種場景&#xff1a;一種是保存鏡像本身的修改&#xff08;如配置、初始化數據&#xff09;&#xff0c;另一種是持久化保存容器運行時產生的數據&#xff08;如數據庫表、用戶數據&#xff09;。以下是具體方法&am…

大模型微調指南之 LLaMA-Factory 篇:一鍵啟動LLaMA系列模型高效微調

文章目錄 一、簡介二、如何安裝2.1 安裝2.2 校驗 三、開始使用3.1 可視化界面3.2 使用命令行3.2.1 模型微調訓練3.2.2 模型合并3.2.3 模型推理3.2.4 模型評估 四、高級功能4.1 分布訓練4.2 DeepSpeed4.2.1 單機多卡4.2.2 多機多卡 五、日志分析 一、簡介 LLaMA-Factory 是一個…

記錄一次window2012r2安裝配置oracle11g的過程-出現的錯誤以及解決方法

Windows server 2012R2安裝Oracle11g 出現的錯誤 同事反饋正常安裝oracle后&#xff0c; 使用命令行 sqlplus sys / as sysdba出現“ORA-12560:TNS:協議適配器錯誤”。 去services.msc服務狀態里面 OracleOraDb11g_home1TNSListener服務停止狀態&#xff0c;而且無法啟動。 …

2003-2020年高鐵線路信息數據

2003-2020年高鐵線路信息數據 1、時間&#xff1a;2003-2020年 2、來源&#xff1a;Chinese High-speed Rail and Airline Database&#xff0c;CRAD 3、指標&#xff1a;高鐵線路名稱、起點名、終點名、開通時間、線路長度(km)、設計速度(km/h&#xff09;、沿途主要車站 …

【論文閱讀】FreePCA

FreePCA: Integrating Consistency Information across Long-short Frames in Training-free Long Video Generation via Principal Component Analysis 原文摘要 問題背景 核心挑戰&#xff1a; 長視頻生成通常依賴在短視頻上訓練的模型&#xff0c;但由于視頻幀數增加會導致數…

Linux:線程同步與互斥

目錄 線程互斥 鎖 初始化 銷毀 加鎖 解鎖 線程同步 條件變量 初始化 銷毀 等待條件滿足 喚醒等待 pthread_cond_signal pthread_cond_broadcast 生產者消費者模型 3種關系 2種角色 1個交易場所 POSIX信號量 初始化 銷毀 等待 發布 線程互斥 互斥相關…

LeetCode --- 448 周賽

題目列表 3536. 兩個數字的最大乘積 3537. 填充特殊網格 3538. 合并得到最小旅行時間 3539. 魔法序列的數組乘積之和 一、兩個數字的最大乘積 由于數據都是正數&#xff0c;所以乘積最大的兩個數&#xff0c;本質就是找數組中最大的兩個數即可&#xff0c;可以排序后直接找到…

Azure Document Intelligence

Azure Document Intelligence(以前稱為 Form Recognizer)是一項云服務&#xff0c;可用于從文檔中提取文本、鍵值對、表等信息。下面是一個使用 Python SDK 進行文檔轉換和提取信息的基本示例。 1. 安裝依賴 首先&#xff0c;你需要安裝 azure-ai-formrecognizer 庫&#xff0c…