使用yolo11訓練航拍圖片微小目標AI-TOD檢測數據集無損壓縮版YOLO格式14018張8類別已劃分好訓練驗證集步驟和流程

【數據集介紹】

我們基于公開的大規模航空圖像數據集構建了AI-TOD,這些數據集包括:DOTA-v1.5的訓練驗證集[1]、xView的訓練集[19]、VisDrone2018-Det的訓練驗證集[20]、Airbus Ship的訓練驗證集1以及DIOR的訓練驗證+測試集[3]。這些數據集的詳細信息如下:

DOTA-v1.5 訓練驗證集:這是原始 DOTA-v1.0 數據集 [1] 的升級版本,并已用于航空圖像目標檢測(DOAI2019)的性能評估。DOTA-v1.5 訓練驗證集包含 1,869 張圖像,尺寸從 800 × 800 到 4000 × 4000 像素不等,以及 280,196 個目標實例,這些實例被標注為 16 個類別(例如,船只、小型車輛、儲罐)。

xView訓練集:這是一個大規模的目標檢測數據集,包含1,415平方公里的WorldView-3圖像,分辨率為30厘米。該標注數據集用于目標檢測,涵蓋了60個類別中的超過100萬個目標實例,包括各種類型的車輛、飛機和船只[19]。

VisDrone2018-Det 訓練驗證集。該數據集包含 7,019 張圖像,這些圖像由無人機平臺在不同地點、不同高度拍攝。圖像經過人工標注,包含邊界框和 10 個預定義類別(例如行人、人、汽車)。

Airbus-Ship訓練驗證集。這是一個用于Kaggle挑戰賽中的船舶檢測數據集。Airbus-Ship訓練驗證集包含42,559張圖像和81,724艘船舶,所有對象均以多邊形標注。

DIOR 訓練驗證+測試集。該數據集包含 23,463 張圖像和 192,472 個目標實例,涵蓋 20 個類別(例如,飛機、船舶、風車)。

為了構建AI-TOD數據集,我們從上述數據集中提取圖像和對象實例,具體步驟如下:

圖像尺寸。原始圖像被劃分為800×800像素的塊,重疊部分為200像素。如果原始圖像小于800×800像素,則通過填充零像素將其擴展到800×800像素。
對象類型。我們在AI-TOD數據集中選擇了八種類別,包括飛機(AI)、橋梁(BR)、儲罐(ST)、船舶(SH)、游泳池(SP)、車輛(VE)、人(PE)和風車(WM)。這些類別的選擇基于某類對象在低分辨率航空圖像中是否常見及其尺寸。airplane (AI), bridge (BR), storage-tank (ST), ship (SH), swimming-pool (SP), vehicle (VE)
類別轉換。在選定類別后,我們將相應數據集中的舊類別轉換為新類別。在此過程中,一些類別不在AI-TOD中的對象將被剔除。

圖片預覽:

標注例子:

數據集官方大小22GB大小且默認不是YOLO格式,這里將官方圖片無損壓縮成jpg格式并轉成YOLO格式,壓縮包體積變成1.08GB大小,大大節約下載時間且不影響訓練效果。

【訓練步驟】

這里以yolo11訓練為例。首先我們獲取數據集壓縮包7z格式或者zip格式后解壓到一個非中文或者有空格路徑下面。比如解壓到C:\Users\Administrator\Downloads目錄,下面都是以這個目錄演示訓練流程。

打開coco128.yaml看到下面類似格式:

train: train/images
val: val/images
# Number of classes
nc: 8
# Class names
names:0: airplane1: bridge2: storage-tank3: ship4: swimming-pool5: vehicle6: person7: wind-mill

?這些都不用修改,我們只需要檢查一下是不是對的就行。

之后就是開始訓練了,注意訓練yolov11模型需要自己提前安裝好環境。

使用預訓練模型開始訓練

yolo task=detect mode=train model=yolo11n.pt data=coco128.yaml epochs=100 imgsz=640 batch=8 workers=2

參數說明:

model: 使用的模型類型,如 yolo11s.pt(小模型)、yolo11m.pt(中)、yolo11l.pt(大)
data: 指定數據配置文件
epochs: 訓練輪數
imgsz: 輸入圖像尺寸
batch: 批量大小(根據顯存調整)

workers:指定進程數(windows最好設置0或者1或2,linux可以設置8)
訓練完成后,最佳權重保存路徑為:runs/detect/train/weights/best.pt,如果多次運行命令runs/detect/train2,runs/detect/train3文件夾生成只需要到數字最大文件夾查看就可以找到模型

圖片預測:

from ultralytics import YOLO# 加載訓練好的模型
model = YOLO('runs/detect/train/weights/best.pt')# 圖像預測
results = model('path_to_your_image.jpg')

視頻或攝像頭預測

results = model('path_to_video.mp4')  # 視頻
#results = model(0)  # 攝像頭

?驗證集評估

yolo task=detect mode=val model=runs/detect/train/weights/best.pt data=data.yaml

輸出指標圖像,一般在模型訓練后生成,文件位置在runs/detect/train/results.png:

上面訓練結果圖片常用評估參數介紹

【常用評估參數介紹】

在目標檢測任務中,評估模型的性能是至關重要的。你提到的幾個術語是評估模型性能的常用指標。下面是對這些術語的詳細解釋:

  1. Class
    • 這通常指的是模型被設計用來檢測的目標類別。例如,一個模型可能被訓練來檢測車輛、行人或動物等不同類別的對象。
  2. Images
    • 表示驗證集中的圖片數量。驗證集是用來評估模型性能的數據集,與訓練集分開,以確保評估結果的公正性。
  3. Instances
    • 在所有圖片中目標對象的總數。這包括了所有類別對象的總和,例如,如果驗證集包含100張圖片,每張圖片平均有5個目標對象,則Instances為500。
  4. P(精確度Precision)
    • 精確度是模型預測為正樣本的實例中,真正為正樣本的比例。計算公式為:Precision = TP / (TP + FP),其中TP表示真正例(True Positives),FP表示假正例(False Positives)。
  5. R(召回率Recall)
    • 召回率是所有真正的正樣本中被模型正確預測為正樣本的比例。計算公式為:Recall = TP / (TP + FN),其中FN表示假負例(False Negatives)。
  6. mAP50
    • 表示在IoU(交并比)閾值為0.5時的平均精度(mean Average Precision)。IoU是衡量預測框和真實框重疊程度的指標。mAP是一個綜合指標,考慮了精確度和召回率,用于評估模型在不同召回率水平上的性能。在IoU=0.5時,如果預測框與真實框的重疊程度達到或超過50%,則認為該預測是正確的。
  7. mAP50-95
    • 表示在IoU從0.5到0.95(間隔0.05)的范圍內,模型的平均精度。這是一個更嚴格的評估標準,要求預測框與真實框的重疊程度更高。在目標檢測任務中,更高的IoU閾值意味著模型需要更準確地定位目標對象。mAP50-95的計算考慮了從寬松到嚴格的多個IoU閾值,因此能夠更全面地評估模型的性能。

這些指標共同構成了評估目標檢測模型性能的重要框架。通過比較不同模型在這些指標上的表現,可以判斷哪個模型在實際應用中可能更有效。

將模型導出為ONNX、TensorRT等格式以用于部署:

yolo export model=runs/detect/train/weights/best.pt format=onnx
支持格式包括:onnx, engine, tflite, pb, torchscript 等。

經過上面訓練可以使用模型做進一步部署,比如使用onnx模型在嵌入式部署,使用engine模型在jetson上deepstream部署,使用torchscript模型可以在C++上部署等等。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/100276.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/100276.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/100276.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

sward V2.0.6版本發布,支持OnlyOffice集成、文檔權限控制及歸檔等功能

1、版本更新日志新增新增目錄文檔權限控制新增新增知識庫、文檔歸檔功能集成OnlyOffice支持word文檔預覽、編輯新增MarkDown代碼塊根據語言展示不同樣式優化優化富文本在小屏幕操作調整優化部分界面展示效果優化知識庫圖片展示效果2、目錄與文檔權限控制默認情況下,…

多因子AI回歸揭示通脹-就業背離,黃金價格穩態區間的時序建模

摘要:本文通過構建包含通脹韌性、就業疲軟、貨幣政策預期及跨市場聯動的多因子量化模型,結合美國8月CPI超預期上行與初請失業金人數激增的動態數據,分析黃金價格的高位持穩機制,揭示就業市場對美聯儲降息預期的協同支撐效應。一、…

Java--多線程基礎知識(2)

一.多線程的中斷1.通過自定義的變量來作為標志位import java.util.Scanner;public class Demo1 {public static boolean flg false;public static void main(String[] args) throws InterruptedException {Thread t1 new Thread(()->{while (!flg){System.out.println(&qu…

Qit_計網筆記

第1章 概述1.1 計算機網絡在信息時代中的作用一、計算機網絡基礎概念(一)計算機網絡的定義定義:計算機網絡在信息時代中起到核心作用,實現了萬物聯網和人人用網的目標。(二)計算機網絡的特點信息時代特征&a…

【C++11】initializer_list列表初始化、右值引用和移動語義、可變參數模版等

目錄 前言 一、簡介一下C11 二、{}列表初始化 三、右值引用和移動語義 四、右值引用和移動語義的使用場景 五、右值引用和移動語義在傳參中的提效 六、引用折疊和完美轉發 七、可變參數模板 前言 本文主要介紹C11中新增的一些重要語法:包括initializer_list列表初…

MP3 ID3標簽中的數字流派代碼和文本值翻譯成的中文列表

將MP3 ID3標簽中的數字流派代碼和文本值翻譯成的中文列表:■ 數字代碼流派:0 布魯斯 (Blues)1 古典搖滾 (Classic Rock)2 鄉村音樂 (Country)3 舞曲 (Dance)4 迪斯科 (Disco)5 放克 (Funk)6 垃圾搖滾 (Grunge)7 嘻哈 (Hip-Hop)8 爵士樂 (Jazz)9 金屬樂 (M…

U8g2庫為XFP1116-07AY(128x64 OLED)實現菜單功能[ep:esp8266]

使用U8g2庫為XFP1116-07AY(128x64 OLED)實現菜單功能,核心是通過按鍵控制菜單切換、光標移動和選項選中,結合U8g2的繪圖/文本函數實現交互邏輯支持多級菜單(主菜單→子菜單→功能執行),并兼容ES…

easy-dataset 框架綜合技術分析:面向領域特定 LLM 指令數據的合成

摘要 本報告對 easy-dataset 框架 進行全面技術剖析,該框架旨在解決大型語言模型(LLM)在特定領域應用中的核心瓶頸——高質量指令微調數據的稀缺性。隨著 LLM 技術發展,其應用能力不再僅依賴模型參數規模,而是更依賴通…

【開題答辯全過程】以 4s店汽車銷售系統為例,包含答辯的問題和答案

個人簡介一名14年經驗的資深畢設內行人,語言擅長Java、php、微信小程序、Python、Golang、安卓Android等開發項目包括大數據、深度學習、網站、小程序、安卓、算法。平常會做一些項目定制化開發、代碼講解、答辯教學、文檔編寫、也懂一些降重方面的技巧。感謝大家的…

測試中的Bug

文章目錄軟件測試的生命周期軟件測試的各個階段線上環境測試中的BUG描述測試BUGBUG的級別為啥要定義BUG的級別?BUG有哪些級別呢?BUG的生命周期測試與開發發生爭執怎么辦?測試與開發會發生啥爭執?為啥會發生這樣的爭執?…

aws共享一個鏡像并有畫圖功能

這樣可以方便的把系統安裝好,不會重復勞動了。 這個是frequi 單獨安裝 wget https://github.com/freqtrade/frequi/releases/download/2.0.7/freqUI.zip freqtrade install-ui pip install -U -r requirements-plot.txt 在AWS上把已經安裝好的環境共享給其他用戶。…

C語言---goto語句

文章目錄基本語法代碼示例goto 的常見用途(盡管不推薦)為什么 goto 聲名狼藉?(goto的缺點)如何避免使用 goto?(替代方案)goto 語句是一種無條件跳轉語句,它用于將程序的控…

Flask框架的簡單了解

🤟致敬讀者 🟩感謝閱讀🟦笑口常開🟪生日快樂?早點睡覺 📘博主相關 🟧博主信息🟨博客首頁🟫專欄推薦🟥活動信息 文章目錄1. 前言2. 簡介3. 核心特點4. 代碼實例5. 主要…

——貪心算法——

目錄 1 檸檬水找零 2 將數組和減半的最少操作次數 3 最大數 4 擺動序列 5 最長遞增子序列 6 遞增的三元子序列 7 最長連續遞增序列 8 買賣股票的最佳時機 9 買賣股票的最佳時機 II 10 K 次取反后最大化的數組和 11 按身高排序 12 優勢洗牌 13 最長回文串 14 增減…

網絡操作系統與分布式操作系統的區別

網絡操作系統與分布式操作系統的區別架構設計網絡操作系統(NOS)基于客戶端-服務器模型,通過共享資源(如文件、打印機)提供服務,各節點保留獨立的管理和數據處理能力。分布式操作系統(DOS&#x…

RabbitMQ—運維篇

RabbitMQ安裝 RabbitMQ需要依賴erlang,如果普通安裝需要安裝erlang并保證二者兼容,因此選擇較為簡單的docker安裝方式 1.獲取rabbitmq鏡像 docker pull rabbitmq:3.11.19-management #rabbitmq-management表示帶有客戶端(控制臺) …

【學習K230-例程21】GT6700-UDP-Client

B站視頻 UDP 簡介 UDP 是 User Datagram Protocol 的簡稱,中文名是用戶數據報協議,是 OSI(Open SystemInterconnection,開放式系統互聯)參考模型中一種無連接的傳輸層協議,提供面向事務的簡單不可靠信息傳送…

LazyLLM教程 | 第9講:微調實踐:讓大模型和向量模型更懂你的領域

前面教程中,我們通過優化檢索策略、召回重排略以及基于大模型的查詢重寫策略來提升了RAG系統的檢索精度,但最終回復的結果還需要經過大模型的融合和處理,模型能力的強弱直接影響到最終的結果。這就好比一道好的菜不僅需要有高質量的食材&…

六、vue3后臺項目系列——頁面自適應設計+pinia,vuex的使用

前言:在頁面加入自適應是提高用戶體驗的一種形式,甚至有時候是手機用戶,我們就需要做一個自適應處理,其中肯定會涉及一些狀態條件的判斷,而這些關鍵的條件就是我們用來切換樣式的關鍵,所以我們需要使用狀態…

視頻講解|Python用ResNet殘差神經網絡在大腦出血CT圖像描數據預測應用

全文鏈接:https://tecdat.cn/?p43843 原文出處:拓端抖音號拓端tecdat 分析師:Zikun Zhang 視頻講解Python用ResNet殘差神經網絡在大腦出血CT圖像描數據預測在臨床醫療影像診斷中,大腦出血的快速準確識別直接關系到患者的救治效率…