BigDetection:改進目標檢測器預訓練的大規模基準之論文閱讀

摘要

近年來,多個數據集和開放挑戰已被引入用于目標檢測研究。為了構建更通用且強大 的目標檢測系統,本文提出了一個新的大規模基準數據集,稱為 BigDetection。我們的目標是 整合現有數據集(LVIS、OpenImages 和 Object365)的訓練數據,并遵循精心設計的原則,構建一個更大規模的數據集,以 提升檢測器的預訓練效果。具體而言,我們重新定義了一個新的類別體系,統一了來自不同數據源的異構標簽空間。BigDetection 數據集包含 600 個物體類別,超過 340 萬張訓練圖像,標注有 3600 萬個邊界框,在多個維度上都遠超現有的目標檢測基準數據集,既提供了 機遇,也帶來了 挑戰。大量實驗表明,BigDetection 作為目標檢測方法的評測基準具有較高的有效性,同時作為預訓練數據集也展現出了顯著的提升效果。代碼與模型開源地址:https://github.com/amazonresearch/bigdetection。

1. 引言

回顧 2014 年,Microsoft COCO 數據集 [33] 曾是極具挑戰性的目標檢測基準,當時的最佳檢測方法在80類物體上的 平均精度(AP) 甚至 低于20。如今,最先進的檢測器 [10, 62] 已能在 COCO test-dev 上達到 60+ AP。作為目標檢測的黃金標準,COCO 數據集催生了眾多流行的目標檢測算法。

為了構建 更魯棒、更通用的目標檢測系統,近年來發布了多個 大規模目標檢測數據集,例如 OpenImages [26]、Objects365 [44] 和 LVIS [24]。然而,每個數據集 都有其局限性和挑戰:
在這里插入圖片描述

OpenImages 約 10% 的邊界框標注由機器生成,可能導致標簽錯誤或邊界框重疊(圖 1 頂部)。
LVIS 旨在覆蓋 1200+ 類密集標注類別,但存在 無效標注、嚴重的長尾分布 等問題(圖 1 底部)。
Objects365 詞匯量相對較小,可能遺漏某些常見類別(如昆蟲)。

BigDetection 數據集
為解決上述問題,我們提出了一個 新的大規模目標檢測基準數據集,稱為 BigDetection。
我們的目標是整合現有數據集(LVIS、OpenImages 和 Objects365),遵循精心設計的標注原則,構建一個更適合 目標檢測器預訓練 的大規模數據集。

與現有的 多數據集訓練 方法 [59, 67, 70] 不同,我們使用語言模型構建初始的統一標簽空間,并手動驗證 以 獲得最終的類別體系。
BigDetection 數據集 具有 600 個物體類別,包含 340 萬張訓練圖像,3600 萬個邊界框。表 1 對比了 BigDetection 與其他數據集的統計信息。
在這里插入圖片描述

此外,我們進行了 多種實驗,以驗證 BigDetection 作為新基準的有效性,以及其作為預訓練數據集的提升效果。

特別地,如表 3 所示,使用 Swin-Base 作為主干網絡的 CBNetV2 [31],在 BigDetection 預訓練后,在 COCO test-dev 上達到 59.8 AP。令人驚訝的是,這一性能甚至可以媲美未在 BigDetection 預訓練的 Swin-Large(Swin-Large 的計算量是 Swin-Base 的 2 倍)。此外,在 COCO 部分標注數據設置 [48] 下,BigDetection 預訓練展現了極高的數據效率,例如,在僅使用 1% 的 COCO 訓練數據 時,即可在 COCO 驗證集 上達到 25.3 AP。
在這里插入圖片描述

主要貢獻
我們的貢獻可總結如下:

提出了一個新的目標檢測數據集 BigDetection,其規模在多個維度上遠超現有基準,可作為更具挑戰性的 目標檢測評測基準。
驗證了 BigDetection 作為預訓練數據集的有效性,在 COCO 驗證集和 test-dev 集 上取得了 最先進的檢測結果,同時在 數據效率設定下 也表現出色。
進行了廣泛的消融實驗,提供了在大規模數據集上訓練目標檢測器的最佳實踐。

相關工作

數據集在目標檢測中的作用
大規模、高質量標注的數據集對于推動更優秀的計算機視覺模型至關重要。在目標檢測領域,PASCAL VOC?[16] 是早期的基準數據集之一,包含 20 個類別、約 1.7 萬張圖像。盡管與當今的數據集相比規模較小,PASCAL VOC 卻培養了許多經典的目標檢測器 [18,?60] 和基于深度學習的檢測器 [22,?23,?25]。隨后,微軟在 2014 年推出了 Microsoft COCO?[33],至今已成為最廣泛使用的目標檢測基準。COCO 包含 11.8 萬張圖像、86 萬個實例標注,覆蓋 80 個類別。得益于其大規模和高標注質量,COCO 與深度學習一起徹底改變了計算機視覺的格局。最近,隨著大量高質量標注工作的推進,更大規模的數據集如 LVIS?[24]、OpenImages?[26] 和 Objects365?[44] 相繼問世,擁有數百萬級的實例標注。它們不僅使我們能夠學習更多樣化、細粒度的物體概念,還為新場景上的少樣本/零樣本學習提供了可能。此外,還有許多針對特定領域的目標檢測數據集(如?[9,?20,?40,?45,?49,?54]),以支持各種實際應用。

多數據集檢測器訓練
由于完全依賴人工標注的方式無法擴展到超大規模數據集,近期有研究開始探索多數據集聯合訓練策略,目標是在現有數據集上利用更多標注數據來學習更好的特征表示。
早期的一項工作 [59] 提出在多個數據集上訓

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/909749.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/909749.shtml
英文地址,請注明出處:http://en.pswp.cn/news/909749.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Linux系統移植⑨:uboot啟動流程詳解-bootz啟動Linux過程

Linux系統移植⑨:uboot啟動流程詳解-bootz啟動Linux過程 bootz 是 U-Boot 中用于啟動 Linux 內核的命令,專為處理 zImage(壓縮內核映像) 設計。 啟動 Linux 的完整過程: 1. 加載內核與相關文件 U-Boot 先將以下文件…

【R】基于R實現貝葉斯分析(一)

文章目錄 貝葉斯簡介Why R理論基礎一、三種先驗分布和對應后驗的計算1. 離散先驗2.Beta先驗(共軛先驗)3. 直方圖先驗 二. 后驗抽樣1. 網格點采樣法2. 其他方法 三、貝葉斯推斷1. 參數估計(1) 后驗均值(2) 后驗方差(3) 后驗區間 2. 假設檢驗3. 預測(1) 先…

論文略讀:Personality Alignment of Large Language Models

ICLR 2025 558 當前的大語言模型(LLMs)在對齊時,通常旨在反映普遍的人類價值觀與行為模式,但卻常常無法捕捉到個體用戶的獨特特征與偏好。 為填補這一空白,本文提出了**“人格對齊(Personality Alignment&…

JSON與XML怎么選?什么情況下會用到 JSON?

一、JSON 與 XML 的核心區別 從 語法、性能、適用場景 等維度對比,核心差異如下: 對比維度JSONXML語法結構鍵值對格式(如 {"name": "無線耳機"}),無標簽,結構緊湊。標簽嵌套格式&…

PCB設計實踐(三十六)PCB設計新手系統性注意事項總結

以下是PCB設計的系統性注意事項總結,涵蓋布局、布線、電源/地處理、EMC、制造工藝及驗證等關鍵環節,依據行業規范與最佳實踐整理: 一、布局設計規范 器件優先級策略 先固定接口器件(電源插座、連接器),鎖定…

LangChain中的向量數據庫抽象基類-VectorStore

文章目錄 前言一、原型定義二、常用說明1、添加或更新文檔2、添加或更新文本3、通過文檔初始化VectorStore對象4、通過文本初始化VectorStore對象5、獲得VectorStoreRetriever對象6、查詢最相似的文檔三、代碼解析1、add_documents方法2、add_texts方法3、from_documents方法4、…

5G光網絡新突破:<Light: Science Applications>報道可適應環境擾動的DRC實時校準技術

前言摘要 近日,國際頂尖光學期刊《Light: Science & Applications》刊登了一項來自中國國防科技大學研究團隊的重要成果。該團隊由姜天教授、張軍教授和郝浩教授領銜,成員包括嚴秋全、歐陽灝(共同一作)等研究人員。他們提出了…

C++:Hash拓展--布隆過濾器

布隆過濾器 問題前景: 之前學習了位圖,我們知道位圖在大量數據查找時候是很方便的。但位圖的缺陷在于只能用于整型數據。而在實際中,我們的數據更多的是更復雜的字符串或者自定義類型。那么此時位圖就顯得有點無力,所以就誕生了叫布隆過濾器…

快速了解JVM中的深堆與淺堆

在Java虛擬機(JVM)的內存管理世界里,深堆與淺堆是兩個重要的概念。它們如同衡量對象內存占用的兩把標尺,對于優化程序性能、排查內存泄漏問題起著關鍵作用。接下來,讓我們快速且深入地了解它們。 一、淺堆&#xff08…

開疆智能ModbusTCP轉Devicenet網關連接FANUC機器人配置案例

本案例是ModbusTCP主站通過開疆智能ModbusTCP轉Devicenet網關連接發那科機器人的配置案例,操作分為三個配置1:ModbusTCP主站配置2:ModbusTCP轉Devicenet網關配置3:FANUC機器人配置,具體過程如下 配置過程 主菜單—IO—…

詳解RabbitMQ高級特性之發送方確認機制

目錄 發送方確認 添加配置 常量類 聲明隊列和交換機并綁定二者關系 confirm確認模式 編寫生產消息代碼 生產消息1 解決方法 多次生產消息2 解決方法 生產消息3 return 模式 編寫生產消息代碼(路由正確) 生產消息1 編寫生產消息代碼&…

Google Play開發者賬號8.3/10.3政策違規自救指南

最近,有一位開發者焦急地向我們訴說,其辛苦開發的多個應用,毫無征兆地全部下架,賬戶提示違反政策 8.3 和 10.3。經過連夜排查,原來是換皮應用與誤導性描述導致的問題。 這并非個例,在 2024 年,G…

pythonday50

作業: 1.好好理解下resnet18的模型結構 2.嘗試對vgg16cbam進行微調策略 import torch import torch.nn as nn import torch.optim as optim import torchvision import torchvision.transforms as transforms from torchvision import models from torch.utils.d…

天貓618高增長背后:電商邁入價值戰新周期

作者 | 曾響鈴 文 | 響鈴說 這次618,來“真”的了。 天貓618玩法變得極致簡單,只設了“官方立減”的85折的基礎優惠,再疊加行業品類券、國補等優惠,最高立減可達50%,十分直觀。 讓消費者省心的結果也是顯而易見的&…

tauri+vue自動更新客戶端打包配置

拉取最新代碼打開項目根目錄下"~.tauri\myapp.key"文件并復制內容 打開項目的powershell窗口,輸入如下內容并回車 $env:TAURI_SIGNING_PRIVATE_KEY"復制的myapp.key" $env:TAURI_SIGNING_PRIVATE_KEY_PASSWORD""然后修改tauri.conf.…

硬件------51單片機

一.基本概念 1.裸機程序 BSP BSP:bord suppord pack 板級支持包 就是程序編寫的內容是沒有操作系統的,直接通過代碼去控制寄存器,讓硬件按照要求去工作。 主要內容:51單片機 IMAX6ULL 2.linux驅動部分 在裸機BSP程序的基礎…

java 基礎方法 list分頁

新增一個list 泛型分類方法 hutools沒這個方法, mybatis 里面的方法不好用 故新增此方法 package com.common.base.util.page;import lombok.Data;import java.util.List;/*** className: VoPage* description: list分頁* author: chenyuanlong* date: 2025年6月16日 0016 上午…

操作系統期末復習--操作系統初識以及進程與線程

操作系統概念與主要功能 操作系統的概念 在信息化時代,軟件是計算機系統的靈魂,而作為軟件核心的操作系統,已與現代計算機系統密不可分、融為一體。計算機系統自下而上大致分為4部分:硬件、操作系統、應用程序和用戶 操作系統管…

使用jhat查看dump.hprof文件內具體對象的屬性值信息

jhat是JDK自帶的堆轉儲分析工具,可以用來查看.hprof文件中對象的具體內容。本文演示使用的是JKD8. 一、啟動jhat 執行啟動命令。 jhat -J-Xmx4g your_heap_dump.hprof -J-Xmx4g表示為jhat分配4GB內存,根據你自己情況調整大小。your_heap_dump.hprof是…

freeRTOS之隊列(queue)

一.概述 1.介紹 隊列(queue)可以用于"任務到任務"、“任務到中斷”、"中斷到任務"直接傳輸信息。 2.核心功能 線程安全:自動處理多任務訪問時的互斥問題。 數據復制:入隊時復制數據(而非引用),…