【UAP】《Empirical Upper Bound in Object Detection and More》

在這里插入圖片描述

Borji A, Iranmanesh S M. Empirical upper bound in object detection and more[J]. arXiv preprint arXiv:1911.12451, 2019.

arXiv-2019


文章目錄

  • 1、Background and Motivation
  • 2、Related Work
  • 3、Advantages / Contributions
  • 4、Experimental Setup
    • 4.1、Benchmarks Datasets and Metrics
    • 4.2、Characterizing the Empirical Upper Bound
    • 4.3、Error Diagnosis
    • 4.4、Invariance Analysis
  • 5、Conclusion(own) / Future work


1、Background and Motivation

背景

目標檢測是計算機視覺領域中的一個重要且具有挑戰性的問題。盡管近年來深度學習技術在目標檢測方面取得了顯著進展,但現代目標檢測器在流行基準測試集上的性能開始趨于飽和,這引發了關于深度學習工具和方法在目標檢測領域潛力的疑問。具體來說,研究人員開始探討在現有路徑下,目標檢測的性能還能提升多少,以及阻礙性能進一步提升的主要因素是什么。

動機

本文的動機在于通過系統分析,揭示目標檢測中的經驗上限(Empirical Upper Bound, EUB),即在當前技術條件下,目標檢測器可能達到的最佳性能。此外,作者還希望識別目標檢測器中的瓶頸,為未來目標檢測模型的設計和優化提供見解。

2、Related Work

  • works that strive to understand detection approaches, identify their shortcomings, and pinpoint where
    more research is needed.

    • person detectors、PASCAL datasets、ImageNet
  • comparing object detection models

    • Some works have analyzed and reported statistics and performances over benchmark datasets such PASCAL VOC, MSCOCO, CityScapes, and open images.
    • alternative or complementary evaluation measures
  • role of context in object detection and recognition

3、Advantages / Contributions

經驗上限的確定:作者通過分析兩個最新的目標檢測基準測試集和四個大規模數據集上的15個模型,首次系統地確定了目標檢測中的經驗上限AP(Upper Bound AP, UAP)。這一上限為評估現有模型性能提供了基準,并揭示了當前模型與理論上限之間的差距。

錯誤類型的診斷:作者以一種新穎且直觀的方式表征了目標檢測器中的錯誤來源,發現分類錯誤(包括與其他類別的混淆和漏檢)是主要的錯誤類型,其影響超過定位錯誤和重復檢測錯誤。

不變性分析:作者研究了模型在不同變換下的不變性特性,包括去除目標周圍上下文、將目標放置在不一致的背景中、圖像模糊和垂直翻轉等。這些分析揭示了模型在應對這些變換時的脆弱性,并為提高模型的魯棒性提供了方向。

4、Experimental Setup

4.1、Benchmarks Datasets and Metrics

Benchmarks

  • MMDetection
  • Detectron2

Datasets

  • 4 datasets including PASCAL VOC,our home-brewed FASHION dataset, MSCOCO, and OpenImages

Our FASHION dataset covers 40 categories of clothing items (39 + humans). Trainval, and test sets for this dataset contain 206,530 images (776,172 boxes) and 51,650 images (193,689 boxes), respectively

在這里插入圖片描述

Metrics

用的是 COCO API 中的評價指標

4.2、Characterizing the Empirical Upper Bound

assume that the localization problem is solved and what remains is only object recognition

(1) Utility of the surrounding context

在這里插入圖片描述

在這里插入圖片描述
僅用目標區域做為識別的輸入效果最好


(2) Searching for the best label

strategy1 和 strategy2 是用來獲取 UAP 的

Strategy 1

使用最佳分類器直接對目標框進行分類

  • 首先,使用一個經過訓練的最佳分類器(在這個研究中是ResNet152)對目標框(ground truth bounding boxes)進行分類。
  • 分類器的分類得分直接作為檢測得分,從而計算AP。
  • 由于使用的是目標框的真實標簽,因此這種方法實際上假設了定位問題已經解決,只關注于對象識別。

特點:

  • UAP 值在所有 IOU 閾值下都是相同的,因為檢測框就是目標框本身。
  • 這種方法給出了一個理論上的上限,即如果定位完全準確,僅通過對象識別能達到的最佳AP

Strategy 2

在目標框附近采樣候選框并選擇最佳分類(采樣方式為圖 3):

  • 在目標框周圍采樣多個候選框(IOU高于某個閾值γ),并使用相同的分類器對這些候選框進行分類。
  • 選擇分類得分最高的候選框的標簽和置信度作為目標框的標簽和置信度,或者選擇出現頻率最高的標簽。
  • 通過這種方式,嘗試在低于完美IOU的情況下找到更好的分類結果

特點:

  • 理論上,這種方法有可能在低于完美IOU的情況下提高AP,因為通過搜索周圍的候選框,可能找到更容易分類的框。
    然而,在實際實驗中,這種方法并沒有顯著提高UAP值,除了在少數情況下(如FASHION數據集上的中等和小物體,以及COCO數據集上的小物體)。
  • 作者將策略2的失敗歸因于周圍候選框可能包含額外的視覺內容,這些內容可能引入標簽噪聲,從而降低分類準確性。

Sampling boxes with IOU above a threshold

在這里插入圖片描述

圖 3 A) GT 是黑框,R2 是 GT 的面積,R1 是 Sampling boxes 與 GT 的交集

在這里插入圖片描述

IOU 的計算分母為什么是兩倍的 R2,因為作者做了如下的假設

we assume all boxes have the same width and height as the target box(sampling boxes 紅色虛線框與 GT 黑色實線框的面積是一樣的)

進一步推導可以得知

在這里插入圖片描述

在這里插入圖片描述

圖 3 B)不同顏色區域對應的橫縱坐標
在這里插入圖片描述


(3)Upper bound results

在這里插入圖片描述

UAP(紅色虛線) 是一條橫線的應該是 strategy 1,有波動的是 strategy 2

第一行前兩列應該是 PASCAL VOC 數據集,第一行后面兩列應該是 FASHION 數據集

第二行前兩列是 MSCOCO 數據集,后兩列在前兩列基礎上引入了 HTC

其他顏色的線段應該就是網絡訓練得到的正常結果,VOC 和 FASHION 數據集用的是 FCOS 框架,COCO 數據集用的是 Mask R-CNN 的框架

Chen K, Pang J, Wang J, et al. Hybrid task cascade for instance segmentation[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 4974-4983.
在這里插入圖片描述

在這里插入圖片描述

發現 strategy2 一般,后續討論 strategy1


VOC
在這里插入圖片描述
VOC 數據集的 UAP,左圖是 VOC 的評價指標,右圖是 COCO 的評價指標

右圖評價指標下最好的模型 FCOS 的 AP 才 47.9,與 UAP 91.6 差距是相當的大


FASHION

在這里插入圖片描述

FASHION 數據集下的 UAP

The gap between UAP and model AP here, however, is much smaller than VOC.

AP50 下 FASION 的 AP 快接近 UAP 了

在這里插入圖片描述

UAPs of 5 FASHION categories fall below the best model AP(倒反天罡)——Looking at the classification scores, we find that they have a low accuracy.——也就是所謂的最佳分類器(GT 作為輸入),沒有直接 train 出來的分類器效果好

注意這里的 UAP strategy1 求出來的,這么說呢,相當于武狀元蘇乞兒比武,什么都給你準備好了,最后上場發揮還是敗了,哈哈

在這里插入圖片描述


COCO

在這里插入圖片描述

第一行是 AP 閾值,第二行是 AP 尺寸

The gap between the best model AP and UAP is above 30

The gap is much smaller for AP at IOU=0.5 which is about 10

The UAP is much lower over small objects than UAP over large objects

在這里插入圖片描述
這張圖用的是 Detectron2 benchmark 的結果


OpenImages 數據集

achieve 58.9 UAP

We are not aware of any model scores on this set of OpenImages V4.


(4)AP vs. classification accuracy

在這里插入圖片描述

We found that there is a linear positive correlation (R2 = 0.81 on COCO) between the UAP and the classification accuracy

The higher the ACC.,the better the UAP 是合理的,因為用的是 strategy 1,作者發現了是呈線性關系(好像在策略1的假設下也沒有其他項來干擾了吧)

4.3、Error Diagnosis

定義了四種錯誤類型

在這里插入圖片描述

分類錯誤有兩種

  • confusion with the background (Type I)——誤檢,也可把類別混淆歸于 Type I
  • misses (Type II)——漏檢

定位錯誤,重復錯誤,作者一一修復這些錯誤,使得 AP 為 1,來看看每種錯誤類型對 AP 的影響

we argue that correcting the mislocalized predictions is more effective than removing them because it can reveal other sources of weakness in a model.(區別于 Hoeim et al. 的方法,圖 10)

在這里插入圖片描述

Confusion with the background (and other classes;see above) has the highest contribution to the overall error, across all models.

誤檢最嚴重

The second most important error type is misses.

其次是誤檢


作者也采用了 Hoiem 的方法進行了分析

Hoiem, Derek, Yodsawalai Chodpathumwan, and Qieyun Dai. “Diagnosing error in object detectors.” European conference on computer vision. Berlin, Heidelberg: Springer Berlin Heidelberg, 2012.

在這里插入圖片描述
that classification error Type I (Sim, Oth, and BG in Fig. 10) accounts for the largest fraction of errors, followed by misses (FN) and localization (Loc) errors——紅綠紫占多數

4.4、Invariance Analysis

(1)Analysis of context

在這里插入圖片描述

在這里插入圖片描述

加白背景和 noise背景沒有 objects only 好

They are hindered much more on small objects than medium or large ones, which shows how critical context is for recognition and detection of small objects

不同模型在去除上下文信息后的表現差異表明,某些模型(如FCOS)對上下文信息的依賴較小,而另一些模型(如FasterRCNN和SSD512)則可能更依賴于上下文信息來進行準確檢測。

應該把原始結果也貼上,這樣好直觀的對比與原圖的效果如何,FCOS 好像用 object only 時的效果比原圖還好

在這里插入圖片描述

shows the difference in distribution of predicted boxes and distribution of ground truth boxes.

看的不是特別明白,給人的感覺 MaskRCNN 飽和式攻擊,命中率低,FCOS 神槍手,命中率高


圖五試驗了下 incongruent contexts 在不同模型上的影響

在這里插入圖片描述

這個表也是,最好貼上原圖輸入的結果,多一個對比試驗

(2)Robustness to image transformations

在這里插入圖片描述
Poor performance here demonstrates how sensitive models are to object scale and that they lack robustness to object appearance.

很難識別 crop 出來的圖片,特別是小目標

RetinaNet and FCOS outperform other models here.

(3)Analysis of errors

在這里插入圖片描述

Gaussian blur 和 vertical flip 中漏檢最多

objects only 中類別混淆很小,因為沒有背景干擾

5、Conclusion(own) / Future work

  • 參考 https://zhuanlan.zhihu.com/p/94990078
  • upper bound AP (UAP)
  • 感覺 Characterizing the Empirical Upper Bound 這小節應該放在 Error Diagnosis 小節之后,不然一上來的假設 location 沒問題讓人很懵圈,應該是先分析出 location 沒有 recognition 錯誤占比那么大再假設 location 是 GT 邏輯上就通順一些
  • 作者所謂的 UAP,就是當前分類器的上限了(要不然 GT 就是 100%),目標檢測器中的分類分支提升空間還很大
  • 上下文信息對小目標的重要性再次得到了驗證
  • We did not find a significant contribution from the surrounding context of a target or its nearby overlapping boxes to better
    classify it.
  • To evaluate the recognition component of a model, one can feed the target boxes to a model and collect its decisions on them
  • classification remains as the major bottleneck
  • classification error (confusion with other classes and misses) weighs more than localization and duplicate errors
  • 作者在目標檢測上做了分析,同樣的分析方法可以遷移到 semantic and instance segmentation.
  • 在這里插入圖片描述
  • 在這里插入圖片描述
  • 在這里插入圖片描述

更多論文解讀,請參考 【Paper Reading】

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/80836.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/80836.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/80836.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

LeetCode 941. 有效的山脈數組 java題解

https://leetcode.cn/problems/valid-mountain-array/description/ 雙指針 class Solution {public boolean validMountainArray(int[] arr) {int lenarr.length;if(len<3) return false;int left0,rightlen-1;while(left1<len&&arr[left]<arr[left1]){left…

udp多點通信和心跳包

刷題 # UDP多點通信核心要點## 基礎通信模式### 單播通信- 一對一通信方式- UDP默認通信模式- 地址指向具體目標主機### 廣播通信- 一對多通信機制- 地址范圍&#xff1a;xxx.xxx.xxx.255- 僅限局域網傳輸- 需設置SO_BROADCAST標志### 組播通信- 多對多群組通信- 地址范圍&…

文件相關操作

文本文件 程序運行時產生的數據都屬于臨時數據&#xff0c;程序一旦運行結束都會被釋放 通過文件可以將數據持久化 C的文件操作需要包含頭文件 文件分類 文本文件&#xff1a;文件以文本的ASCII碼形式存儲在計算機中 二進制文件&#xff1a;文件以文本的二進制形式存儲在計算…

[論文閱讀]ControlNET: A Firewall for RAG-based LLM System

ControlNET: A Firewall for RAG-based LLM System [2504.09593] ControlNET: A Firewall for RAG-based LLM System RAG存在數據泄露風險和數據投毒風險。相關研究探索了提示注入和投毒攻擊&#xff0c;但是在控制出入查詢流以減輕威脅方面存在不足 文章提出一種ai防火墻CO…

C++中的各式類型轉換

隱式轉換&#xff1a; 基本類型的隱式轉換&#xff1a; 當函數參數類型非精確匹配&#xff0c;但是可以轉換的時候發生 如&#xff1a; void func1(double x){cout << x << endl; }void func2(char c){cout << c << endl; }int main(){func1(2);//…

2.重建大師輸入輸出數據格式介紹

摘要&#xff1a;本文主要介紹重建大師支持的輸入數據格式及輸出數據格式。 1.輸入數據格式 1.1圖像文件 重建大師支持JPG、JPEG和TIFF格式的照片。 不同架次照片放置于同級目錄的不同文件夾&#xff0c;同一架次不同鏡頭拍攝得到的照片存放于不同的子文件夾&#xff0c;可使…

我們該如何使用DeepSeek幫我們減負?

在當今信息爆炸的時代&#xff0c;如何快速獲取、篩選和分析信息已經成為各行各業的重要能力。而DeepSeek作為一種先進的智能搜索和信息挖掘工具&#xff0c;能夠幫助用戶快速找到所需的信息&#xff0c;并從海量數據中提取出有用的洞見。在這篇博文中&#xff0c;我們將深入探…

抗量子計算攻擊的數據安全體系構建:從理論突破到工程實踐

在“端 - 邊 - 云”三級智能協同理論中&#xff0c;端 - 邊、邊 - 云之間要進行數據傳輸&#xff0c;網絡的安全尤為重要&#xff0c;為了實現系統總體的安全可控&#xff0c;將構建安全網絡。 可先了解我的前文&#xff1a;“端 - 邊 - 云”三級智能協同平臺的理論建構與技術實…

支付寶API-SKD-GO版

前言 支付寶api的sdk沒有提供go版&#xff0c;這里自己封裝了一個go版的sdk&#xff0c;有需要的朋友可以自取使用 支付寶 AliPay SDK for Go, 集成簡單&#xff0c;功能完善&#xff0c;持續更新&#xff0c;支持公鑰證書和普通公鑰進行簽名和驗簽。 Github地址 GitHub - …

JAVA研發+前后端分離,ZKmall開源商城B2C商城如何保障系統性能?

在電商行業競爭白熱化的當下&#xff0c;B2C 商城系統的性能表現成為決定用戶留存與商業成敗的關鍵因素。ZKmall 開源商城憑借 Java 研發與前后端分離架構的深度融合&#xff0c;構建起一套高效、穩定且具備強大擴展性的系統架構&#xff0c;從底層技術到上層應用全方位保障性能…

volatile是什么

一、背景和問題描述 假設你寫的這個多線程程序中&#xff0c;有兩個線程&#xff1a; 子線程&#xff08;thr&#xff09;&#xff1a;把flag變量設為1&#xff0c;并輸出“modify flag to 1”&#xff1b;主線程&#xff1a;一直在循環等待&#xff0c;直到flag變成1&#x…

MySQL的Docker版本,部署在ubantu系統

前言 MySQL的Docker版本&#xff0c;部署在ubantu系統&#xff0c;出現問題&#xff1a; 1.執行一個SQL&#xff0c;只有錯誤編碼&#xff0c;沒有錯誤提示信息&#xff0c;主要影響排查SQL運行問題&#xff1b; 2.這個問題&#xff0c;并不影響實際的MySQL運行&#xff0c;如…

專欄特輯丨懸鏡淺談開源風險治理之SBOM與SCA

隨著容器、微服務等新技術日新月異&#xff0c;開源軟件成為業界主流形態&#xff0c;軟件行業快速發展。但同時&#xff0c;軟件供應鏈也越來越趨于復雜化和多樣化&#xff0c;軟件供應鏈安全風險不斷加劇。 軟件供應鏈安全主要包括軟件開發生命周期和軟件生存運營周期&#x…

18.Excel數據透視表:第1部分創建數據透視表

一 什么是數據透視表 通過萬花筒可以用不同的方式査看里面畫面圖像&#xff0c;在excel中可以將數據透視表看作是對準數據的萬花筒&#xff0c;用不同角度去觀察數據&#xff0c;也可以旋轉數據&#xff0c;對數據進行重新排列&#xff0c;對大量的數據可以快速的匯總和建立交叉…

商業航天運動控制系統中的高可靠性芯片解決方案:挑戰、策略與應用研究

摘要&#xff1a;隨著商業航天領域的迅速發展&#xff0c;運動控制系統對芯片的可靠性提出了前所未有的挑戰。本文深入探討了商業航天運動控制系統中芯片可靠性面臨的挑戰&#xff0c;包括宇宙輻射效應、極端環境適應性及系統級可靠性保障等。同時&#xff0c;通過案例研究展示…

音視頻學習:使用NDK編譯FFmpeg動態庫

1. 環境 1.1 基礎配置 NDK 22b (r22b)FFmpeg 4.4Ubuntu 22.04 1.2 下載ffmpeg 官網提供了 .tar.xz 包&#xff0c;可以直接下載解壓&#xff1a; wget https://ffmpeg.org/releases/ffmpeg-4.4.tar.xz tar -xvf ffmpeg-4.4.tar.xz cd ffmpeg-4.41.3 安裝基礎工具鏈 sudo …

前端開發避坑指南:React 代理配置常見問題與解決方案

前端開發避坑指南:React 代理配置常見問題與解決方案 一、為什么需要配置代理?二、使用 create-react-app 默認配置代理三、使用 http-proxy-middleware 配置復雜代理四、高級代理配置五、生產環境中的代理配置一、為什么需要配置代理? React 應用在開發過程中經常需要與后端…

用影刀RPA打通內容創作“最后一公里”:CSDN草稿一鍵同步多平臺發布

文章目錄 引言 一、需求場景&#xff1a;多平臺分發的效率困境1. 痛點分析2. 影刀RPA的破局價值 二、影刀RPA是啥&#xff1f;打工人逆襲神器&#xff01;三、手把手教你造"搬運工"——技術宅的土味開發日記第一步&#xff1a;當個"偷窺狂"——觀察手動操作…

進程與線程:09 進程同步與信號量

課程引入&#xff1a;進程同步與信號量 接下來這節課開始&#xff0c;我們再開始講多進程圖像。講多進程圖像的下一個點&#xff0c;前面我們講清楚了多進程圖像要想實現切換&#xff0c;調度是如何做的。同時&#xff0c;多個進程放在內存中&#xff0c;就會存在多進程合作的…

【愚公系列】《Manus極簡入門》036-物聯網系統架構師:“萬物互聯師”

&#x1f31f;【技術大咖愚公搬代碼&#xff1a;全棧專家的成長之路&#xff0c;你關注的寶藏博主在這里&#xff01;】&#x1f31f; &#x1f4e3;開發者圈持續輸出高質量干貨的"愚公精神"踐行者——全網百萬開發者都在追更的頂級技術博主&#xff01; &#x1f…