DETR詳解

1. 動機

傳統的目標檢測任務需要大量的人工先驗知識,例如預定義的先驗anchor,NMS后處理策略等。這些人工先驗知識引入了很多人為因素,且較難處理。如果能夠端到端到直接生成目標檢測結果,將會使問題變得很優雅。

2. 主要貢獻

提出了一個新的目標函數,用二分圖匹配的方式強制模型輸出一個獨一無二的目標框,避免了傳統方法中的非極大值抑制。

首次把transformer引入到目標檢測領域。

簡化了檢測流程,有效地消除了對許多人工設計組件的需求,如NMS或anchor生成。實現了端到端的目標檢測。

3. 模型結構

DETR將目標檢測看作一種set prediction問題,并提出了一個十分簡潔的目標檢測pipeline,即CNN提取基礎特征,送入Transformer做關系建模,得到的輸出通過二分圖匹配算法與圖片上的ground truth做匹配。

先使用CNN對圖像進行特征提取,把得到的二維特征轉換到一維,然后送入transformer的encoder-decoder結構之中。然后利用decoder的結果預測檢測框的輸出。

將目標檢測看作set prediction問題
DETR算法流程

3.1. backbone

DETR基礎版本的backbone使用torchvision上預訓練過的ResNet-50,訓練時凍結BN層參數。設輸入img維度為(3, H, W),經過backbone后變為(2048, \frac{H}{32}, \frac{W}{32})。此外在后續實驗階段論文還使用了ResNet-101以及改進過的DC5版本。

3.2. transfomer

CNN提取的特征拉直(flatten)后加入位置編碼(positional encoding)得到序列特征,作為Transformer encoder的輸入。Transformer中的attention機制具有全局感受野,能夠實現全局上下文的關系建模,其中encoder和decoder均由多個encoder、decoder層堆疊而成。每個encoder層中包含self-attention機制,每個decoder中包含self-attention和cross-attention。

3.3. object queries

輸出100個目標框和它的分類。設計了一套全新的損失函數,能夠在訓練的時候把與ground truth匹配的框算作為正樣本,不匹配的框作為負樣本。在推理的時候使用一個閾值來選擇結果,預測得分高于閾值的作為輸出,低于閾值的忽略。

transformer解碼器中的序列是object queries。每個query對應圖像中的一個物體實例(包含背景實例 ?),它通過cross-attention從編碼器輸出的序列中對特定物體實例的特征做聚合,又通過self-attention建模該物體實例域其他物體實例之間的關系。最終,FFN基于特征聚合后的object queries做分類的檢測框的回歸。

值得一提的是,object queries是可學習的embedding,與當前輸入圖像的內容無關(不由當前圖像內容計算得到)。論文中對不同object query在COCO數據集上輸出檢測框的位置做了統計(如上圖所示),可以看不同object query是具有一定位置傾向性的。對object queries的理解可以有多個角度。首先,它隨機初始化,并隨著網絡的訓練而更新,因此隱式建模了整個訓練集上的統計信息。其次,在目標檢測中每個object query可以看作是一種可學習的動態anchor,可以發現,不同于Faster RCNN, RetinaNet等方法在特征的每個像素上構建稠密的anchor不同,detr只用少量稀疏的anchor(object queries)做預測,這也啟發了后續的一系列工作。

3.4. 損失函數

DETR有兩種損失:(1)二分圖匹配階段的損失,用于確定最優匹配。(2)在最優匹配下的模型損失。

3.4.1. 二分圖匹配

3.4.2. 匹配后損失計算

參考文獻

End-to-end object detection with transformers

DETR目標檢測新范式帶來的思考 - 知乎

DETR(DEtection TRansformer)要點總結-CSDN博客?

DETR 論文精讀【論文精讀】_嗶哩嗶哩_bilibili

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/715000.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/715000.shtml
英文地址,請注明出處:http://en.pswp.cn/news/715000.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

牛客小白月賽87 A-G 題解 | JorbanS

文章目錄 [A - 小苯的石子游戲](https://ac.nowcoder.com/acm/contest/73854/A)[B - 小苯的排序疑惑](https://ac.nowcoder.com/acm/contest/73854/B)[C - 小苯的IDE括號問題(easy)](https://ac.nowcoder.com/acm/contest/73854/C)[D - 小苯的IDE括號問題…

向爬蟲而生---Redis 探究篇3<`Redis事務`和`Sql事務`區別>

前言: 在數據管理和應用開發中,事務的概念至關重要。事務用于組織和管理一系列對數據進行更新或操作的步驟,確保數據的一致性和可靠性。事務能夠保證在一組相關操作中的原子性、一致性、隔離性和持久性,從而確保數據庫的可靠性。 Redis和My…

idea中maven配置(一次成功,全部細節都有)

寫這篇文章的原因是maven的配置很簡單,但是也很容易出錯,我連配了兩臺電腦的maven出現了各種小錯誤,參考了以下兩篇博文IDEA配置Maven教程(超詳細版~)_idea maven配置教程-CSDN博客 一次包會——最新IDEA配置Maven指南&#xff0…

python 基礎知識點(藍橋杯python科目個人復習計劃57)

今日復習計劃:做題 例題1:笨笨的機器人 問題描述: 肖恩有一個機器人,他能根據輸入的指令移動相應的距離。但是這個機器人很笨,他永遠分不清往左邊還是往右邊移動。肖恩也知道這一點,所以他設定這個機器人…

mysql 遠程不允許連接 1130 -Host ‘‘ is not allowed to connect to this MySQL server

1、docker 進入mysql 命令 sudo docker exec -it 0c58 /bin/bash 2、連接mysql mysql -u root -ppwd 3、 use mysql; 4、更改表所有root用戶都可以連接 update user set host ‘%’ where user‘root’; 5、刷新權限 flush privilege; ok解決;

五大跨平臺桌面應用開發框架:Electron、Tauri、Flutter等

hello,我是貝格前端工場,本次介紹跨平臺開發的框架,歡迎大家評論、點贊。 一、什么是跨平臺桌面應用開發框架 跨平臺桌面應用開發框架是一種工具或框架,它允許開發者使用一種統一的代碼庫或語言來創建能夠在多個操作系統上運行的…

3.2日學習打卡----初學FastDFS(二)

3.2日學習打卡 目錄: 3.2日學習打卡SpringBoot整合FastDFS實戰開發文件上傳 FastDFS集成Nginx環境搭建 SpringBoot整合FastDFS 由GitHub大牛tobato在原作者YuQing與yuqih發布的JAVA客戶端基礎上進行了大量重構工作,并于GitHub上發布了FastDFS-Client1.26.5。 主要特…

代碼隨想錄算法訓練營Day33 || leetCode 860.檸檬水找零 || 406.根據身高重建隊列 || 452. 用最少數量的箭引爆氣球

860.檸檬水找零 貪心的思路就是,先把最沒用的錢給找出去。本題中,20元沒法花出去,只有10和5能找零,但10只能找零20,而5可以找零10與20,所以就想辦法把10先花出去即可。之后按照收入順序來記錄錢數并選擇找…

現貨大宗商品發售平臺搭建須知

在搭建現貨大宗商品發售平臺時,需要考慮以下關鍵因素: 目標市場分析:首先要明確你的平臺將服務于哪些大宗商品市場,如農產品、金屬、能源等。了解這些市場的特點、參與者、交易規則等,有助于你設計出更符合市場需求的…

chromedriver,Chrome驅動的實時更新

發現自己的selenium項目跑不起來了 效驗驅動版本 下載鏈接(可能需要魔法) https://registry.npmmirror.com/binary.html?pathchromedriver/ https://googlechromelabs.github.io/chrome-for-testing/ 找到驅動位置 1. 默認安裝路徑:Chrome驅動通常會默認安裝在系…

Python中常用的庫-sklearn的介紹和代碼案例

Python中常用的庫-sklearn的介紹和代碼案例 關注B站查看更多手把手教學: 肆十二-的個人空間-肆十二-個人主頁-嗶哩嗶哩視頻 (bilibili.com) 今天我們來一起說下最近python中常用的機器學習庫-sklearn。 Scikit-learn是一個基于Python的開源機器學習庫,…

詳解JavaScript的函數

詳解 JavaScript 的函數 函數的語法格式 創建函數/函數聲明/函數定義 function 函數名(形參列表) { 函數體 return 返回值; // return 語句可省略 } 函數調用 函數名(實參列表) // 不考慮返回值 返回值 函數名(實參列表) // 考慮返回值 示例代碼 //定義的沒有參數列表&am…

實驗:依賴注入之setter注入

個人名片: 🐼作者簡介:一名大三在校生,喜歡AI編程🎋 🐻???個人主頁🥇:落798. 🐼個人WeChat:hmmwx53 🕊?系列專欄:🖼?…

【數據結構與算法】整數二分

問題描述 對一個排好序的數組,要求找到大于等于7的最小位置和小于等于7的最大位置 大于等于7的最小位置 易知從某個點開始到最右邊的邊界都滿足條件,我們要找到這個區域的最左邊的點。 開始二分! left指針指向最左邊界,right…

2024-03-01(金融AI行業與大數據生態圈)

1.金融這一塊的算法,不像推薦系統,圖像等領域,金融領域的算法都比較成熟了。現在來說門檻低,屬于初期階段,上升期。 2.反欺詐的數據標簽比較少,有一種“標簽染色”的方法來做反欺詐模型的標簽。 3.常用反…

官宣 | 凱琦供應鏈成為亞馬遜SPN物流服務商!

再播一條喜訊!在亞馬遜官方平臺的篩選考核下,凱琦供應鏈近日正式入駐亞馬遜SPN服務商平臺,成為亞馬遜SPN第三方承運商。 這也標志著凱琦9年來在FBA物流領域的服務質量得到了客戶、官方及行業的廣泛認可,未來凱琦將繼續為亞馬遜賣家…

測試開發實習崗---測試用例

目錄 對于抖音投放廣告這項業務,如何設計測試用例get和post的接口如何設計測試用例依賴于登錄狀態的接口如何測試 對于抖音投放廣告這項業務,如何設計測試用例 廣告展示:測試廣告在抖音中的展示情況,包括廣告位置、展示時機、展示…

第六講:函數

函數 1. 函數的概念2. 庫函數2.1 標準庫和頭文件2.2 庫函數的使用方法2.2.1 功能2.2.2 頭文件包含2.2.3 實踐2.2.4 庫函數文檔的一般格式 3. 自定義函數3.1 函數的語法形式3.2 函數的舉例 4. 形參和實參4.1 實參4.2 形參4.3 實參和形參的關系 5. return語句6. 數組做函數參數7.…

ubuntu個人系統軟件安裝配置備忘

1. 替換軟件源 /etc/apt/source.list 2. 安裝必要軟件 安裝基礎軟件 sudo apt update sudo apt install -y python3-pip git vim curl wget clang clang-format flameshot docker升級pip3 python3 -m pip install --upgrade pip 安裝google瀏覽器 https://deb.pkgs.org/…

Excel 按奇數偶數列處理數據

目錄 一. 需求背景1.1 獲取偶數列的數據1.2 奇偶列數據互換 二. 解決方式2.1 為列添加奇偶輔助列2.2 通過公式將奇偶列互換 一. 需求背景 1.1 獲取偶數列的數據 ? 最近在整理歌單,發現部分歌曲沒有歌詞,于是打算自己制作一份。 從網上找到了歌詞&…