目標檢測 Lite-DETR(2023)詳細解讀

文章目錄

    • 迭代高級特征跨尺度融合
    • 高效的低層次特征跨尺度融合
    • KDA:Key-aware Deformable Attention

論文翻譯: CVPR 2023 | Lite DETR:計算量減少60%!高效交錯多尺度編碼器-CSDN博客

DINO團隊的

(Lightweight Transformer for Object Detection)它是對DETR(Transformers for Object Detection)模型的一種輕量級改進,在保持模型性能的同時,成功將Encoder的計算開銷減少了50%

改進的是Encoder,提出交錯的多尺度Encoder,

對低層級的特征圖的token來說,將會耗費太多的計算量,模型的性能提升也比較少,但是也不能去掉這些低層級的特征,因為很多檢測需要低層級的特征提供信息。如上圖所示,去掉低層級的特征圖,Encoder的計算量會得到大幅度的降低,相應小目標的檢測精度也會下降,大目標的檢測精度沒有太大影響。

下圖是各個特征圖的token數量占總token的比例

如下圖所示, S1 ~ S3 作為高級特征 ,(a) 是 3.4 節中討論的建議的高級特征更新,(b) 是 3.5 節中討論的低級特征跨尺度融合。在每個高效編碼器塊中,多尺度特征將經過 A 次高級特征更新,然后在每個塊的末尾進行低級特征更新。高效編碼器塊將執行 B 次。

迭代高級特征跨尺度融合

在不同的設置中,FH 可以包含前三個或兩個刻度,為清楚起見,我們默認將 FH 設為 S1、S2、S3,將 FL 設為 S4。FH 被視為主要特征,更新頻率較高,而 FL 更新頻率較低。

在該模塊中,高層特征 FH 將作為查詢(Q),從所有尺度中提取特征,包括低層和高層特征標記。這一操作增強了高層語義和高分辨率細節對 FH 的表示。例如,如表 2 所示,在前兩個尺度或前三個尺度中使用多尺度特征查詢將分別大幅減少 94.1% 和 75.3% 的查詢次數。我們還使用了將在第 3.6 節中討論的關鍵字感知注意力模塊 KDA 來執行注意力和更新標記。

高效的低層次特征跨尺度融合

低級特征包含過多的標記,這是導致計算效率低下的關鍵因素。因此,高效編碼器會在一系列高級特征融合之后,以較低的頻率更新這些低級特征。具體來說,我們利用初始低層次特征作為查詢,與更新的高層次標記以及原始低層次特征進行交互,以更新它們的表示。與高層特征更新類似,我們也使用了與 KDA 注意層的交互。

KDA:Key-aware Deformable Attention

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/906601.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/906601.shtml
英文地址,請注明出處:http://en.pswp.cn/news/906601.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

ES(Elasticsearch) 基本概念(一)

Elasticsearch作為當前最流行的開源搜索和分析引擎,廣泛應用于日志分析、全文搜索、業務智能等領域。Elasticsearch是一個基于 Apache Lucene 構建的分布式搜索和分析引擎、可擴展數據存儲和矢量數據庫。它針對生產級工作負載的速度和相關性進行了優化。使用 Elasti…

當物聯網“芯”闖入納米世界:ESP32-S3驅動的原子力顯微鏡能走多遠?

上次咱們把OV2640攝像頭“盤”得明明白白,是不是感覺ESP32-S3這小東西潛力無限?今天,咱們玩個更刺激的,一個聽起來就讓人腎上腺素飆升的挑戰——嘗試用ESP32-S3這顆“智慧芯”,去捅一捅科學界的“馬蜂窩”,…

Excel合并單元格后,如何自動批量生成序號列

1.選擇整列 2.組合鍵:CtrlG 3.定位條件,選擇“空值” 4.在第一個框中輸入“MAX(”,鼠標選中A1框,后加“:”,鼠標選中前方“A1”,按“F4”絕對引用,補全右括號,后輸入“1…

TDengine 運維—容量規劃

概述 若計劃使用 TDengine 搭建一個時序數據平臺,須提前對計算資源、存儲資源和網絡資源進行詳細規劃,以確保滿足業務場景的需求。通常 TDengine 會運行多個進程,包括 taosd、taosadapter、taoskeeper、taos-explorer 和 taosx。 在這些進程…

Axure設計數字鄉村可視化大屏:從布局到交互的實戰經驗分享

鄉村治理正從傳統模式向“數據驅動”轉型。數字鄉村可視化大屏作為數據展示的核心載體,不僅能直觀呈現鄉村發展全貌,還能為決策提供科學依據。本文以Axure為工具,結合實際案例,分享如何從零設計一個功能完備、交互流暢的數字鄉村大…

從零基礎到最佳實踐:Vue.js 系列(1/10):《環境搭建與基礎概念》

Vue.js 環境搭建與基礎概念 關鍵點 Vue.js 是一個簡單易用的前端框架,適合初學者快速上手。搭建開發環境需要安裝 Node.js 和 npm/Yarn,推薦使用最新 LTS 版本。Vue CLI 是官方工具,可快速創建項目并提供開發服務器。Vue.js 基于 MVVM 模式&…

使用docker compose部署dify(大模型開發使用平臺)

Dify是一款生成式 AI 應用中間件,面向有私有部署與數據合規需求的企業用戶,推動企業向 AI 時代轉型。平臺支持無代碼構建,業務人員即可快速搭建與調試 AI 應用,顯著降低開發門檻。 參考 https://docs.dify.ai/zh-hans/getting-s…

npm 安裝時 SSL 證書過期問題筆記

問題描述: npm error code CERT_HAS_EXPIRED npm error errno CERT_HAS_EXPIRED npm error request to https://registry.npm.taobao.org/axios failed, reason: certificate has expired 這表明當前配置的 npm 鏡像源(淘寶鏡像 https://registry.npm.taobao.org&…

力扣HOT100之二叉樹: 236. 二叉樹的最近公共祖先

果然,這道題二刷還是不會做,回去看卡爾視頻了。結合靈神的題解,我對這道題有了一些新的理解。 首先這道題還是用遞歸來做,由于我們需要計算兩個節點的最近公共祖先,一定是從下往上來遍歷,只有先判斷左右子樹…

Word 轉 HTML API 接口

Word 轉 HTML API 接口 圖像/轉換 Word 文檔轉換為 HTML 文件轉換 / 超高精度與還原度 文件轉換 / Word。 1. 產品功能 超高精度與還原度的 HTML 文件轉換;支持將 Word 文檔轉換為 HTML 格式;支持 .doc 和 .docx 格式;保持原始 Word 文檔的…

idea 安裝飛算-javaAI 插件使用

文章目錄 前言idea 安裝飛算-javaAI 插件使用1. 介紹一下飛算-AI2. 安裝使用 前言 如果您覺得有用的話,記得給博主點個贊,評論,收藏一鍵三連啊,寫作不易啊^ _ ^。 ??而且聽說點贊的人每天的運氣都不會太差,實在白嫖的…

Bert預訓練任務-MLM/NSP

MLM MLM:Masked Language Mode:在每一個訓練序列中以15%的概率隨機地選中某個token進行MASK,當一個token被選中后,有以下三種處理方式: 80%的概率被[MASK],如my dog is hairy->my dog is [MASK]10%的概率修改為隨機的其他token,如my dog …

瀏覽器原生 Web Crypto API 實現 SHA256 Hash 加密

寫在前面 在我上一篇文章 《node 后端和瀏覽器前端,有關 RSA 非對稱加密的完整實踐, 前后端匹配的代碼演示》 中,我們使用 瀏覽器原生 Web Crypto API 實現了 RSA 的加密算法。 但是,在我之前的 《我設計的一個安全的 web 系統用…

5G 網絡尋呼的信令及 IE 信息分析

一、尋呼信令的觸發背景 在 5G 網絡中,當網絡側有下行數據要發送給處于空閑態(RRC_IDLE)或非激活態(RRC_INACTIVE)的用戶設備(UE)時,就會觸發尋呼流程。這是因為在這些狀態下,UE 與網絡之間沒有建立持續的無線資源控制(RRC)連接,網絡需要通過尋呼機制來通知 UE 有…

印度語言指令驅動的無人機導航!UAV-VLN:端到端視覺語言導航助力無人機自主飛行

作者:Pranav Saxena, Nishant Raghuvanshi and Neena Goveas單位:比爾拉理工學院(戈瓦校區)論文標題:UAV-VLN: End-to-End Vision Language guided Navigation for UAVs論文鏈接:https://arxiv.org/pdf/250…

基于Zynq SDK的LWIP UDP組播開發實戰指南

一、為什么選擇LWIP組播? 在工業控制、智能安防、物聯網等領域,一對多的高效數據傳輸需求日益增長。Zynq-7000系列SoC憑借其ARM+FPGA的獨特架構,結合LWIP輕量級網絡協議棧,成為嵌入式網絡開發的理想選擇。本文將帶您實現: LWIP組播配置全流程動態組播組切換技術零拷貝數據…

(三)MMA(KeyCloak身份服務器/OutBox Pattern)

文章目錄 項目地址一、KeyCloak二、OutBox Pattern2.1 配置Common模塊的OutBox1. OutboxMessage2. 數據庫配置OutboxMessageConfiguration3. 創建Save前的EF攔截器4. 創建Quartz后臺任務5. 配置后臺任務6. 注冊服務2.2 創建OutBox的消費者1. 自定義IDomainEventHandler2. 定義抽…

初步認識HarmonyOS NEXT端云一體化開發

視頻課程學習報名入口:HarmonyOS NEXT端云一體化開發 1、課程設計理念 本課程采用"四維能力成長模型"設計理念,通過“能看懂→能聽懂→能上手→能實戰”的漸進式學習路徑,幫助零基礎開發者實現從理論認知到商業級應用開發的跨越。該模型將學習過程劃分為四個維度…

Vue百日學習計劃Day43-45天詳細計劃-Gemini版

Day 43: Composable 函數基礎與抽取簡單邏輯 (~3 小時) 本日目標: 理解 Composable 函數的概念、優勢,并學會如何將簡單的、無狀態的邏輯抽取為 Composable。所需資源: Vue 3 官方文檔 (組合式函數): https://cn.vuejs.org/guide/reusability/composables.html 學…

C++:list容器,deque容器

list容器&#xff1a;雙向鏈表容器&#xff0c;底層是雙向鏈表。 簡單使用如下&#xff1a; #include<iostream> #include<list> using namespace std;int main() {list<int> lst;lst.push_back(1);lst.push_back(2);lst.push_back(3);lst.push_front(4);l…