目標檢測 Lite-DETR（2023）詳細解讀

文章目錄

- 迭代高級特征跨尺度融合
- 高效的低層次特征跨尺度融合
- KDA：Key-aware Deformable Attention

論文翻譯： CVPR 2023 | Lite DETR：計算量減少60%！高效交錯多尺度編碼器-CSDN博客

DINO團隊的

（Lightweight Transformer for Object Detection）它是對DETR（Transformers for Object Detection）模型的一種輕量級改進，在保持模型性能的同時，成功將Encoder的計算開銷減少了50%

改進的是Encoder，提出交錯的多尺度Encoder，

對低層級的特征圖的token來說，將會耗費太多的計算量，模型的性能提升也比較少，但是也不能去掉這些低層級的特征，因為很多檢測需要低層級的特征提供信息。如上圖所示，去掉低層級的特征圖，Encoder的計算量會得到大幅度的降低，相應小目標的檢測精度也會下降，大目標的檢測精度沒有太大影響。

下圖是各個特征圖的token數量占總token的比例

如下圖所示， S1 ～ S3 作為高級特征，(a) 是 3.4 節中討論的建議的高級特征更新，(b) 是 3.5 節中討論的低級特征跨尺度融合。在每個高效編碼器塊中，多尺度特征將經過 A 次高級特征更新，然后在每個塊的末尾進行低級特征更新。高效編碼器塊將執行 B 次。

迭代高級特征跨尺度融合

在不同的設置中，FH 可以包含前三個或兩個刻度，為清楚起見，我們默認將 FH 設為 S1、S2、S3，將 FL 設為 S4。FH 被視為主要特征，更新頻率較高，而 FL 更新頻率較低。

在該模塊中，高層特征 FH 將作為查詢（Q），從所有尺度中提取特征，包括低層和高層特征標記。這一操作增強了高層語義和高分辨率細節對 FH 的表示。例如，如表 2 所示，在前兩個尺度或前三個尺度中使用多尺度特征查詢將分別大幅減少 94.1% 和 75.3% 的查詢次數。我們還使用了將在第 3.6 節中討論的關鍵字感知注意力模塊 KDA 來執行注意力和更新標記。

高效的低層次特征跨尺度融合

低級特征包含過多的標記，這是導致計算效率低下的關鍵因素。因此，高效編碼器會在一系列高級特征融合之后，以較低的頻率更新這些低級特征。具體來說，我們利用初始低層次特征作為查詢，與更新的高層次標記以及原始低層次特征進行交互，以更新它們的表示。與高層特征更新類似，我們也使用了與 KDA 注意層的交互。

KDA：Key-aware Deformable Attention

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/906601.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/906601.shtml
英文地址，請注明出處：http://en.pswp.cn/news/906601.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！