文章目錄
- 迭代高級特征跨尺度融合
- 高效的低層次特征跨尺度融合
- KDA:Key-aware Deformable Attention
論文翻譯: CVPR 2023 | Lite DETR:計算量減少60%!高效交錯多尺度編碼器-CSDN博客
DINO團隊的
(Lightweight Transformer for Object Detection)它是對DETR(Transformers for Object Detection)模型的一種輕量級改進,在保持模型性能的同時,成功將Encoder的計算開銷減少了50%
改進的是Encoder,提出交錯的多尺度Encoder,
對低層級的特征圖的token來說,將會耗費太多的計算量,模型的性能提升也比較少,但是也不能去掉這些低層級的特征,因為很多檢測需要低層級的特征提供信息。如上圖所示,去掉低層級的特征圖,Encoder的計算量會得到大幅度的降低,相應小目標的檢測精度也會下降,大目標的檢測精度沒有太大影響。
下圖是各個特征圖的token數量占總token的比例
如下圖所示, S1 ~ S3 作為高級特征 ,(a) 是 3.4 節中討論的建議的高級特征更新,(b) 是 3.5 節中討論的低級特征跨尺度融合。在每個高效編碼器塊中,多尺度特征將經過 A 次高級特征更新,然后在每個塊的末尾進行低級特征更新。高效編碼器塊將執行 B 次。
迭代高級特征跨尺度融合
在不同的設置中,FH 可以包含前三個或兩個刻度,為清楚起見,我們默認將 FH 設為 S1、S2、S3,將 FL 設為 S4。FH 被視為主要特征,更新頻率較高,而 FL 更新頻率較低。
在該模塊中,高層特征 FH 將作為查詢(Q),從所有尺度中提取特征,包括低層和高層特征標記。這一操作增強了高層語義和高分辨率細節對 FH 的表示。例如,如表 2 所示,在前兩個尺度或前三個尺度中使用多尺度特征查詢將分別大幅減少 94.1% 和 75.3% 的查詢次數。我們還使用了將在第 3.6 節中討論的關鍵字感知注意力模塊 KDA 來執行注意力和更新標記。
高效的低層次特征跨尺度融合
低級特征包含過多的標記,這是導致計算效率低下的關鍵因素。因此,高效編碼器會在一系列高級特征融合之后,以較低的頻率更新這些低級特征。具體來說,我們利用初始低層次特征作為查詢,與更新的高層次標記以及原始低層次特征進行交互,以更新它們的表示。與高層特征更新類似,我們也使用了與 KDA 注意層的交互。