【目標檢測】RT-DETR

DETRs Beat YOLOs on Real-time Object Detection
DETR在實時目標檢測任務中超越YOLO

CVPR 2024
在這里插入圖片描述

代碼地址
論文地址

0.論文摘要

YOLO系列因其在速度與精度間的均衡權衡，已成為實時目標檢測領域最受歡迎的框架。然而我們觀察到，非極大值抑制（NMS）會對YOLO的速度和精度產生負面影響。近年來，基于Transformer的端到端檢測器（DETR）為消除NMS提供了替代方案，但其高昂計算成本制約了實用性，使其難以充分發揮去除NMS的優勢。本文提出實時檢測變換器（RT-DETR），據我們所知，這是首個解決上述困境的實時端到端目標檢測器。我們分兩步構建RT-DETR：首先在保證精度前提下提升速度，繼而在保持速度基礎上優化精度。具體而言，我們設計了高效混合編碼器，通過解耦尺度內交互與跨尺度融合來快速處理多尺度特征；進而提出不確定性最小化查詢選擇機制，為解碼器提供高質量初始查詢以提升精度。此外，RT-DETR支持通過調整解碼器層數實現靈活調速，無需重新訓練即可適應不同場景。我們的RT-DETR-R50/R101在COCO數據集上達到53.1%/54.3% AP，在T4 GPU上實現108/74 FPS，速度與精度均超越現有先進YOLO模型。RT-DETR-R50較DINO-R50精度提升2.2% AP，幀率提高約21倍。經過Objects365預訓練后，RT-DETR-R50/R101可達到55.3%/56.2% AP。

1.引言

實時目標檢測是重要的研究領域，具有廣泛的應用場景，如目標跟蹤[40]、視頻監控[26]和自動駕駛[2]等。現有實時檢測器通常采用基于CNN的架構，其中最著名的是YOLO系列檢測器[1, 9–11, 14, 15, 24, 28, 35, 37]，因其在速度與精度之間實現合理權衡。然而，這些檢測器通常需要非極大值抑制（NMS）進行后處理，這不僅會降低推理速度，還會引入超參數，導致速度和精度均不穩定。此外，考慮到不同場景對召回率和精度的側重不同，需謹慎選擇適當的NMS閾值，這阻礙了實時檢測器的發展。

最近，基于Transformer的端到端檢測器（DETRs）[4, 16, 22, 25, 33, 36, 41, 42]因其簡潔的架構和無需手工設計組件的特性受到學術界廣泛關注。然而，其高昂的計算成本使其無法滿足實時檢測需求，因此這種無需非極大值抑制（NMS）的架構并未展現出推理速度優勢。這促使我們探索：能否將DETRs拓展至實時場景，在速度和精度上均超越先進的YOLO檢測器，從而消除NMS造成的延遲以實現實時目標檢測。

為實現上述目標，我們重新審視了DETR模型，并對關鍵組件進行詳細分析以減少計算冗余并進一步提升精度。對于前者，我們觀察到盡管引入多尺度特征有助于加速訓練收斂[42]，但會導致輸入編碼器的序列長度顯著增加。多尺度特征交互產生的高計算成本使得Transformer編碼器成為計算瓶頸。因此，實現實時DETR需要重新設計編碼器架構。對于后者，先前研究[39,41,42]表明難以優化的對象查詢阻礙了DETR性能，并提出用編碼器特征替換原始可學習嵌入的查詢選擇方案。然而我們發現當前查詢選擇直接采用分類分數進行篩選，忽略了檢測器需要同時建模目標類別與位置（二者共同決定特征質量）的事實。這不可避免地導致部分定位置信度較低的編碼器特征被選為初始查詢，從而引入顯著的不確定性并損害DETR性能。我們將查詢初始化視為實現性能突破的關鍵路徑。

本文提出實時檢測變換器（RT-DETR），據我們所知是首個實時端到端目標檢測器。為高效處理多尺度特征，我們設計了一種高效混合編碼器以替代原始Transformer編碼器，通過解耦不同尺度特征的尺度內交互與跨尺度融合，顯著提升推理速度。為避免定位置信度低的編碼器特征被選作目標查詢，我們提出不確定性最小化查詢選擇機制，通過顯式優化不確定性為解碼器提供高質量初始查詢，從而提升檢測精度。此外，得益于DETR的多層解碼器架構，RT-DETR支持無需重新訓練即可靈活調節速度，以適應多樣化實時場景需求。

RT-DETR在速度與精度之間實現了理想的平衡。具體而言，RT-DETR-R50在COCO val2017數據集上達到53.1% AP，在T4 GPU上實現108 FPS；RT-DETR-R101則達到54.3% AP和74 FPS，其速度與精度均超越先前先進的YOLO檢測器L和X型號（圖1）。我們還通過采用更小骨干網絡縮放編碼器-解碼器結構，開發了多尺度RT-DETR變體，其性能優于輕量級YOLO檢測器（S和M型號）。此外，RT-DETR-R50以53.1% AP優于DINO-Deformable-DETR-R50的50.9% AP（提升2.2%），并以108 FPS遠超后者的5 FPS（提速約21倍），顯著提升了DETR系列模型的精度與速度。經過Objects365數據集[32]預訓練后，RT-DETR-R50/R101分別達到55.3%/56.2% AP，展現出顯著性能提升。更多實驗結果詳見附錄。

在這里插入圖片描述

主要貢獻總結如下：(i). 我們提出了首個實時端到端目標檢測器RTDETR，其不僅在速度與精度上超越了先前先進的YOLO檢測器，同時消除了NMS后處理對實時目標檢測造成的負面影響；(ii). 我們定量分析了NMS對YOLO檢測器速度與精度的影響，并建立了端到端速度基準以測試實時檢測器的端到端推理速度；(iii). 所提出的RT-DETR支持通過調整解碼器層數進行靈活速度調節，無需重新訓練即可適應不同場景。

2.相關工作

2.1. 實時目標檢測器

YOLOv1[29]是首個基于卷積神經網絡(CNN)的單階段目標檢測器，實現了真正的實時目標檢測。經過多年持續發展，YOLO系列檢測器性能已超越其他單階段檢測器[20,23]，成為實時目標檢測的代名詞。當前YOLO檢測器可分為兩類：基于錨框的[1,10,14,24,27,28,34,35]與無錨框的[9,11,15,37]，它們在速度與精度間取得良好平衡，被廣泛應用于各類實際場景。這些先進的實時檢測器會產生大量重疊檢測框，必須依賴非極大值抑制(NMS)后處理，從而導致速度下降。

2.2. 端到端目標檢測器

端到端目標檢測器以其簡潔的流水線而著稱。Carion等人[4]首次提出了基于Transformer的端到端檢測器DETR，因其獨特特性而受到廣泛關注。特別地，DETR摒棄了手工設計的錨框和非極大值抑制組件，轉而采用二分圖匹配并直接預測一對一的目標集合。盡管優勢顯著，DETR仍存在若干問題：訓練收斂速度慢、計算成本高以及查詢難以優化。針對這些問題，研究者提出了多種DETR改進方案。

加速收斂：Deformable-DETR[42]通過增強注意力機制效率，利用多尺度特征加速訓練收斂；DAB-DETR[22]和DN-DETR[16]則通過引入迭代優化方案和去噪訓練進一步提升性能；Group-DETR[5]提出了分組式一對多分配策略。

降低計算成本：Efficient DETR[39]和Sparse DETR[31]通過減少編碼器/解碼器層數或更新查詢數量來降低計算開銷；Lite DETR[17]采用交錯更新方式降低底層特征更新頻率，從而提升編碼器效率。

優化初始查詢：條件DETR[25]和Anchor DETR[36]降低了查詢的優化難度。Zhu等人[42]提出了兩階段DETR的查詢選擇方法，DINO[41]則采用混合查詢選擇以更好地初始化查詢。現有DETR模型仍存在計算量大的問題，且未針對實時檢測進行設計。我們的RT-DETR深入探索了計算成本優化方案，并著力改進查詢初始化機制，其性能超越了當前最先進的實時檢測器。

3.檢測器的端到端速度

3.1. NMS分析

非極大值抑制（NMS）是目標檢測中廣泛使用的后處理算法，用于消除重疊的輸出框。該算法需要設置兩個閾值：置信度閾值與交并比閾值。具體而言，系統會直接濾除低于置信度閾值的預測框，當任意兩個預測框的交并比超過設定閾值時，則丟棄其中得分較低的框。該過程會迭代執行，直至所有類別的預測框均處理完畢。因此NMS算法的執行時間主要取決于預測框數量與兩個閾值設置。為驗證該結論，我們采用基于錨框的YOLOv5[10]與無錨框的YOLOv8[11]進行對比分析。

我們首先統計在同一輸入上以不同置信度閾值過濾輸出框后剩余的框數量。從0.001到0.25采樣置信度閾值以統計兩種檢測器的剩余框數量，并將其繪制在柱狀圖上（圖2），直觀反映出NMS對其超參數的敏感性。隨著置信度閾值增大，更多預測框被過濾，需要計算IoU的剩余框數量減少，從而降低NMS的執行時間。

在這里插入圖片描述

圖2. 不同置信度閾值下的檢測框數量。

此外，我們采用YOLOv8評估模型在COCO val2017數據集上的精度，并測試其在不同超參數下的NMS執行耗時運算性能分析。需說明的是，本文采用的NMS運算基于TensorRT的efficientNMSPlugin實現，該模塊包含EfficientNMSFilter、RadixSort、EfficientNMS等多個內核，本文僅統計EfficientNMS內核的執行耗時。測試在T4 GPU上采用TensorRT FP16精度進行，輸入數據與預處理流程保持恒定。具體超參數設置及對應實驗結果如表1所示。實驗結果表明：當置信度閾值降低或IoU閾值升高時，EfficientNMS內核的執行時間會相應增加。這是因為高置信度閾值會直接過濾更多預測框，而高IoU閾值則會導致每輪篩選保留更多預測框。我們在附錄中可視化了YOLOv8模型采用不同NMS閾值的檢測效果，結果顯示不合理的置信度閾值會導致檢測器出現大量誤檢或漏檢。當置信度閾值為0.001、IoU閾值為0.7時，YOLOv8獲得最佳AP性能，但相應的NMS耗時處于較高水平。考慮到YOLO系列檢測器通常報告模型推理速度時不計入NMS耗時，因此有必要建立端到端的完整速度基準。

在這里插入圖片描述

表1. IoU閾值與置信度閾值對準確率和NMS執行時間的影響。

3.2. 端到端速度基準測試

為公平比較各類實時檢測器的端到端速度，我們建立了端到端速度基準測試。鑒于非極大值抑制（NMS）的執行時間受輸入數據影響，需選定基準數據集并計算多幅圖像的平均執行時間。我們選用COCO val2017[19]作為基準數據集，并為YOLO系列檢測器附加前述TensorRT的NMS后處理插件。具體而言，根據基準數據集對應精度所采用的NMS閾值測試檢測器的平均推理時間（不含I/O與內存拷貝操作）。通過該基準測試，我們評估了基于錨框的檢測器YOLOv5[10]和YOLOv7[35]，以及無錨框檢測器PP-YOLOE[37]、YOLOv6[15]和YOLOv8[11]的在T4 GPU上使用TensorRT FP16運行端到端速度。根據結果（參見表2），我們得出結論：對于YOLO檢測器而言，在精度相當的情況下，無錨檢測器性能優于基于錨的檢測器，因為前者所需非極大值抑制時間更少。這是由于基于錨的檢測器產生的預測框數量多于無錨檢測器（在我們測試的檢測器中多出三倍）。
在這里插入圖片描述

表2. 與SOTA的對比（僅包含YOLO檢測器的L和X模型，與S和M模型的對比參見附錄）。除DINO-Deformable-DETR[41]用于對比外，我們未測試其他DETR的速度，因其均非實時檢測器。我們的RT-DETR在速度和精度上均優于最先進的YOLO檢測器及DETR系列方法。

4.實時DETR

4.1 模型概述

RT-DETR由主干網絡、高效混合編碼器和帶有輔助預測頭的Transformer解碼器構成，其整體架構如圖4所示。具體而言，我們將主干網絡最后三個階段{S3, S4, S5}的特征輸入編碼器。該高效混合編碼器通過尺度內特征交互與跨尺度特征融合（參見第4.2節），將多尺度特征轉換為圖像特征序列。隨后采用不確定性最小化查詢選擇機制，篩選固定數量的編碼器特征作為解碼器的初始目標查詢（參見第4.3節）。最終，帶有輔助預測頭的解碼器通過迭代優化目標查詢來生成類別與邊界框。

在這里插入圖片描述

圖4. RT-DETR整體架構。我們將主干網絡最后三個階段的特征輸入編碼器，高效混合編碼器通過基于注意力的同尺度特征交互模塊（AIFI）和基于CNN的跨尺度特征融合模塊（CCFF）將多尺度特征轉化為圖像特征序列。隨后，不確定性最小化查詢選擇機制選取固定數量的編碼器特征作為解碼器的初始對象查詢。最終，帶有輔助預測頭的解碼器通過迭代優化對象查詢來生成類別與邊界框。

4.2 高效混合編碼器

計算瓶頸分析

多尺度特征的引入加速了訓練收斂并提升性能[42]。然而盡管可變形注意力機制降低了計算成本，序列長度的急劇增加仍使編碼器成為計算瓶頸。如Lin等人[18]所述，在Deformable-DETR中編碼器消耗49%的GFLOPs卻僅貢獻11%的AP指標。為突破此瓶頸，我們首先分析了多尺度Transformer編碼器中存在的計算冗余：直觀而言，包含豐富物體語義信息的高層特征是從低層特征提取而來，這使得在拼接后的多尺度特征上執行特征交互存在冗余。因此我們設計了一組采用不同編碼器類型的變體模型（圖3），證明同時進行尺度內與跨尺度特征交互是低效的。具體而言，實驗采用配備RT-DETR小型數據讀取器和輕量解碼器的DINO-Deformable-R50模型，首先生成去除多尺度Transformer編碼器的變體A；隨后基于A插入不同類型的編碼器得到系列變體（各變體詳細指標見表3）：

在這里插入圖片描述
圖3. 各變體的編碼器結構。SSE表示單尺度Transformer編碼器，MSE表示多尺度Transformer編碼器，CSF代表跨尺度融合。AIFI與CCFF是我們設計的混合編碼器中的兩個模塊。

在這里插入圖片描述

表3. 圖3所示各變體組的指標。

? A → B：變體B在A中插入了一個單尺度Transformer編碼器，該編碼器使用單層Transformer模塊。多尺度特征共享該編碼器進行尺度內特征交互，隨后拼接輸出。
? B → C：變體C在B的基礎上引入跨尺度特征融合，將拼接后的特征輸入多尺度Transformer編碼器，實現尺度內與跨尺度的同步特征交互。
? C → D：變體D將尺度內交互與跨尺度融合解耦：前者采用單尺度Transformer編碼器，后者通過PANet式[21]結構實現。
? D → E：變體E在D的基礎上強化了尺度內交互與跨尺度融合，采用我們設計的高效混合編碼器。

混合設計

基于上述分析，我們重新審視了編碼器結構并提出一種高效混合編碼器，該架構由兩個模塊組成：基于注意力的同尺度特征交互模塊（AIFI）與基于CNN的跨尺度特征融合模塊（CCFF）。具體而言，AIFI在變體D基礎上進一步降低計算成本——僅對S5層級采用單尺度Transformer編碼器進行同尺度交互。其原理在于：對具有更豐富語義概念的高層特征實施自注意力操作，能夠捕捉概念實體間的關聯，從而有利于后續模塊對目標的定位與識別。而低層特征的同尺度交互由于缺乏語義概念，且存在與高層特征交互重復混淆的風險，實無必要。為驗證該觀點，我們在變體D中僅對S5進行同尺度交互，實驗結果如表3所示（參見DS5行）。相較于D、DS5不僅顯著降低了延遲（提速35%），還提高了準確率（AP提升0.4%）。CCFF基于跨尺度融合模塊進行優化，該模塊在融合路徑中插入了若干由卷積層構成的融合塊。融合塊的作用是將相鄰兩個尺度的特征融合為新特征，其結構如圖5所示：包含兩個1×1卷積用于調整通道數，采用N個由RepConv[7]構成的RepBlock進行特征融合，并通過逐元素相加實現雙路徑輸出融合。混合編碼器的計算公式為：
在這里插入圖片描述
圖5. CCFF中的融合模塊

$\begin{aligned}\mathrm{Q}&=\mathcal{K}=\mathcal{V}=\mathrm{Flatten}(\mathcal{S}_5),\\\mathcal{F}_{5}&=\mathrm{Reshape}(\mathrm{AIFI}(\mathcal{Q},\mathcal{K},\mathcal{V})),\\\mathrm{O}&=\mathrm{CCFF}(\{\boldsymbol{S}_3,\boldsymbol{S}_4,\mathcal{F}_5\}),\end{aligned}$

其中Reshape表示將展平后的特征恢復至與S5相同的形狀。

4.3. 不確定性最小化查詢選擇

為降低DETR中目標查詢的優化難度，后續研究[39,41,42]提出了多種查詢選擇方案，其共同點在于利用置信度分數從編碼器中選取前K個特征來初始化目標查詢（或僅初始化位置查詢）。

置信度分數表示該特征包含前景物體的可能性。然而，檢測器需要同時對物體的類別和位置進行建模，這兩者共同決定了特征的質量。因此，特征的表現分數是一個與分類和定位雙重相關的潛在變量。根據分析，當前查詢選擇機制會導致所選特征存在顯著不確定性，從而造成解碼器初始化欠佳，進而影響檢測器的性能。

為解決這一問題，我們提出不確定性最小化查詢選擇方案，該方案顯式構建并優化認知不確定性以建模編碼器特征的聯合潛變量，從而為解碼器提供高質量查詢。具體而言，特征不確定性U定義為式(2)中定位P與分類C預測分布間的差異。為最小化查詢不確定性，我們將該不確定性整合至式(3)基于梯度的優化損失函數中。

$\mathcal{U}(\hat{\mathcal{X}})=\|\mathcal{P}(\hat{\mathcal{X}})-\mathcal{C}(\hat{\mathcal{X}})\|,\hat{\mathcal{X}}\in\mathbb{R}^D$

$\mathcal{L}(\hat{\boldsymbol{X}},\hat{\boldsymbol{Y}},\boldsymbol{Y})=\mathcal{L}_{box}(\hat{\mathbf{b}},\mathbf{b})+\mathcal{L}_{cls}(\mathcal{U}(\hat{\boldsymbol{X}}),\hat{\mathbf{c}},\mathbf{c})$

其中?和Y分別表示預測值和真實值，? = {?, b?}，?和b?分別代表類別和邊界框，X?表示編碼器特征。

有效性分析

為分析不確定性最小化查詢選擇的有效性，我們在COCO val2017數據集上對所選特征的分類得分與交并比得分進行可視化（圖6）。我們繪制了分類得分大于0.5的散點圖，其中紫色與綠色圓點分別代表采用不確定性最小化查詢選擇訓練的模型與基礎查詢模型所選特征。圖中點越靠近右上角，對應特征的質量越高，即預測類別與邊界框越可能描述真實物體。頂部與右側的密度曲線反映了兩種類型點的數量分布。

在這里插入圖片描述

圖6. 所選編碼器特征的分類與IoU得分。紫色與綠色圓點分別代表采用不確定性最小化查詢選擇和標準查詢選擇訓練的模型所選特征。

該散點圖最顯著的特征在于紫色點群集中分布在圖形右上區域，而綠色點群則密集分布于右下區域。這表明不確定性最小化查詢選擇策略能生成更高質量的編碼器特征。我們進一步對兩種查詢選擇方案進行定量分析：紫色點數量比綠色點多出138%（即分類分數≤0.5的低質量特征點中綠色點占比更高）；而在分類分數與定位分數均＞0.5的高質量特征點中，紫色點數量仍比綠色點多出120%。密度曲線同樣佐證了這一結論——圖形右上區域紫綠兩色分布差異最為顯著。定量結果進一步表明，不確定性最小化查詢選擇能為檢測器提供更多兼具準確分類與精確定位的查詢特征，從而提升檢測精度（參見第5.3節）。

4.4. 縮放版RT-DETR

由于實時檢測器通常需提供不同尺度的模型以適應不同場景，RT-DETR同樣支持靈活縮放。具體而言，在混合編碼器中，我們通過調整嵌入維度和通道數量來控制寬度，并通過調整Transformer層數和RepBlocks數量來控制深度。

解碼器的寬度和深度可通過調控目標查詢數量和解碼層數實現靈活控制。此外，RT-DETR的速度支持通過調整解碼層數進行彈性調節。實驗表明，末端移除少量解碼層對精度影響甚微，卻能顯著提升推理速度（參見第5.4節）。我們將配備ResNet50和ResNet101[12,13]的RT-DETR與YOLO檢測器的L、X模型進行對比，通過采用更小規模（如ResNet18/34）或可擴展（如CSPResNet[37]）骨干網絡，并配合縮放編碼器-解碼器結構，可設計出更輕量化的RT-DETR變體。附錄中對比了縮放版RT-DETR與輕量級（S、M型）YOLO檢測器，前者在速度與精度上均超越所有S、M模型。

5.結論

5.1. 與現有最優技術的對比

表2將RT-DETR與當前實時檢測器（YOLO系列）和端到端檢測器（DETR系列）進行對比，其中僅對比YOLO檢測器的L和X模型，S與M模型對比結果見附錄。我們的RT-DETR與YOLO檢測器采用相同的(640, 640)輸入尺寸，其他DETR檢測器使用(800, 1333)輸入尺寸。FPS數據基于T4 GPU搭配TensorRT FP16測得，YOLO檢測器采用官方預訓練模型并依據第3.2節提出的端到端速度基準進行測試。RT-DETR-R50實現53.1% AP與108 FPS，RT-DETR-R101實現54.3% AP與74 FPS，在速度與精度上均優于同規模最先進的YOLO檢測器及同主干的DETR檢測器。具體實驗設置詳見附錄。

與實時檢測器的對比

我們對比了RT-DETR與YOLO檢測器的端到端速度（參見第3.2節）和準確率。將RT-DETR與YOLOv5[10]、PP-YOLOE[37]、YOLOv6v3.0[15]（下文簡稱YOLOv6）、YOLOv7[35]及YOLOv8[11]進行對比。相較于YOLOv5-L/PP-YOLOE-L/YOLOv6-L，RT-DETR-R50的AP準確率提升4.1%/1.7%/0.3%，FPS提高100.0%/14.9%/9.1%，參數量減少8.7%/19.2%/28.8%。相比YOLOv5-X/PP-YOLOE-X，RT-DETR-R101的AP準確率提升3.6%/2.0%，FPS提高72.1%/23.3%，參數量降低11.6%/22.4%。與YOLOv7-L/YOLOv8-L相比，RT-DETR-R50的AP準確率提升1.9%/0.2%，FPS提高96.4%/52.1%。相較于YOLOv7-X/YOLOv8-X，RT-DETR-R101的AP準確率提升1.4%/0.4%，FPS提高64.4%/48.0%。這表明我們的RT-DETR實現了最先進的實時檢測性能。

與端到端檢測器的比較

我們還使用相同的主干網絡將RT-DETR與現有的DETR模型進行了比較。我們根據在COCO val2017數據集上取得對應精度的設置測試DINO-Deformable-DETR[41]的速度以進行對比，即測試采用TensorRT FP16精度且輸入尺寸為(800, 1333)時的速度。表2顯示，RT-DETR在使用相同骨干網絡的所有DETR模型中，速度與精度均占據優勢。相較于DINO-Deformable-DETR-R50，RT-DETR-R50的AP精度提升2.2%，速度提升21倍（108 FPS對比5 FPS），兩項指標均有顯著改進。

5.2. 混合編碼器的消融研究

我們對第4.2節設計的變體指標進行了評估，包括AP（采用1×配置訓練）、參數量及延遲（表3）。與基線A相比，變體B的準確率提升1.9% AP，但延遲增加54%，證明尺度內特征交互雖具有顯著作用，但單尺度Transformer編碼器計算成本較高。變體C較B實現0.7% AP提升，延遲增加20%，表明跨尺度特征融合同樣必要，但多尺度Transformer編碼器需更高計算開銷。變體D較C獲得0.8% AP提升，同時降低8%延遲，說明解耦尺度內交互與跨尺度融合不僅能降低計算成本，還可提升精度。與變體D相比，DS5在降低35%延遲的同時實現0.4% AP提升，證實低層級特征的尺度內交互并非必要。最終變體E較D取得1.5% AP提升，盡管參數量增加20%，但延遲降低24%，使編碼器效率更高。這表明我們的混合編碼器在速度與精度間實現了更優平衡。

5.3. 查詢選擇的消融研究

我們對不確定性最小化查詢選擇進行了消融實驗，結果基于RT-DETR-R50模型的1×配置呈現在表4中。RT-DETR的查詢選擇機制根據分類分數選取前K（K=300）個編碼器特征作為內容查詢，并將所選特征對應的預測框作為初始位置查詢。我們在COCO val2017數據集上對比了兩種查詢選擇方案選取的編碼器特征，并統計了分類得分大于0.5，以及分類得分與交并比（IoU）均大于0.5的樣本比例。結果表明，通過不確定性最小化查詢選擇所篩選的編碼器特征，不僅提升了高分類得分樣本占比（0.82%對比0.35%），還提供了更多高質量特征（0.67%對比0.30%）。我們進一步評估了兩種查詢選擇方案在COCO val2017數據集上訓練的檢測器精度，其中不確定性最小化查詢選擇實現了0.8%平均精度（AP）的提升（48.7% AP對比47.9% AP）。

在這里插入圖片描述

表4. 不確定性最小化查詢選擇的消融研究結果。 $Prop_{cls}$ 和 $Prop_{both}$ 分別表示分類分數及雙分數大于0.5的比例。

5.4. 解碼器消融研究

表5展示了不同解碼器層數訓練的RT-DETR-R50各層推理延遲與精度。當解碼器層數設為6時，RT-DETR-R50達到最佳精度53.1% AP。進一步觀察發現，隨著解碼器層索引增加，相鄰層間精度差異逐漸減小。以RTDETR-R50-Det6列為例，使用第5層解碼器推理僅損失0.1% AP精度（53.1% AP vs 53.0% AP），同時降低0.5 ms延遲（9.3 ms vs 8.8 ms）。因此RT-DETR可通過調整解碼器層數實現無需重新訓練的靈活速度調節，從而提升其實用性。

在這里插入圖片描述

表5. 解碼器消融實驗結果。ID表示解碼器層索引，Detk代表具有k層解碼器的檢測器。所有結果均在RT-DETR-R50模型6×配置下測得。

6. 局限性與討論

局限性。盡管提出的RT-DETR在速度和精度上均優于同類規模的先進實時檢測器和端到端檢測器，但它與其他DETR系列模型存在相同局限——在小物體檢測性能上仍遜色于強勁的實時檢測器。如表2所示，RT-DETR-R50在 $AP^{val}_S$ 指標上比L類模型（YOLOv8-L）的最高值低0.5%，RT-DETR-R101則比X類模型（YOLOv7-X）的最高值低0.9%。我們期待該問題能在未來工作中得到解決。

討論。現有的大型DETR模型[3,6,30,38,41,43]在COCO test-dev[19]基準測試中展現出卓越性能。我們提出的多尺度RT-DETR保持了與其他DETR模型同構的解碼器設計，這使得能夠通過高精度預訓練大型DETR模型來蒸餾我們的輕量級檢測器。我們認為這是RT-DETR相較于其他實時檢測器的優勢之一，也可能成為未來探索的有趣方向。

7. 結論

在本研究中，我們提出了一種名為RT-DETR的實時端到端檢測器，成功將DETR框架擴展至實時檢測場景并實現了最先進的性能。RT-DETR包含兩項關鍵改進：高效混合編碼器可快速處理多尺度特征，以及不確定性最小化查詢選擇機制可提升初始目標查詢質量。此外，RT-DETR支持無需重新訓練的靈活速度調節，并消除了雙NMS閾值帶來的不便，有利于實際應用。RT-DETR及其模型縮放策略拓寬了實時目標檢測的技術路徑，為多樣化實時場景提供了超越YOLO的新可能性。我們希望RT-DETR能夠投入實際應用。

8.引用文獻

[1] Alexey Bochkovskiy, Chien-Yao Wang, and Hong-Yuan Mark Liao. Yolov4: Optimal speed and accuracy of object detection. arXiv preprint arXiv:2004.10934, 2020. 1, 2
[2] Daniel Bogdoll, Maximilian Nitsche, and J Marius Z ?ollner. Anomaly detection in autonomous driving: A survey. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 4488–4499, 2022. 1
[3] Yuxuan Cai, Yizhuang Zhou, Qi Han, Jianjian Sun, Xiangwen Kong, Jun Li, and Xiangyu Zhang. Reversible column networks. In International Conference on Learning Representations, 2022. 8
[4] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-toend object detection with transformers. In European Conference on Computer Vision, pages 213–229. Springer, 2020. 1, 2, 7
[5] Qiang Chen, Xiaokang Chen, Gang Zeng, and Jingdong Wang. Group detr: Fast training convergence with decoupled oneto-many label assignment. arXiv preprint arXiv:2207.13085, 2022. 2
[6] Qiang Chen, Jian Wang, Chuchu Han, Shan Zhang, Zexian Li, Xiaokang Chen, Jiahui Chen, Xiaodi Wang, Shuming Han, Gang Zhang, et al. Group detr v2: Strong object detector with encoder-decoder pretraining. arXiv preprint arXiv:2211.03594, 2022. 8
[7] Xiaohan Ding, Xiangyu Zhang, Ningning Ma, Jungong Han, Guiguang Ding, and Jian Sun. Repvgg: Making vgg-style convnets great again. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 13733–13742, 2021. 5
[8] Peng Gao, Minghang Zheng, Xiaogang Wang, Jifeng Dai, and Hongsheng Li. Fast convergence of detr with spatially modulated co-attention. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 36213630, 2021. 7
[9] Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, and Jian Sun. Yolox: Exceeding yolo series in 2021. arXiv preprint arXiv:2107.08430, 2021. 1, 2
[10] Jocher Glenn. Yolov5 release v7.0. https://github. com/ultralytics/yolov5/tree/v7.0, 2022. 2, 3, 6, 7
[11] Jocher Glenn. Yolov8. https : / / github . com / ultralytics/ultralytics/tree/main, 2023. 1, 2, 3, 6, 7
[12] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 770–778, 2016. 6
[13] Tong He, Zhi Zhang, Hang Zhang, Zhongyue Zhang, Junyuan Xie, and Mu Li. Bag of tricks for image classification with convolutional neural networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 558–567, 2019. 6
[14] Xin Huang, Xinxin Wang, Wenyu Lv, Xiaying Bai, Xiang Long, Kaipeng Deng, Qingqing Dang, Shumin Han, Qiwen Liu, Xiaoguang Hu, et al. Pp-yolov2: A practical object detector. arXiv preprint arXiv:2104.10419, 2021. 1, 2
[15] Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, and Xiangxiang Chu. Yolov6 v3.0: A full-scale reloading. arXiv preprint arXiv:2301.05586, 2023. 1, 2, 3, 6, 7
[16] Feng Li, Hao Zhang, Shilong Liu, Jian Guo, Lionel M Ni, and Lei Zhang. Dn-detr: Accelerate detr training by introducing query denoising. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1361913627, 2022. 1, 2, 7
[17] Feng Li, Ailing Zeng, Shilong Liu, Hao Zhang, Hongyang Li, Lei Zhang, and Lionel M Ni. Lite detr: An interleaved multi-scale encoder for efficient detr. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 18558–18567, 2023. 2
[18] Junyu Lin, Xiaofeng Mao, Yuefeng Chen, Lei Xu, Yuan He, and Hui Xue. D? 2etr: Decoder-only detr with computationally efficient cross-scale attention. arXiv preprint arXiv:2203.00860, 2022. 4
[19] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dolla ?r, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In European Conference on Computer Vision, pages 740–755. Springer, 2014. 3, 8
[20] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dolla ?r. Focal loss for dense object detection. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 2980–2988, 2017. 2
[21] Shu Liu, Lu Qi, Haifang Qin, Jianping Shi, and Jiaya Jia. Path aggregation network for instance segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8759–8768, 2018. 4
[22] Shilong Liu, Feng Li, Hao Zhang, Xiao Yang, Xianbiao Qi, Hang Su, Jun Zhu, and Lei Zhang. Dab-detr: Dynamic anchor boxes are better queries for detr. In International Conference on Learning Representations, 2021. 1, 2, 7
[23] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander C Berg. Ssd: Single shot multibox detector. In European Conference on Computer Vision, pages 21–37. Springer, 2016. 2
[24] Xiang Long, Kaipeng Deng, Guanzhong Wang, Yang Zhang, Qingqing Dang, Yuan Gao, Hui Shen, Jianguo Ren, Shumin Han, Errui Ding, et al. Pp-yolo: An effective and efficient implementation of object detector. arXiv preprint arXiv:2007.12099, 2020. 1, 2
[25] Depu Meng, Xiaokang Chen, Zejia Fan, Gang Zeng, Houqiang Li, Yuhui Yuan, Lei Sun, and Jingdong Wang. Conditional detr for fast training convergence. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 3651–3660, 2021. 1, 3, 7
[26] Rashmika Nawaratne, Damminda Alahakoon, Daswin De Silva, and Xinghuo Yu. Spatiotemporal anomaly detection using deep learning for real-time video surveillance. IEEE Transactions on Industrial Informatics, 16(1):393–402, 2019. 1
[27] Joseph Redmon and Ali Farhadi. Yolo9000: better, faster, stronger. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 7263–7271, 2017. 2
[28] Joseph Redmon and Ali Farhadi. Yolov3: An incremental improvement. arXiv preprint arXiv:1804.02767, 2018. 1, 2
[29] Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi. You only look once: Unified, real-time object detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 779–788, 2016. 2
[30] Tianhe Ren, Jianwei Yang, Shilong Liu, Ailing Zeng, Feng Li, Hao Zhang, Hongyang Li, Zhaoyang Zeng, and Lei Zhang. A strong and reproducible object detector with only public datasets. arXiv preprint arXiv:2304.13027, 2023. 8
[31] Byungseok Roh, JaeWoong Shin, Wuhyun Shin, and Saehoon Kim. Sparse detr: Efficient end-to-end object detection with learnable sparsity. In International Conference on Learning Representations, 2021. 2
[32] Shuai Shao, Zeming Li, Tianyuan Zhang, Chao Peng, Gang Yu, Xiangyu Zhang, Jing Li, and Jian Sun. Objects365: A large-scale, high-quality dataset for object detection. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 8430–8439, 2019. 2
[33] Peize Sun, Rufeng Zhang, Yi Jiang, Tao Kong, Chenfeng Xu, Wei Zhan, Masayoshi Tomizuka, Lei Li, Zehuan Yuan, Changhu Wang, et al. Sparse r-cnn: End-to-end object detection with learnable proposals. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 14454–14463, 2021. 1
[34] Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao. Scaled-yolov4: Scaling cross stage partial network. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 13029–13038, 2021. 2
[35] Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao. Yolov7: Trainable bag-of-freebies sets new state-ofthe-art for real-time object detectors. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 7464–7475, 2023. 1, 2, 3, 6, 7
[36] Yingming Wang, Xiangyu Zhang, Tong Yang, and Jian Sun. Anchor detr: Query design for transformer-based detector. In Proceedings of the AAAI Conference on Artificial Intelligence, pages 2567–2575, 2022. 1, 3, 7
[37] Shangliang Xu, Xinxin Wang, Wenyu Lv, Qinyao Chang, Cheng Cui, Kaipeng Deng, Guanzhong Wang, Qingqing Dang, Shengyu Wei, Yuning Du, et al. Pp-yoloe: An evolved version of yolo. arXiv preprint arXiv:2203.16250, 2022. 1, 2, 3, 6, 7
[38] Jianwei Yang, Chunyuan Li, Xiyang Dai, and Jianfeng Gao. Focal modulation networks. Advances in Neural Information Processing Systems, 35:4203–4217, 2022. 8
[39] Zhuyu Yao, Jiangbo Ai, Boxun Li, and Chi Zhang. Efficient detr: improving end-to-end object detector with dense prior. arXiv preprint arXiv:2104.01318, 2021. 2, 5, 7
[40] Fangao Zeng, Bin Dong, Yuang Zhang, Tiancai Wang, Xiangyu Zhang, and Yichen Wei. Motr: End-to-end multipleobject tracking with transformer. In European Conference on Computer Vision, pages 659–675. Springer, 2022. 1
[41] Hao Zhang, Feng Li, Shilong Liu, Lei Zhang, Hang Su, Jun Zhu, Lionel Ni, and Heung-Yeung Shum. Dino: Detr with improved denoising anchor boxes for end-to-end object detection. In International Conference on Learning Representations, 2022. 1, 2, 3, 5, 7, 8
[42] Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, and Jifeng Dai. Deformable detr: Deformable transformers for end-to-end object detection. In International Conference on Learning Representations, 2020. 1, 2, 3, 4, 5, 7
[43] Zhuofan Zong, Guanglu Song, and Yu Liu. Detrs with collaborative hybrid assignments training. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 6748–6758, 2023. 8