論文地址:https://arxiv.org/pdf/2010.04159
代碼地址:https://github.com/fundamentalvision/Deformable-DETR
摘要
DETR最近被提出,旨在消除物體檢測中許多手工設計的組件的需求,同時展示出良好的性能。然而,由于Transformer注意力模塊在處理圖像特征圖方面的限制,它存在收斂速度慢和特征空間分辨率有限的問題。為了緩解這些問題,本研究提出了Deformable DETR,其注意力模塊僅關注參考點周圍的一小部分關鍵采樣點。Deformable DETR能夠以比DETR少10倍的訓練周期實現更好的性能(尤其是在小物體上)。在COCO基準上的大量實驗證明了本研究方法的有效性。
引言
現代目標檢測器通常依賴于手工設計的組件,如anchor生成、基于規則的訓練目標分配和非極大值抑制(NMS)后處理,這使得它們并非完全端到端。為了解決這個問題,DETR被提出,它通過結合卷積神經網絡(CNN)和Transformer編碼器-解碼器,構建了第一個完全端到端的目標檢測器,并在性能上具有競爭力。DETR利用Transformer強大的關系建模能力來替代手工設計的規則,并在精心設計的訓練信號下工作。
盡管DETR的設計和性能引人關注,但它也存在一些問題。首先,DETR需要比現有目標檢測器更長的訓練周期才能收斂。例如,在COCO基準測試中,DETR需要500個epoch才能收斂,這比Faster R-CNN慢10到20倍。其次,DETR在檢測小目標時的性能相對較低。現代目標檢測器通常利用多尺度特征,在高分辨率特征圖上檢測小目標。然而,高分辨率特征圖會導致DETR無法接受的復雜度。這些問題主要歸因于Transformer組件在處理圖像特征圖方面的不足。在初始化時,注意力模塊幾乎對特征圖中的所有像素賦予均勻的注意力權重,因此需要長時間的訓練才能使注意力權重學習到聚焦于稀疏且有意義的位置。此外,Transformer編碼器中注意力權重的計算相對于像素數量是二次方的,因此處理高分辨率特征圖的計算和內存復雜度非常高。
為了解決上述問題,本研究提出了Deformable DETR。該方法結合了可變形卷積的稀疏空間采樣和Transformer的關系建模能力。本研究提出了可變形注意力模塊,該模塊只關注參考點周圍的一小部分關鍵采樣點,作為從所有特征圖像素中篩選出顯著關鍵元素的一種預處理方式。該模塊可以自然地擴展到聚合多尺度特征,而無需FPN的幫助。在Deformable DETR中,本研究利用多尺度可變形注意力模塊來替代Transformer注意力模塊,以處理特征圖。
Deformable DETR的快速收斂以及計算和內存效率為本研究探索各種端到端目標檢測器變體提供了可能。本研究探索了一種簡單有效的迭代邊界框細化機制,以提高檢測性能。此外,本研究還嘗試了一種兩階段Deformable DETR,其中區域提議也由Deformable DETR的變體生成,并進一步饋送到解碼器以進行迭代邊界框細化。
論文創新點
本研究提出了一種名為Deformable DETR的新型端到端目標檢測器,旨在解決DETR在收斂速度慢和特征空間分辨率受限方面的問題。DETR在目標檢測領域取得了顯著進展,但其Transformer注意力模塊在處理圖像特征圖時存在局限性,導致訓練緩慢且對小目標檢測性能不佳。為了克服這些限制,本研究做出了以下創新:
-
💡 可變形注意力模塊(Deformable Attention Module): 💡
- 本研究設計了一種新的注意力機制,即Deformable Attention Module。
- 與傳統Transformer的注意力機制不同,該模塊僅關注參考點周圍的一小部分關鍵采樣點,從而顯著減少了計算量和內存需求。
- 這種稀疏空間采樣的方式借鑒了可變形卷積的思想,使得模型能夠更有效地處理圖像特征圖,加速收斂過程,并提升對小目標的檢測能力。
-
🔍 多尺度可變形注意力模塊(Multi-scale Deformable Attention Module): 🔍
- 為了更好地適應不同尺度上的目標檢測,本研究將Deformable Attention Module擴展到多尺度特征圖。
- 該模塊能夠自然地聚合來自不同尺度特征圖的信息,無需借助傳統的特征金字塔網絡(FPN)。
- 通過在多個尺度上進行可變形采樣,模型能夠更全面地捕捉目標的上下文信息,進一步提升檢測性能。
-
?? 可變形Transformer編碼器(Deformable Transformer Encoder): ??
- 本研究將DETR中的Transformer注意力模塊替換為本研究提出的多尺度可變形注意力模塊。
- 編碼器的輸入和輸出均為多尺度特征圖,且分辨率相同。
- 這種設計使得編碼器能夠有效地處理多尺度特征,并提取出更具代表性的特征表示。
-
📈 迭代邊界框優化(Iterative Bounding Box Refinement): 📈
- 本研究探索了一種簡單有效的迭代邊界框優化機制,以進一步提高檢測性能。
- 通過在解碼器的每一層逐步優化邊界框的預測結果,模型能夠更準確地定位目標,并獲得更精確的檢測結果。
-
🚀 雙階段Deformable DETR(Two-Stage Deformable DETR): 🚀
- 為了進一步提升性能,本研究嘗試了一種雙階段的Deformable DETR。
- 第一階段生成區域提議,第二階段利用解碼器對提議進行迭代優化。
- 這種雙階段方法借鑒了傳統目標檢測器的思想,并將其與Deformable DETR相結合,從而進一步提高了檢測精度。
論文實驗