1.前言
本章主要來介紹下RT-DETR的網絡結構,參考的依舊是ultralytics實現的RT-DETR-L,代碼如下:
ultralytics/ultralytics: Ultralytics YOLO ??
首先談談我對RT-DETR的淺顯認識,他不像是YOLOv8這種純CNN實現的網絡,也不像是Vit這種以Transformer實現的網絡,他是前一部分使用的是CNN構建Encoder,后一部分使用Transformer來構建Decoder,這樣做的好處就是兼備了CNN的速度,以及Transformer對信息的上下文關聯能力,做到了Real-Time的一種DetectionTransformer.
下圖是論文的插圖1,從下圖可以看到,以Resnet50為主干網絡的RT-DETR的推理速度是可以對標YOLOv8S的,那可見這個DETR是很RT了。
2.網絡結構
接下來看下整體的網絡結構,我依舊將RT-DETR網絡分成Backbone,Neck和Head三大模塊,這三部分可以理解為RT-DETR的Enco