在YOLO-World中集成DeformConv、CBAM和Cross-Modal Attention模塊的技術報告
1. 引言
1.1 項目背景
目標檢測是計算機視覺領域的核心任務之一,而YOLO(You Only Look Once)系列算法因其出色的速度和精度平衡而廣受歡迎。YOLO-World是YOLO系列的最新發展,專注于開放詞匯目標檢測,能夠檢測訓練集中未出現的類別。為了進一步提升YOLO-World的性能,本報告將探討如何在其架構中集成三種先進的模塊:可變形卷積(Deformable Convolution, DeformConv)、卷積塊注意力模塊(Convolutional Block Attention Module, CBAM)和跨模態注意力(Cross-Modal Attention)。
1.2 模塊概述
Deformable Convolution (DeformConv): 傳統卷積操作在固定網格位置進行采樣,而DeformConv通過學習偏移量使采樣位置能夠自適應于目標形狀,從而更好地處理幾何形變。
Convolutional Block Attention Module (CBAM): CBAM是一種輕量級的注意力模塊,依次應用通道注意力和空間