?
目錄
引言
研究背景
方法介紹
核心思想
語義熵(Semantic Entropy)
語義熵引導的注意力機制
領域感知注意力模塊
實驗設計
數據集
實現細節
結果與分析
對比實驗結果
消融實驗
代碼實現
結論
引言
領域自適應目標檢測(Domain Adaptive Object Detection, DAOD)旨在將源域上訓練的目標檢測器遷移到未標注的目標域。傳統方法主要通過對齊視覺特征來提取領域不變知識,而近期基于視覺語言模型(VLM)的方法則利用文本編碼器提供的語義信息來補充領域特定特征。然而,現有方法忽略了語義信息在指導視覺特征學習中的作用,導致冗余信息和領域特定特征的丟失。本文提出的SEEN-DA模型通過語義熵引導的領域感知注意力機制,有效解決了這些問題。
研究背景
-
?領域自適應目標檢測的挑戰?:
- 領域之間的顯著差異導致檢測性能下降。
- 傳統方法主要關注視覺特征的對齊,忽視了語義信息的指導作用。
-
?現有方法的局限性?:
- 傳統方法使用語義無關的類別標簽(如one-hot編碼),忽略了類別名稱中的語義信息。
- 基于VLM的方法凍結視覺編碼器,僅利用語義信息在檢測頭中進行調整,限制了視覺特征的判別能力。
方法介紹
核心思想
本文提出了一種基于語義熵引導的領域感知注意力機制(SEEN-DA),通過以下兩個分支來優化視覺特征:
- ?跨領域注意力分支?:提取領域不變特征,消除冗余信息。
- ?領域內注意力分支?:補充領域特定的語義信息。
語義熵(Semantic Entropy)
語義熵用于量化視覺特征中與特定領域相關的語義信息量。其計算公式如下:
SE(T,f)=?c∑?p(tc?,f)log(p(tc?,f))
其中,p(tc?,f)?表示視覺特征?f?屬于類別?c?的概率,T?是文本嵌入向量。
語義熵引導的注意力機制
通過語義熵作為注意力權重,調整視覺特征的權重:
SEAttention(T,f)=c∑?p(tc?,f)log(p(tc?,f))+logK
其中,K?是類別數量。
領域感知注意力模塊
該模塊包含兩個并行分支:
-
?跨領域注意力分支?:
- 使用共享的卷積模塊捕獲任務相關知識。
- 通過語義熵引導的注意力機制,抑制冗余信息。
-
?領域內注意力分支?:
- 使用獨立的卷積模塊和文本嵌入,補充領域特定的語義信息。
Figure 2.(a) Overview of the proposed SEEN-DA for DAOD, where the semantic entropy is utilized as attention in domain-aware attention module.(b) The architecture of domain-aware attention module, consisting of an inter-domain and an intra-domain attention branch.
實驗設計
數據集
-
?跨天氣適應(Cityscapes→Foggy Cityscapes)??:
- 源域:Cityscapes(晴天)
- 目標域:Foggy Cityscapes(霧天)
-
?跨視場適應(KITTI→Cityscapes)??:
- 源域:KITTI(鄉村和高速公路場景)
- 目標域:Cityscapes(城市道路場景)
-
?模擬到真實適應(SIM10K→Cityscapes)??:
- 源域:SIM10K(虛擬場景)
- 目標域:Cityscapes(真實場景)
-
?跨風格適應(Pascal VOC→Clipart)??:
- 源域:Pascal VOC(真實圖像)
- 目標域:Clipart(卡通圖像)
實現細節
- ?骨干網絡?:RegionCLIP(ResNet-50)
- ?檢測器?:Faster-RCNN
- ?優化器?:SGD
- ?學習率?:使用warm-up策略
- ?評估指標?:平均精度(mAP)
結果與分析
對比實驗結果
-
?跨天氣適應(Cityscapes→Foggy Cityscapes)??:
- SEEN-DA的mAP達到57.5%,超過現有最佳方法DA-Pro 1.6%。
-
?跨視場適應(KITTI→Cityscapes)??:
- SEEN-DA的mAP為67.1%,提升了5.7%。
-
?模擬到真實適應(SIM10K→Cityscapes)??:
- SEEN-DA的mAP為66.8%,優于現有最佳方法SOCCER 3.0%。
-
?跨風格適應(Pascal VOC→Clipart)??:
- SEEN-DA的mAP為47.9%,在六個類別上表現優異。
Figure 3. Detection comparison on the Cross-Weather adaptation scenario. We visualize(a) the ground truth, the detection boxes of(b)SOTA DA-Pro[23] and(c) our methods SEEN-DA.
消融實驗
-
?領域感知注意力模塊的有效性?:
- 跨領域注意力分支提升2.3% mAP。
- 領域內注意力分支進一步提升1.7% mAP。
-
?投影層的影響?:
- 將視覺嵌入投影到文本空間(V2T)效果最佳,mAP達到57.5%。
Figure 4. Ablation(%) on the number of attention modules on Cross-Weather adaptation.
代碼實現
由于論文未提供具體代碼,以下是基于PyTorch的偽代碼框架:
class DomainAwareAttention(nn.Module):def __init__(self, backbone, text_encoder):super().__init__()self.backbone = backboneself.text_encoder = text_encoderself.inter_attention = InterDomainAttention()self.intra_attention = IntraDomainAttention()def forward(self, source_img, target_img):# 提取視覺特征source_feat = self.backbone(source_img)target_feat = self.backbone(target_img)# 跨領域注意力inter_attention = self.inter_attention(source_feat, target_feat)# 領域內注意力intra_attention = self.intra_attention(source_feat, target_feat)return inter_attention, intra_attention
結論
本文提出的SEEN-DA模型通過語義熵引導的領域感知注意力機制,有效解決了領域自適應目標檢測中的語義信息利用問題。實驗結果表明,該方法在多個基準數據集上顯著提升了檢測性能,具有廣泛的應用前景。
論文地址:https://openaccess.thecvf.com/content/CVPR2025/papers/Li_SEEN-DA_SEmantic_ENtropy_guided_Domain-aware_Attention_for_Domain_Adaptive_Object_CVPR_2025_paper.pdf