[2025CVPR-目標檢測方向] CorrBEV：多視圖3D物體檢測

1. ?研究背景與動機?

論文關注自動駕駛中相機僅有的多視圖3D物體檢測（camera-only multi-view 3D object detection）問題。盡管基于鳥瞰圖（BEV）的建模近年來取得顯著進展（如BEVFormer和SparseBEV等基準模型），但當前研究主要優化整體平均性能（如nuScenes數據集中的NDS和mAP指標），卻忽視了關鍵角落案例（corner cases）。其中，遮擋（occlusion）是一個關鍵挑戰：部分被遮擋的物體（如行人）在檢測中特征質量下降，導致漏檢或誤檢，這對自動駕駛安全構成嚴重威脅（例如，未能檢測到部分被遮擋的行人可能導致事故）。

論文的靈感源自人類感知系統（amodal perception）。人類能基于先驗知識（如物體類別和形狀）重構被遮擋物體的完整語義概念。類似地，論文提出通過引入視覺和語言原型作為先驗知識，來補償遮擋導致的特征損失。視覺原型基于2D圖像模板（裁剪自訓練數據），語言原型則來自類別名稱（如"pedestrian"）的語義嵌入。這些原型通過相關學習（correlation learning）與基準模型融合，提升特征質量。

Figure 1直觀展示了這一動機：(a)部分說明在真實駕駛場景中，注入視覺和語言原型可以補全被遮擋物體的特征；(b)對比基準模型（如SparseBEV）與CorrBEV在檢測被遮擋物體上的差異，強調原型知識的增強作用。值得注意的是，該方法雖然針對遮擋設計，但實驗表明它也提升了其他挑戰場景（如惡劣天氣）的魯棒性。

2. ?方法細節：CorrBEV框架?

CorrBEV是一個即插即用（plug-and-play）框架，可無縫集成到現有多視圖3D檢測基準模型中（如BEVFormer和SparseBEV）。它包含三個核心組件，均通過高效的相關學習實現知識融合。

?Multi-modal Prototype Generator（多模態原型生成器）??：
該組件生成視覺和語言原型作為先驗知識。視覺原型基于訓練數據中的2D標注框裁剪圖像，使用預訓練模型DeViT提取特征嵌入（Pv?∈RK×N×D），并按可見性級別（visibility level）和類別聚類，形成遮擋感知的原型（Pvo?∈R(N×M)×D，N=10類別，M=4可見性級別）。語言原型則通過預訓練BERT模型將類別名稱（如"pedestrian"）轉化為嵌入（Pl?∈RN×D）。文本編碼器在訓練中微調，而視覺原型離線生成以減少計算開銷。最終，原型通過廣播（broadcasting）拼接為統一的多模態原型P∈R(N×M)×D。
?Correlation-guided Query Learner（相關引導查詢學習器）??：
該組件將多模態原型與基準模型的特征融合，采用Siamese對象跟蹤中的深度相關（depth-wise correlation）操作，確保高效性。具體包括：
- ?深度相關操作?：將原型P與主干特征Fb?通過1×1卷積融合，生成相關特征Fcorr?（公式：Fcorr?=Conv1×1?(P,Fb?)）。該操作增強目標相關特征并抑制背景噪聲。
- ?目標感知查詢初始化?：基于相關特征預測置信度圖Hvis?，從中提取top-k位置嵌入作為目標感知查詢Qt?，與基準的可學習查詢Qlearn?通過交叉注意力融合（公式：Q=CrossAttn(Qlearn?,Qt?,Qt?)）。
- ?雙路徑混合采樣?：3D查詢通過投影點采樣特征，同時從主干特征Fb?和相關特征Fcorr?中采樣，減輕遮擋模糊性。
  整體架構如圖Figure 2所示，強調原型注入提升遮擋物體的檢測質量。

?Occlusion-aware Trainer（遮擋感知訓練器）??：
針對訓練不平衡（不同可見性級別的物體數量不均等），該組件優化訓練流程：
- ?偽遮擋處理器（Pseudo-occlusion Processor, P2）??：在非遮擋物體（高可見性）的2D框內隨機丟棄像素（替換為區域均值），模擬遮擋以平衡數據分布。
- ?對比語義對齊（Contrastive Semantic Alignment）??：使用對比損失（contrastive loss）對齊視覺特征與語言原型，將同一類別的不同遮擋級別特征拉近到統一語義空間，增強分類準確性。
  該訓練器引入零推理開銷，僅輕微增加訓練成本。

Figure 3展示了nuScenes數據集中不同可見性級別的分布，突出了遮擋級別（如Vis1: 0-40%可見性）的樣本稀缺性，解釋P2設計的必要性。?

3. ?實驗設計與結果?

論文在nuScenes數據集上進行實驗，驗證CorrBEV的有效性和泛化性。數據集包含1000個駕駛場景，標注了10個類別的140萬3D框，并劃分可見性級別（Vis1-Vis4，從低到高）。評估指標包括平均精度（mAP）、nuScenes檢測得分（NDS），以及各可見性級別的召回率（Recall）。

?實驗設置?：
- ?基準模型?：應用CorrBEV到BEVFormer（dense-query）和SparseBEV（sparse-query），分別稱為CorrBEVfm?和CorrBEVsp?。
- ?訓練細節?：使用8×NVIDIA RTX 3090 GPU，遵循基準模型設置（如ResNet-101骨干網絡）。
- ?評估協議?：除整體性能外，還使用RoboBEV協議評估不同角落案例（如遮擋、雪天、低光照）。
?整體性能結果?：
- CorrBEV顯著提升基準模型。在nuScenes驗證集上，BEVFormer提升2.6% mAP和2.6% NDS，SparseBEV提升2.7% mAP和1.6% NDS（見表1和表2）。測試集上也有類似提升（如BEVFormer提升3.6% mAP）。
- 推理效率高：相比SparseBEV（21.7 FPS），CorrBEV僅降至18.4 FPS，訓練開銷增加7.48%（21.41 vs. 19.92 GPU-days）。
?遮擋性能結果?：
- CorrBEV在低可見性物體（Vis1和Vis2）上提升最顯著。例如，SparseBEV在Vis1的召回率從60.4%提升至69.1%（見表1），證明原型有效補全遮擋特征。
- 有趣的是，dense-query模型（如BEVFormer）在高可見性物體上提升較小（Vis4召回率72.4% vs. 72.3%），而sparse-query模型（如SparseBEV）提升顯著（80.0% to 87.4%），說明原型對稀疏采樣更有效。

Figure 4以SOLOFusion為參考，展示了CorrBEV在召回率上的相對改進，凸顯其在遮擋條件下的優勢。

?其他角落案例結果?：
盡管針對遮擋設計，CorrBEV提升了其他挑戰場景的魯棒性（RoboBEV協議）。如圖Figure 5所示，在雪天（Snow）和顏色量化（ColorQuant）等場景下，BEVFormer基準模型有明顯提升（例如雪天場景提升顯著），證明方法能應對多種特征退化問題。

組件消融分析?：
- 多模態原型：語言原型單獨提升1.1% mAP（vs. 基線），視覺原型進一步增加0.6% mAP，證明互補性。
- 訓練策略：對比損失（CL）和P2各貢獻約0.5% mAP提升（見表3）。
- 原型微調：凍結語言或視覺原型會降低性能，尤其視覺原型凍結導致mAP下降1.2%（見表4），強調微調的必要性。
?定性結果?：
Figure 6可視化對比：在典型遮擋場景中，CorrBEV成功檢測基準模型漏檢的物體。例如，前攝像頭中，交通燈柱遮擋的行人（青色圈）被檢測出；前左和后右攝像頭中，擁擠行人和障礙物（黃色圈）檢測更準確，提升駕駛安全。

嵌入可視化?：
Figure 7展示t-SNE降維后的特征分布。對比損失對齊了“行人、自行車、摩托車”類別的嵌入，減少混淆（左為基線，右為CorrBEV），有利于下游跟蹤和預測任務。?

4. ?主要貢獻與結論?

論文的貢獻總結為四點：

?即插即用框架?：引入視覺和語言原型作為先驗知識，提升檢測魯棒性，尤其針對部分被遮擋物體。
?創新相關學習?：首次將相關學習用于多模態原型與3D檢測模型的融合，高效提升特征質量。
?優化訓練流程?：提出隨機像素丟棄（P2）和多模態對比對齊（CL），改善遮擋物體檢測能力。
?廣泛驗證?：在多個基準模型（BEVFormer、SparseBEV）上實現一致提升，并在nuScenes和RoboBEV協議中證實有效性。

結論強調，CorrBEV填補了多視圖3D檢測中遮擋處理的空白，其設計源于真實需求。實驗證明，該方法不僅提升遮擋性能，還增強整體魯棒性。論文呼吁社區更多關注BEV感知中的遮擋問題，以推動自動駕駛安全。未來工作可探索原型學習在其他感知任務的應用。

論文地址：?https://openaccess.thecvf.com/content/CVPR2025/papers/Xue_CorrBEV_Multi-View_3D_Object_Detection_by_Correlation_Learning_with_Multi-modal_CVPR_2025_paper.pdf

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/90420.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/90420.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/90420.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！