車輛檢測新突破：VFM-Det 如何用大模型提升識別精度

?編輯

一、摘要

二、引言

三、相關工作

四、Coovally AI模型訓練與應用平臺

五、方法

概述

綜述：基于區域建議的檢測

基于VehicleMAE的感知器

六、實驗分析

數據集與評估指標

實現細節

屬性預測模塊預訓練

與SOTA檢測器的對比實驗

消融實驗

VehicleMAE編碼器的影響

VAtt2Vec模塊的影響

可學習標記數量的影響

不同屬性編碼器的比較

不同特征融合策略的比較

屬性向量不同使用方法的比較

不同對比學習損失函數的比較

不同微調方法的比較

可視化

局限性分析

結論

一、摘要

圖片2.png

現有的車輛檢測器通常是基于預先訓練好的骨干網（如ResNet、ViT），通過在車輛圖像上訓練典型的檢測器（如YOLO、RCNN、DETR系列）獲得的。一些研究人員還利用預訓練的大型基礎模型來提高檢測性能。不過，我們認為這些檢測器可能只能獲得次優結果，因為它們使用的大型模型并不是專門為車輛設計的。此外，它們的結果嚴重依賴視覺特征，很少考慮車輛語義信息與視覺表征之間的一致性。在這項工作中，我們提出了一種基于預訓練基礎車輛模型（VehicleMAE）和大型語言模型（T5）的全新車輛檢測范式，稱為VFM-Det。它遵循基于區域提案的檢測框架，每個提案的特征都可以通過VehicleMAE得到增強。更重要的是，我們提出了一個新的VAtt2Vec模塊，可預測這些建議的車輛語義屬性，并將其轉換為特征向量，通過對比學習增強視覺特征。在三個車輛檢測基準數據集上進行的廣泛實驗充分證明了我們的車輛檢測器的有效性。具體來說，在城市景觀數據集上，我們的模型在?AP0.5、AP0.75指標上分別比基線方法提高了+5.1%、+6.2%。

圖片1.png

論文鏈接：

https://arxiv.org/pdf/2408.13031

項目地址：

https://github.com/Event-AHU/VFM-Det

二、引言

車輛檢測是細粒度車輛分析的前提，在智能視頻監控中發揮著重要作用。目前，有許多物體檢測器可用于車輛檢測，如?YOLO?系列、R-CNN?系列、DETR?系列以及其他檢測器。雖然這些模型已經取得了不錯的性能，但在具有挑戰性的場景中的檢測性能仍不盡如人意。許多研究人員采用多模態數據來解決這些問題，然而多模態設備的普及率仍然很低，這限制了他們的方法的使用范圍。

最近，預訓練和微調技術在人工智能（AI）領域非常流行。研究人員通常先以自監督或無監督的方式預訓練一個大型骨干網絡（例如，BERT、GPT 系列、ViT、CLIP），然后使用參數高效微調（PEFT）策略（例如，提示微調、適配器、側微調]等）使其適應各種下游任務。受這些工作的啟發，一些研究人員嘗試調整這些預先訓練好的大模型來進行物體檢測。具體來說，Li 等人利用普通和非層次視覺Transformer-based為物體檢測任務開發了一個骨干網絡。Lin 等人使用預先訓練好的大型視覺模型解決了多領域通用檢測問題。Fang 等人使用預先訓練好的 vanilla ViT 網絡進行物體檢測和實例分割。即使與Swin-Transformer、MViTv2?和?ConvNeXt?等強分層架構相比，他們也能取得更好的結果。

雖然可以獲得更好的檢測性能，但這些模型仍可能受到以下問題的限制： 1). 通用大型模型與大型車輛模型：目前基于預訓練大視覺模型的物體檢測器是為通用或一般物體檢測而提出的，它們通常采用通用的預訓練大型骨干模型進行工作。然而，對于車輛檢測問題這一特定的下游任務，這些大型模型可能只能取得次優結果。2). 語義差距問題：現有的車輛檢測算法主要依賴于利用純粹的預訓練大型視覺模型獲得的特征表征，但忽略了語義之間的差距。

三、相關工作

在本節中，我們將介紹與我們最相關的工作，包括物體檢測、預訓練大模型和屬性表示學習。

物體檢測

基于深度學習的物體檢測主要分為三類：一階段檢測器、兩階段檢測器、和基于Transformer-based的檢測器、。其中，基于滑動窗口的單級檢測器通過密集采樣對語義目標進行分類和定位，避免了篩選圖像中潛在目標區域的步驟。YOLO采用直接回歸的方法獲得檢測結果，有效提高了檢測速度。RetinaNET提出了一種焦點損失函數，很好地解決了前景-背景不平衡問題。YOLO-V3采用多尺度特征圖提取，顯著提高了 YOLO 系列對小目標的檢測效果。之后，一系列后續工作的提出進一步改進了 YOLO 檢測器。兩階段目標檢測首先從圖像中提取提案，然后在提案的基礎上進行二次修改，從而得到檢測結果。R-cnn首次嘗試使用神經網絡解決檢測任務，并顯著提高了整體性能。Faster RCNN?提出了一個 RPN 模塊來生成候選框，很好地解決了選擇性搜索帶來的問題。Mask RCNN?引入了 RoI 對齊層，而不是 RoI 池算子，以避免空間量化造成的像素級錯位。

隨著變形網絡在許多領域的出色表現，一些研究人員開始考慮將變形網絡與物體檢測相結合。具體來說，基于?Transformer?的探測器和DETR首次將?Transformer引入物體檢測。Zhu 等人提出了可變形注意力模塊，提高了原 DETR 算法的訓練速度和對小物體的檢測性能。DINO?采用對比去噪訓練和混合查詢選擇方法，進一步提高了?DETR?模型的性能。VITDET?使用 SFP 代替特征金字塔結構，消除了骨干網絡的層次限制。與這些工作不同的是，在本文中，我們提出使用預先訓練好的大型視覺和語言模型來增強車輛檢測，并取得了明顯高于我們基線的性能。

預訓練大模型

自監督/非監督預訓練是目前研究的重點。目前，有兩種主流的自監督/無監督預訓練算法：對比學習和基于重構的預訓練。具體來說，對比學習法旨在訓練網絡分辨給定輸入對是否一致。對于單模態輸入預訓練，SimCLR、MoCo等通過數據增強策略生成一組相似樣本。BYOL通過學習對正樣本的相似性進行編碼來構建表征。對于多模態輸入預訓練，CLIP和ALIGN對圖像-文本對進行了預訓練，而?VideoCLIP則將其擴展到了視頻-文本對。基于重構的方法試圖訓練網絡重構輸入中被遮蔽的部分，以學習重現。BERT及其擴展方法使用雙向Transformer-based，并通過屏蔽語言建模實現了少量學習功能。MAE提出了掩碼自動編碼器，通過簡單地重新構建像素來學習視覺表征。VideoMAE和?VideoMAE-v2進一步將其應用到視頻領域，而 MultiMAE則將輸入擴展到多模態，學習更豐富的幾何和語義信息。還有一些針對特定目標設計的預訓練方法，如?HCMoCo、HumanBench、SOLIDER等，它們側重于以人為中心的預訓練，而?VehicleMAE則側重于基于車輛的預訓練。受這些研究成果的啟發，我們在研究中利用預訓練的大型模型來進一步改進車輛檢測器。

屬性表征學習

目標對象的屬性可以充分反映關鍵線索，如紋理、顏色、形狀等，而且也很容易獲得。因此，許多研究者利用語義屬性來完成任務，例如重新識別。Lin等人提出了一種利用屬性信息提高再識別性能的方法。張等人提出了一種屬性注意塊來解決噪聲屬性對模型的干擾。通過采用強化學習，他們旨在去除噪聲屬性并提高模型的魯棒性。Jeong等人引入了學習跨模態嵌入的損失函數。這種方法將一組屬性視為一類具有相同特征的個體，從而縮小了屬性與圖像之間的模態差距。Li等人充分利用了 CLIP 的跨模態描述能力，為每個個體ID提供了一組可學習的文本標記。這些文本標記被輸入文本編碼器以生成模糊描述，從而促進更好的視覺呈現。此外，Zhai等人引入了細粒度屬性描述作為提示信息，為再識別任務提供更豐富的語義信息。Zhang 等設計了一種基于屬性的非最大抑制算法，以解決擁擠場景中行人漏檢的問題。該算法通過對行人屬性信息建模，捕捉人群之間的高級語義差異。Tian 等人利用語義任務來輔助行人檢測，包括行人和場景屬性，以幫助對陽性樣本和陰性樣本進行分類。在這項工作中，我們估算了提取建議的屬性，并學習了統一的屬性表示，以便在語義線索和視覺特征之間進行對比學習。我們的實驗充分證明了我們提出的策略在高性能車輛檢測中的有效性。

四、Coovally AI模型訓練與應用平臺

值得一提的是，如果你希望復現這類融合多模態大模型的創新思路，或者對已有模型進行深入診斷與優化，Coovally平臺將是非常值得關注的工具。

Coovally 平臺即將推出的基于多模態大模型的模型分析與優化能力，能夠輔助開發者深度分析模型表現，自動定位弱點，并生成可行的優化方案，為模型調參與升級提供智能化支持。

同時，平臺已整合國內外超過1000種開源模型算法和各類公開識別數據集，無論是 YOLO 系列，還是 Transformer 架構，均可直接調用使用。

無論是在學術研究中的快速驗證，還是產業項目中的模型落地與迭代，Coovally 都能顯著提升開發效率，加速成果轉化。

平臺鏈接：https://www.coovally.com

如果你想要另外的模型算法和數據集，歡迎后臺或評論區留言，我們找到后會第一時間與您分享！

五、方法

在本節中，我們將首先概述我們提出的?VFM-Det?框架，然后回顧基于區域建議的檢測框架。然后，我們將介紹詳細的網絡架構，重點是基于VehicleMAE的感知器、視覺特征之間的對比學習和統一屬性表示。最后，我們將介紹用于優化整個框架的檢測頭和損失函數。

概述

在這項工作中，基于上述基于區域建議的物體檢測框架，我們建議將預先訓練好的基礎模型應用于車輛檢測任務，如圖2所示。具體來說，我們首先將輸入圖像輸入 ResNet-50 骨干網絡，以獲得特征圖。然后，RPN 生成一組候選邊界框，并通過 RoI Align 層獲得其特征。更重要的是，我們會裁剪出提案，并將其輸入預訓練的車輛基礎模型 VehicleMAE，以提取更精細的車輛特定特征。這些特征與 RoI Align 沿通道維度輸出的特征串聯，然后輸入檢測頭和分類頭，以獲得目標的位置和類別。此外，我們還提出了一個新的 VAtt2Vec 模塊，以彌補用于車輛檢測的視覺特征與能以高級語義特征描述車輛的語義標簽之間的差距。具體來說，該模塊將每個提案的視覺特征和所有已定義的車輛屬性作為輸入，并使用屬性頭預測屬性。需要注意的是，給定的屬性是使用大型語言模型 T5進行編碼的。預測出的屬性通過GRU模塊進一步融合并轉化為統一的特征表示。視覺特征和統一語義屬性特征用于對比學習。在三個車輛檢測基準數據集上進行的廣泛實驗表明，預先訓練的大型視覺和語言模型可顯著提高車輛檢測性能。

圖片3.png

綜述：基于區域建議的檢測

基于區域建議的檢測框架工作的主要思想可分為兩個階段，即候選區域生成和分類。具體來說，我們首先使用一種高效算法生成一系列候選區域，其中包含正負對象。然后，對每個提議采用分類頭和邊界框回歸頭來判斷目標對象是否存在，并更準確地預測其位置和尺度。我們可以發現，高質量候選區域的生成是基于區域建議的檢測框架中的一個關鍵步驟，其廣泛應用的模塊包括選擇性搜索、邊框、RPN等。RPN通過訓練神經網絡來預測候選區域的位置和尺寸。基于區域提議的代表性檢測器包括RCNN、Faster R-CNN、Mask R-CNN等。在本研究中，我們將提出的策略整合到Mask R-CNN檢測器中以驗證其有效性，具體實現細節將在后續小節展開闡述。

基于VehicleMAE的感知器

我們在Mask R-CNN框架基礎上，引入專為車輛數據預訓練的基礎視覺模型VehicleMAE來提升車輛檢測性能。具體而言，給定輸入圖像I和RPN模塊生成的候選區域信息C（每張輸入圖像對應512個候選區域），首先根據候選區域信息C從輸入圖像中裁剪出所有提議區域，將其統一縮放至224×224分辨率，得到圖像集合Ipro∈R^(224×224×3)。對于Ipro中的每幅圖像，我們將其劃分為196個不重疊的圖像塊，隨后通過卷積核尺寸為16×16的卷積層將其投影為詞嵌入向量P_pat∈R^(1×768)，j∈{1,2,...,196}。在整合CLS（classification）標記后，獲得特征F_CLS^emb∈R^(197×768)。我們進一步引入位置編碼Z_pos∈R^(197×768)來表征輸入詞嵌入的空間坐標信息，具體實現方式是將隨機初始化的位置編碼與詞嵌入相加：F_pos^emb = Z_pos + F_CLS^emb。

值得注意的是，我們凍結了預訓練VehicleMAE網絡的參數，并引入8個可學習標記K∈R^(8×768)以實現更高效的微調。這些可學習標記被插入在CLS標記與圖像塊標記之間，最終形成特征F_emb∈R^(205×768)。獲得視覺嵌入P_emb后，將其輸入包含12個Transformer模塊的VehicleMAE編碼器（即ViT-B/16結構），輸出特征F ?∈R^(205×768)。為與ResNet50骨干網絡輸出的RoI Align特征F_roi∈R^(256×16×16)保持維度一致，我們采用256維線性投影層將VehicleMAE編碼器輸出映射為F ?∈R^(205×16×16)。最終，沿通道維度拼接RoI Align特征F_roi與F ?，得到用于車輛檢測的視覺特征F_v∈R^(461×16×16)。

通過引入預訓練的車輛專用基礎視覺模型，檢測性能得以提升。然而，該檢測器仍存在視覺特征與高層語義特征未充分對齊的問題，這可能導致次優結果。下一小節將探討如何通過車輛屬性引導的視覺特征學習來進一步提升整體性能。

車輛屬性表征學習

為將車輛屬性整合至檢測框架，本研究基于CompCars數據集定義了47個車輛屬性標簽，并將其劃分為6大類：顏色、車門數量、車型、排量、最高時速及座位數。我們利用預訓練語言模型T5生成47個屬性標簽的文本嵌入tiemb∈R1×768tiemb∈R1×768（i∈{1,2,...,47}i∈{1,2,...,47}），通過拼接所有文本嵌入得到文本特征Ft∈R47×768Ft∈R47×768，并將其與VehicleMAE編碼器輸出的視覺特征Fve=F~Fve=F~共同輸入屬性預測頭。

在屬性預測頭中，首先通過1×1卷積層將文本特征FtFt投影至與視覺特征FveFve相同維度（因T5模型輸出維度與視覺特征一致，此處無需投影）。隨后引入可學習的視覺嵌入evemb∈R1×768evemb∈R1×768與文本標記etemb∈R1×768etemb∈R1×768，分別與對應特征相加以保留模態信息。

圖片4.png

圖片5.png

檢測頭與損失函數

檢測頭保持與原始Mask R-CNN相同的結構。將拼接后的視覺特征FvFv輸入檢測頭，先經兩個MLP網絡投影，再通過全連接層分別預測提案類別分數及候選框回歸參數，后者用于計算最終框坐標。

在Mask R-CNN基礎上，新增視覺特征與車輛語義屬性的對比學習損失。首先對圖像特征FvFv與文本特征VaVa進行L2歸一化，隨后計算歸一化特征間的余弦嵌入損失：

圖片6.png

六、實驗分析

數據集與評估指標

數據集

我們在三個車輛檢測數據集上驗證所提VFM-Det模型的性能：

Cityscapes：德國50個城市的3,257張高分辨率街景圖像（2048×1024），涵蓋晝夜不同光照條件。實驗選取四類車輛目標（轎車、巴士、卡車、房車），包含2,846張訓練圖像與481張測試圖像。

UA-DETRAC：城市道路多目標檢測數據集。通過逐10幀采樣視頻構建車輛檢測子集，含8,178訓練圖像與5,608測試圖像，覆蓋轎車、巴士、貨車三類。

COCO2017：通用目標檢測數據集。通過官方API篩選車輛類別（轎車、巴士、卡車），構建16,270訓練圖像與707測試圖像的子集。

評估指標

采用目標檢測通用指標：

AP[0.5:0.95]AP[0.5:0.95]：IoU閾值從0.5至0.95（步長0.05）的平均AP值’

AP計算公式為：

圖片7.png

實現細節

訓練參數：學習率0.02，動量0.9，權重衰減0.0001，SGD優化器，批量大小2，總訓練輪數26。

硬件環境：基于PyTorch框架，使用RTX3090 GPU服務器。

屬性頭預訓練：在CompCars數據集上重構屬性標注（將最高時速劃分為5區間，排量分為4類），形成6屬性組47標簽的44,481張圖像，預訓練20輪次。

屬性預測模塊預訓練

在CompCars數據集上重構屬性標注體系：

最高時速屬性：將原始數值劃分為五類（未知、<150km/h、150-200km/h、200-250km/h、>250km/h）

發動機排量屬性：按行業標準劃分為四類（未知、小排量、中排量、大排量）

最終構建包含6大屬性組、47個細粒度標簽的44,481張圖像數據集（詳見表III）。VAtt2Vec模塊中的屬性預測頭在該數據集上預訓練20個epoch。

圖片8.png

與SOTA檢測器的對比實驗

Cityscapes數據集結果（表I）

AP[0.5:0.95]=46.9%AP[0.5:0.95]=46.9%，

AP0.5=66.5%AP0.5=66.5%，
AP0.75=51.6%AP0.75=51.6%全面領先：較基線Mask R-CNN分別提升5.2%、5.1%、6.2%；優于VitDet檢測器1.7%、2.4%、1.5%。

UA-DETRAC數據集結果（表I）

關鍵指標：AP0.5=73.7%AP0.5=73.7%（較Mask R-CNN提升3.7%），AP0.75=63.1%AP0.75=63.1%；

在嚴格指標AP0.75AP0.75上顯著優于VitDet（+5.1%）、RetinaNet（+7.3%）。

COCO2017數據集結果（表I）

突破性性能：AP0.5=75.3%AP0.5=75.3%（較Mask R-CNN提升7.3%）；

比VitDet在AP[0.5:0.95]AP[0.5:0.95]指標提升1.1%。

圖片9.png

預訓練模型對比（表II）：

VehicleMAE顯著超越DINO（+1.9%/AP[0.5:0.95]AP[0.5:0.95]）與MAE（+4.5%）；車輛專用預訓練使MAE性能提升3.2-3.8%；

無監督預訓練對比（表II）：

較MoCoV3提升3.2%/AP0.5AP0.5，較MAE提升2.1%；較MoCoV3提升4%/AP0.5AP0.5；較MAE提升3.9%/AP0.5AP0.5。

圖片10.png

消融實驗

本節通過全面的消融研究驗證各模塊的有效性，幫助讀者理解框架中每個組件的貢獻。

VehicleMAE編碼器的影響

我們在論文中引入VehicleMAE編碼器來增強候選區域特征，并將其與原始特征拼接。如表4所示，在Cityscapes數據集上的測試結果顯示，引入VehicleMAE編碼器后，三項指標分別提升至45.0%、65.4%和48.9%。這些實驗結果表明增強的候選區域特征能夠提升檢測性能。

圖片11.png

VAtt2Vec模塊的影響

在VAtt2Vec模塊中，我們引入了Lva損失函數。如表4所示，基于VehicleMAE編碼器，VAtt2Vec模塊在Cityscapes數據集上將三項指標分別提升了1.9%、1.1%和2.7%。當同時引入VehicleMAE編碼器和VAtt2Vec模塊時，結果進一步提升至46.9%、66.5%和51.6%。實驗結果證明了VAtt2Vec模塊的有效性。由于屬性頭的輸入特征來源于VehicleMAE編碼器，我們未單獨對VAtt2Vec進行消融研究。

可學習標記數量的影響

考慮到訓練過程中產生的大量候選區域，我們在模型訓練時固定了VehicleMAE編碼器的參數以提高計算效率并節省資源。這一舉措不僅有效降低了計算復雜度，還保留了大模型在先前訓練中學到的重要特征和知識。然而，固定VehicleMAE編碼器可能導致次優結果，因為預訓練數據集與檢測數據集之間存在差異。因此，我們引入了一定數量的可學習標記，使預訓練的VehicleMAE編碼器能更好地適應新數據和任務。我們深入研究了引入的可學習標記數量對模型性能的影響。如表5所示，當可學習標記數量為4時，各項指標分別為44.8%、64.5%和50.6%。當數量增加到8時，各項指標分別提升了2.1%、2.0%和1.0%。然而，當數量進一步增加到12時，各項指標分別下降了2.4%、2.8%和1.9%。基于這些實驗結果，我們決定在VehicleMAE編碼器中引入8個可學習標記。這些對比實驗充分證明了引入可學習標記的有效性。

圖片12.png

不同屬性編碼器的比較

在本文中，我們對每個候選區域圖像預測一組對應的車輛屬性。我們利用大語言模型從這些屬性信息中提取特征，然后通過GRU模塊將屬性特征融合為統一的文本表示。模型通過計算文本特征和視覺特征之間的余弦相似度損失進行優化。因此，所選大語言模型的能力將直接影響檢測器的性能。我們在表6中比較了五種大語言模型：T5、CLIP、BERT、ALBERT和MPNet。其中，T5在AP[0.5:0.95]和AP0.5指標上達到最佳性能，分別為46.9%和66.5%。然而，在AP0.95指標上略低于CLIP0.4%。因此，我們選擇使用大語言模型T5作為文本編碼器。

圖片13.png

不同特征融合策略的比較

在本文中，我們保留了原始MaskR-CNN通過ResNet50提取的圖像特征，同時將RPN生成的候選區域圖像輸入預訓練的大規模車輛模型VehicleMAE，通過其編碼器進行特征提取。最后，將這兩組特征融合用于檢測。因此，特征融合的方法對模型性能至關重要。我們比較了三種特征融合策略：拼接、加權融合和線性融合。效果評估結果總結在表7中。拼接兩種特征實現了46.9%、66.5%和51.6%。與加權融合相比，拼接操作將指標提升了2%、3.2%和2%，與線性融合相比提升了1%、2.3%和0.7%。因此，本文選擇拼接操作作為特征融合方法。

圖片14.png

屬性向量不同使用方法的比較

利用在CompCars數據集上預訓練的屬性頭，我們對每個候選區域進行屬性預測，獲得一組由T5編碼的屬性特征。隨后，這些特征通過GRU模塊融合，得到候選區域的文本特征。我們比較了兩種不同的屬性向量使用方法，總結在表8中。當文本特征直接與圖像特征拼接后輸入分類和回歸頭時，結果分別為45.9%、64.6%和50.3%。而引入余弦相似度損失進行圖像-文本對比學習時，結果為46.9%、66.5%和51.6%。與拼接方法相比，對比學習方法將指標分別提升了1%、1.9%和1.3%。我們認為這種提升的主要原因在于對比學習能夠減少冗余信息和噪聲，同時利用特征之間的互補性。此外，CompCars數據集與候選區域之間存在領域差距，對比學習方法相比拼接能更有效地緩解這種影響。因此，我們的方法采用對比學習方法。

圖片15.png

不同對比學習損失函數的比較

在本文中，為了緩解視覺特征與語義類別之間的語義鴻溝，我們提出通過對比學習的思路將視覺特征與統一的屬性表示對齊。我們在表9中比較了兩種對比學習損失函數，即CLIP損失和余弦嵌入損失。從結果來看，余弦嵌入損失在三項指標上達到最佳性能，分別為46.9%、66.5%和51.6%。然而，使用交叉熵損失會導致AP[0.5:0.95]和AP0.5指標下降。我們認為這是由于存在許多具有相同目標的候選區域，而交叉熵損失將批次內所有其他候選區域視為負樣本。因此，我們選擇使用余弦嵌入損失。

圖片16.png

不同微調方法的比較

在我們提出的VAtt2Vec模塊中，我們使用大語言模型T5獲取車輛屬性嵌入。在論文中，我們嘗試對大語言模型使用不同的參數高效微調（PEFT）策略。實驗結果如表10所示。當不進行微調時，模型在AP[0.5:0.95]和AP0.5指標上均達到最佳性能。相反，對大語言模型進行微調實際上會損害模型的性能。因此，我們選擇不在模型中對大語言模型進行微調。

圖片17.png

可視化

在本節中，我們可視化了我們的模型VFM-Det的檢測結果、VAtt2Vec模塊檢測到的候選區域屬性結果，以及VehicleMAE骨干網絡處理的候選區域特征圖。

我們在道路圖像上展示了檢測結果，其中綠色框表示我們提出的算法的檢測結果，白色框表示Mask R-CNN的檢測結果，紅色框表示真實標注。如圖5所示，我們的方法能夠準確檢測車輛目標。在圖6中，我們展示了VAtt2Vec模塊對候選區域屬性的檢測結果。此外，如圖7所示，我們使用GradCAM2可視化VehicleMAE編碼器最后一個Transformer塊的注意力圖。可以觀察到注意力主要集中在車輛目標上，這表明我們的VehicleMAE編碼器能夠提取更有效的候選區域特征。

圖片18.png

圖片19.png

局限性分析

基于上述實驗，我們發現引入預訓練的車輛專用基礎模型VehicleMAE顯著提升了車輛檢測性能。然而，由于候選區域數量龐大，即使我們固定了VehicleMAE編碼器的參數，仍然引入了更多的計算開銷。因此，進一步降低檢測器的復雜度是一個重要的研究方向。另一方面，屬性預測頭是在小規模數據集上訓練的，這可能會限制屬性預測的性能。該模塊還使我們的檢測器無法進行端到端優化。我們將在未來的工作中解決這兩個問題。

結論

本文提出了一種新型車輛檢測范式VFM-Det，通過基于預訓練基礎視覺與語言模型擴展區域提議檢測器來實現。對于輸入圖像，我們首先將其輸入ResNet50骨干網絡獲取圖像特征，并通過區域提議網絡生成一組候選區域。隨后，我們從圖像中裁剪這些候選區域，并利用在大規模車輛圖像數據集上預訓練的VehicleMAE編碼器提取候選區域特征，從而增強原始特征。更重要的是，我們引入了創新的VAtt2Vec模塊，該模塊基于VehicleMAE編碼器提取的特征預測這些候選區域的車輛語義屬性。這些屬性隨后被轉化為統一特征向量，并通過計算與視覺特征的相似性約束來優化模型。我們在三個車輛檢測數據集上評估和比較了VFM-Det，大量實驗充分證明了我們提出的車輛檢測器的有效性和優越性。