MQ-Det: Multi-modal Queried Object Detection in the Wild

在這里插入圖片描述
首個支持視覺和文本查詢的開放集目標檢測方法
NeurIPS2023
文章：https://arxiv.org/abs/2305.18980
代碼：https://github.com/YifanXu74/MQ-Det

主框圖

在這里插入圖片描述

摘要

這篇文章提出了MQ-Det，一種高效的架構和預訓練策略，它利用文本描述的開放集泛化能力和視覺示例的豐富描述粒度作為類別查詢，即多模態查詢目標檢測。MQ-Det將視覺查詢融入現有的僅基于語言查詢的檢測器。文章提出了一個即插即用的門控類可擴展感知器（GCP）模塊，用于在凍結檢測器上增強類別文本與類別相關的視覺信息。為了解決由于凍結檢測器帶來的學習慣性問題，提出了一種視覺條件的掩碼語言預測策略。MQ-Det的簡單而有效的架構和訓練策略與大多數基于語言查詢的目標檢測器兼容，從而實現多種應用。實驗結果表明，多模態查詢大大提高了開放世界檢測的性能。例如，MQ-Det在LVIS基準測試中顯著提高了最先進的開放集檢測器GLIP的性能，無需任何下游微調，相較于GLIP提高了7.8%的AP。在13個少樣本下游任務中，MQ-Det平均提高了6.3%的AP，而GLIP僅需額外增加3%的調制時間。

引言

近年來，隨著大規模視覺語言預訓練模型的興起，目標檢測領域已經進入了一個全新的范式，即使用查詢文本進行目標定位。受益于預訓練模型在大規模數據上的泛化能力，這種文本查詢范式在通向開放集目標檢測的道路上取得了穩定的進步。

與傳統的固定類別集合(通常由有限數量的數字表示)相比，文本查詢可以表示更廣泛的概念，但也存在描述粒度不足的內在限制。例如，類別同義詞(如“bat"可以表示木頭制作的球棒，也可以表示一種動物)會導致模糊的查詢。與此同時，對于一些細粒度的類別(如圖1所示的魚類品種檢測)，僅使用有限的文本很難描述魚類的具體模式。顯然，解決文本查詢描述粒度不足問題的一個直接方案是設計額外的文本描述，但這存在三個明顯障礙：
1）很難全面描述視覺細節。為大量類別編寫文本描述是一項繁瑣的工作。
2）較長的查詢文本會增加預訓練模型的理解難度。
3）帶來更多的計算開銷。

最先進的文本查詢檢測器GLIP即使為一些類別設計了額外的文本描述，也只能在Aquarium數據集上將平均精度(AP)從17.7%提高到18.4%。與文本相比，圖像可以提供更豐富的視覺線索。但同時，人工生成的文本具有更高的信息密度，因此具有更強的泛化能力。鑒于此，一個自然的想法是將文本和圖像結合起來，構成多模態查詢，兼具前者的廣度和后者的豐富粒度。然而，如何獲得這樣的多模態查詢檢測模型仍面臨挑戰：
1）直接使用有限的視覺示例進行微調會導致災難性遺忘。
2）大規模基礎模型具有良好的泛化能力，但如果重新組織和從頭訓練，需要承擔繁重的訓練負擔(例如，GLIP需要超過3000萬的數據存儲和近480個V100 GPU天的訓練時間)。

本文填補了多模態查詢目標檢測(MQ-Det)的空白，提出了一種高效的插件式訓練架構。MQ-Det的核心思想是融合描述豐富的視覺線索和具有很強泛化能力的文本表示，同時只需在現有基于語言查詢的目標檢測基礎模型的基礎上增加很小的訓練成本。作者在Objects365數據集上對模型進行微調，僅占用GLIP預訓練時間的3%，就能在LVIS基準測試中通過提供5個視覺示例和文本類別描述，將微調-free的性能顯著提高7.8%。

為了實現這一目標，作者提出了一個即插即用的Gated Class-scalable Perceiver (GCP)模塊，用于在文本編碼器的每個高級階段動態融合信息豐富的視覺線索和高度泛化的語言線索。另外，作者還設計了一種視覺條件的掩碼語言預測策略，以確保在凍結檢測模型的基礎上進行足夠的多模態融合。作者觀察到，在將視覺線索以門控殘差的方式加入時，學習過程往往會陷入初始優化點附近的局部最優，而無法引入足夠的視覺知識。因此，作者隨機mask文本tokens，讓對應的視覺查詢獨立地進行目標預測。作者凍結初始的檢測基礎模型，只訓練調制階段的GCP模塊，這非常高效。

綜上，本文的貢獻如下：
1）首個引入既具有廣度又具有豐富粒度的多模態查詢的工作，為開放集目標檢測開辟了一條新路。
2）提出了一個即插即用的GCP模塊，用于動態融合多模態查詢中信息豐富的視覺線索和高度泛化的語言線索，并采用視覺條件的掩碼語言預測策略，在凍結檢測模型的基礎上實現充分的多模態融合。
3）MQ-Det在finetune-free和few-shot場景下展現出強大的遷移能力，而所需的訓練時間遠少于之前的最先進基礎檢測器。具體來說，MQ-Det在具有挑戰性的LVIS基準測試中，相比GLIP提高了7.8%的AP，在13個下游few-shot檢測任務[23]中平均提高了6.3%的AP，而調制過程僅占用了GLIP所需訓練時間的3%。

方法

Gated Class-scalable Perceiver(GCP)

在第2.2節中，作者提出了一種名為Gated Class-scalable Perceiver(GCP)的即插即用架構，用于將視覺查詢融入預訓練的語言查詢目標檢測模型。具體來說，GCP模塊被設計插入到文本編碼器的每個高級階段之間，以動態融合來自視覺查詢的類相關視覺信息。
GCP模塊包含以下兩個關鍵組件：
1）類相關的交叉注意力層：每個類別的文本查詢令牌獨立地與對應的視覺查詢進行交叉注意力計算，以獲取豐富的視覺細節。這種設計沒有類別特定的參數，可以擴展到不同粒度的類別。2）門控層：根據視覺查詢的質量，動態調整交叉注意力產生的增強視覺特征的權重。這通過一個MLP層實現，它將交叉注意力的結果和文本查詢令牌作為輸入，產生一個標量門控值。門控值初始化為0,這樣在訓練開始時，輸出與預訓練文本編碼器匹配，有助于訓練穩定性和最終性能。
通過在文本編碼器中以殘差方式加入GCP模塊的輸出，該模塊可以無縫地融合視覺和語言查詢。由于GCP沒有類別特定的參數，它可以很容易地應用于各種預訓練的語言查詢目標檢測模型，如GLIP和GroundingDINO。此外，GCP允許模型在推理時泛化到任何數量的類和視覺查詢，增強了通用性。總的來說，這種即插即用的GCP架構為有效地將視覺查詢融入語言查詢目標檢測模型提供了一個簡單而有效的設計。它為多模態查詢目標檢測提供了堅實的基礎。

Modulated pre-training

在第2.3節中，作者提出了一種調制預訓練的策略，通過在大規模圖像文本數據集上進行額外的訓練，將視覺查詢融入預訓練的語言查詢目標檢測模型。具體來說，調制預訓練包含以下步驟：
1）提取視覺查詢：從包含視覺實例的大型數據集(D)中提取視覺查詢。每個類別的查詢數遠多于最終使用的查詢數(k)。
2）在凍結的檢測器上訓練GCP模塊：只訓練新加入的GCP模塊，而凍結預訓練的語言查詢目標檢測模型(如GLIP)。這大大減少了訓練時間。
3）視覺條件的掩碼語言預測：為了解決僅依賴文本特征導致的學習慣性問題，提出了一種視覺條件的掩碼語言預測策略。隨機mask文本tokens，讓模型從視覺查詢中提取信息進行預測。這確保了視覺查詢在訓練中的充分參與。

微調

在調制預訓練之后，可以對模型進行微調，以適應下游任務。由于GCP模塊是即插即用的，微調也可以只針對GCP模塊進行，而保持預訓練模型的其他部分凍結。這只需要很少的計算資源。通過這種調制預訓練策略，模型可以接受文本和視覺查詢作為輸入，實現多模態目標檢測，而只需在預訓練模型上增加很小的訓練成本。實驗結果表明，這種策略在finetune-free和few-shot場景下都取得了顯著的性能提升。它使模型能夠利用語言查詢的泛化能力和視覺查詢的豐富粒度。