DINO-R1：激勵推理能力的視覺基礎模型

摘要

近期，人們對大型語言模型（如DeepSeek-R1）推理能力的關注呈爆炸式增長，通過基于強化學習的微調框架（如組相對策略優化（Group Relative Policy Optimization，GRPO）方法）取得了顯著成功。然而，在視覺基礎模型（包括像DINO系列這樣的表征模型）中，這種推理能力仍鮮有探索且明顯缺失。在本工作中，我們提出了DINO-R1，這是首次嘗試使用強化學習來激勵視覺基礎模型的視覺上下文推理能力。具體而言，DINO-R1引入了組相對查詢優化（Group Relative Query Optimization，GRQO），這是一種專門為基于查詢的表征模型設計的新型強化式訓練策略，它根據組歸一化對齊質量計算查詢級別的獎勵。我們還應用了KL正則化來穩定目標分布，以減少訓練的不穩定性。這種聯合優化能夠在查詢之間實現密集且富有表現力的監督，同時減輕過擬合和分布漂移。在Grounding-DINO的基礎上，我們訓練了一系列DINO-R1家族模型，這些模型集成了視覺提示編碼器和視覺引導的查詢選擇機制。在COCO、LVIS和ODinW上的大量實驗表明，DINO-R1顯著優于監督微調基線，在開放詞匯和封閉集視覺提示場景中均表現出強大的泛化能力。
https://christinepan881.github.io/DINO-R1

1 引言

近期，以DeepSeek-R1[8,1]的出色表現為例的大型推理模型（Large Reasoning Models，LRMs）[1-10]取得了顯著進展，在數學推理和編碼等復雜推理任務中展現出了非凡的能力。這一突破主要得益于創新的強化學習（Reinforcement Learning，RL）策略，如組相對策略優化（Group Relative Policy Optimization，GRPO）[1]。通過迭代生成合成數據并通過可驗證的獎勵優化推理模型，DeepSeek-R1獲得了與最先進的專有模型（如OpenAI o1）相媲美的卓越推理能力，顯著重塑了語言建模領域。然而，盡管取得了這些令人印象深刻的進展，但視覺基礎模型（Vision Foundation Models，VFMs）[11-17]中的推理能力發展卻明顯滯后。當前的VFMs主要依賴于針對預定義視覺類別的監督訓練范式[18-20]或自監督目標[21-23]。這些傳統的監督方法本質上缺乏穩健的推理機制，限制了它們在實際應用中有效泛化到新穎、模糊或高方差場景的能力。

在VFMs中，一個日益重要且新興的場景是視覺提示（Visual Prompting）[24,16,25,15,26]，這是一種新范式，用戶可以使用視覺示例來指定檢測目標。這種方法在自動標注、工業檢測和機器人操作等廣泛應用中具有巨大的實用價值[27-36]。然而，盡管視覺提示檢測器具有實際相關性，但訓練它們卻帶來了新的挑戰，因為視覺示例之間存在高度多樣性和類內變化。與語言提示的對應物相比[14,37,38,26,39]，視覺提示檢測器的訓練方法在很大程度上仍未得到充分發展。我們觀察到，僅使用監督微調（Supervised Fine-Tuning，SFT）進行訓練在這些條件下通常難以取得良好效果，表現出收斂不穩定、對領域外數據的泛化能力有限以及查詢預測與視覺提示對齊不佳等問題（第4節）。這些發現表明，普通的SFT不足以有效訓練視覺提示檢測器，這促使我們探索能夠基于多樣化視覺輸入進行有效推理以實現穩健泛化的全新訓練策略。

受近期基于RL的訓練框架在LRMs中取得的突破[6-9,1,40-42,2,10,3-5]的啟發，這些框架有效地利用了大規模噪聲訓練數據，我們旨在同樣解鎖純視覺模型（如VFMs）中的推理能力潛力。然而，將基于語言的RL方法（如GRPO）直接應用于視覺領域卻面臨著不小的挑戰。一方面，GRPO假設模型是一個概率生成器，能夠顯式采樣多樣化的輸出結構預測，這使得在采樣輸出空間上進行優化變得非平凡。另一方面，GRPO中通過約束語言模型中令牌級別的輸出分布來穩定訓練的KL正則化方法，由于語言和視覺表述之間的根本差異，難以直接應用于結構化的視覺預測。

為此，我們提出了一種新穎的以視覺為中心的RL學習方法，稱為組相關查詢優化（Group Related Query Optimization，GRQO），旨在激勵VFMs（特別是DINO系列）中的推理能力。具體而言，GRQO引入了一個查詢級別的相對獎勵模塊，該模塊評估組內每個查詢的質量，并根據其相對于組平均值的優勢計算歸一化獎勵。通過鼓勵每個查詢超越動態組基線，這一機制提供了更密集且信息量更大的訓練信號（與傳統的一對一匹配方案相比，如圖1所示）。此外，我們還在查詢/選擇階段對目標概率分布提出了KL散度正則化策略，以幫助減輕訓練過程中的模型漂移和災難性遺忘。為了支持這一新的訓練范式，我們通過引入視覺提示編碼器和視覺引導的查詢選擇機制實現了多樣化的視覺提示，從而得到了一個無文本變體，我們稱之為VIS-G-DINO基線。然后，我們使用提出的GRQO框架訓練該模型，得到了一系列視覺LRMs，這里將最終產物稱為DINO-R1。我們的主要貢獻總結如下：

我們提出了組相關查詢優化（GRQO），這是第一個旨在解決開放集目標檢測中視覺提示高方差問題的強化式訓練范式。
我們引入了一個查詢級別的相對獎勵模塊和一個KL散度正則化策略，以提高視覺提示下的訓練穩定性、查詢質量和泛化能力。
我們開發了VIS-G-DINO，這是一個基于視覺提示的VFMs（如DINO）的RL訓練框架，并將使用GRQO訓練得到的檢測器定義為DINO-R1。
我們在COCO、LVIS和ODinW上進行了大量實驗，其中DINO-R1始終優于監督微調基線，并在開放詞匯和封閉集視覺提示場景中均表現出強大的泛化能力。

2 相關工作

視覺基礎模型與DETR。視覺基礎模型（VFMs）[43,16,15,44,14,37,45,46,11,12,47,24,25,48,49]通過從大規模數據集中學習通用圖像表征，在廣泛的視覺任務中取得了顯著進展。其中，DETR[50]及其衍生模型[51,52,13,16,14,53,15,37,38]使用基于Transformer的架構將目標檢測表述為一個集合預測問題，提供了開放集能力并在密集預測任務上表現出色。特別是Grounding DINO[14,38]，它通過融入視覺-語言對齊將DETR擴展到開放詞匯檢測，從而能夠通過語言提示進行短語定位的目標檢測。
在這里插入圖片描述

圖1：SFT與GRQO的比較。SFT導致監督信號有限且同質化，而GRQO則產生更豐富且更多樣化的學習信號，鼓勵查詢更具表現力。

開放詞匯與基于提示的檢測。開放詞匯檢測（Open-Vocabulary Detection，OVD）[54]旨在通過利用外部知識源（如預訓練的文本編碼器或圖像-文本對）來識別超出監督訓練集類別的目標。大多數現有的OVD方法[55,39,53,54,56,14]都側重于使用語言提示來彌合類別差距，而使用視覺示例（而非文本）的視覺提示空間在很大程度上仍未得到充分探索。近期的研究[26,16,24,25,15]已經探索了使用參考圖像或邊界框來定位對象級別的語義。然而，這些方法往往依賴于推理時的條件設置，并且缺乏從高方差視覺提示中學習的穩健訓練范式。

基礎模型中的強化學習。強化學習[41,40,42,1,6]在通過人類反饋強化學習（Reinforcement Learning from Human Feedback，RLHF）[41]和組相對策略優化（Group Relative Policy Optimization，GRPO）[1,8]等方法微調大型語言模型（LLMs）[2,3,57,4-6,8]方面發揮了核心作用。這些方法使模型能夠更好地與多樣化、弱監督或模糊的目標對齊。然而，將強化式訓練應用于視覺基礎模型，特別是對于像目標檢測這樣的密集預測任務，仍鮮有探索。我們的工作通過將GRPO原則適應于基于Transformer的目標檢測器中的查詢級別學習，填補了這一空白。

3 方法論

盡管語言引導的目標檢測在視覺 - 語言領域受到了越來越多的關注，但基于視覺提示的檢測訓練策略仍未得到充分探索。為了應對高方差視覺提示的挑戰，并釋放提示引導檢測器的潛力，在本工作中，我們為視覺提示目標檢測引入了一種新穎的訓練范式，即組相對查詢優化（Group Relative Query Optimization，GRQO）。該方法基于 Grounding - DINO（G - DINO）[14] 框架（§3.1）構建，整合了視覺提示編碼器（§3.2）和 GRQO 機制（§3.3），以增強查詢學習并提高檢測的魯棒性。
在這里插入圖片描述

3.1 預備知識

給定一個圖像 - 文本對 $(I ma g e, T e x t)$ ，G - DINO 使用圖像主干網絡 $\mathcal{B}_{img}$ （例如，Swin Transformer）提取多尺度視覺特征 $\mathbf{I} \in \mathbb{R}^{N_{I} \times C}$ ，并使用文本主干網絡 $\mathcal{B}_{txt}$ （例如，BERT）提取文本特征 $\mathbf{t} \in \mathbb{R}^{N_{txt} \times C}$ 。這些特征通過跨模態特征增強器 $\mathcal{F}_{I,t}$ ，結合可變形自注意力（用于圖像）、普通自注意力（用于文本）以及雙向交叉注意力進行融合，從而獲得精煉后的特征 $\mathbf{I}'$ 和 $\mathbf{t}'$ 。為了在檢測過程中利用文本指導，G - DINO 采用了一種語言引導的查詢選擇機制，根據跨模態相似度選擇與文本提示最相關的 $N_{a}$ 個圖像位置，并將其作為解碼器查詢的位置部分。一組可學習的查詢通過多模態解碼器關注提示和目標，該解碼器由自注意力、圖像交叉注意力、文本交叉注意力和前饋模塊組成。最終通過查詢與精煉后的提示特征之間的對比相似度進行類別預測。遵循 DETR 風格的監督方式，模型使用焦點損失（focal loss）進行分類訓練，使用 L1 損失和 GIoU 損失的組合進行邊界框回歸訓練。總體損失為：

$\mathcal{L}_{\mathrm{G\!-\!DIN}\mathrm{O}}=\mathcal{L}_{\mathrm{focal}}+\mathcal{L}_{l1}+\mathcal{L}_{\mathrm{GIoU}}.$

3.2 VIS - G - DINO

我們將 Grounding DINO 擴展以支持視覺提示，并將得到的模型稱為 VIS - G - DINO。與基于自由形式文本的 G - DINO 不同，VIS - G - DINO 基于視覺提示（即用戶在參考圖像上指定的邊界框）進行檢測，無需語言描述即可實現開放集檢測。參考圖像可以與目標圖像相同，也可以來自不同的上下文。

視覺提示編碼。我們設計了一個視覺提示編碼器 $\mathcal{E}_{vis}$ ，將參考圖像上的每個輸入邊界框轉換為一個局部視覺特征。首先使用正弦 - 余弦位置編碼對每個邊界框進行嵌入，并將其投影以匹配 Transformer 的輸入空間。這些嵌入與一個可學習的視覺查詢一起，通過可變形交叉注意力關注多尺度圖像特征。然后，通過自注意力和前饋層進一步將其精煉為緊湊的視覺提示嵌入，以捕獲區域級語義。該過程可表示為：

$\begin{aligned}{\mathbf{Q}_{\mathcal{E}_{v i s}}^{p o s}}&{{}=\operatorname{Linear}(\mathcal{P}(\mathbf{b_{1}},...,\mathbf{b_{N}})):\mathbb{R}^{N\times4C}\rightarrow\mathbb{R}^{N\times C},}\\ {\mathbf{Q}_{\mathcal{E}_{v i s}}^{\prime}}&{{}=\operatorname{MSDeformAttn}(\mathbf{Q}_{\mathcal{E}_{v i s}},\mathbf{Q}_{\mathcal{E}_{v i s}}^{p o s},\mathbf{b},\hat{\mathbf{I}}),}\\ {\mathbf{v}}&{{}=\operatorname{FFN}(\operatorname{SelfAttn}(\mathbf{Q}_{\mathcal{E}_{v i s}}^{\prime})).}\end{aligned}$

語義對齊與提示采樣。為了加強語義一致性，我們在視覺提示和對應的文本嵌入之間進行區域級對比學習。這將視覺提示錨定在與預訓練語言模型相同的語義空間中。在訓練過程中，我們對視覺提示進行隨機采樣以提高泛化能力。具體而言，在每個批次中，每個類別隨機采樣 $\breve{M}$ 個提示，以形成最終的視覺指令 $\mathbf{v}$ 。我們發現 $M = 1$ 能在多樣性和穩定性之間取得最佳平衡。

圖像 - 提示融合與查詢選擇。遵循 G - DINO 的架構，我們通過多模態特征增強器 $\mathcal{F}_{I,\imath}$ 融合圖像特征和視覺提示，以獲得精煉后的圖像特征 $\mathbf{I}'$ 和視覺提示特征 $\bar{\mathbf{v}}'$ 。為了引導檢測過程，我們引入了一種視覺引導的查詢選擇機制。給定精煉后的圖像標記 $\mathbf{I}'$ 和視覺提示特征 $\bar{\mathbf{v}}'$ ，我們通過點積計算圖像 - 提示相似度矩陣。對于每個圖像標記，我們取其在提示軸上的最大相似度作為其目標得分，表示在該位置存在提示目標的可能性。我們選擇目標得分最高的前 $N_{c}$ 個圖像標記作為解碼器查詢的位置嵌入。前 $N_{q}$ 個索引的選擇可表示為：

$\operatorname{Idx}_{N_{\diamond}}^{v}=\mathbf{Top}_{N_{\diamond}}(\operatorname{Max}^{(-1)}(\mathbf{I}^{\prime}\cdot\bar{\mathbf{v}}^{'\top})).$

對應的區域作為粗略候選框，而查詢的內容嵌入仍然是可學習的。其余階段與 G - DINO 流程相同。

總體訓練目標。VIS - G - DINO 模型使用復合目標進行優化：

$\mathcal{L}_{\mathrm{VIS\!-\!G\!-\!DINO}}=\mathcal{L}_{\mathrm{contra}}+\mathcal{L}_{\mathrm{focal}}+\mathcal{L}_{\mathrm{L1}}+\mathcal{L}_{\mathrm{GIoU}},$

其中， $\mathcal{L}_{\mathrm{contra}}$ 促進語義對齊，其余損失遵循標準的檢測目標，用于分類和定位。

3.3 群組相對查詢優化

視覺提示檢測要求對象查詢與共享相同語義的高度多樣化的視覺示例對齊。這種設置比語言提示引入了更大的類內方差，要求模型既要記住多樣化的外觀，又要對未見過的變化進行泛化。受大語言模型（LLMs）社區中GRPO[1]泛化能力的啟發，我們提出了群組相對查詢優化（Group Relative Query Optimization，簡稱GRQO，圖2）——一種新穎的訓練范式，通過基于群組的獎勵建模和分布正則化來提高查詢質量和學習穩定性。

查詢級相對獎勵。在DETR風格的架構中，查詢通過自注意力和交叉注意力在各層之間進行交互，并作為檢測能力的主要載體。然而，標準的一對一二分匹配提供的監督較為稀疏，僅更新一小部分查詢，而其他查詢則未得到充分優化（圖1）。為了解決這一問題，我們引入了一種查詢級獎勵機制，對所有查詢進行密集監督。我們不再僅依賴二分匹配將梯度反向傳播到有限的查詢子集，而是根據每個查詢與真實實例的對齊質量為其計算一個輔助獎勵信號。具體而言，對于每個解碼器查詢預測 ${\bf Q}_{v}^{p r e d}$ ，我們計算其與同一圖像內真實實例之間的成對匹配成本。匹配成本是分類項和定位項的加權和：

$\small\begin{aligned}{\mathcal{C}^{i,j}=\lambda_{f o c a l}\mathcal{C}_{f o c a l}(\mathbf{q}_{v}^{p r e d_{i}},\mathbf{g}^{j})+\lambda_{l1}\mathcal{C}_{l1}(\mathbf{q}_{v}^{p r e d_{i}},\mathbf{g}^{j})+\lambda_{G I o U}\mathcal{C}_{G I o U}(\mathbf{q}_{v}^{p r e d_{i}},\mathbf{g}^{j}).}\\ \end{aligned}$

選擇真實實例中的最小總成本作為評估查詢質量的指標。查詢 $i$ 的獎勵 $r_{i}$ 定義為該最小成本的倒數：

$\gamma_{i}=\operatorname*{min}_{i}\mathcal{C}^{i,j},\quad r_{i}=-\gamma_{i},$

其中 $C_{i,j}$ 表示查詢 $\mathbf{q}_{v}^{p r e d.}$ 與真實實例 $\mathbf{g}^{\mathcal{I}}$ 之間的匹配成本。成本越低，表示對齊越好，因此獎勵越高。為了使學習信號更加穩健并利用群組動態，我們對同一樣本內的所有查詢的獎勵進行歸一化，以計算相對優勢：

$\hat{A}_{i}=\frac{r_{i}-\mu_{r}}{\sigma_{r}}$

其中 $\mu_{r}$ 和 $\sigma_{r}$ 分別是群組內獎勵的均值和標準差。這種群組歸一化優勢提供了穩定、可比的梯度，鼓勵所有查詢相對于動態群組基線進行改進。
在這里插入圖片描述

圖3：SFT和GRQO在視覺提示檢測方面的定性比較。SFT結果既存在誤檢（第2、3、4行），也存在漏檢（第1行），反映出查詢表達能力有限，與視覺提示的對齊較弱。相比之下，GRQO產生了更準確、更完整的檢測結果，更好地與提示的語義對齊。這些結果凸顯了GRQO在高方差視覺輸入下增強查詢推理和魯棒性的能力。

KL散度正則化。為了在高方差視覺提示下進一步穩定訓練并防止分布漂移，我們在目標概率分布上引入了基于KL散度的正則化項。在我們的設置中，目標分布捕獲了模型對圖像標記與提示對象相關性的置信度。由于視覺提示的外觀和結構多樣，這些目標預測可能在迭代過程中波動，導致訓練不穩定。為了緩解這一問題，我們使用參考模型分布 $\mathcal{O}_{r e f}$ 對當前模型的目標概率分布 $\mathcal{O}_{\theta}$ 進行正則化。給定選定的前 $N_{q}$ 個標記索引，兩個分布的生成方式如下：

$\mathcal{O}_{\theta}=\mathrm{Max}^{(-1)}(\mathbf{I}^{\prime}\cdot\bar{\mathbf{v}}^{'\top})[\mathrm{Idx}_{N_{o}}^{v}],\quad\mathcal{O}_{r e f}=\mathrm{Max}^{(-1)}(\mathbf{I}_{r e f}^{\prime}\cdot\bar{\mathbf{v}}_{r e f}^{'\top})[\mathrm{Idx}_{N_{o}}^{v}],$

其中 $\mathbf{I}_{r e f}^{\prime}$ 和 $\bar{\mathbf{v}}_{r e f}^{'\top}$ 分別表示來自參考模型的精煉圖像特征和提示特征。然后，計算KL散度如下：

$\mathcal{D}_{K L}[\mathcal{O}_{\theta}\parallel\mathcal{O}_{r e f}]=\frac{\mathcal{O}_{r e f}(q_{i}|\mathbf{I},\bar{\mathbf{v}})}{\mathcal{O}_{\theta}(q_{i}|\mathbf{I},\bar{\mathbf{v}})}-\mathrm{log}\frac{\mathcal{O}_{r e f}(q_{i}|\mathbf{I},\bar{\mathbf{v}})}{\mathcal{O}_{\theta}(q_{i}|\mathbf{I},\bar{\mathbf{v}})}-1,$

其中 $q_{i}$ 表示第 $i$ 個查詢標記， $\mathcal{O}$ 表示在目標圖像特征 $\mathbf{I}$ 和采樣視覺提示 $\mathbf{v}$ 條件下查詢的目標分布。這種正則化鼓勵當前模型保持接近參考分布，參考分布是早期訓練狀態的一個凍結副本。通過將學習動態錨定到一個穩定的先驗上，KL正則化幫助模型在逐步吸收視覺提示多樣性的同時保留可泛化的知識。

總體訓練目標。我們提出的GRQO損失引入了群組相對強化信號和正則化，以提高查詢質量和學習穩定性。具體而言，GRQO損失定義為：

$\mathcal{L}_{\mathrm{GRQO}}=-\frac{1}{N_{q}}\sum_{i-1}^{N_{q}}(\alpha\times\hat{A}_{i}-\beta\times\mathcal{D}_{K L}[\mathcal{O}_{\theta}\parallel\mathcal{O}_{r e f}]),$

其中 $\alpha$ 和 $\beta$ 是平衡獎勵信號和正則化強度的標量權重。GRQO既激勵查詢級學習，又激勵穩定的目標建模。

為了補充這種群組級監督，我們包含了標準的逐查詢檢測損失。此外，我們還保留了區域級對比損失 $\mathcal{L}_{\mathrm{contri}}$ ，以將視覺提示與相應的語義概念對齊。DINO-R1的最終訓練目標由復合目標引導：

$\mathcal{L}_{\mathrm{DINO\!-\!R}1}=\mathcal{L}_{\mathrm{GRQO}}+\mathcal{L}_{\mathrm{contra}}+\mathcal{L}_{\mathrm{focal}}+\mathcal{L}_{L1}+\mathcal{L}_{\mathrm{GIoU}}.$

在這里插入圖片描述

這種多組件損失鼓勵DINO-R1同時受益于群組級優化信號和實例級監督，從而實現穩健且可泛化的視覺提示檢測。

4 實驗

4.1 實驗設置

基線模型與基礎模型。我們將GRQO與標準的有監督微調（SFT）進行比較。所有實驗均使用MM-Grounding-DINO [38]的實現，我們對其進行了適配以支持視覺提示。我們使用視覺示例（帶有用戶定義邊界框的圖像）作為輸入提示，以引導目標圖像中的檢測。

數據集與實現細節。我們在兩種設置下評估我們的方法：

零樣本（領域外評估）。我們進行開放詞匯檢測，在Objects365（O365）[20]上進行訓練，并在COCO[19]、LVIS-minival[58]、ODinW13 [45]和ODinW35 [45]上進行測試。我們將模型訓練6個epoch作為SFT基線。對于GRQO，我們首先使用SFT訓練1個epoch以獲得參考模型，然后應用GRQO進行額外的5個epoch訓練。
微調（領域內評估）。我們在COCO訓練集上進行12個epoch的微調，并在COCO驗證集上進行評估。對于GRQO，我們同時使用SFT和GRQO的預訓練權重進行評估。

4.2 主要結果

視覺提示目標檢測結果總結在表1中。

在COCO和LVIS上的領域外檢測。我們在零樣本遷移設置下評估在Objects365上訓練的模型。如表1所示，DINO-R1在COCO和LVIS數據集上始終表現出更好的泛化能力。在COCO上，與SFT相比，DINO-R1-T將mAP提高了+4.1 $(19.9\rightarrow24.0)$ 。在更具挑戰性的LVIS數據集上，該數據集包含長尾類別，DiNO-R1-B在稀有類別上比SFT提高了+3.4 $(\bar{1}2.\bar{5}\rightarrow15.9)$ ，這表明其在處理多樣化和稀有類別方面具有更強的泛化能力。這驗證了GRQO的分組學習和正則化在處理開放詞匯視覺條件方面的有效性。圖4(a)展示了訓練動態，其中DINO-R1相比SFT表現出更穩定的訓練。

在現實世界中的領域外檢測。我們進一步在ODinW上評估我們的方法，該數據集包含各種現實世界領域。在13數據集和35數據集的ODinW子集上，DINO-R1-L分別比SFT在mAP上高出+8.8和+4.4。這些在不同領域上的一致提升不僅反映了泛化能力的提高，還體現了視覺推理能力的增強。通過使用分組相對獎勵和穩定的目標性監督來優化查詢，DINO-R1學會了更好地在不同場景和物體風格之間對齊高級語義——這是在開放世界場景中進行視覺上下文推理所必需的屬性。我們在圖3中提供了定性比較。

表3：查詢獎勵的設計分析。使用不同組合的焦點、L1和基于IoU的成本對獎勵公式進行消融實驗。分組相對獎勵始終優于絕對變體，而逐層獎勵傳播（t）進一步增強了性能。

方法	獎勵		COCO
方法	焦點	BboxL1 IoU	零樣本AP	微調AP
SFT			19.9	32.5
GRQO（相對）			21.3	34.1
GRQO（相對）			22.7	33.6
GRQO（相對）			21.8	34.0
GRQO（相對）			23.5	36.8
GRQO（絕對）			20.1	31.4
GRQO（相對） t			24.0	37.2

表2：查詢級獎勵和KL正則化模塊的消融實驗。兩者均單獨提高了SFT基線的性能，而在COCO上的兩種設置下，將它們結合使用則獲得了最高的性能提升。

方法	COCO 零樣本\|微調
	AP	AP
僅SFT 僅獎勵僅KL-Div GRQO	19.9 22.8 21.0 24.0	32.5 36.1 34.2 37.2

在COCO上的領域內檢測。在COCO上的閉集檢測設置下，GRQO在多種訓練策略下也提供了一致的性能提升。當使用GRQO對SFT預訓練模型進行微調時，DINO-R1-L達到了43.5 mAP，比繼續SFT訓練（39.2 mAP）高出+4.3。值得注意的是，使用GRQO預訓練模型作為起點帶來了更大的改進，DINO-R1比SFT基線高出+4.9 mAP。這些結果表明，GRQO不僅具有更好的泛化能力，還提高了同一領域內的訓練效率和有效性。

4.3 消融實驗

各組件的有效性。為了評估GRQO中兩個關鍵組件——查詢級相對獎勵和KL散度正則化的貢獻，我們通過獨立啟用每個模塊進行受控消融實驗。表2顯示，對于領域外和領域內檢測，這兩個組件都單獨提高了SFT基線的性能。具體來說，獎勵模塊帶來了2.9和3.6 mAP的性能提升，而KL正則化則貢獻了1.1和1.7 mAP的性能提升。當同時應用這兩個組件時，完整的GRQO框架在兩種設置下分別比SFT基線高出4.1和4.7。這些結果證實了兩個模塊都是有益的，并且它們的結合進一步增強了模型在視覺提示設置下的泛化能力。

查詢獎勵設計。我們對用于優化查詢質量的獎勵函數中的設計選擇進行了消融實驗。由于我們的目標是通過視覺提示進行準確檢測，因此我們考慮了分類和定位線索來制定獎勵。我們測試了分類獎勵（反向焦點成本）、定位獎勵（反向L1和GIoU）。此外，我們還比較了使用絕對獎勵值與分組相對獎勵值。

如表3所示，將所有三個組件與分組相對獎勵結合使用達到了23.5和36.8 mAP的最佳性能。值得注意的是，相對獎勵比絕對獎勵高出3.4和5.4 mAP，這表明分組歸一化提高了獎勵的穩定性，并允許模型關注查詢間的可區分性而非絕對查詢質量，后者通常對實例級噪聲敏感。

表4：GRQO中損失權重的影響。我們改變了查詢級獎勵和KL正則化損失的縮放比例。最佳性能是在獎勵權重為1Oe3和KL權重為O.O4時獲得的，這突出了平衡學習信號強度和正則化的重要性。

損失權重		COCO
獎勵	KL-Div	零樣本AP	微調AP
1.0	0.4	20.2	33.4
1.0	0.04	21.6	35.2
10.0	0.04	22.4	35.1
10e3	0.04	24.0	37.2
10e4	0.04	23.1	36.8
10e3	0.004	21.5	35.3

此外，我們檢查了一種逐層獎勵策略，其中中間解碼器層也由獎勵函數監督。如表3最后一行所示，這種設計進一步將性能提高了O.5和O.4 mAP，表明早期的查詢細化階段也從強化風格的優化中受益。

損失縮放的影響。我們調查了GRQO對其兩個關鍵損失組件——查詢獎勵項和KL散度正則化的縮放的敏感性。具體來說，我們在1.O、10.0、1Oe2、1Oe3、10e4范圍內變化獎勵損失的權重，在0.4、0.04、O.OO4范圍內變化KL正則化的權重。如表4所示，當獎勵權重設置為1Oe3且KL權重設置為O.O4時，達到了最佳性能。這表明適度的強獎勵信號鼓勵更有效的查詢區分，而過大的權重則導致優化效果不佳。類似地，KL正則化系數O.O4在穩定性和泛化能力之間取得了良好的平衡，有助于模型在訓練各種視覺提示時抵抗分布漂移。

提示數量的影響。視覺提示的多樣性和數量在訓練魯棒的視覺提示檢測器中起著至關重要的作用。我們對訓練期間每類隨機采樣的提示數量進行了消融實驗，并進一步評估了推理時不同提示數量的模型性能。如圖4(b)?和表5所示，每類僅使用一個隨機提示進行訓練顯著優于使用更多提示的設置。我們假設這是由于采樣提示池中增加了多樣性和更高的方差，允許模型在更廣泛的視覺外觀上進行泛化。通過在訓練迭代中看到更多不同的示例，模型學習了一個更廣泛且更適應的視覺概念空間。相反，在推理期間，隨著每類提示數量的增加，性能有所提高，這表明集成風格的提示有助于強化物體身份并減少開放集場景中的歧義。

#	訓練	COCO 零樣本推理
1 8	24.0 16.4	11.2 17.6
16	15.2	22.0
32 64	15.1 14.9	21.4 24.0

在這里插入圖片描述

表5：提示數量的影響。我們在訓練和推理期間改變了每類采樣的提示數量。

圖4：(a) 比較SFT和GRQO的訓練曲線。GRQO始終實現了更穩定的訓練，并獲得了更高的最終性能。(b)(c) 訓練/推理期間每類提示數量的影響。

5 結論

我們介紹了DINO-R1，這是一種新穎的訓練范式，它增強了視覺基礎模型在視覺提示設置下的推理能力。基于Grounding DINO構建，DINO-R1通過從稀疏的實例級監督轉向密集的分組感知優化，重新思考了如何訓練目標查詢。我們方法的核心是分組相對查詢優化（GRQO），它通過查詢組內的相對獎勵來評估和細化查詢——這反映了基于Transformer的檢測器中固有的協作推理過程。為了進一步穩定訓練并防止遺忘，我們提出了對目標性分布的KL散度正則化，將模型錨定在穩定的表示周圍，同時從多樣化的提示中逐步學習。這些組件共同為訓練在不同領域中具有魯棒泛化能力、對視覺提示具有更強推理能力，并在開放世界條件的高方差特性下保持穩定的檢測器提供了一種有原則且可擴展的方法。我們在COCO、LVIS和ODinW上的廣泛實驗驗證了DINO-R1的有效性，在零樣本和微調評估中均顯示出比有監督微調的一致改進。

我們相信DINO-R1為密集視覺任務中的強化啟發式訓練開辟了一個有前景的方向，并為視覺上下文學習、多模態對齊和提示驅動的視覺推理的未來研究奠定了基礎。

6 未來工作與局限性

我們的工作主要關注優化策略而非架構增強。DiNO-R1中使用的視覺提示編碼器采用了相對簡單的設計，以隔離并突出我們GRQO框架的貢獻。我們相信有大量空間可以探索更具表現力和結構化的視覺提示編碼方法。在未來的工作中，我們計劃集成先進的視覺提示架構，將DiNO-R1擴展到更具挑戰性和多樣化的數據集上，并探索其在其他開放世界設置中的應用，如指代表達理解、檢索增強檢測和多 shot視覺推理。我們將DiNO-R1視為邁向可擴展、提示驅動的視覺理解的基石步驟——并旨在通過進一步縮小模型靈活性與推理魯棒性之間的差距來構建這一基礎。