25年6月來自北航、北大和北京智源的論文“RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics”。
空間參考是實體機器人與三維物理世界交互的基本能力。然而,即使有了強大的預訓練視覺-語言模型 (VLM),近期方法仍然無法準確理解復雜的三維場景并動態推理指令-指示的交互位置。為此,RoboRefer,是一個具有 3D 感知能力的 VLM,它首先通過監督微調 (SFT) 集成一個解耦但專用的深度編碼器,實現精確的空間理解。此外,RoboRefer 通過強化微調 (RFT) 推進廣義多步空間推理,并使用針對空間參考任務定制的度量-敏感過程獎勵函數。為了支持 SFT 和 RFT 訓練,引入 RefSpatial,一個包含 2000 萬個 QA 對(2 倍先驗)的大規模數據集,涵蓋 31 種空間關系(vs. 15 種先驗),并支持復雜的推理過程(最多 5 個步驟)。此外,引入 RefSpatial-Bench,一個極具挑戰性的基準測試,填補評估多步推理空間參考能力的空白。實驗表明,經 SFT 訓練的 RoboRefer 達到了最佳的空間理解水平,平均成功率高達 89.6%。經 RFT 訓練的 RoboRefer 的表現遠超所有其他基準測試,在 RefSpatial-Bench 上的平均準確率甚至比 Gemini-2.5-Pro 高出 17.4%。值得一提的是,RoboRefer 可以與各種控制策略集成,在復雜現實場景中跨各種機器人(例如 UR5、G1 類人機器人)執行長視界動態任務。
如圖所示復雜環境中的空間參考:
視覺語言模型 (VLM) 進行空間理解。空間理解 [16–23] 側重于以物體為中心的屬性(例如位置、方向)和物體間關系(例如距離、方向),而空間推理 [24–35] 則基于此類信息進行更高層次的推理。VLM 的最新進展 [8–11,36–51] 通過兩種范式增強了這兩種能力:(1) 基于工具的方法 [7,14,52–56],將 VLM 與視覺基礎模型 [57–65] 相結合,以提取和推理空間線索;(2) 數據驅動的方法,使用偽三維標注 [1,6]、真實三維數據集 [2,3] 或模擬數據 [4,66] 對 VLM 進行微調。然而,現有數據集缺乏對空間指涉任務至關重要的多步驟推理標注,并且仍然缺乏評估此類能力的基準。
機器人的VLM 參考。參考,也稱為參考表達理解 (REC) [67–74],利用明確的描述來定位圖像中特定的區域/點,并通過 VLM 取得了長足的進步 [75–80]。與處理模糊或多重參考的短語定位 [81–83] 和廣義視覺落地[84–88] 不同,REC 專注于單一目標——這對于機器人技術至關重要,尤其是在需要精確識別物體和目標位置的拾取和放置任務中 [89–93]。二維 REC 依賴于物體屬性(例如顏色)和圖像平面定位(例如圖像右上角),而現實世界中的機器人場景需要三維空間推理來進行定位(例如,“近” vs “遠”)。盡管像 RoboPoint [5] 這樣的成果 [94–96] 通過圖像融入了基本的空間線索來滿足此類期望,但它們往往難以應對復雜的環境和空間參考所需的指令。
VLM 的強化微調。強化微調 (RFT) [97–101] 是一種后訓練策略,它通過反饋使模型與人類偏好或特定目標保持一致,是對 SFT [102, 103] 的補充,SFT 使用面向任務的數據來調整預訓練模型。基于 LLM 的推理 [101, 104, 105] 的最新進展已將 VLM 中的 RL 轉向視覺推理 [106–109]、落地 [110–112]、分割 [113] 和軌跡預測 [114]。然而,大多數方法僅依賴于二維感知,這限制了它們處理需要三維空間推理的空間指涉任務的能力。
問題表述
空間參考定義為:給定來自傳感器的視覺輸入 O(例如 RGB 或 RGB-D)和文本指令 L,預測圖像空間中的單個二維點 (x, y) 以指定目標位置或目的地。該指令不僅編碼單步空間屬性,例如大小(例如大、小)、位置(例如相對位置或序數位置)、方向(例如正面)和空間關系(例如距離、方向),還需要多步空間推理。例如,“將物體放置在筆筒和鍵盤之間,與杯子的標志對齊”,由于多個空間約束的組合而變得更加復雜。
與基于區域的二維參考方法 [75, 80, 88] 不同,這種基于點的公式更適合機器人技術,并且更具泛化性。與二維框相比,點可以通過深度自然地映射到三維坐標,從而提供精確的空間錨點。通過利用預測點進行導航、抓取或放置,該方案支持多任務學習和執行。此外,它能夠在遮擋場景下準確定位可見的物體部分,而二維邊框通常包含不相關的物體。
RoboRefer:一種用于空間參考的 3D 感知推理 VLM
VLM 架構。如圖所示,RoboRefer 使用獨立的 RGB 和深度編碼器提取特征,然后通過投影器將特征與 LLM 對齊,用于 VQA 或點預測。由于 3D 線索對于空間理解至關重要,因此僅基于 RGB 預訓練的 2D VLM 缺乏準確的 3D 感知。近期方法 [1, 3, 14] 通過將深度視為類似圖像的模態并共享 RGB 編碼器來避免顯式的 3D 表示,但這會導致模態干擾,降低預訓練編碼器的性能,并需要額外的 RGB 協同訓練來補償。
為了解決這個問題,提出一種簡單而有效的方法:一個專用的深度編碼器和投影器,由其對應的 RGB 編碼器和投影器初始化。值得注意的是,在 RGB 和 RGB-D 聯合訓練期間,圖像編碼器不受深度輸入的影響,而深度編碼器則獨立更新。這種設計不僅避免了模態干擾,并在無需進行大量純 RGB 聯合訓練的情況下保持了通用的 VQA 性能,而且還通過增強對深度線索(例如距離、遠近關系以及基于視角的尺寸變化)的感知來提升空間理解能力。
監督微調。采用 NVILA [37] 作為基礎 VLM;然而,其僅限二維的預訓練限制了空間理解。為了解決這個問題,提出一個兩步 SFT。(1) 深度對齊。在上圖中,首先訓練一個深度投影器,利用 RefSpatial 的 RGB-D 注釋,將新引入的深度空間與文本空間對齊。在此步驟中,僅更新深度投影器。(2) 空間理解增強。對 RefSpatial 上的所有參數進行了微調,包括單步細粒度注釋和具有明確推理過程的多步推理數據,以及其他指令跟蹤數據集 [74, 115, 116]。因此,該模型在 RGB 和 RGB-D 輸入上進行聯合優化,并分別更新圖像和深度編碼器。這一過程不僅通過新的深度模態增強單步空間理解,還通過顯式推理過程增強基于數據的隱式多步推理,為后續的 RFT 階段提供“冷啟動”。因此,這個經 SFT 訓練的模型在多步空間參考任務中表現出了更佳的能力。
強化微調。雖然 SFT 使用具有精確推理能力的數據,但它傾向于記憶答案,而不是泛化到新的空間約束。因此,利用來自 RefSpatial 的多步推理數據,使用組相對策略優化 (GRPO [101]) 設計后續的 RFT 階段。為了引導 RFT 進行更準確的點預測,首先定義兩個結果獎勵函數(即只關心輸出答案是否正確):(1) 結果格式獎勵 (ROF),用于結構化推理和清晰度; (2)點 L1 獎勵(RP),如果最終預測落在真實點附近的特定范圍內,則得分為 1,否則為 0。為了提高中間推理精度,利用來自 RefSpatial 的關鍵步驟感知注釋,并設計專門的指標-敏感過程獎勵函數:(1)過程格式獎勵(R_PF),強制執行格式“[感知類型] [目標對象]:”;(2)準確度獎勵(R_Acc),適用于關鍵步驟感知注釋中包含的步驟。對于每個相關步驟,根據感知類型使用特定指標來測量預測誤差(例如,真實點和預測點之間位置的 L1 距離)。值得注意的是,這種設計是順序不變的,并且不將推理軌跡限制在固定序列中。從當前策略(從 SFT 模型初始化)中采樣 N 個響應 {a_1, …, a_N } 以鼓勵探索。每個響應都會獲得一個組合獎勵 (r_i = R_OF (a_i) + R_P (a_i) + α R_PF (a_i) + α R_Acc(a_i)),其中 α 設為 0.25。對每個組內的獎勵進行歸一化,計算相對優勢 (A_i = (r_i ?mean({r_j}))/std({r_j})),然后使用相對優勢更新策略,強化高質量響應并抑制次優響應。KL 散度正則化項通過將更新限制在參考策略附近來穩定更新。值得注意的是,SFT 初始化提供了強大的先驗,能夠快速適應輸出格式,并利用從 SFT 學到的空間理解支持準確的分步空間推理。上圖顯示,經 RFT 訓練的模型能夠很好地推廣到 4 步的空間參考等任務,逐步處理復雜的空間關系,并得出精確的點預測。
RefSpatial 數據集
概述
RefSpatial 是一個綜合性的數據集,整合了來自 OpenImages [117] 的 2D 圖像、來自 CA-1M [118] 的 3D 實體化視頻以及來自 Infinigen [119] 的模擬場景(使用 Objaverse [120] 資源)(參見下圖 (a))。
RefSpatial 的主要特點是:(1) 細粒度標注。先前的空間數據集 [2, 3] 通過將每個類別限制為每個場景的單個實例來簡化目標引用,而 RefSpatial 包含同一類別的多個目標。此外,每個目標都帶有分層標題標注——從寬泛的類別(例如“杯子”)到精確的空間指稱(例如“左邊第三個杯子”、“離攝像頭最近的杯子”)——從而能夠在雜亂的環境中實現明確的空間指稱。(2) 多維性。除了基本的空間概念、關系、點坐標和點深度預測之外,該數據集還通過注釋詳細的推理過程(所有模擬數據)來支持多步驟空間推理,從而解決了現有數據集的局限性。(3)高質量。嚴格過濾數據以保持質量。保留 466k 個包含文本可引用、空間相關目標的 OpenImage(低于 1.7M);從 CA-1M 中采樣 100k 個幀,其中包含文本可識別的 3D 邊框(低于 2M);并手動檢查和注釋 3k 個帶有語義方向標簽的 Objaverse-LVIS 資產(低于 46k)。(4)大規模。數據集包含 2.5M 個樣本和 20M 個 QA 對,涵蓋定性 VQA、對象屬性/關系的定量查詢以及點坐標預測(上圖 (b) 所示)。(5)豐富的多樣性。 RefSpatial 涵蓋室內和室外場景,涵蓋常見的具身場景,并集成了 31 種不同的空間關系(見上圖 ?),從而在 SFT 過程中促進精確的空間理解。(6)易于擴展。流程使用多種來源無縫擴展空間引用數據,包括 2D 圖像、帶邊界框的 3D 視頻和模擬資源。
數據配方
在上圖中,展示了數據集配方,該配方逐步集成了 2D、3D 和模擬數據,使通用 VLM 能夠適應空間引用任務,從而增強自下而上的空間理解和推理能力。(1)2D Web 圖像旨在賦予模型核心空間概念和跨室內外場景的全面深度感知。為了緩解室內外場景之間的深度尺度和類別差異,利用大規模、多樣化的 2D Web 圖像數據集 OpenImage [117]。然而,直接提取 3D 感知的空間信息具有挑戰性。受前人研究 [1, 35] 的啟發,將二維圖像轉換為偽三維場景圖。具體而言,在進行高質量濾波(從 1.7M 到 466K 幅圖像)后,用 Qwen2.5-VL [11] 和一種用于生成分層區域字幕的啟發式方法進一步增強數據,從而同時捕獲粗略的標簽和細粒度的空間參考,從而使方法區別于以往的方法。然后,通過目標檢測/分割、深度估計和相機本征估計構建場景圖,以目標字幕為節點,空間關系為邊。最后,通過基于模板或 LLM 的方法生成問答對,并輔以從帶注釋的字幕中衍生的目標位置問答。(2)3D 嵌入視頻希望為模型提供對室內場景的聚焦空間理解,并對空間關系和概念提供更細粒度的感知。因此,利用了標注豐富的 CA-1M [118]。經過細粒度過濾(從 2M 幀到 10 萬幀),構建具有更加多樣化空間關系的 3D 場景圖,與 2D 方法相比,這得益于精確的 3D 邊框。此外,生成自上而下的占用圖,其中編碼物體的位置、方向和度量距離(例如,“椅子右側 10 厘米”),從而能夠進行精確的空間參考放置。(3)模擬數據通過空間推理為模型提供了多步參考功能。雖然 2D 和 3D 數據支持單步空間理解,但它們對于通過推理進行多步空間參考的可擴展性較差。因此,利用程序化生成的場景布局 [119],使用手動驗證的素材 [120](從 46k 到 3k),并帶有語義方向注釋 [7]。任務的設計旨在促進多步空間參考并生成相應的數據。假設生成的代碼反映最佳推理,每一行都翻譯成文本形式,中間結果填充成結構化格式(例如坐標、距離),產生帶有推理注釋的 QA 對。
訓練細節
采用 NVILA [37] (2B/8B) 作為基礎模型,并應用 SFT 算法得到 RoboRefer-SFT。由于計算限制,RFT 算法僅適用于 2B 模型,從而得到 RoboRefer-RFT。SFT 算法分為兩個步驟:第一步僅使用 RefSpatial;第二步使用 RefSpatial、指令調優(大小為 RefSpatial QA 的二十分之一)[115, 116] 和參考數據集 [74] 進行訓練。值得注意的是,在第二步中,RefSpatial 算法與 RGB 和 RGB-D 輸入一起被復用,以強制圖像編碼器學習超越深度線索的空間理解能力。因此,該模型支持純 RGB 和 RGB-D 推理,并可選擇通過相對深度估計模型 [59] 進行深度推斷。最后,RFT 階段使用來自 RefSpatial 的多步推理數據進行訓練。
RoboRefer 的實現細節如下。
架構
采用 NVILA [37] 作為基礎模型,包含一個視覺編碼器、一個 LLM 和一個多模態投影器。
視覺編碼器。用與 NVILA [37] 的 siglip-so400m-patch14-448 [62] 相同的圖像編碼器,支持 448 × 448 分辨率,從而獲得更豐富的視覺細節。該圖像編碼器并非簡單地將圖像調整到固定分辨率并生成相同數量的 tokens,而是以動態分辨率處理輸入,通過更精細的塊劃分,從更高分辨率的圖像中生成更多視覺 tokens。這實現了細粒度的視覺語言理解,這對于像點預測這樣需要超越 VQA 的詳細感知的任務至關重要。還集成一個專用的深度編碼器,其結構與圖像編碼器鏡像,并用其權重進行初始化。它將相對深度圖編碼為特殊圖像,提供空間線索以增強 3D 理解。
大語言模型。采用 NVILA [37] 的 Qwen2 LLM 主干模型,該模型在監督訓練過程中已使用大量數據進行全面微調。這賦予模型豐富的視覺知識,有助于后續的 3D 空間理解和推理任務。
多模態投影器。為了對齊多模態表征(例如,圖像到語言,深度到語言),使用與 NVILA [37] 相同的線性連接器,其性能優于 Q-Former,從而使 LLM 能夠專注于視覺理解并提升泛化能力。圖像和深度嵌入使用獨立的連接器,確保特定模態的處理,并避免跨模態干擾。
訓練數據
重點介紹每個階段使用的訓練數據,包括每個數據集的樣本數量和總數。
SFT 階段。具體來說,在 SFT 階段的第一步,即深度對齊,我用包含 2.5M 個樣本的 RefSpatial (RGB-D) 數據集訓練深度投影器,以對齊深度和語言空間。為了提高訓練效率,對多輪對話進行切片(每個樣本最多 15 輪),經過后處理后獲得 3.4M 個樣本用于訓練模型。在第二步,即通過全參微調增強空間理解時,同時使用 RefSpatial (RGB) 和 RefSpatial (RGB-D) 數據集,切片后獲得 6.8M 個樣本。為了進一步提升指令跟隨和參考能力加入了輔助數據集:965,000 個樣本來自指令調優數據(LLaVA- 1.5 [116]、LRV [115]),321,000 個樣本來自參考數據集(RefCOCO/+/g [74]),176,000 個樣本來自 SAT [4] 基準訓練集,以及 127,000 個樣本來自 EmbSpatial [22] 基準訓練集。這些新增數據集有助于彌合 RefSpatial 和基準樣式查詢之間的分布差距。切片后,此階段使用的樣本總數達到 8.5M。
RFT 階段。在 RFT 階段,用標注了詳細推理過程(包括關鍵中間步驟和最終答案)的 RefSpatial 數據訓練模型。為了確保訓練效率和有效學習,用中等難度的樣本(通常涉及三個推理步驟),最終形成一個包含 100,000 個樣本的數據集。