RoboRefer:面向機器人視覺-語言模型推理的空間參考

25年6月來自北航、北大和北京智源的論文“RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics”。

空間參考是實體機器人與三維物理世界交互的基本能力。然而,即使有了強大的預訓練視覺-語言模型 (VLM),近期方法仍然無法準確理解復雜的三維場景并動態推理指令-指示的交互位置。為此,RoboRefer,是一個具有 3D 感知能力的 VLM,它首先通過監督微調 (SFT) 集成一個解耦但專用的深度編碼器,實現精確的空間理解。此外,RoboRefer 通過強化微調 (RFT) 推進廣義多步空間推理,并使用針對空間參考任務定制的度量-敏感過程獎勵函數。為了支持 SFT 和 RFT 訓練,引入 RefSpatial,一個包含 2000 萬個 QA 對(2 倍先驗)的大規模數據集,涵蓋 31 種空間關系(vs. 15 種先驗),并支持復雜的推理過程(最多 5 個步驟)。此外,引入 RefSpatial-Bench,一個極具挑戰性的基準測試,填補評估多步推理空間參考能力的空白。實驗表明,經 SFT 訓練的 RoboRefer 達到了最佳的空間理解水平,平均成功率高達 89.6%。經 RFT 訓練的 RoboRefer 的表現遠超所有其他基準測試,在 RefSpatial-Bench 上的平均準確率甚至比 Gemini-2.5-Pro 高出 17.4%。值得一提的是,RoboRefer 可以與各種控制策略集成,在復雜現實場景中跨各種機器人(例如 UR5、G1 類人機器人)執行長視界動態任務。

如圖所示復雜環境中的空間參考:

請添加圖片描述

視覺語言模型 (VLM) 進行空間理解。空間理解 [16–23] 側重于以物體為中心的屬性(例如位置、方向)和物體間關系(例如距離、方向),而空間推理 [24–35] 則基于此類信息進行更高層次的推理。VLM 的最新進展 [8–11,36–51] 通過兩種范式增強了這兩種能力:(1) 基于工具的方法 [7,14,52–56],將 VLM 與視覺基礎模型 [57–65] 相結合,以提取和推理空間線索;(2) 數據驅動的方法,使用偽三維標注 [1,6]、真實三維數據集 [2,3] 或模擬數據 [4,66] 對 VLM 進行微調。然而,現有數據集缺乏對空間指涉任務至關重要的多步驟推理標注,并且仍然缺乏評估此類能力的基準。

機器人的VLM 參考。參考,也稱為參考表達理解 (REC) [67–74],利用明確的描述來定位圖像中特定的區域/點,并通過 VLM 取得了長足的進步 [75–80]。與處理模糊或多重參考的短語定位 [81–83] 和廣義視覺落地[84–88] 不同,REC 專注于單一目標——這對于機器人技術至關重要,尤其是在需要精確識別物體和目標位置的拾取和放置任務中 [89–93]。二維 REC 依賴于物體屬性(例如顏色)和圖像平面定位(例如圖像右上角),而現實世界中的機器人場景需要三維空間推理來進行定位(例如,“近” vs “遠”)。盡管像 RoboPoint [5] 這樣的成果 [94–96] 通過圖像融入了基本的空間線索來滿足此類期望,但它們往往難以應對復雜的環境和空間參考所需的指令。

VLM 的強化微調。強化微調 (RFT) [97–101] 是一種后訓練策略,它通過反饋使模型與人類偏好或特定目標保持一致,是對 SFT [102, 103] 的補充,SFT 使用面向任務的數據來調整預訓練模型。基于 LLM 的推理 [101, 104, 105] 的最新進展已將 VLM 中的 RL 轉向視覺推理 [106–109]、落地 [110–112]、分割 [113] 和軌跡預測 [114]。然而,大多數方法僅依賴于二維感知,這限制了它們處理需要三維空間推理的空間指涉任務的能力。

問題表述

空間參考定義為:給定來自傳感器的視覺輸入 O(例如 RGB 或 RGB-D)和文本指令 L,預測圖像空間中的單個二維點 (x, y) 以指定目標位置或目的地。該指令不僅編碼單步空間屬性,例如大小(例如大、小)、位置(例如相對位置或序數位置)、方向(例如正面)和空間關系(例如距離、方向),還需要多步空間推理。例如,“將物體放置在筆筒和鍵盤之間,與杯子的標志對齊”,由于多個空間約束的組合而變得更加復雜。

與基于區域的二維參考方法 [75, 80, 88] 不同,這種基于點的公式更適合機器人技術,并且更具泛化性。與二維框相比,點可以通過深度自然地映射到三維坐標,從而提供精確的空間錨點。通過利用預測點進行導航、抓取或放置,該方案支持多任務學習和執行。此外,它能夠在遮擋場景下準確定位可見的物體部分,而二維邊框通常包含不相關的物體。

RoboRefer:一種用于空間參考的 3D 感知推理 VLM

VLM 架構。如圖所示,RoboRefer 使用獨立的 RGB 和深度編碼器提取特征,然后通過投影器將特征與 LLM 對齊,用于 VQA 或點預測。由于 3D 線索對于空間理解至關重要,因此僅基于 RGB 預訓練的 2D VLM 缺乏準確的 3D 感知。近期方法 [1, 3, 14] 通過將深度視為類似圖像的模態并共享 RGB 編碼器來避免顯式的 3D 表示,但這會導致模態干擾,降低預訓練編碼器的性能,并需要額外的 RGB 協同訓練來補償。

請添加圖片描述

為了解決這個問題,提出一種簡單而有效的方法:一個專用的深度編碼器和投影器,由其對應的 RGB 編碼器和投影器初始化。值得注意的是,在 RGB 和 RGB-D 聯合訓練期間,圖像編碼器不受深度輸入的影響,而深度編碼器則獨立更新。這種設計不僅避免了模態干擾,并在無需進行大量純 RGB 聯合訓練的情況下保持了通用的 VQA 性能,而且還通過增強對深度線索(例如距離、遠近關系以及基于視角的尺寸變化)的感知來提升空間理解能力。

監督微調。采用 NVILA [37] 作為基礎 VLM;然而,其僅限二維的預訓練限制了空間理解。為了解決這個問題,提出一個兩步 SFT。(1) 深度對齊。在上圖中,首先訓練一個深度投影器,利用 RefSpatial 的 RGB-D 注釋,將新引入的深度空間與文本空間對齊。在此步驟中,僅更新深度投影器。(2) 空間理解增強。對 RefSpatial 上的所有參數進行了微調,包括單步細粒度注釋和具有明確推理過程的多步推理數據,以及其他指令跟蹤數據集 [74, 115, 116]。因此,該模型在 RGB 和 RGB-D 輸入上進行聯合優化,并分別更新圖像和深度編碼器。這一過程不僅通過新的深度模態增強單步空間理解,還通過顯式推理過程增強基于數據的隱式多步推理,為后續的 RFT 階段提供“冷啟動”。因此,這個經 SFT 訓練的模型在多步空間參考任務中表現出了更佳的能力。

強化微調。雖然 SFT 使用具有精確推理能力的數據,但它傾向于記憶答案,而不是泛化到新的空間約束。因此,利用來自 RefSpatial 的多步推理數據,使用組相對策略優化 (GRPO [101]) 設計后續的 RFT 階段。為了引導 RFT 進行更準確的點預測,首先定義兩個結果獎勵函數(即只關心輸出答案是否正確):(1) 結果格式獎勵 (ROF),用于結構化推理和清晰度; (2)點 L1 獎勵(RP),如果最終預測落在真實點附近的特定范圍內,則得分為 1,否則為 0。為了提高中間推理精度,利用來自 RefSpatial 的關鍵步驟感知注釋,并設計專門的指標-敏感過程獎勵函數:(1)過程格式獎勵(R_PF),強制執行格式“[感知類型] [目標對象]:”;(2)準確度獎勵(R_Acc),適用于關鍵步驟感知注釋中包含的步驟。對于每個相關步驟,根據感知類型使用特定指標來測量預測誤差(例如,真實點和預測點之間位置的 L1 距離)。值得注意的是,這種設計是順序不變的,并且不將推理軌跡限制在固定序列中。從當前策略(從 SFT 模型初始化)中采樣 N 個響應 {a_1, …, a_N } 以鼓勵探索。每個響應都會獲得一個組合獎勵 (r_i = R_OF (a_i) + R_P (a_i) + α R_PF (a_i) + α R_Acc(a_i)),其中 α 設為 0.25。對每個組內的獎勵進行歸一化,計算相對優勢 (A_i = (r_i ?mean({r_j}))/std({r_j})),然后使用相對優勢更新策略,強化高質量響應并抑制次優響應。KL 散度正則化項通過將更新限制在參考策略附近來穩定更新。值得注意的是,SFT 初始化提供了強大的先驗,能夠快速適應輸出格式,并利用從 SFT 學到的空間理解支持準確的分步空間推理。上圖顯示,經 RFT 訓練的模型能夠很好地推廣到 4 步的空間參考等任務,逐步處理復雜的空間關系,并得出精確的點預測。

RefSpatial 數據集

概述

RefSpatial 是一個綜合性的數據集,整合了來自 OpenImages [117] 的 2D 圖像、來自 CA-1M [118] 的 3D 實體化視頻以及來自 Infinigen [119] 的模擬場景(使用 Objaverse [120] 資源)(參見下圖 (a))。

請添加圖片描述

RefSpatial 的主要特點是:(1) 細粒度標注。先前的空間數據集 [2, 3] 通過將每個類別限制為每個場景的單個實例來簡化目標引用,而 RefSpatial 包含同一類別的多個目標。此外,每個目標都帶有分層標題標注——從寬泛的類別(例如“杯子”)到精確的空間指稱(例如“左邊第三個杯子”、“離攝像頭最近的杯子”)——從而能夠在雜亂的環境中實現明確的空間指稱。(2) 多維性。除了基本的空間概念、關系、點坐標和點深度預測之外,該數據集還通過注釋詳細的推理過程(所有模擬數據)來支持多步驟空間推理,從而解決了現有數據集的局限性。(3)高質量。嚴格過濾數據以保持質量。保留 466k 個包含文本可引用、空間相關目標的 OpenImage(低于 1.7M);從 CA-1M 中采樣 100k 個幀,其中包含文本可識別的 3D 邊框(低于 2M);并手動檢查和注釋 3k 個帶有語義方向標簽的 Objaverse-LVIS 資產(低于 46k)。(4)大規模。數據集包含 2.5M 個樣本和 20M 個 QA 對,涵蓋定性 VQA、對象屬性/關系的定量查詢以及點坐標預測(上圖 (b) 所示)。(5)豐富的多樣性。 RefSpatial 涵蓋室內和室外場景,涵蓋常見的具身場景,并集成了 31 種不同的空間關系(見上圖 ?),從而在 SFT 過程中促進精確的空間理解。(6)易于擴展。流程使用多種來源無縫擴展空間引用數據,包括 2D 圖像、帶邊界框的 3D 視頻和模擬資源。

數據配方

在上圖中,展示了數據集配方,該配方逐步集成了 2D、3D 和模擬數據,使通用 VLM 能夠適應空間引用任務,從而增強自下而上的空間理解和推理能力。(1)2D Web 圖像旨在賦予模型核心空間概念和跨室內外場景的全面深度感知。為了緩解室內外場景之間的深度尺度和類別差異,利用大規模、多樣化的 2D Web 圖像數據集 OpenImage [117]。然而,直接提取 3D 感知的空間信息具有挑戰性。受前人研究 [1, 35] 的啟發,將二維圖像轉換為偽三維場景圖。具體而言,在進行高質量濾波(從 1.7M 到 466K 幅圖像)后,用 Qwen2.5-VL [11] 和一種用于生成分層區域字幕的啟發式方法進一步增強數據,從而同時捕獲粗略的標簽和細粒度的空間參考,從而使方法區別于以往的方法。然后,通過目標檢測/分割、深度估計和相機本征估計構建場景圖,以目標字幕為節點,空間關系為邊。最后,通過基于模板或 LLM 的方法生成問答對,并輔以從帶注釋的字幕中衍生的目標位置問答。(2)3D 嵌入視頻希望為模型提供對室內場景的聚焦空間理解,并對空間關系和概念提供更細粒度的感知。因此,利用了標注豐富的 CA-1M [118]。經過細粒度過濾(從 2M 幀到 10 萬幀),構建具有更加多樣化空間關系的 3D 場景圖,與 2D 方法相比,這得益于精確的 3D 邊框。此外,生成自上而下的占用圖,其中編碼物體的位置、方向和度量距離(例如,“椅子右側 10 厘米”),從而能夠進行精確的空間參考放置。(3)模擬數據通過空間推理為模型提供了多步參考功能。雖然 2D 和 3D 數據支持單步空間理解,但它們對于通過推理進行多步空間參考的可擴展性較差。因此,利用程序化生成的場景布局 [119],使用手動驗證的素材 [120](從 46k 到 3k),并帶有語義方向注釋 [7]。任務的設計旨在促進多步空間參考并生成相應的數據。假設生成的代碼反映最佳推理,每一行都翻譯成文本形式,中間結果填充成結構化格式(例如坐標、距離),產生帶有推理注釋的 QA 對。

訓練細節

采用 NVILA [37] (2B/8B) 作為基礎模型,并應用 SFT 算法得到 RoboRefer-SFT。由于計算限制,RFT 算法僅適用于 2B 模型,從而得到 RoboRefer-RFT。SFT 算法分為兩個步驟:第一步僅使用 RefSpatial;第二步使用 RefSpatial、指令調優(大小為 RefSpatial QA 的二十分之一)[115, 116] 和參考數據集 [74] 進行訓練。值得注意的是,在第二步中,RefSpatial 算法與 RGB 和 RGB-D 輸入一起被復用,以強制圖像編碼器學習超越深度線索的空間理解能力。因此,該模型支持純 RGB 和 RGB-D 推理,并可選擇通過相對深度估計模型 [59] 進行深度推斷。最后,RFT 階段使用來自 RefSpatial 的多步推理數據進行訓練。


RoboRefer 的實現細節如下。

架構

采用 NVILA [37] 作為基礎模型,包含一個視覺編碼器、一個 LLM 和一個多模態投影器。

視覺編碼器。用與 NVILA [37] 的 siglip-so400m-patch14-448 [62] 相同的圖像編碼器,支持 448 × 448 分辨率,從而獲得更豐富的視覺細節。該圖像編碼器并非簡單地將圖像調整到固定分辨率并生成相同數量的 tokens,而是以動態分辨率處理輸入,通過更精細的塊劃分,從更高分辨率的圖像中生成更多視覺 tokens。這實現了細粒度的視覺語言理解,這對于像點預測這樣需要超越 VQA 的詳細感知的任務至關重要。還集成一個專用的深度編碼器,其結構與圖像編碼器鏡像,并用其權重進行初始化。它將相對深度圖編碼為特殊圖像,提供空間線索以增強 3D 理解。

大語言模型。采用 NVILA [37] 的 Qwen2 LLM 主干模型,該模型在監督訓練過程中已使用大量數據進行全面微調。這賦予模型豐富的視覺知識,有助于后續的 3D 空間理解和推理任務。

多模態投影器。為了對齊多模態表征(例如,圖像到語言,深度到語言),使用與 NVILA [37] 相同的線性連接器,其性能優于 Q-Former,從而使 LLM 能夠專注于視覺理解并提升泛化能力。圖像和深度嵌入使用獨立的連接器,確保特定模態的處理,并避免跨模態干擾。

訓練數據

重點介紹每個階段使用的訓練數據,包括每個數據集的樣本數量和總數。

SFT 階段。具體來說,在 SFT 階段的第一步,即深度對齊,我用包含 2.5M 個樣本的 RefSpatial (RGB-D) 數據集訓練深度投影器,以對齊深度和語言空間。為了提高訓練效率,對多輪對話進行切片(每個樣本最多 15 輪),經過后處理后獲得 3.4M 個樣本用于訓練模型。在第二步,即通過全參微調增強空間理解時,同時使用 RefSpatial (RGB) 和 RefSpatial (RGB-D) 數據集,切片后獲得 6.8M 個樣本。為了進一步提升指令跟隨和參考能力加入了輔助數據集:965,000 個樣本來自指令調優數據(LLaVA- 1.5 [116]、LRV [115]),321,000 個樣本來自參考數據集(RefCOCO/+/g [74]),176,000 個樣本來自 SAT [4] 基準訓練集,以及 127,000 個樣本來自 EmbSpatial [22] 基準訓練集。這些新增數據集有助于彌合 RefSpatial 和基準樣式查詢之間的分布差距。切片后,此階段使用的樣本總數達到 8.5M。

RFT 階段。在 RFT 階段,用標注了詳細推理過程(包括關鍵中間步驟和最終答案)的 RefSpatial 數據訓練模型。為了確保訓練效率和有效學習,用中等難度的樣本(通常涉及三個推理步驟),最終形成一個包含 100,000 個樣本的數據集。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/90548.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/90548.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/90548.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【Unity】MiniGame編輯器小游戲(十)連連看【Link】

更新日期:2025年7月9日。 項目源碼:獲取項目源碼 索引 連連看【Link】一、游戲最終效果二、玩法簡介三、正式開始1.定義游戲窗口類2.規劃游戲窗口、視口區域3.方塊 Block①.定義方塊類②.生成方塊所有類型③.生成連連看棋盤④.繪制方塊陣列4.連線 Line①.點擊方塊連線②.嘗試…

Enable ADB Debugging Before Connect

If you don’t enable Developer Options and turn on USB Debugging before plugging in the cable, adb devices won’t detect the phone because the Android system doesn’t trust the connection yet. Here’s what you need to do step-by-step to fix this:? 1. Enab…

從互聯網電腦遷移Dify到內網部署Dify方法記錄

一、在互聯網電腦上準備遷移文件1. 保存 Docker 鏡像# 獲取所有 Dify 相關鏡像(根據實際容器名調整) docker ps --filter "namedify" --format "{{.Image}}" | sort -u > dify-images.list# 保存鏡像為 .tar 文件 docker save $(…

【EGSR2025】材質+擴散模型+神經網絡相關論文整理隨筆(一)

MatSwap: Light-aware material transfers in images介紹任務:輸入一張拍攝圖像、示例材質紋理圖像(這里跟BRDF無關,通常我們講到材質一般指的是SVBRDF,但是這里的材質指的只是紋理)、用戶為拍攝圖像指定的遮罩區域&am…

餓了么el-upload上傳組件報錯:TypeError: ***.upload.addEventListener is not a function

在本地上傳沒有報這個錯誤,部署到服務器后會報這個錯誤,一開始以為是服務器配置等什么原因,但是一想這個報錯應該還是在前端,接口都還沒請求,不可能到后臺去,后面搜了好幾個AI也沒有找到想要的答案或解決方…

淘寶直播與開源鏈動2+1模式AI智能名片S2B2C商城小程序的融合發展研究

摘要:本文聚焦于淘寶直播這一以“網紅”內容為主的社交電商平臺,深入分析其特點與流量入口優勢。同時,引入開源鏈動21模式AI智能名片S2B2C商城小程序這一新興概念,探討二者融合的可能性與潛在價值。通過分析融合過程中的技術、市場…

【macos用鏡像站體驗】Claude Code入門使用教程和常用命令

一、下載安裝nodejs # macOS 用戶安裝nodejs brew update brew install node二、安裝官方Claude Code # 安裝 Claude Code npm install -g anthropic-ai/claude-code # 查看版本 claude --version三、正式使用(國內鏡像站) 今天發現的一個鏡像站&…

算法學習筆記:11.冒泡排序——從原理到實戰,涵蓋 LeetCode 與考研 408 例題

在排序算法的大家族中,冒泡排序是最基礎也最經典的算法之一。它的核心思想簡單易懂,通過重復地走訪待排序序列,一次比較兩個相鄰的元素,若它們的順序錯誤就把它們交換過來,直到沒有需要交換的元素為止。雖然冒泡排序的…

Linux小白學習基礎內容

記錄第一天重新學習2025/7/10 15:467/10 17:02這里面一個命令帶多個參數舉例(多個參數之間用空格隔開)ls(命令) ~ / /etc/(參數) :這里就是同時查看主機的家目錄,根目…

從零開始搭建深度學習大廈系列-2.卷積神經網絡基礎(5-9)

(1)本人挑戰手寫代碼驗證理論,獲得一些AI工具無法提供的收獲和思考,對于一些我無法回答的疑問請大家在評論區指教; (2)本系列文章有很多細節需要弄清楚,但是考慮到讀者的吸收情況和文章篇幅限制,選擇重點進行分享&…

【iOS設計模式】深入理解MVC架構 - 重構你的第一個App

目錄 一、MVC模式概述 二、創建Model層 1. 新建Person模型類 2. 實現Person類 三、重構ViewController 1. 修改ViewController.h 2. 重構ViewController.m 四、MVC組件詳解 1. Model(Person類) 2. View(Storyboard中的UI元素&#x…

前端項目集成lint-staged

lint-staged (lint-staged) 這個插件可以只針對進入git暫存區中的代碼進行代碼格式檢查與修復,極大提升效率,避免掃描整個項目文件,代碼風格控制 eslint prettier stylelint 看這兩篇文章 前端項目vue3項目集成eslint9.x跟prettier 前端項…

李宏毅genai筆記:模型編輯

0 和post training的區別直接用post training的方法是有挑戰的,因為通常訓練資料只有一筆而且之后不管問什么問題,都有可能只是這個答案了1 模型編輯的評估方案 reliability——同樣的問題,需要是目標答案generalization——問題(…

Oracle:union all和union區別

UNION ALL和UNION在Oracle中的主要區別體現在處理重復記錄、性能及結果排序上:處理重復記錄?UNION?:自動去除重復記錄,確保最終結果唯一。?UNION ALL?:保留所有記錄,包括完全重復的行。性能表現?UNION?&#xff…

[C#/.NET] 內網開發中如何使用 System.Text.Json 實現 JSON 解析(無需 NuGet)

在實際的企業開發環境中,尤其是內網隔離環境,開發人員經常面臨無法使用 NuGet 安裝外部包的問題。對于基于 .NET Framework 4.8 的應用,JSON 解析是一個常見的需求,但初始項目中往往未包含任何 JSON 處理相關的程序集。這時&#…

JVM(Java 虛擬機)的介紹

JVM原理JVM 核心架構與工作流程1. 類加載機制(Class Loading)2. 運行時數據區(Runtime Data Areas)堆(Heap)方法區(Method Area):元空間(Metaspace)公共區域虛…

Qt 信號槽的擴展知識

Qt 信號槽的擴展知識一、信號與槽的重載Qt信號與槽的重載問題注意事項示例場景二、一個信號連接多個槽1、直接連接多個槽2、使用lambda表達式連接3、連接順序控制4、斷開特定連接5、自動連接方式三、 多個信號連接一個槽基本連接語法使用QSignalMapper區分信號源(Qt…

鏈表算法之【合并兩個有序鏈表】

目錄 LeetCode-21題 LeetCode-21題 將兩個升序鏈表合并成一個新的升序鏈表并返回 class Solution {public ListNode mergeTwoLists(ListNode list1, ListNode list2) {if (list1 null)return list2;if (list2 null)return list1;ListNode dummyHead new ListNode();ListN…

Linux - firewall 防火墻

🔥 什么是 firewalld?firewalld 是一個動態管理防火墻的守護進程(daemon),它提供了一個 D-Bus 接口來管理系統或用戶的防火墻規則。與傳統的靜態 iptables 不同,firewalld 支持:區域&#xff08…

【GESP】C++二級真題 luogu-B4356 [GESP202506 二級] 數三角形

GESP C二級,2025年6月真題,多重循環,難度★?☆☆☆。 題目題解詳見:【GESP】C二級真題 luogu-B4356 [GESP202506 二級] 數三角形 | OneCoder 【GESP】C二級真題 luogu-B4356 [GESP202506 二級] 數三角形 | OneCoderGESP C二級&…