人大BABEC地平線高效率具身導航!Aux-Think:探索視覺語言導航中數據高效的推理策略

  • 作者: Shuo Wang1,3^{1,3}1,3, Yongcai Wang1^{1}1, Wanting Li1^{1}1 , Xudong Cai1^{1}1, Yucheng Wang3^{3}3, Maiyue Chen3^{3}3, Kaihui Wang3^{3}3, Zhizhong Su3^{3}3, Deying Li1^{1}1, Zhaoxin Fan2^{2}2
  • 單位:1^{1}1中國人民大學,2^{2}2北京微芯區塊鏈與邊緣計算研究院,3^{3}3地平線機器人
  • 論文標題:Aux-Think: Exploring Reasoning Strategies for Data-Efficient Vision-Language Navigation
  • 論文鏈接:https://arxiv.org/pdf/2505.11886
  • 項目主頁:https://horizonrobotics.github.io/robot_lab/aux-think/
  • 代碼鏈接:https://github.com/HorizonRobotics/robo_orchard_lab/tree/master/projects/aux_think

主要貢獻

  • 首次系統地比較了視覺語言導航(VLN)任務中不同推理策略的性能,揭示了推理時間推理崩塌(Inference-time Reasoning Collapse,IRC)問題,即在推理時引入顯式推理會降低導航性能。
  • 提出了Aux-Think框架,該框架在訓練時使用思維鏈(Chain-of-Thought,CoT)作為輔助監督信號,而在推理時直接預測動作,避免了推理錯誤對導航性能的影響,實現了在數據效率和成功率之間的最佳權衡。
  • 發布了R2R-CoT-320k數據集,這是首個針對VLN任務的思維鏈標注數據集,包含超過32萬條多樣化的推理軌跡,為研究推理在VLN中的作用提供了豐富資源。

研究背景

  • 視覺語言導航(VLN)是讓機器人能夠理解自然語言指令并在復雜真實環境中導航的關鍵任務。近年來,基于大型預訓練模型(LLMs)和視覺語言模型(VLMs)的研究取得了顯著進展,提高了模型的泛化能力和指令對齊能力。
  • 然而,推理策略在導航任務中的作用尚未得到充分研究,盡管思維鏈(CoT)在靜態任務(如視覺問答)中取得了成功,但其在VLN中的應用仍面臨挑戰。

方法

問題設定

論文研究了連續環境中的單目視覺語言導航(VLN-CE),目標是讓智能體根據自然語言指令在逼真的室內環境中導航。該任務強調對未見環境的泛化能力,并支持正向和反向導航,全面測試空間推理和語言理解能力。在每個時間步,智能體接收以下輸入:

  • 自然語言指令(通常是一段短文本,指定導航目標);
  • 當前視角的RGB圖像;
  • 歷史觀測(從所有歷史幀中均勻采樣的8幀,始終包括第一幀)。
    智能體需要選擇一個動作(例如前進、左轉/右轉特定角度或停止),目標是生成盡可能準確和高效的動作序列,直到到達目標位置。

R2R-CoT-320k 數據集構建

論文發布了R2R-CoT-320k數據集,首個針對VLN任務的思維鏈(CoT)標注數據集。該數據集基于R2R-CE基準構建,使用Habitat模擬器重建導航軌跡。

  • 每個樣本包含當前視角、歷史視覺上下文、對應指令和真實動作。使用Qwen-2.5-VL-72B模型為每個導航樣本生成詳細的CoT標注。
  • CoT標注的格式為帶有<think><answer>標簽的推理軌跡,以符合近期推理模型的標準。

系統性研究推理策略對VLN的影響

本文系統地研究了三種推理策略對VLN的影響:

  • No-Think(無思考):智能體直接根據當前觀測和指令預測下一個動作,不進行中間推理。
  • Pre-Think(先思考):智能體首先根據指令和當前觀測生成顯式推理軌跡,然后基于推理結果預測動作。
  • Post-Think(后思考):智能體首先預測動作,然后生成解釋決策的推理軌跡。

通過實驗發現,Pre-Think和Post-Think策略的表現顯著低于No-Think策略,這表明在動態環境中,推理時間推理(CoT)是不可靠的。本文將這種現象稱為“推理時間推理崩塌”(IRC)。此外,文章還發現,在訓練時適度降低CoT部分的損失權重可以略微提升性能,這表明在訓練時對推理的重視程度是一個關鍵因素。

Aux-Think:推理感知協同訓練策略

為了解決CoT訓練對VLN的挑戰,提出了Aux-Think框架。該框架在訓練時僅使用CoT作為輔助監督信號,而在推理時直接預測動作,避免了推理錯誤對導航性能的影響。具體來說,Aux-Think框架包括以下三個任務:

  • 基于CoT的推理:訓練模型根據指令、當前觀測和歷史觀測生成CoT軌跡,以加強語言、視覺和動作之間的聯系。
  • 基于指令的推理:訓練模型根據一系列視覺觀測重構對應的指令,提供額外的語義監督。
  • 遞推水平動作規劃:作為主要任務,模型根據指令、當前觀測和導航歷史預測接下來的n個動作,鼓勵短期預測并保持對新觀測的反應能力。

在訓練過程中,通過改變提示(prompt)在不同任務之間切換。最終的損失函數是上述三個任務損失的總和。在推理時,僅激活動作預測部分,模型直接預測接下來的n個動作并執行第一個動作,確保快速、反應式的導航,避免推理開銷。

實驗結果

實驗設置

  • 在VLN-CE基準(R2R-CE和RxR-CE)上進行評估,遵循標準的VLN-CE設置。所有方法都在R2R的val-unseen分割和RxR的val-unseen分割上進行評估。
  • 評估指標包括導航成功率(SR)、路徑長度加權成功率(SPL)、導航誤差等。

實現細節

  • 使用NVILA-lite 8B作為基礎預訓練模型,該模型包括一個視覺編碼器(SigLIP)、一個投影器和一個語言模型(Qwen 2)。
  • 通過監督微調從NVILA-lite的第二階段開始訓練VLN模型,總共訓練了一個epoch(約60小時),學習率為1e-5。
  • 動作空間設計為四個類別:前進、左轉、右轉和停止,其中前進動作包括25cm、50cm和75cm的步長,轉向動作的旋轉角度為15°、30°和45°。

在VLN-CE基準上的比較

  • 在R2R-CE數據集的val-unseen分割上,Aux-Think在不使用額外數據時取得了46.0%的成功率,在使用1600K額外數據時取得了54.8%的成功率,均優于其他基于大型模型的方法。

  • 在RxR-CE數據集的val-unseen分割上,Aux-Think在成功率上超過了Uni-NaVid和NaVILA,同時使用的訓練數據更少(1920K vs. 5900K和3100K)。
  • 這些結果表明,Aux-Think在有限數據下通過多級推理監督信號實現了更好的泛化能力。

不同推理策略的比較

本文在R2R-CE數據集上比較了不同推理策略的性能。

  • 結果表明,Pre-Think和Post-Think策略的成功率顯著低于No-Think策略。
  • Pre-Think策略由于動作預測依賴于生成的CoT,因此低質量或學習不佳的CoT會直接影響動作的準確性。
  • Post-Think策略雖然在一定程度上緩解了這個問題,但次優的CoT表示仍然會降低整體性能。
  • 相比之下,Aux-Think通過將CoT和動作學習解耦,并將CoT知識隱式地內化到特征中,從而避免了推理錯誤對導航性能的影響。

消融研究

不同輔助任務和遞推水平動作規劃的影響

  • 引入CoT推理可以顯著提升模型性能。
  • 進一步添加非CoT推理可以進一步增強性能。
  • 完整的模型(包含遞推水平動作規劃)在SPL和SR等指標上取得了最佳結果,表明長期規劃與隱式推理相結合可以產生最穩健的行為。
遞推水平動作規劃中步數的影響

  • 當預測步數為3時,模型取得了最佳性能。增加預測步數會導致性能下降,這可能是由于單目觀測的感知范圍有限,缺乏額外的全局知識,使得長水平預測更具挑戰性,可能導致模型生成次優或坍塌的導航策略。

結論與未來工作

  • 結論
    • 通過系統研究VLN中的推理策略,發現了推理時間推理崩塌問題,并提出了Aux-Think框架來解決這一問題。
    • 該框架通過在訓練時使用CoT作為輔助監督信號,在推理時直接預測動作,實現了在數據效率和導航性能之間的良好平衡。R2R-CoT-320k數據集的發布也為相關研究提供了重要資源。
  • 未來工作
    • 目前的研究在受控的、廣泛采用的設置下評估了Aux-Think的數據效率,未來可以擴展到更大的導航數據集,并引入更豐富的輸入(如深度、全景、定位等)。
    • 此外,本文尚未找到一種有效的方法通過強化學習同時提高CoT和動作質量,未來可以探索使用輕量級VLMs(如SmolVLM2)進行更可擴展的策略學習。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/92780.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/92780.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/92780.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

01. maven的下載與配置

1.maven的下載與初步配置a.下載并配置倉庫地址下載maven壓縮包&#xff0c;并解壓&#xff0c;解壓后應有如下幾個文件點擊conf&#xff0c;打開settings.xml&#xff08;我用的VScode打開的&#xff09;&#xff0c;我們需要聲明一下內部倉庫的地址&#xff0c;以及私服的一些…

1701. 請輸出所有的3位對稱數

問題描述請輸出所有的 33 位對稱數&#xff0c;對稱數指的是一個整數 nn 正過來和倒過來是一樣的&#xff0c;比如&#xff1a;101、121、282…101、121、282…請從小到大輸出符合條件的3位對稱數&#xff0c;每行 11 個。輸入無。輸出從小到大按題意輸出符合條件的數&#xff…

C++算法·排序

排序的定義 這個不用說吧 就是根據某個條件對一個數列進行有序的操作 例如要求從小到大排序、從大到小排序等等 排序的分類 比較排序(Comparison(Comparison(Comparison Sorts)Sorts)Sorts) 特點&#xff1a;通過元素間的比較決定順序 時間復雜度下限&#xff1a;O(nO(nO(n…

微服務項目中的注冊中心——Nacos配置

從零開始&#xff1a;Nacos服務注冊與配置中心實戰教程 Nacos&#xff08;Dynamic Naming and Configuration Service&#xff09;是阿里巴巴開源的服務發現、配置管理工具&#xff0c;集注冊中心與配置中心于一體&#xff0c;廣泛應用于微服務架構。本文將從環境搭建到實戰配…

日期格式化成英文月,必須指定語言環境

如果不指定Locale.ENGLISH 在有些JDK下 輸出6月 INV USD 314,791.77,DUE 25-07 [PAID USD 503,389.56 ON 2025-07-16]Mar INV USD 52,042.00,DUE 25-07 [PAID USD 52,042.00 ON 2025-08-11]所以必…

【6】Transformers快速入門:Transformer 的注意力層 是啥?

一句話看懂注意力層作用&#xff1a;讓 AI 像人一樣 “抓重點” &#xff08;比如讀“貓追老鼠”&#xff0c;自動聚焦 “追” 這個動作&#xff0c;忽略無關詞&#xff09;1. 為什么需要注意力&#xff1f; 問題場景&#xff08;翻譯例子&#xff09;&#xff1a; 英文&#x…

集合,完整擴展

目錄 前言&#xff1a; 一、List接口 1.1 ArrayList 1.2 LinkedList 1.3 Vector 二、Set接口 2.1 HashSet 2.2 TreeSet 2.3 LinkedHashSet 三、應用選擇 前言&#xff1a; 本篇文章重點梳理 List 接口和 Set 接口的核心內容&#xff0c;結合代碼案例幫大家吃透它們的…

【doris基礎與進階】3-Doris安裝與部署

安裝前的準備 在windows系統上通過vmwareubuntu 22.04的方式進行安裝&#xff0c;由于資源有限&#xff0c;在同1臺機器上同時安裝fe和be&#xff08;broker本次不安裝&#xff0c;極簡化安裝&#xff09;&#xff0c;安裝版本為2.1.10&#xff0c;2.x版本架構不會有大的變化&a…

關于數據結構6-哈希表和5種排序算法

哈希表1哈希算法將數據通過哈希算法映射成一個鍵值&#xff0c;存取都在同一個位置實現數據的高效存儲和查找&#xff0c;將時間復雜度盡可能降低至O(1)2哈希碰撞多個數據通過哈希算法得到的鍵值相同&#xff0c;成為產生哈希碰撞3哈希表&#xff1a;構建哈希表存放0-100之間的…

AWT與Swing深度對比:架構差異、遷移實戰與性能優化

全面對比分析Java AWT與Swing GUI框架的架構差異、性能表現和適用場景&#xff0c;提供完整的AWT到Swing遷移實戰指南&#xff0c;包含15代碼示例、性能測試數據、最佳實踐建議&#xff0c;助你做出明智的技術選型和實現平滑遷移。 Java AWT, Swing, GUI框架對比, 代碼遷移, 性…

git倉庫檢測工具

介紹 Gitleaks 是一款用于檢測git 倉庫、文件以及任何你想通過 git 傳遞的信息(例如密碼、API 密鑰和令牌)的工具stdin。如果你想了解更多關于檢測引擎工作原理的信息,請查看這篇博客:正則表達式(幾乎)就是你所需要的一切。 ? ~/code(master) gitleaks git -v○│╲│…

【4】Transformers快速入門:自然語言模型 vs 統計語言模型

一句話關系總結 統計語言模型 自然語言模型的“數學基礎” &#xff08;就像加減乘除是數學的基礎&#xff0c;統計模型是AI學說話的基礎工具&#xff09;區別對比表&#xff08;小白版&#xff09;維度統計語言模型自然語言模型本質用數學公式算句子概率用神經網絡模仿人腦理…

[激光原理與應用-252]:理論 - 幾何光學 - 傳統透鏡焦距固定,但近年出現的可變形透鏡(如液態透鏡、彈性膜透鏡)可通過改變自身形狀動態調整焦距。

一、液態透鏡&#xff1a;電潤濕效應驅動曲率變化基本結構液態透鏡由兩種互不相溶的液體&#xff08;如導電水溶液與絕緣硅油&#xff09;封裝在透明圓筒形容器中構成。容器壁經疏水處理&#xff0c;使水溶液呈圓頂型聚集在中心&#xff0c;與硅油形成凸狀曲面。工作原理電潤濕…

wordpress數據庫導入時的#1044錯誤

在wordpress網站數據庫文件.sql導入到數據庫時&#xff0c;發生錯誤&#xff0c;錯誤提示如下&#xff1a;#1044 – Access denied for user ‘wodepress_com’’localhost’ to database ‘wodepress’。 這個錯誤表明用戶wodepress_com沒有權限訪問數據庫wodepress。以下是解…

微服務ETCD服務注冊和發現

1.什么是注冊中心 注冊中心主要有三種角色&#xff1a; 服務提供者&#xff08;RPC Server&#xff09;&#xff1a;在啟動時&#xff0c;向 Registry 注冊自身服務&#xff0c;并向 Registry 定期發送心跳匯報存活狀態。 服務消費者&#xff08;RPC Client&#xff09;&…

計算機網絡---默認網關(Default Gateway)

一、默認網關的定義 默認網關&#xff08;Default Gateway&#xff09;是一個網絡設備&#xff08;通常是路由器、防火墻或三層交換機&#xff09;的IP地址&#xff0c;它是本地網絡中的設備訪問其他網絡&#xff08;如外網、其他子網&#xff09;時&#xff0c;數據報文的“第…

OpenBMC中libgpio架構與驅動交互全解析:從硬件映射到應用控制

1. libgpio概述與核心定位 libgpio作為OpenBMC中GPIO管理的核心庫&#xff0c;扮演著連接硬件驅動與上層應用的橋梁角色。它通過標準化的接口抽象了不同硬件平臺的GPIO操作細節&#xff0c;使得電源控制、傳感器監控等關鍵功能能夠以統一的方式訪問GPIO資源。 1.1 libgpio在Ope…

開放原子開源生態大會:麒麟信安加入openEuler社區AI聯合工作組,聚焦操作系統開源實踐與行業賦能

7月23日&#xff0c;由開放原子開源基金會主辦的2025開放原子開源生態大會在京開幕&#xff0c;大會以“開源賦能產業&#xff0c;生態共筑未來”為主題。工業和信息化部副部長熊繼軍、北京市人民政府副秘書長許心超出席大會并致辭。作為開放原子開源基金會黃金捐贈人和開源重要…

Lyapunov與SAC算法的數學結構對比:從二次漂移到TD損失

一、李雅普諾夫優化中二次漂移函數的推導 李雅普諾夫優化的核心是通過設計 “李雅普諾夫函數” 和 “漂移項”&#xff0c;保證系統狀態收斂到穩定點。以下以線性時不變系統為例&#xff08;非線性系統推導邏輯類似&#xff0c;僅動力學方程更復雜&#xff09;&#xff0c;推導…

WireShark:非常好用的網絡抓包工具

文章目錄一、寫在前面二、安裝三、使用1、入門使用&#xff08;1&#xff09;打開軟件&#xff08;2&#xff09;右鍵網卡&#xff0c;Start Capture(開始捕獲)2、界面詳細介紹3、過濾器設置一、寫在前面 Wireshark是使用最廣泛的一款「開源抓包軟件」&#xff0c;常用來檢測網…