ICRA-2025 | 視覺預測助力機器人自主導航！NavigateDiff：視覺引導的零樣本導航助理

論文：Yiran Qin $^{1,2}$ , Ao Sun $^{2}$ , Yuze Hong $^{2}$ , Benyou Wang $^{2}$ , Ruimao Zhang $^{1}$
單位： $^{1}$ 中山大學， $^{2}$ 香港中文大學深圳校區
論文標題：NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants
論文鏈接：https://arxiv.org/pdf/2502.13894
項目主頁：https://21styouth.github.io/NavigateDiff/

論文主要解決的問題是家庭機器人在導航不熟悉環境時面臨的挑戰，特別是如何在不進行大量地圖繪制和探索的情況下，實現零樣本導航。

該問題的研究難點包括：

論文提出了NavigateDiff導航框架，旨在通過視覺預測器將高層次的任務推理與低層次的機器人控制分離，從而實現可泛化的導航。

預測器結合了多模態大模型（MLLM）和未來幀預測模型，能夠處理當前觀察、目標圖像和指令，并生成預測的未來圖像。
多模態大模型：輸入當前觀察 $x_{t}$ 、目標圖像 $x_{g}$ 和文本指令 $y$ ，生成特殊圖像標記，然后傳遞給未來幀預測模型。
未來幀預測模型：將特殊圖像標記轉換為語義相關的表示 $f^{N}$ ，并將其與從2D編碼器提取的特征 $f^{H}$ 融合。融合特征 $f^{*}$ 用于條件化編輯型擴散模型生成未來圖像：
$f^{*} = H(Q(h_{<\text{image}>}), E_{v}(x_{h}))$
其中， $Q$ 表示Q-Former， $E_{v}$ 是二維編碼器， $H$ 是融合塊，包含兩個自注意力塊、一個交叉注意力塊和一個MLP層。
訓練目標是通過最小化噪聲與去噪結果之間的差異來優化預測器：
$\mathcal{L}_{\text{predictor}} = E_{\mathcal{E}(x_{t+k}), \mathcal{E}(x_{t}), \epsilon \sim \mathcal{N}(0,1), s} [\|\epsilon - \epsilon_{\delta}(s, [z_{s}, \mathcal{E}(x_{t})] + f^{*})\|_{2}^{2}]$
其中， $\epsilon$ 表示未縮放的噪聲， $s$ 表示采樣步長， $z_{s}$ 是步驟 $s$ 的潛在噪聲， $\mathcal{E}(x_{t})$ 對應于當前觀察的條件。

盡管預測器提供了視覺模態內的未來狀態規劃，但仍需要訓練一個低層次控制器來選擇適當的導航動作。
圖像融合策略：在訓練階段，將當前觀察 $x_{t}$ 與未來幀 $x_{t+k}$ 和目標圖像 $x_{g}$ 拼接并通過可訓練的二維編碼器進行處理，以獲得融合表示。使用強化學習（如PPO）訓練導航策略：
$s_{t} = \pi([\,f_{p}, f_{o}, a_{t-1}\,] | h_{t-1})$
其中， $s_{t}$ 表示智能體當前狀態的嵌入， $h_{t-1}$ 表示策略 $\pi$ 中來自前一步的循環層的隱藏狀態。
測試階段：使用訓練好的預測器和融合導航策略在新環境中進行導航。生成未來幀后，執行融合導航策略以生成具體的動作序列。
融合策略設計：提出了混合融合方法，比較了其與早期融合和晚期融合的性能。混合融合方法在像素級建立語義關聯，并在時間維度上分離局部和全局信息，從而實現更好的性能。

評估：使用三種圖像級指標（Frechet Inception Distance, Peak Signal-to-Noise Ratio, Learned Perceptual Image Patch Similarity）評估預測器的生成能力。結果顯示，預測器在所有指標上均優于基線模型。

結果：
- 在GIBSON數據集上，NavigateDiff在Success Rate (SR) 和 Success weighted by Path Length (SPL) 上表現優異。
- 在MP3D數據集上進行跨域評估，NavigateDiff在較小的訓練數據集上表現出色，超越了全數據集上的現有方法。
跨任務評估：
- 數據集：在GIBSON環境中訓練的模型直接轉移到MP3D環境中進行評估。
- 結果：NavigateDiff在MP3D數據集上實現了68.0%的SR和41.1%的SPL，優于其他方法。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/901000.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/901000.shtml
英文地址，請注明出處：http://en.pswp.cn/news/901000.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！