3D語義地圖中的全局路徑規劃!iPPD:基于3D語義地圖的指令引導路徑規劃視覺語言導航

  • 作者: Zehao Wang, Mingxiao Li, Minye Wu, Marie-Francine Moens, Tinne Tuytelaars

  • 單位:魯汶大學電氣工程系,魯汶大學計算機科學系

  • 論文標題: Instruction-guided path planning with 3D semantic maps for vision-language navigation

  • 出版信息:Neurocomputing 625 (2025) 129457

  • 論文鏈接:https://www.sciencedirect.com/science/article/abs/pii/S0925231225001298?via%3Dihub

主要貢獻

  • 引入高分辨率3D語義地圖:提出使用高分辨率的3D語義地圖作為環境表示,相比傳統的2D地圖或拓撲地圖,能夠保留更多環境信息,為導航提供更豐富的語義和空間上下文。

  • 提出模塊化導航框架(iPPD):設計了一種模塊化的導航方法,包含路徑提議和路徑評分兩個階段。通過指令約束的路徑提議算法生成候選路徑,并利用基于Transformer的評分模型選擇最佳路徑,有效利用全局信息,避免了局部決策的誤差累積。

  • 創新的路徑特征編碼方案:提出了一種針對3D語義地圖的路徑特征編碼方法,通過“對象羅盤”感知局部環境,并結合PointNet和Transformer模型對路徑特征進行編碼,增強了路徑與語言指令的對齊能力。

  • 全局路徑規劃方法:這是首個基于3D語義地圖的全局路徑規劃方法,通過預探索階段構建的全局地圖進行路徑規劃,顯著提升了語言引導導航任務的性能,減少了訓練需求,并展示了其在實際應用中的潛力。

背景知識

  • 視覺語言導航(VLN)的目標是讓機器人能夠理解人類自然語言指令,并在環境中成功導航以執行這些指令。這需要整合語言理解、視覺感知和決策能力。

  • 傳統的 VLN 方法大多基于離散環境假設,即導航位置是預先定義好的,但在現實場景中,這種假設限制了機器人的靈活性和適應性。

  • 因此,研究者們開始探索連續環境中的 VLN 任務,以縮小與實際應用的差距。

研究方法

論文提出了一種名為 Instruction-aware Path Proposal and Discrimination (iPPD) 的新方法,該方法包含兩個主要階段:語義地圖構建和基于語言的路徑規劃。

1. 語義地圖構建

在預探索階段,機器人在環境中隨機行走,利用 RGBD(彩色圖像和深度圖像)傳感器收集數據,并通過預訓練的語義分割模型(Mask2Former)對每個時間步的觀察結果進行語義分割。這些分割結果被投影到 3D 點云中,并結合相機姿態信息,動態更新到全局 3D 語義地圖中。地圖的分辨率設置為 0.1 米,并通過多視圖一致性約束和最大池化操作來減少語義預測誤差。

2. 基于語言的路徑規劃

路徑規劃階段包含兩個模塊:路徑提議和路徑評分。

  • 路徑提議:受經典粒子濾波算法啟發,論文提出了一種基于指令約束的路徑提議算法。該算法利用從指令中提取的稀疏動作-對象序列(如“向左轉”、“觀察沙發”)來引導粒子的運動。粒子在地圖中模擬機器人運動,生成一系列候選路徑。這些路徑隨后被編碼并評分。

  • 路徑評分:論文設計了一種基于 Transformer 的語言驅動判別器,用于評估候選路徑并選擇最佳路徑作為最終結果。路徑特征編碼方案專門針對 3D 語義地圖設計,能夠將路徑上的環境信息編碼為特征表示。這些特征與語言指令對齊,以驗證路徑是否符合指令。

實驗

實驗使用了 VLN-CE 數據集,并在驗證集上進行了評估。評估指標包括歸一化動態時間彎曲(nDTW)、成功率(SR)、成功加權路徑長度(SPL)等。

關鍵結論
  • 性能提升:iPPD 方法在驗證集上的表現顯著優于其他方法,尤其是在 nDTW 和 SR 指標上。例如,在驗證集的 seen 環境中,iPPD 的 nDTW 為 0.66,SR 為 0.51,而在 unseen 環境中,nDTW 為 0.63,SR 為 0.42。

  • 地圖質量的影響:通過對比使用構建的語義地圖和使用真實語義地圖的模型性能,論文發現構建的語義地圖在性能上與真實地圖相當,表明其包含的語義信息足以支持導航任務。

  • 路徑提議策略的影響:論文還比較了不同的路徑提議策略,包括隨機行走、考慮障礙物的提議策略等。結果表明,論文提出的策略在召回率和路徑形狀相似性之間取得了較好的平衡。

討論與未來工作

盡管 iPPD 方法在預探索環境中的 VLN 任務中表現出色,但仍有改進空間。論文指出,未來的研究方向包括:

  1. 提高語義地圖的精度,例如包含實例級信息。

  2. 探索更先進的語言模型以增強指令理解能力。

  3. 研究更高效的路徑規劃算法,以減少對評分模型的依賴。

  4. 改進地圖管理技術,以支持更大規模環境的導航。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/901679.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/901679.shtml
英文地址,請注明出處:http://en.pswp.cn/news/901679.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

《AI大模型應知應會100篇》第20篇:大模型倫理準則與監管趨勢

第20篇:大模型倫理準則與監管趨勢 摘要 隨著人工智能(AI)技術的飛速發展,尤其是大模型(如GPT、PaLM等)在自然語言處理、圖像生成等領域的廣泛應用,AI倫理問題和監管挑戰日益凸顯。本文將梳理當…

【Ai】dify:Linux環境安裝 dify 詳細步驟

一、什么是dify Dify 是一個 開源的大語言模型(LLM)應用開發平臺,旨在幫助開發者快速構建基于 AI 的應用程序,例如智能對話助手、知識庫問答、內容生成工具等。它提供了可視化的流程編排、模型集成、數據管理等功能,降低了開發門檻,支持快速迭代和部署。 核心功能與特點…

CentOS 操作系統下搭建 tsung性能測試環境

寫在前面 為何這么安裝,實際就是這么做的,這是經過好幾次實踐得出的經驗總結。 這為了讓大家更清楚的知道怎么安裝 tsung性能測試環境,按步照搬的安裝即可。 步驟 1、 下載軟件安裝包 CentOS-6.0-x86_64-bin-DVD1.iso jdk-6u4-linux-x64-rpm.bin erlang: otp_src_1…

Vulkanised

Vulkanised 1. About VulkanisedReferences The Premier Vulkan Developer Conference premier /?premi?(r)/ n. 總理;(尤用于報章等) 首相;(加拿大的) 省總理;地區總理 adj. 第一的;首要的;最著名的;最…

C++之 動態數組

一、新建一個動態數組 數組名和下標操作符[]的組合可以被替換成一個指向該數組的基地址的指針和對應的指針運算: int a[20]; int *x a; 指針變量 x 指向數組 a 的地址, a[0] 和 *x 都代表數組的第一個元素。 于是,根據指針運算原則&…

ubuntu1804服務器開啟ftp,局域網共享特定文件給匿名用戶

要在 Ubuntu 18.04 上設置一個 FTP 服務器,滿足以下要求: 允許匿名登錄(無需賬號密碼)。指定分享特定目錄下的文件。只允許只讀下載。 可以使用 vsftpd(Very Secure FTP Daemon)來實現。以下是詳細步驟&a…

mcp和API區別

MCP(Model Context Protocol,模型上下文協議)與傳統API(Application Programming Interface,應用程序編程接口)在技術架構、集成方式和應用場景等方面存在顯著差異,以下是主要區別的總結&#x…

高版本Android (AIDL HAL) 使用HIDL方法

目錄 修改步驟和編譯方法 注意事項 Android 11 引入了使用 AIDL 實現 HAL 的功能。 后續Android新版本,HAL默認切到了使用AIDL. 因此當導入舊HIDL實現方式時,需要做一些修改。 1.將HAL HIDL模塊拷貝到相應目錄,進行編譯 source build/envsetup.sh lunch xxx mmm 模塊路徑 1.…

基于redis 實現我的收藏功能優化詳細設計方案

基于redis 實現我的收藏功能優化詳細設計方案 一、架構設計 +---------------------+ +---------------------+ | 客戶端請求 | | 數據存儲層 | | (收藏列表查詢) | | (Redis Cluster) | +-------------------…

學習筆記 - Swfit 6.1 - 語法概覽

獲取版本號 swift -versionHello world print("Hello, world!")末尾不需要分號 值 常量(let),變量(var) var myVariable 42 myVariable 50 let myConstant 42可以顯式聲明變量類型,若沒有則隱式推斷,類似下面的Double let implicitInteger 70 let implicit…

確保連接器后殼高性能互連的完整性

本文探討了現代后殼技術如何促進高性能互連的電氣和機械完整性,以及在規范階段需要考慮的一些關鍵因素。 當今的航空航天、國防和醫療應用要求連接器能夠提供高速和緊湊的互連,能夠承受振動和沖擊,并保持對電磁和射頻干擾 (EMI/R…

第IV部分有效應用程序的設計模式

第IV部分有效應用程序的設計模式 第IV部分有效應用程序的設計模式第23章:應用程序用戶界面的架構設計23.1設計考量23.2示例1:用于非分布式有界上下文的一個基于HTMLAF的、服務器端的UI23.3示例2:用于分布式有界上下文的一個基于數據API的客戶端UI23.4要點第24章:CQRS:一種…

學習筆記十四——一文看懂 Rust 迭代器

🌀 一文看懂 Rust 迭代器 📚 目錄導航 什么是迭代器?為什么 Rust 到處都在用它?Rust 迭代器的底層邏輯是什么?適配器 vs 消費者:誰是主角?常見適配器:加工數據的全能工廠常見消費者…

QR輕量二維碼生成系統PHP源碼

源碼介紹 基于PHP編寫的二維碼在線生成系統。只需點擊幾下就可以生成您的個人二維碼!上傳您的徽標,選擇自定義顏色,生成多種類型。選擇一個圖案并下載最終的qrcode。可用格式:.png,.svg 效果預覽 源碼獲取 QR輕量二…

基于Spring MVC的客戶端真實IP獲取方案解析

文章目錄 基于Spring MVC的客戶端真實IP獲取方案解析概述核心方法解析代碼實現工作流程 IP獲取優先級策略IP有效性驗證異常處理與日志使用場景注意事項擴展建議 基于Spring MVC的客戶端真實IP獲取方案解析 概述 在Web應用開發中,準確獲取客戶端真實IP地址是常見的…

Idea集成AI:CodeGeeX開發

當入職新公司,或者調到新項目組進行開發時,需要快速熟悉項目代碼 而新的項目代碼,可能有很多模塊,很多的接口,很復雜的業務邏輯,更加有與之前自己的代碼風格不一致的現有復雜代碼 更別提很多人寫代碼不喜…

Python(18)Python中JSON的妙用:詳解序列化與反序列化原理及實戰案例

目錄 一、背景:為什么Python需要JSON?二、核心技術解析:序列化與反序列化2.1 核心概念2.2 類型映射對照表 三、Python操作JSON的四大核心方法3.1 基礎方法庫3.2 方法詳解1. json.dumps()2. json.loads()3. json.dump()4. json.load() 四、實戰…

【物聯網】基于LORA組網的遠程環境監測系統設計

基于LORA組網的遠程環境監測系統設計 演示視頻: 簡介: 1.本系統有一個主機,兩個從機。 2.一主多從的LORA組網通信,主機和兩個從機都配備了STM32F103單片機與 LoRa 模塊,主機作為中心設備及WIFI網關,負責接收和發送數據到遠程物聯網平臺和手機APP,兩個從機則負責采集數…

通過金融科技(Fintech)掌控財務:智能理財管理指南

李升偉 編譯 在當今世界,科技幾乎重塑了我們生活的方方面面,包括金錢的管理方式。金融科技(Fintech)讓個人財務管理變得前所未有的便捷、高效和智能。從追蹤支出到投資理財、提升信用評分,金融科技工具賦予個人掌控財…

html-css樣式

1. 所有類型為文本的 元素的樣式 指定所有類型為文本的 元素的樣式 /* 文本框的樣式 */ input[type"text"] { font-size: 25px;width: 80px; /* 文本框的寬度 */ padding: 25px; } font-size:字體大小 width:文本框寬度 padding&#…