基于跨模態地圖學習的視覺語言導航

?前言

本工作開展的背景:

人類和其他物種構建類似地圖的環境表示來完成尋路:

(1)當人類只使用現成的駕駛或步行路徑到達目標時,構建認知地圖和獲取空間知識的能力就會下降;

(2)另一方面,當面對基于地標的導航指令而不是完整的路徑時,人類會建立更好的空間表示。

本工作的主要貢獻:

(1)提出了一種用于VLN任務的新系統,將地圖作為顯式的中間表示進行學習;

(2)預測語義圖:在RGB-D圖像和指令上應用跨模態注意力來學習在代理的視野之外產生幻覺信息,實現指令上的語義接地;

(3)預測路徑:在預測的語義圖和指令上應用跨模態注意力來學習預測路徑,實現指令的空間接地。

在本工作中,機器人正在構建一個認知地圖,該地圖對環境先驗進行編碼,并根據該地圖遵循指令。


一、模型整體框架

1.1 任務描述

在時間步?t?:

(1)圖片輸入:一個視野有限的幀(不是全景圖):

(2)文本輸入:指令;

(3)動作空間:向前移動0.25m、向左轉彎15^{\circ}、向右轉彎15^{\circ} 和停止。


1.2 模型介紹

在episode的每一步,主要工作流程:
?
(1)預測以自我為中心的本地地圖;

(2)預測以自我為中心的本地地圖上定義為一組航路點的整個路徑;

(3)代理將自己定位在當前預測的路徑上,并選擇路徑上的以下航路點作為短期目標;

(4)該目標被傳遞給現成的本地策略(DD-PPO),該策略預測下一個導航動作。

模型的整體框架如下圖所示:

可以看出,主要由以下幾部分組成:

(1)文本編碼器:預訓練的BERT,負責提取指令特征?X?;

(2)語義預測模塊:上圖中的藍色部分,包括語義分割器、地面投影、UNet和跨模態地圖注意力模塊;

(3)路徑預測模塊:上圖中的橙色部分,包括跨模態路徑注意力模塊和UNet。


二、難點

2.1 語義預測模塊

本部分的主要是作用在代理無法直接觀察的區域中產生語義信息的幻覺,主要通過利用指令中的空間和語義描述來學習布局先驗。

流程如下:

(1)模型首先以深度觀測?D?作為輸入,將該深度觀測?D?地面投影到一個包含“已占用”、“空閑”和“空白”類別的自我中心網格?o_{t}\in \mathbb{R}^{?{h}'\times {w}'\times 3}??中。其中地面投影的過程為:首先利用相機內參將深度數據反投影為三維點云,然后按照文獻[25]的方法將每個三維點云映射到?{h}'\times {w}'?的網格中;

(2)將中心網格?o_{t}\in \mathbb{R}^{?{h}'\times {w}'\times 3}?編碼為特征表示?Y^{o}_{t}=Enc(o_{t})?;?

(3)定義一個跨模態注意力模塊,以?Y^{o}_{t}?為查詢,指令特征?X?為鍵和值,得到跨模態表示?H^{o}_{t}?:

Q=Y^{o}_{t}W_{q}, K=XW_{k}, V=XW_{v}

H^{o}_{t}=Softmax(\frac{QK^{T}}{\sqrt{d}})V

(4)將?o^{t}?和?H^{o}_{t}?通過一個UNet,得到?\hat{o}^{t}?:

(5)將?\hat{o}^{t}?,H^{o}_{t}?和?\hat{\chi }_{t}?通過另外一個UNet,得到?\hat{s}^{t}?:

其中?\hat{\chi }_{t}?表示 RGB 圖像幀的語義分割結果的地面投影。

此部分的損失函數如下:

其中?k?表示地圖中的像素數;q_{k, c}是像素?k?的地面真實標簽。


2.2 路徑預測模塊

本部分的主要作用是使代理學會預測整個軌跡。主要流程如下:

(1)將預測的自中心語義圖?\hat{s}_{t}??編碼為特征表示?Y^{s}_{t}=Enc(\hat{s}_{t})?;

(2)定義一個跨模態注意力模塊,以?Y^{s}_{t}?為查詢,指令特征?X?為鍵和值,得到跨模態表示?H^{s}_{t}?:

Q=Y^{s}_{t}W_{q}, K=XW_{k}, V=XW_{v}

H^{s}_{t}=Softmax(\frac{QK^{T}}{\sqrt{d}})V

(3)將?H^{s}_{t}?和?P^{0}_{t}?通過一個UNet:

其中?P^{0}_{t}?是相對于當前代理位置的起始位置熱力圖,\hat{P}_{t}?是當前時間步?t?預測的航路點熱力圖,\hat{\zeta }_{t}?是預測的每個航路點的概率。

此部分的損失函數如下:

其中?b^{i}_{t}?是一個二進制指示符,表示特定航路點?i?在時間?t?是否在以自我為中心的地圖上可見,P^{i}_{t}?表示真實的航路點熱力圖,\lambda _{\zeta }?權衡輔助損失。


2.3 動作決策

目前為止路徑是由一系列2D航路點?\begin{Bmatrix} p^{i}_{t} \end{Bmatrix}^{k}_{i=1}?組成。決策的流程如下:
?
(1)選擇一個短期目標?p^{\zeta }_{t}?:

其中\Delta?是歐幾里得距離,\hat{p}^{i}_{t}?對應預測的航路點熱力圖\hat{P}_{t}?的峰值,\varrho _{t}?對應代理在當前時間步?t?的位姿。該機制通過以下方式確定短期目標:首先找到離智能體最近的預測航路點,然后選擇序列中的下一個航路點作為短期目標?p^{\zeta }_{t}?;?

(2)為了達到短期目標,使用為PointNav任務訓練的現成深度強化學習模型DD-PPO。DD-PPO接收當前深度觀測值?D?和p^{\zeta }_{t}?,并為代理輸出下一個導航動作。


三、總結

(1)當語言和視覺出現在顯式空間表征中時,它們之間的關聯更強;

(2)能否將本工作中的方法應用到CityNav中?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/71625.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/71625.shtml
英文地址,請注明出處:http://en.pswp.cn/web/71625.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

nodejs關于后端服務開發的探究

前提 在當前的環境中關于web server的主流開發基本上都是java、php之類的,其中java spring系列基本上占了大頭,而python之流也在奮起直追,但別忘了nodejs也是可以做這個服務的,只是位置有點尷尬,現在就來探究下nodejs…

Ubuntu20.04本地配置IsaacGym Preview 4的G1訓練環境(一)

Ubuntu20.04本地配置IsaacGym Preview 4的G1訓練環境 配置conda虛擬環境安裝pytorch、cuda和cudnn安裝IsaacGym Preview 4配置rsl_rl配置unitree_rl_gym配置unitree_sdk2py 寫在前面,要求完成anaconda配置,若沒完成,請參考本人其余博客&#…

RangeError: Maximum call stack size exceeded

🤍 前端開發工程師、技術日更博主、已過CET6 🍨 阿珊和她的貓_CSDN博客專家、23年度博客之星前端領域TOP1 🕠 牛客高級專題作者、打造專欄《前端面試必備》 、《2024面試高頻手撕題》、《前端求職突破計劃》 🍚 藍橋云課簽約作者、…

八卡5090服務器首發亮相!

AI 人工智能領域熱度居高不下。OpenAI 的 GPT - 4 憑強悍語言處理能力,在內容創作、智能客服等領域廣泛應用。清華大學團隊的 DeepSeek 大模型在深度學習訓練優勢突出,正促使各行業應用端算力需求向推理主導轉變,呈爆發式增長 。 隨著 DeepS…

計算機視覺|Swin Transformer:視覺 Transformer 的新方向

一、引言 在計算機視覺領域的發展歷程中,卷積神經網絡(CNN) 長期占據主導地位。從早期的 LeNet 到后來的 AlexNet、VGGNet、ResNet 等,CNN 在圖像分類、目標檢測、語義分割等任務中取得了顯著成果。然而,CNN 在捕捉全…

【Leetcode 每日一題】2597. 美麗子集的數目

問題背景 給你一個由正整數組成的數組 n u m s nums nums 和一個 正 整數 k k k。 如果 n u m s nums nums 的子集中,任意兩個整數的絕對差均不等于 k k k,則認為該子數組是一個 美麗 子集。 返回數組 n u m s nums nums 中 非空 且 美麗 的子集數…

常見Web應用源碼泄露問題

文章目錄 前言一、常見的源碼泄露漏洞git源碼泄露SVN源碼泄露DS_Store文件泄漏網站備份壓縮文件泄露WEB-INF/web.xml泄露CVS泄露.hg源碼泄露Bazaar/bzr泄露.swp文件泄露 前言 在Web應用方面對于安全來說,可能大家對SQL注入、XSS跨站腳本攻擊、文件上傳等一些漏洞已…

記錄一次wifi版有人物聯串口服務器調試經過

1、首先買了一個華為的wifi路由器,連接上以后,設置好網絡名字和wifi密碼 2、用網線連接串口服務器,通過192.168.1.1登錄,進行配置 找到無線客戶端配置,先在基本配置中打開5G配置,然后再去5.8G配置中設置 …

Android 平臺架構系統啟動流程詳解

目錄 一、平臺架構模塊 1.1 Linux 內核 1.2 硬件抽象層 (HAL) 1.3 Android 運行時 1.4 原生 C/C 庫 1.5 Java API 框架 1.6 系統應用 二、系統啟動流程 2.1 Bootloader階段 2.2 內核啟動 2.3 Init進程(PID 1) 2.4 Zygote與System Serv…

【Windows下Gitbook快速入門使用】

Windows下Gitbook快速入門使用 1 工具安裝1.1 Node.js下載安裝1.1 環境變量1.2 npm配置1.3 安裝gitbook 2 gitbook使用2.1 gitbook 無法執行2.2 gitbook常用命令 Gitbook是一個軟件,使用Git和Markdown來編排書本; GitBook helps you pushlish beautiful …

RK3588V2--HYM8563TS RTC 實時時鐘適配移植

1. 什么是RTC RTC(Real-Time Clock,實時時鐘)是一種電子設備或芯片,它用于保持當前時間和日期,即使系統關閉或斷電也能持續計時。RTC 通常用于計算機、嵌入式系統、物聯網設備等需要精確時間管理的場景。 1.1 RTC 的…

MHA集群

一.MHA集群 MHA master high avavibility 主服務器高可用 如上圖所示,我們之前說過,如果在主從復制架構中主服務器出現故障,就需要我們將從服務器作為主服務器,等故障的主服務器修復好之后,再將修好的主服務器作為從服…

10 【HarmonyOS NEXT】 仿uv-ui組件開發之Avatar頭像組件開發教程(一)

溫馨提示:本篇博客的詳細代碼已發布到 git : https://gitcode.com/nutpi/HarmonyosNext 可以下載運行哦! 目錄 第一篇:Avatar 組件基礎概念與設計1. 組件概述2. 接口設計2.1 形狀類型定義2.2 尺寸類型定義2.3 組件屬性接口 3. 設計原則4. 使用…

微信小程序+SpringBoot的單詞學習小程序平臺(程序+論文+講解+安裝+修改+售后)

感興趣的可以先收藏起來,還有大家在畢設選題,項目以及論文編寫等相關問題都可以給我留言咨詢,我會一一回復,希望幫助更多的人。 系統背景 (一)社會需求背景 在全球化的大背景下,英語作為國際…

鴻蒙HarmonyOS評論功能小demo

評論頁面小demo 效果展示 1.拆解組件,分層搭建 我們將整個評論頁面拆解為三個組件,分別是頭部導航,評論項,回復三個部分,然后統一在index界面導入 2.頭部導航界面搭建 Preview Component struct HmNavBar {// 屬性&a…

解析 SQL,就用 sqlparse!

文章目錄 解析 SQL,就用 sqlparse!一、背景:為什么你需要 sqlparse?二、什么是 sqlparse?三、如何安裝 sqlparse?四、簡單易用的庫函數1\. parse(sql)2\. format(sql, **options)3\. split(sql)4\. get_typ…

點云軟件VeloView開發環境搭建與編譯

官方編譯說明 LidarView / LidarView-Superbuild GitLab 我的編譯過程: 安裝vs2019,windows sdk,qt5.14.2(沒安裝到5.15.7),git,cmake3.31,python3.7.9,ninja下載放到…

【一文學會 HTML5】

目錄 HTML概述基本概念HTML 發展歷程HTML 基本結構 網頁基本標簽標題標簽&#xff08;<h1> - <h6>&#xff09;段落標簽&#xff08;<p>&#xff09;換行標簽&#xff08;<br>&#xff09;水平線標簽&#xff08;<hr>&#xff09;注釋&#xff0…

Spring Boot面試問答

1. Spring Boot 基礎知識 問題 1:什么是Spring Boot?它與Spring框架有何不同? 回答: Spring Boot是基于Spring框架的一個開源框架,旨在簡化新Spring應用的初始化和開發過程。與傳統的Spring框架相比,Spring Boot提供了以下優勢: 自動配置:根據項目依賴自動配置Spring…

DeepSeek系列模型技術報告的閱讀筆記

DeepSeek系列模型技術報告的閱讀筆記 之前仔細閱讀了DeepSeek系列模型的主要技術方面內容與發展脈絡&#xff0c;以下是DeepSeek系列模型技術報告的筆記&#xff0c;有錯誤的地方歡迎指正&#xff01; 文章目錄 DeepSeek系列模型技術報告的閱讀筆記GQADeepseek MoEAbstractIn…