基于自監督三維語義表示學習的視覺語言導航

前言

目前的視覺語言導航存在的問題:

(1)在VLN任務中,大多數當前方法主要利用RGB圖像,忽略了環境固有的豐富三維語義數據。許多語義無關的紋理細節不可避免地被引入到訓練過程中,導致模型出現過擬合問題,訓練后的代理將沒有足夠的能力適應3D環境感知。

本工作的主要貢獻:

(1)提出了一種新的學習和融合框架,為VLN任務引入了三維語義表示;

(2)設計了一個區域查詢前置學習任務,以自監督學習的方式幫助從未標記的三維語義重建中學習三維語義表示。


一、模型整體框架

1.1 任務描述

在時間步?t?:

(1)圖片輸入:全景RGB-D圖像(在實施過程中會將全景圖拆分成12個不同角度的圖片);

(2)文本輸入:指令;

(3)輸出:預測的動作。


1.2 模型介紹

模型的整體框架如圖所示:

可以看出,主要由以下部分組成:

(1)3D語義編碼器:將RGB語義分割信息和D深度信息結合,得到3D重構結果,將3D重構結果作為輸入,利用自監督方法訓練此編碼器。訓練完的編碼器輸入為RGB-D圖像,輸出為3D語義特征;

(2)視覺編碼器:雙尺度圖Transformer(DUET)模型,輸入為RGB特征和3D語義特征,輸出為總的視覺特征;

(3)文本編碼器:預訓練的BERT,輸出為文本特征;

(4)細尺度多模態注意力模塊 + 局部動作預測模塊:整合對齊局部視覺特征和文本特征,并得到局部預測動作;

(5)粗尺度多模態注意力模塊 + 全局動作預測模塊:整合對齊全局視覺特征和文本特征,并得到全局預測動作;

(6)動態融合模塊:融合局部和全局動作預測,得到最終動作預測結果。


二、難點

2.1 3D語義編碼器

2.1.1 3D語義重構

此部分的主要功能是將RGB圖像結合深度信息,轉化為三維語義表示。主要流程如下:

(1)將特定位置代理的多個二維RGB觀測圖像輸入語義分割器(總共150類)中,以獲得二維語義分割;

(2)使用深度觀測和相機參數將二維語義分割投影到三維空間中,每個RGB-D觀測值都被轉換為三維語義點云;

(3)通過組合不同視點的三維點云,我們可以獲得局部位置特定的全景語義點云;

(4)通過計算每單位體積中屬于特定類別的點云的數量來對三維語義點云進行體素化。假設體素化參數對于X軸和Y軸為0.125 m,對于Z軸為0.25 m。對于代理,相對于中心的最大水平觀測范圍為±8 m,對于垂直方向為±4 m。因此,基于體素的三維語義重建的維度為150×128×128×32;

(5)使用三維重建的稀疏表示,只記錄至少有一個非零語義類別的位置,形成k×4(記錄索引和位置)和k×150(記錄語義類別)的向量,其中k是具有非零語義類別的位置數量。

如下圖所示:

2.1.2 自監督學習方法

此部分的主要功能是訓練一個3D語義編碼器,將3D重建的稀疏表示(體素化、稀疏化后的3D語義點云)編碼成3D語義特征,即使用稀疏卷積網絡將輸入的3D重建的稀疏表示編碼為2048×4×4張量,記為F_{sem}

本工作設計了一個區域查詢前置學習任務,其中需要三維視覺編碼模型回答特定區域中對象的存在問題。主要流程如下:

(1)給定一個定義為元組?(x_{1}, y_{1}, z_{1}, x_{2}, y_{2}, z_{2}, c)?的查詢;

(2)詢問在滿足?x_{1}\leq x\leq x_{2}y_{1}\leq y\leq y_{2}z_{1}\leq z\leq z_{2}?的區域中是否存在類?c?的對象,模型應給出 True 或 False 的答案。

2.1.3 如何訓練3D語義編碼器?

期望所提出的3D視覺編碼器能夠通過自監督查詢任務,感知不同觀察空間范圍內的語義信息,往往場景中空間位置與對象語義信息的關聯有利于下游導航任務。

下面介紹3D語義編碼器的訓練過程:

(1)使用多層感知(MLP)對查詢進行編碼,以生成2048-維的向量?q?:

其中?c?是類 c 的 one-hot 向量,r=x_{1}, y_{1}, z_{1}, x_{2}, y_{2}, z_{2}W_{c}?是?128\times 150?維的可學習參數,W_{r}?是?128\times 6?維的可學習參數;

(2)使用多頭注意力模型的softmax輸出來估計答案ans\in \begin{Bmatrix} True, False \end{Bmatrix}的概率:

其中?W_{h}?和?W_{q}??是?256\times 2048?維的可學習參數,h?是為多頭注意力層的輸出:

其中K, V為經過3D語義編碼器編碼的3D語義特征。

具體過程如下圖所示:


2.2?基于Transformer的視覺語言導航模型

如下圖所示:

主要流程如下:

(1)將3D語義特征映射到與RGB特征相同的維度,即768×16;

(2)將RGB特征與映射后的三維語義特征進行concat連接,創建擴展特征(擴展特征嵌封裝了詳細的紋理和顏色特征以及空間語義特征,形成了更全面的上下文嵌入);

(3)將擴展特征向量通過多層Transformer,使模型能夠辨別RGB和3-D語義特征之間的相互作用;

(4)Transformer輸出向量一方面用于更新拓撲圖,另一方面輸入到精細尺度交叉模態編碼器中進行局部動作預測。

(5)分別進行局部和全局的多模態融合,然后分別得到局部和全局的動作預測;

(6)將局部和全局的動作預測動態融合,得到最終的動作預測結果。

2.2.1 拓撲圖映射

訪問節點的嵌入表示:

(1)訪問過的節點:通過添加平均池級聯特征向量來增強訪問過的節點在拓撲圖中的嵌入。這種增強通過利用我們提出的3-D語義編碼器提取的語義深度信息來促進空間推理。

(2)未訪問的節點:由于智能體僅能部分觀測未訪問節點,這些未訪問節點的嵌入表示通過部分池化機制實現——即在對應視圖上累積從不同觀測位置獲取的特征向量。

需要注意的是,768×16維的三維語義嵌入缺乏方向屬性,因此采用簡單的前饋神經網絡(FFN)作為分類器。該網絡以具有方向屬性的RGB嵌入為輸入,預測三維語義嵌入中的token索引,將該索引對應的token作為當前視圖的代表性三維特征,本質上是從16個token中選取最優表征。


三、總結

本工作主要提出一種將3D語義信息應用到視覺語言導航VLN任務中的方法。為了實現這一方法,設計了一個區域查詢前置學習任務,以自監督學習的方式訓練了一個3D語義編碼器,將3D語義成功的編碼成為了特征,從而與文本特征一起輸入到多模態注意力模塊,完成了VLN這一任務。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/71768.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/71768.shtml
英文地址,請注明出處:http://en.pswp.cn/web/71768.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

網絡原理之HTTPS(如果想知道網絡原理中有關HTTPS的知識,那么只看這一篇就足夠了!)

前言:隨著互聯網安全問題日益嚴重,HTTPS已成為保障數據傳輸安全的標準協議,通過加密技術和身份驗證,HTTPS有效防止數據竊取、篡改和中間人攻擊,確保通信雙方的安全和信任。 ???這里是秋刀魚不做夢的BLOG ???想要…

【江協科技STM32】ADC數模轉換器-學習筆記

ADC簡介 ADC(Analog-Digital Converter)模擬-數字轉換器ADC可以將引腳上連續變化的模擬電壓轉換為內存中存儲的數字變量,建立模擬電路到數字電路的橋梁,ADC是一種將連續的模擬信號轉換為離散的數字信號的設備或模塊12位逐次逼近型…

文件系統文件管理

文件緩沖區(內核級,OS內部的)存在的意義:系統調用將數據寫入緩沖區后函數即可返回,是從內存到內存的,提高了程序的效率。之后將緩沖區數據刷新到硬盤則是操作系統的事了。無論讀寫,OS都會把數據…

HTML 標簽語義化指南:讓網頁更易讀

HTML 語義化標簽是指在 HTML 中使用具有明確含義的標簽來標記網頁內容的結構和意義。這些標簽可以提供更多的語義信息,有助于搜索引擎理解網頁內容,并為使用輔助技術的用戶提供更好的訪問體驗。 以下是一些常見的HTML語義化標簽及其含義和用途&#xff…

機器學習:線性回歸,梯度下降,多元線性回歸

線性回歸模型 (Linear Regression Model) 梯度下降算法 (Gradient Descent Algorithm) 的數學公式 多元線性回歸(Multiple Linear Regression)

共繪智慧升級,看永洪科技助力由由集團起航智慧征途

在數字化洪流洶涌澎湃的當下,企業如何乘風破浪,把握轉型升級的黃金機遇,已成為所有企業必須直面的時代命題。由由集團,作為房地產的領航者,始終以前瞻視野引領變革,堅決擁抱數字化浪潮,攜手數字…

laravel es 相關代碼 ElasticSearch

來源&#xff1a; github <?phpnamespace App\Http\Controllers;use Elastic\Elasticsearch\ClientBuilder; use Illuminate\Support\Facades\DB;class ElasticSearch extends Controller {public $client null;public function __construct(){$this->client ClientB…

阿里發布新開源視頻生成模型Wan-Video,支持文生圖和圖生圖,最低6G就能跑,ComFyUI可用!

Wan-Video 模型介紹&#xff1a;包括 Wan-Video-1.3B-T2V 和 Wan-Video-14B-T2V 兩個版本&#xff0c;分別支持文本到視頻&#xff08;T2V&#xff09;和圖像到視頻&#xff08;I2V&#xff09;生成。14B 版本需要更高的 VRAM 配置。 Wan2.1 是一套全面開放的視頻基礎模型&…

閉包函數是什么?

閉包函數是 JavaScript 中一個非常重要且強大的概念&#xff0c;下面將從定義、形成條件、作用、示例以及優缺點等方面詳細介紹閉包函數。 定義 閉包是指有權訪問另一個函數作用域中的變量的函數。簡單來說&#xff0c;即使該函數執行完畢&#xff0c;其作用域內的變量也不會…

nuxt2 打包優化使用“compression-webpack-plugin”插件

在使用 Nuxt.js 構建項目時&#xff0c;為了提高性能&#xff0c;通常會考慮對靜態資源進行壓縮。compression-webpack-plugin 是一個常用的 Webpack 插件&#xff0c;用于在生產環境中對文件進行 Gzip 壓縮。這對于減少網絡傳輸時間和提高頁面加載速度非常有幫助。下面是如何在…

大型語言模型訓練的三個階段:Pre-Train、Instruction Fine-tuning、RLHF (PPO / DPO / GRPO)

前言 如果你對這篇文章可感興趣&#xff0c;可以點擊「【訪客必讀 - 指引頁】一文囊括主頁內所有高質量博客」&#xff0c;查看完整博客分類與對應鏈接。 當前的大型語言模型訓練大致可以分為如下三個階段&#xff1a; Pre-train&#xff1a;根據大量可獲得的文本資料&#…

模型壓縮技術(二),模型量化讓模型“輕裝上陣”

一、技術應用背景 在人工智能蓬勃發展的浪潮下&#xff0c;大模型在自然語言處理、計算機視覺等諸多領域大放異彩&#xff0c;像知名的GPT以及各類開源大語言模型&#xff0c;其規模與復雜度持續攀升。然而&#xff0c;這一發展也帶來了挑戰&#xff0c;模型越大&#xff0c;對…

機器學習:愚者未完成的詩篇(零)

當算法在數據海洋中打撈支離破碎的韻律時&#xff0c;機器學習系統展現出的智慧如同斷臂的維納斯雕像——完美與殘缺構成令人戰栗的美學悖論。愚者&#xff0c;在詞語的混沌中編織邏輯經緯&#xff0c;卻總在即將觸及詩性本質的瞬間&#xff0c;暴露出認知維度的致命裂隙。 一…

【算法題】小魚的航程

問題&#xff1a; 分析 分析題目&#xff0c;可以看出&#xff0c;給你一個開始的星期&#xff0c;再給一個總共天數&#xff0c;在這些天內&#xff0c;只有周六周日休息&#xff0c;其他全要游泳250公里。 那分支處理好啦 當星期為6時&#xff0c;需要消耗2天&#xff0c;…

GStreamer —— 2.5、Windows下Qt加載GStreamer庫后運行 - “教程5:GUI 工具包集成(gtk)“(附:完整源碼)

運行效果 簡介 上一個教程演示了時間管理及seek操作。本教程介紹如何將 GStreamer 集成到圖形用戶中 接口 &#xff08;GUI&#xff09; 工具包&#xff0c;如 GTK。基本上 GStreamer 負責媒體播放&#xff0c;而 GUI 工具包處理 用戶交互。最有趣的部分是那些 庫必須進行交互&…

NLTK和jieba

NLTK與jieba概述 自然語言處理&#xff08;NLP&#xff09;領域是計算機科學領域與人工智能領域中的一個重要方向&#xff0c;主要研究方向是實現人與計算機之間用自然語言進行有效通信的各種理論和方法。 在自然語言處理領域中&#xff0c;文本類型的數據占據著很大的市場&a…

linux查看定時任務與設置定時任務

一、查看定時任務 使用 cron 查看當前用戶的定時任務&#xff1a; bash crontab -l # 查看當前用戶的cron任務 查看系統級定時任務&#xff1a; bash 系統級任務通常存放在以下位置&#xff1a; cat /etc/crontab # 系統主配置文件 ls /etc/cron.d/ # 系統級任務片段 ls /…

DeepSeek-R1本地化部署(Mac)

一、下載 Ollama 本地化部署需要用到 Ollama&#xff0c;它能支持很多大模型。官方網站&#xff1a;https://ollama.com/ 點擊 Download 即可&#xff0c;支持macOS,Linux 和 Windows&#xff1b;我下載的是 mac 版本&#xff0c;要求macOS 11 Big Sur or later&#xff0c;Ol…

支持向量簡要理解

決策方程符合感知機區分理論&#xff0c;我們基于線性代數來看這滿足子空間理論&#xff0c;可以獲取得到超平面。 支持向量機的目標是尋找最與超平面最近的點的最大距離&#xff0c;而距離計算如上&#xff0c;符合數學上計算點到線&#xff08;面&#xff09;的距離公式。 …

使用OpenCV和MediaPipe庫——實現人體姿態檢測

目錄 準備工作如何在Windows系統中安裝OpenCV和MediaPipe庫&#xff1f; 安裝Python 安裝OpenCV 安裝MediaPipe 驗證安裝 代碼邏輯 整體代碼 效果展示 準備工作如何在Windows系統中安裝OpenCV和MediaPipe庫&#xff1f; 安裝Python 可以通過命令行運行python --versio…