同濟大學多模態感知具身導航全面綜述

  • 作者: I-Tak Ieong, Hao Tang

  • 單位:同濟大學計算機學院,北京大學計算機學院

  • 論文標題: Multimodal Perception for Goal-oriented Navigation: A Survey

  • 論文鏈接:https://arxiv.org/pdf/2504.15643

主要貢獻

  • 基于推理域的分類:首次將目標導向導航方法按照推理域進行分類,涵蓋了多種任務范式。這種分類方法揭示了不同任務之間的共性和差異,為理解導航方法提供了統一的框架。

  • 計算模式的識別:識別了超越特定導航任務的共同計算模式,為具身推理的基本原理提供了見解。這些模式包括顯式地圖構建、隱式表示學習、圖結構推理等。

  • 推理域的優勢和局限性比較:系統地比較了不同推理域在各種導航場景中的優勢和局限性。例如,顯式地圖方法在路徑規劃中表現優異,但計算成本較高;而隱式表示方法則在計算效率上更具優勢,但在復雜環境中的泛化能力可能受限。

  • 多模態集成趨勢:突出了多模態感知的集成挑戰和機遇,特別是視覺、語言和音頻處理的融合,以增強導航能力。文章討論了如何通過多模態融合來提高導航的魯棒性和適應性。

研究背景

  • 目標導向導航是自主系統中的一個基本挑戰,要求智能體能夠在復雜環境中導航以到達指定目標。

  • 過去十年中,導航技術從簡單的幾何路徑規劃發展到復雜的多模態推理,整合了視覺、語言和音頻信息。

  • 隨著領域的發展,成功的導航方法越來越多地將低級感知與高級語義理解相結合,通過不同的計算框架實現。

基礎概念

歷史發展

  • 導航任務的歷史發展:從簡單的點目標導航(PointNav)到更復雜的多模態導航范式,導航任務的復雜性不斷增加。例如,ObjectNav要求智能體找到特定對象,ImageNav要求智能體導航到與給定圖像匹配的位置,AudioGoalNav要求智能體導航到聲音源。

  • 任務形式化定義:導航任務被形式化為一個決策過程,智能體需要在未知環境中通過一系列動作到達指定目標。數學框架適用于所有導航模態,包括環境(E)、狀態空間(S)、觀測空間(O)、動作空間(A)和目標空間(G)。

導航數據集

  • 數據集規模和覆蓋范圍:Habitat-Matterport 3D (HM3D) 數據集是最大的集合,包含1000個建筑規模的重建,覆蓋112.5k平方米的可導航區域。其他數據集如Gibson和Matterport3D在規模和復雜性上有所不同。

  • 導航復雜性和場景雜亂程度:Matterport3D的導航復雜性最高,而RoboTHOR和ScanNet等房間規模的數據集則相對簡單。

  • 視覺保真度和重建質量:HM3D在視覺保真度上表現最佳,而ScanNet在重建缺陷方面表現最差。

評估指標

  • 成功率(SR):智能體成功到達目標的百分比。

  • 路徑長度加權成功率(SPL):結合成功率和路徑效率的指標。

  • 距離相關指標:如目標距離(DTG)和導航誤差(NE)。

  • 多目標導航指標:如進度(PR)和路徑長度加權進度(PPL)。

  • 音頻導航特定指標:如聲音導航效率(SNE)和動態SPL(DSPL)。

點目標導航

任務描述

  • 任務描述:智能體需要根據相對坐標導航到目標位置,沒有環境布局的先驗知識。主要挑戰是使用以自我為中心的感官輸入(主要是視覺數據,如RGBD、GPS/指南針)來確定智能體的位置,估計距離并規劃路徑。

潛在地圖推理域

  • 方法:構建和維護環境的顯式表示,如占用網格或語義地圖,以支持路徑規劃。例如,ANM通過神經SLAM構建地圖,LSP-UNet通過U-Net架構估計前沿屬性,UPEN通過集成學習生成不確定性地圖。

  • 關鍵方法
    • ANM:通過神經SLAM模塊構建地圖,結合全局策略進行探索,局部策略進行短期動作執行。

    • LSP-UNet:使用U-Net架構估計前沿屬性,通過Bellman方程進行路徑規劃。

    • UPEN:通過集成學習生成不確定性地圖,引導智能體探索信息豐富的區域。

隱式表示學習推理域

  • 方法:不構建顯式地圖,而是通過神經網絡參數隱式編碼空間理解。例如,DD-PPO通過分布式訓練提高可擴展性,IMN-RPG結合自我監督的視覺里程計和強化學習,無需顯式映射。

  • 關鍵方法
    • DD-PPO:通過分布式訓練提高可擴展性,解決了高維輸入的收斂問題。

    • IMN-RPG:結合自我監督的視覺里程計和強化學習,無需顯式映射,通過自我運動預測維持智能體的中心位置估計。

目標對象導航

任務描述

  • 任務描述:智能體需要在未知環境中找到并導航到特定對象。與PointNav不同,ObjectNav需要語義理解,智能體必須根據語義線索推斷對象的位置。

模塊化方法

  • 方法:將ObjectNav任務分解為不同的模塊,如映射、策略和路徑規劃。例如,Sem-EXP構建語義地圖,PEANUT預測目標概率,L2M主動學習預測語義地圖。

  • 關鍵方法
    • Sem-EXP:通過不同iable投影構建語義地圖,使用Mask R-CNN進行目標檢測,結合目標導向的語義策略進行長期導航規劃。

    • PEANUT:使用PSPNet生成語義分割掩碼,投影到頂視圖地圖上,預測目標概率。

端到端方法

  • 方法:直接從原始感官輸入學習導航策略,無需顯式中間表示。例如,VTNet利用空間感知描述符,DRL方法結合卷積層與LSTM進行序列處理。

  • 關鍵方法
    • VTNet:利用空間感知描述符,結合DETR進行目標檢測,通過預訓練方案將視覺特征與導航信號關聯。

    • DRL:結合卷積層與LSTM進行序列處理,通過PAAC算法進行訓練。

零樣本方法

  • 方法:利用預訓練的視覺語言模型實現零樣本泛化,如EmbCLIP、ZSEL等。這些方法通過統一的嵌入空間建立視覺觀察和語言描述之間的語義聯系。

  • 關鍵方法
    • EmbCLIP:使用凍結的CLIP ResNet-50嵌入,通過GRU進行有效的動作預測。

    • ZSEL:引入模塊化遷移學習框架,結合視圖對齊優化和任務增強技術,建立聯合目標嵌入空間。

圖像目標導航

任務描述

  • 任務描述:智能體需要根據參考圖像導航到目標位置,需要視覺推理能力來建立當前觀察和目標圖像之間的對應關系。

潛在地圖推理域

  • 方法:構建顯式環境表示以支持目標匹配和路徑規劃。例如,MANav通過自監督狀態嵌入網絡增強導航,Mod-IIN結合前沿探索和目標實例再識別。

  • 關鍵方法
    • MANav:通過自監督狀態嵌入網絡和情節記憶機制增強導航。

    • Mod-IIN:結合前沿探索和目標實例再識別,使用SuperPoint和SuperGlue進行目標匹配。

隱式表示推理域

  • 方法:不依賴顯式地圖,通過神經網絡參數隱式編碼環境理解。例如,EmerNav通過估計觀察和目標圖像之間的匹配特征來直接導航。

  • 關鍵方法
    • EmerNav:通過估計觀察和目標圖像之間的匹配特征來直接導航。

    • SLING:結合神經關鍵點描述符和透視-n-點算法,動態調整探索和利用策略。

圖推理域

  • 方法:將環境表示為關系結構,通過圖遍歷算法進行規劃。例如,TSGM實現了一個雙記憶系統,包括一個拓撲圖和語義特征。

  • 關鍵方法
    • TSGM:實現了一個雙記憶系統,包括一個拓撲圖和語義特征,通過層次化決策過程進行規劃。

擴散模型推理域

  • 方法:使用擴散模型生成導航策略,如NOMAD,它通過目標掩碼進行條件推理,生成探索和目標導向行為的統一策略。

  • 關鍵方法
    • NOMAD:通過目標掩碼進行條件推理,生成探索和目標導向行為的統一策略。

音頻目標導航

任務描述

  • 任務描述:智能體需要根據聲音源導航到目標位置,需要整合空間音頻處理、視覺感知和路徑規劃。

潛在地圖推理域

  • 方法:構建顯式空間-聲學表示以指導導航。例如,VAR結合視覺感知映射和聲音定位,AV-WaN構建空間音頻強度圖。

  • 關鍵方法
    • VAR:結合視覺感知映射和聲音定位,通過STFT頻譜圖處理聲音信號。

    • AV-WaN:構建空間音頻強度圖,結合幾何表示進行路徑規劃。

隱式表示學習推理域

  • 方法:不構建顯式地圖,而是通過神經網絡參數編碼空間-聲學理解。例如,SAVi處理靜態聲源導航,ORAN處理動態聲源導航。

  • 關鍵方法
    • SAVi:處理靜態聲源導航,通過Transformer架構處理視覺和雙耳音頻輸入。

    • ORAN:處理動態聲源導航,通過深度幾何地圖和雙耳音頻輸入進行路徑規劃。

嵌入式推理域

  • 方法:利用預訓練的視覺和音頻模型建立語義連接。例如,AVLMaps通過自然語言理解擴展音頻-視覺導航。

  • 關鍵方法
    • AVLMaps:通過自然語言理解擴展音頻-視覺導航,結合視覺、音頻和語言模態。

語言推理域

  • 方法:利用大型語言模型增強音頻-視覺導航,如RILA,它通過語言模型進行環境推理。

  • 關鍵方法
    • RILA:通過語言模型進行環境推理,結合視覺和音頻輸入進行路徑規劃。

討論

跨任務見解

  • 潛在地圖適應性:潛在地圖方法在不同導航任務中表現出不同的復雜性和信息內容。例如,在PointNav中,地圖主要編碼幾何信息;在ObjectNav中,地圖整合了語義對象標簽和概率分布。

  • 隱式表示的專門化:隱式表示方法在不同任務中表現出專門化,但共享核心架構元素。例如,在PointNav中,重點是視覺里程計和姿態估計;在ObjectNav中,重點是對象關系建模。

  • 圖的語義變化:圖方法在不同任務中表現出不同的節點語義和關系結構。例如,在ObjectNav中,圖通常表示對象-場景關系;在ImageNav中,圖表示視覺上不同的位置。

  • 語言集成策略:語言推理域在不同導航范式中表現出不同的集成深度。例如,在ObjectNav中,語言模型用于推理對象關系和空間布局;在AudioGoalNav中,語言模型用于推理聲音源的語義屬性。

  • 嵌入平衡和適應性:嵌入式方法在不同任務中表現出不同的預訓練知識和任務特定適應性平衡。例如,在ObjectNav中,直接利用CLIP的語義知識;在AudioGoalNav中,需要仔細整合AudioCLIP嵌入與空間推理。

  • 擴散模型的環境合成:擴散模型在需要語義預測未觀察區域的任務中表現出特別的潛力。例如,在ObjectNav中,擴散模型用于生成未觀察區域的語義地圖。

當前挑戰

  • 模擬到現實的轉移:模擬環境與現實世界之間存在顯著差異,尤其是在物理動態、傳感器噪聲特性和聲學屬性方面。雖然有一些方法開始解決聲學模擬到現實的差距,但全面的解決方案仍然難以捉摸。

  • 多模態表示和集成:雖然在多模態集成方面取得了顯著進展,但最優融合策略仍然是一個開放性問題。當前的方法通常優先考慮一種感官模態,而其他模態則起到輔助作用。例如,在AudioGoalNav中,音頻通常提供方向線索,而視覺數據主要用于障礙物避免。

未來工作

  • 人機交互:結合自動化泛化和戰略性人類互動,開發能夠識別自身局限性并請求幫助的系統。例如,通過人類指導提供補充支持,結合語言機制進行通信、潛在地圖進行空間表示和擴散模型進行環境補全。

  • 多模態表示學習:開發真正平衡集成的多模態表示學習方法,通過共享標記化方法和跨模態注意力機制動態加權模態。例如,開發專門針對具身導航任務的多模態基礎模型,建立統一的環境理解框架。

結論

  • 本文通過推理域的視角,對多模態導航方法進行了全面分析,揭示了具身智能體如何感知、推理和導航復雜環境。

  • 隨著自主系統向現實世界部署的推進,有效整合多種感官模態已成為關鍵能力。

  • 盡管取得了顯著進展,但在多模態表示融合、模擬到現實的轉移和計算效率方面仍面臨重要挑戰。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/911666.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/911666.shtml
英文地址,請注明出處:http://en.pswp.cn/news/911666.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

2025年CCF先進音頻技術競賽

由中國計算機學會主辦、CCF語音對話與聽覺專委會承辦、語音之家協辦、華為終端有限公司贊助的CCF先進音頻技術大賽正式啟動。大賽旨在推動國內高等院校及科研院所在音頻技術領域的專業人才培養,支持學生科技創新,選拔優秀人才。 賽事官網:ht…

手撕線程池

線程池的目的: 1.復用線程,減少頻繁創建和銷毀的開銷 創建和銷毀線程是昂貴的系統操作,涉及內核調度、內存分配; 使用線程池預先創建一批線程,在多個任務間循環復用,避免資源浪費,提高性能。 …

3DTiles三維模型

1. 3DTiles 介紹? 2016 年,Cesium 團隊借鑒傳統 2DGIS 的地圖規范:WMTS,借鑒圖形學中的層次細節模型,打造出大規模的三維數據標準:3d-Tiles,中文譯名:三維瓦片。 它在模型上利用了 gltf 渲染…

Golang Kratos 系列:業務分層的若干思考(一)

在使用 Kratos 框架開發云服務的過程中,漸漸理解和感受到“領域層”這個概念和抽象的強大之處,它可以將業務和存儲細節解耦、將業務和開發初期頻繁變更的API結構,讓Mock單元測試變得更加容易、對細節的變化更魯棒。讓業務代碼擺脫技術細節依賴…

深度優化OSS上傳性能:多線程分片上傳 vs 斷點續傳實戰對比

1 卸載開頭 對象存儲服務(OSS)已成為現代應用架構的核心組件,但隨著業務規模擴大,文件上傳性能問題日益凸顯。本文將深入探討兩種核心優化技術:多線程分片上傳和斷點續傳,通過理論分析、代碼實現和性能測試…

doris_工作使用整理

文章目錄 前言一、doris整體情況二、doris的存儲過程情況1.分類2. 同步物化視圖3. 異步物化視圖三,分區相關1.分區建的過多前言 提示:doris使用版本3.x 提示:以下是本篇文章正文內容,下面案例可供參考 一、doris整體情況 細節放大 二、doris的存儲過程情況 1.分類 按…

左神算法之單輔助棧排序算法

目錄 1. 題目2. 解釋3. 思路4. 代碼5. 總結 1. 題目 請編寫一個程序,對一個棧里的整型數據,按升序進行排序(即排序前棧里的數據是無序的,排序后最大元素位于棧頂)。要求最多只能使用一個額外的棧存放臨時數據&#xf…

使用Trae編輯器與MCP協議構建高德地圖定制化服務

目錄 一、使用Trae編輯器配置高德MCP Server 1.1 Trae介紹 1.2 從mcp.so中獲取配置高德地圖mcp server配置信息 1.3 高德地圖開發者配置 1.4 添加Filesystem 到Trae 1.5 使用結果展示 1.6 MCP常見命令行工具和包管理說明 1.7 Function Call工具和MCP技術對比 二、本地…

【LLaMA-Factory 實戰系列】三、命令行篇 - YAML 配置與高效微調 Qwen2.5-VL

【LLaMA-Factory 實戰系列】三、命令行篇 - YAML 配置與高效微調 Qwen2.5-VL 1. 引言2. 為什么從 WebUI 轉向命令行?3. 準備工作(回顧)4. 核心:創建并理解訓練配置文件4.1 選擇并復制基礎模板4.2 逐一解析與修改配置文件4.3 參數詳…

推薦:ToB銷售B2B銷售大客戶營銷大客戶銷售培訓師培訓講師唐興通講銷售技巧數字化銷售銷AI銷售如何有效獲取客戶與業績

站在AI浪潮之巔,重塑銷售之魂 在AI時代,普通銷售人員(TOB、TOC)除了傳統的銷售動作之外,還能做什么?怎么做? 這是《AI銷冠》這本書想探討的核心問題。 特別喜歡編輯老師總結的: 讀者…

爬取小紅書相關數據導入到excel

本期我們來進行實戰,爬取小紅書的相關數據導入到excel中,后續可進行些數據分析,今后或者已經在運營小紅書的小伙伴應該比較喜歡這些數據。今天我們的主角是DrissionPage,相對于之前介紹的selenium省去了很多的配置,直接安裝了就能使用。 DrissionPage 是一個基于 python …

c++面試題每日一學記錄- C++對象模型與內存對齊深度原理詳解

一、C++對象模型核心原理 1. 對象內存布局基礎原理 設計哲學: 零開銷原則:不為未使用的特性付出代價(如無虛函數則無vptr)兼容性:C結構體在C++中保持相同內存布局多態支持:通過虛函數表實現運行時動態綁定內存布局實現機制: 編譯器處理步驟: 成員排列:嚴格按聲明順序…

Kafka 監控與調優實戰指南(二)

五、Kafka 性能問題剖析 5.1 消息丟失 消息丟失是 Kafka 使用過程中較為嚴重的問題,可能由多種原因導致。在生產者端,如果配置不當,比如將acks參數設置為0,生產者發送消息后不會等待 Kafka broker 的確認,就繼續發送…

Linux下SVN報錯:Unable to connect to a repository at URL ‘svn://XXX‘

一、問題描述 Linux下通過SVN執行提交(commit)操作時報錯:Unable to connect to a repository at URL svn://XXX: 二、解決方法 導致該問題的一個可能原因是遠程倉庫的URL發生變化了,即svn服務器的ip變更了。這時可…

Modbus 掃描 從站號、波特率

下載鏈接:https://pan.quark.cn/s/533ceb8e397d 下載鏈接: https://pan.baidu.com/s/1PQHn-MwfzrWgF2UrXQDoGg 提取碼: 1111

Docker 容器通信與數據持久化

目錄 簡介 一、Docker 容器通信 1. Docker 網絡模式 2. Bridge 模式 3. Host 模式 4. Container 模式 5. Overlay 模式 6. 端口映射:容器與外部的橋梁 7. 容器互聯:從 --link 到自定義網絡 二、Docker 數據持久化 1. 數據卷:Docke…

【教學類-89-08】20250624新年篇05——元宵節燈籠2CM黏貼邊(倒置和正立數字 )

背景需求: 【教學類-89-06】20250220新年篇05——元宵節燈籠2CM黏貼邊(3邊形到50邊形,一頁1圖、2圖、4圖,適合不同水平,適合不同階段)-CSDN博客文章瀏覽閱讀1.6k次,點贊35次,收藏27…

【DB2】SQL0104N An unexpected token “OCTETS“ was found following “……

db2創建表時報標題的錯誤,建表語句如下 db2 "CREATE TABLE YS.TEST_1(ID VARCHAR(64 OCTETS))"去掉octets就好了 經過測試,在9.7版本報錯,在10.5.11沒問題,懷疑版本差異導致 在官網查找資料,應該是10.5才…

暴雨以信創委員會成員單位身份參與南京專題活動

6月19日,中國電子工業標準化技術協會信息技術應用創新工作委員會(簡稱信創工委會)聯合南京市工業和信息化局共同舉辦的“智啟未來:AI賦能信息技術應用創新辦公新勢力”專題活動在南京成功舉辦。南京市工業和信息化局副局長代吉上、…

基于keepalived、vip實現高可用nginx (centos)

基于keepalived、vip實現高可用nginx (centos) 1、安裝keepalived yum install keepalived2、選同一局域網空置ip作vip 我這里測試是: 主:192.168.163.134 副:192.168.163.135 vip:192.168.163.1403、ke…