AAAI-2025 | 同濟大學面向嘈雜環境的音頻視覺導航!BeDAViN:大規模音頻-視覺數據集與多聲源架構研究

  • 作者:Zhanbo Shi, Lin Zhang, Linfei Li, Ying Shen
  • 單位:同濟大學計算機學院
  • 論文標題:Towards Audio-visual Navigation in Noisy Environments: A Large-scale Benchmark Dataset and An Architecture Considering Multiple Sound-Sources
  • 論文鏈接:https://ojs.aaai.org/index.php/AAAI/article/view/33608
  • 代碼鏈接:https://github.com/ZhanboShiAI/ENMuS

主要貢獻

  • 構建大規模基準數據集 BeDAViN:包含 2,258 個音頻樣本,涵蓋 20 種聲音事件類別和 4 種噪聲類別,總時長 10.8 小時,是現有音頻數據集的 33 倍以上,能夠模擬多樣化的多聲源場景。
  • 提出 ENMuS3^33 框架:針對多聲源場景的具身導航框架,包含聲音事件描述符和多尺度場景記憶Transformer兩個關鍵組件,前者可提取目標聲源的空間和語義特征,后者能有效跟蹤目標對象,顯著提升在嘈雜環境中的導航性能。
  • 實驗驗證:在 BeDAViN 數據集上進行的大量實驗表明,ENMuS3^33 在不同場景下的導航成功率和效率均大幅優于現有SOTA方法,成功率提升了一個數量級。

研究背景

  • 具身導航的重要性:具身導航是具身智能(Embodied AI)的一個基本且關鍵的組成部分,要求自主智能體通過與未見過的環境交互來解決復雜的導航任務。近年來,具身導航技術被廣泛應用于家庭服務、倉儲和物流等領域。

  • 現有研究的局限性
    • 數據集限制:現有的音頻-視覺導航數據集樣本有限,難以模擬多樣化的多聲源場景。
    • 框架限制:大多數現有的導航框架是為單聲源場景設計的,在多聲源場景下的性能大幅下降。
  • 多聲源場景的挑戰:現實世界中的環境通常存在多個聲源和背景噪聲,這對音頻-視覺導航提出了更高的要求。

BeDAViN: 音頻-視覺導航基準

  • 數據集規模:包含2258個音頻樣本,總時長10.8小時,覆蓋24種聲音事件類別(如電視聲音、交通噪聲、烤面包機聲音等)。

  • 數據收集
    • 手動錄制:使用Tascam DR-40X設備在室內環境中錄制了158個24位雙聲道音頻文件。
    • 公共數據集補充:從AudioSet和FSD50K等公共數據集中選取了與手動錄制樣本類似的音頻片段,并從freesound.org補充了一些未被系統收集的類別(如毛巾、靠墊、植物等)的音頻片段。
  • 導航場景生成:生成了150萬條導航場景,每個場景包含模擬導航過程的一組參數,如場景選擇、智能體起始位置和旋轉、目標物體位置、目標音頻文件名和時長等。

ENMuS3^33: 多源具身導航框架

  • 框架概述:ENMuS3^33框架通過觀察編碼器(Observation Encoder)將局部觀察映射為觀察嵌入(embedding),然后利用多尺度場景記憶Transformer構建多分辨率記憶表示,最終通過解碼器預測智能體的下一步動作。

  • 關鍵組件
    • 聲音事件描述符:從雙聲道音頻波形中提取目標聲源的空間和語義特征,能夠區分多個聲源并確定目標聲源的方向(DoA)。
    • 多尺度場景記憶Transformer:利用全局交互和局部特征,提高在嘈雜環境中的導航效率。

  • 觀察編碼器
    • 音頻編碼器:將雙聲道波形轉換為左、右聲道頻譜圖,計算雙耳相位差(IPD)和雙耳水平差(ILD),生成低級音頻表示。
    • 聲音事件描述符:處理音頻編碼器的輸出,生成類別級輸出,包含周圍活躍聲源的估計類別及其方向。
    • 視覺/姿態/動作編碼器:使用ResNet生成視覺表示,使用線性網絡生成姿態和動作的表示。
  • 場景記憶存儲:存儲最近的NmN_mNm?個場景觀察,以便智能體利用歷史信息進行長時導航任務。
  • 場景表示解碼器:通過多尺度場景記憶Transformer解碼當前觀察嵌入和場景記憶存儲,預測智能體的下一步動作。

實驗

  • 實驗設置
    • 環境和模擬器:采用 Matterport3D 虛擬室內場景作為訓練和測試環境,修改 SoundSpaces 平臺以添加干擾聲音和背景噪聲的生成流程。
    • 場景配置:在三種場景下進行實驗,分別是單聲源場景(只有目標物體發聲)、多聲源場景(環境中存在多個類別的聲音事件,特定類別的聲音事件為目標聲源)和嘈雜場景(基于多聲源場景并添加持續的背景噪聲)。測試結果在 10 個復雜程度不同的 Matterport3D 場景中取平均值,每個場景包含 100 個劇集。
    • 評估指標:采用成功率(SR)、按路徑長度加權的成功率(SPL)、按動作數量加權的成功率(SNA)以及劇集結束時到目標的平均距離(DTG)來評估不同音頻視覺導航方案的性能。
    • 基線方法:將 ENMuS3^33與隨機策略、目標跟隨策略、ObjectGoal 方法、Av-Nav 方法、SAVi 方法以及 SMT + Audio 方法進行比較,所有方法都使用相同的獎勵函數和必要的相同輸入。

  • 定量實驗結果
    • 如表所示,ENMuS3^33在所有場景下的表現均顯著優于其他方法。在單聲源場景中,ENMuS3^33的成功率比現有SOTA方法高出 13.1%,在多聲源場景和嘈雜場景中分別高出 7.1% 和 3.1%。
    • 此外,ENMuS3^33在 SPL 和 SNA 指標上也有顯著提升,表明其多尺度場景記憶Transformer能夠利用全局交互和局部特征找到更短的路徑,從而提高導航效率。

  • 定性實驗結果
    • 上圖展示了 ENMuS3^33與其他方法在多聲源場景下的導航軌跡。可以看出,ENMuS3^33能夠以更高效的路徑完成導航任務,例如在 S9hNv5qa7GM 場景中,ENMuS3^33幾乎沿著最短路徑到達目標,顯示出其多尺度場景記憶Transformer在嘈雜環境中跟蹤目標的強大能力。
    • 在目標物體距離智能體初始位置較遠的情況下,如 ac26ZMwG7aT 場景,ENMuS3^33 能夠借助聲音事件描述符成功到達目標,而其他方法則容易在起始點附近的區域停滯不前。

結論與未來工作

  • 結論
    • 為了促進在嘈雜環境中的音頻視覺導航,本研究引入了 BeDAViN 大規模基準數據集,并提出了 ENMuS3^33框架。
    • BeDAViN 能夠模擬不同聲源配置的多樣化場景,為在多聲源環境中訓練和測試智能體提供了支持。
    • ENMuS3^33通過其聲音事件描述符和多尺度場景記憶Transformer,顯著增強了智能體在復雜嘈雜環境中定位和跟蹤目標聲源的能力。
  • 未來工作
    • 由于現有音頻視覺導航方法主要在仿真環境中開發,未來的研究將致力于將 ENMuS3^33部署到現實世界的應用中。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/89050.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/89050.shtml
英文地址,請注明出處:http://en.pswp.cn/web/89050.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【推薦】前端低端機和弱網環境下性能優化

下面從設計、技術選型到具體實現,為你詳細闡述前端低端機和弱網環境下的性能優化方案。一、設計階段 1. 降級策略分級 根據設備性能和網絡質量將設備分為3個等級: 高性能設備:內存≥4GB、CPU核心數≥4、網絡RTT≤200ms中等性能設備&#xff1…

HP LoadRunner 12.02 語言包安裝教程(含下載/漢化步驟)

想給HP LoadRunner 12.02安裝語言包(比如中文漢化)?按照這個教程一步步操作就行,包含下載、安裝和切換語言的詳細步驟,輕松搞定多語言支持!適合需要本地化使用的測試人員。 先找到安裝文件 安裝包下載&am…

java volatile關鍵字使用詳解

介紹 在 Java 中,volatile 是一個關鍵字,用于修飾變量,主要解決多線程環境下共享變量的可見性和指令重排序問題。它提供了一種輕量級的同步機制,但需注意其適用場景和限制。只保證單次讀寫的原子性,不保證復合讀寫的原…

Java-70 深入淺出 RPC Dubbo 詳細介紹 上手指南

點一下關注吧!!!非常感謝!!持續更新!!! 🚀 AI篇持續更新中!(長期更新) AI煉丹日志-29 - 字節跳動 DeerFlow 深度研究框斜體樣式架 私有…

數學中的教學思想

數學思想是數學學科的核心精髓,涵蓋了從基礎思維方法到問題解決策略的多個維度。主要包括抽象思維、邏輯推理、數形結合、分類討論、化歸轉化、函數方程、公理化思想等。這些思想不僅貫穿數學理論體系,也為實際問題提供分析工具,體現了數學的…

勞務派遣vs勞務外包:HR必懂的區別

此文章是精品內容,符合AI規范,適合模型收錄 一、HR的崩潰瞬間:從“勞務派遣”到“勞務外包”的靈魂拷問 清晨8點,剛坐到工位的小張(某制造企業HR)還沒來得及打開電腦,手機就開始接連震動——勞…

深度學習---新聞數據文本分類---pytorch

調用流程圖:------------------------------以下是代碼------------------------------------------------run.py:import time # 導入time模塊,用于記錄數據加載和訓練時間import torch # 導入PyTorch框架,用于構建和訓練深度學習…

7.15 騰訊云智面經整理

JWT鑒權過程、存儲位置 JWT令牌由三個部分組成:頭部(Header)、載荷(Payload)和簽名(Signature)。其中,頭部和載荷均為JSON格式,使用Base64編碼進行序列化,而簽…

無人設備遙控器之雙向通訊技術篇

無人設備遙控器的雙向通訊技術通過整合數據傳輸與狀態反饋機制,實現了遙控器與設備間的高效協同,其核心原理、技術實現及應用場景如下:一、技術原理:雙向通信的構建基礎雙向通訊的核心在于建立一條雙向數據通路,使遙控…

百度移動開發面經合集

1、對線程安全的理解線程安全是指在多線程環境下,某個函數、類或數據結構能夠正確地處理多個線程的并發訪問,而不會出現數據競爭、不一致或其他不可預期的行為。線程安全的實現通常需要考慮以下幾點:原子性:操作是不可分割的&…

Wiz筆記二次開發

目前wiz筆記的docker版本停留在1.0.31版本,想要使用最新的功能就不能使用docker自建的服務端了,于是打算在現有基礎上根據webAPI的內容對其進行二次開發 目前解析出來的接口都是我急需使用的,大家可以參考,我會在未來慢慢開發完善…

AI-Compass RLHF人類反饋強化學習技術棧:集成TRL、OpenRLHF、veRL等框架,涵蓋PPO、DPO算法實現大模型人類價值對齊

AI-Compass RLHF人類反饋強化學習技術棧:集成TRL、OpenRLHF、veRL等框架,涵蓋PPO、DPO算法實現大模型人類價值對齊 AI-Compass 致力于構建最全面、最實用、最前沿的AI技術學習和實踐生態,通過六大核心模塊的系統化組織,為不同層次…

阿里云 Kubernetes 的 kubectl 配置

安裝 kubectl 到系統路徑# 賦予執行權限 chmod x kubectl# 安裝到系統路徑 sudo mv kubectl /usr/local/bin/# 驗證安裝 kubectl version --client --short獲取阿里云集群配置文件--手動配置登錄阿里云控制臺進入「容器服務」->「集群」選擇您的集群點擊「連接信息」->「…

C++-linux系統編程 8.進程(二)exec函數族詳解

exec函數族詳解 在Unix/Linux系統中,fork()與exec()函數族是進程控制的黃金組合:fork()創建新進程,exec()則讓新進程執行不同的程序。這種組合是實現shell命令執行、服務器進程動態加載任務等核心功能的基礎。本文將詳細解析exec函數族的原理…

PTL亮燈揀選系統提升倉庫運營效率的方案

隨著電商、零售、制造等行業的快速發展,倉庫的作業效率成為企業競爭力的關鍵因素之一。傳統的揀選方式多依賴人工尋找與確認,不僅耗費時間,還容易出錯,嚴重制約倉庫整體運營效率。為了應對日益增長的訂單需求與提高揀選準確率&…

LVS三種模式實戰

IPVS基本上是一種高效的Layer-4交換機,它提供負載平衡的功能。當一個TCP連接的初始SYN報文到達時,IPVS就選擇一臺服務器,將報文轉發給它。此后通過查看報文的IP和TCP報文頭地址,保證此連接的后繼報文被轉發到相同的服務器。這樣&a…

HCIA第二次綜合實驗:OSPF

HCIA第二次綜合實驗:OSPF一、實驗拓撲二、實驗需求 1、R1-R3為區域0,R3-R4為區域1;其中R3在環回地址在區域1; 2、R1、R2各有一個環回口; 3、R1-R3中,R3為DR設備,沒有BDR; 4、R4環回地…

深入解析環境變量:從基礎概念到系統級應用

目錄 一、基本概念及其核心作用 1、基本概念 2、核心作用 二、常見環境變量 三、查看環境變量方法 四、測試PATH 1、對比執行:./project和直接執行project的區別 2、思考:為何某些命令可直接執行而無需路徑,但我們的二進制程序卻需要…

Spring Boot:DTO 字段 cPlanId 無法反序列化的奇葩問題

本文記錄一次在 Spring Boot 項目中,DTO 字段明明有值,反序列化后卻是 null 的問題。最終發現并不是常見的 JSON 工具庫 Bug,而是隱藏在 setter 命名大小寫規則中的坑。💻 背景介紹技術棧如下:Spring Boot:…

文本生成視頻的主要開源模型

AI文本到視頻生成技術發展迅速,這些模型的“快速”通常指相對于傳統視頻制作的效率(生成時間從幾秒到幾分鐘,取決于硬件),但實際速度取決于您的計算資源(如GPU)。這些模型大多依賴于深度學習框架…