AAAI-2025 | 同濟大學面向嘈雜環境的音頻視覺導航！BeDAViN：大規模音頻-視覺數據集與多聲源架構研究

作者：Zhanbo Shi, Lin Zhang, Linfei Li, Ying Shen
單位：同濟大學計算機學院
論文標題：Towards Audio-visual Navigation in Noisy Environments: A Large-scale Benchmark Dataset and An Architecture Considering Multiple Sound-Sources
論文鏈接：https://ojs.aaai.org/index.php/AAAI/article/view/33608
代碼鏈接：https://github.com/ZhanboShiAI/ENMuS

構建大規模基準數據集 BeDAViN：包含 2,258 個音頻樣本，涵蓋 20 種聲音事件類別和 4 種噪聲類別，總時長 10.8 小時，是現有音頻數據集的 33 倍以上，能夠模擬多樣化的多聲源場景。
提出 ENMuS $^3$ 框架：針對多聲源場景的具身導航框架，包含聲音事件描述符和多尺度場景記憶Transformer兩個關鍵組件，前者可提取目標聲源的空間和語義特征，后者能有效跟蹤目標對象，顯著提升在嘈雜環境中的導航性能。
實驗驗證：在 BeDAViN 數據集上進行的大量實驗表明，ENMuS $^3$ 在不同場景下的導航成功率和效率均大幅優于現有SOTA方法，成功率提升了一個數量級。

具身導航的重要性：具身導航是具身智能（Embodied AI）的一個基本且關鍵的組成部分，要求自主智能體通過與未見過的環境交互來解決復雜的導航任務。近年來，具身導航技術被廣泛應用于家庭服務、倉儲和物流等領域。

現有研究的局限性：
- 數據集限制：現有的音頻-視覺導航數據集樣本有限，難以模擬多樣化的多聲源場景。
- 框架限制：大多數現有的導航框架是為單聲源場景設計的，在多聲源場景下的性能大幅下降。
多聲源場景的挑戰：現實世界中的環境通常存在多個聲源和背景噪聲，這對音頻-視覺導航提出了更高的要求。

數據收集：
- 手動錄制：使用Tascam DR-40X設備在室內環境中錄制了158個24位雙聲道音頻文件。
- 公共數據集補充：從AudioSet和FSD50K等公共數據集中選取了與手動錄制樣本類似的音頻片段，并從freesound.org補充了一些未被系統收集的類別（如毛巾、靠墊、植物等）的音頻片段。
導航場景生成：生成了150萬條導航場景，每個場景包含模擬導航過程的一組參數，如場景選擇、智能體起始位置和旋轉、目標物體位置、目標音頻文件名和時長等。

框架概述：ENMuS $^3$ 框架通過觀察編碼器（Observation Encoder）將局部觀察映射為觀察嵌入（embedding），然后利用多尺度場景記憶Transformer構建多分辨率記憶表示，最終通過解碼器預測智能體的下一步動作。

關鍵組件：
- 聲音事件描述符：從雙聲道音頻波形中提取目標聲源的空間和語義特征，能夠區分多個聲源并確定目標聲源的方向（DoA）。
- 多尺度場景記憶Transformer：利用全局交互和局部特征，提高在嘈雜環境中的導航效率。

觀察編碼器：
- 音頻編碼器：將雙聲道波形轉換為左、右聲道頻譜圖，計算雙耳相位差（IPD）和雙耳水平差（ILD），生成低級音頻表示。
- 聲音事件描述符：處理音頻編碼器的輸出，生成類別級輸出，包含周圍活躍聲源的估計類別及其方向。
- 視覺/姿態/動作編碼器：使用ResNet生成視覺表示，使用線性網絡生成姿態和動作的表示。
場景記憶存儲：存儲最近的 $N_m$ 個場景觀察，以便智能體利用歷史信息進行長時導航任務。
場景表示解碼器：通過多尺度場景記憶Transformer解碼當前觀察嵌入和場景記憶存儲，預測智能體的下一步動作。

實驗設置：
- 環境和模擬器：采用 Matterport3D 虛擬室內場景作為訓練和測試環境，修改 SoundSpaces 平臺以添加干擾聲音和背景噪聲的生成流程。
- 場景配置：在三種場景下進行實驗，分別是單聲源場景（只有目標物體發聲）、多聲源場景（環境中存在多個類別的聲音事件，特定類別的聲音事件為目標聲源）和嘈雜場景（基于多聲源場景并添加持續的背景噪聲）。測試結果在 10 個復雜程度不同的 Matterport3D 場景中取平均值，每個場景包含 100 個劇集。
- 評估指標：采用成功率（SR）、按路徑長度加權的成功率（SPL）、按動作數量加權的成功率（SNA）以及劇集結束時到目標的平均距離（DTG）來評估不同音頻視覺導航方案的性能。
- 基線方法：將 ENMuS $^3$ 與隨機策略、目標跟隨策略、ObjectGoal 方法、Av-Nav 方法、SAVi 方法以及 SMT + Audio 方法進行比較，所有方法都使用相同的獎勵函數和必要的相同輸入。

定量實驗結果：
- 如表所示，ENMuS $^3$ 在所有場景下的表現均顯著優于其他方法。在單聲源場景中，ENMuS $^3$ 的成功率比現有SOTA方法高出 13.1%，在多聲源場景和嘈雜場景中分別高出 7.1% 和 3.1%。
- 此外，ENMuS $^3$ 在 SPL 和 SNA 指標上也有顯著提升，表明其多尺度場景記憶Transformer能夠利用全局交互和局部特征找到更短的路徑，從而提高導航效率。

定性實驗結果：
- 上圖展示了 ENMuS $^3$ 與其他方法在多聲源場景下的導航軌跡。可以看出，ENMuS $^3$ 能夠以更高效的路徑完成導航任務，例如在 S9hNv5qa7GM 場景中，ENMuS $^3$ 幾乎沿著最短路徑到達目標，顯示出其多尺度場景記憶Transformer在嘈雜環境中跟蹤目標的強大能力。
- 在目標物體距離智能體初始位置較遠的情況下，如 ac26ZMwG7aT 場景，ENMuS $^3$ 能夠借助聲音事件描述符成功到達目標，而其他方法則容易在起始點附近的區域停滯不前。

結論：
- 為了促進在嘈雜環境中的音頻視覺導航，本研究引入了 BeDAViN 大規模基準數據集，并提出了 ENMuS $^3$ 框架。
- BeDAViN 能夠模擬不同聲源配置的多樣化場景，為在多聲源環境中訓練和測試智能體提供了支持。
- ENMuS $^3$ 通過其聲音事件描述符和多尺度場景記憶Transformer，顯著增強了智能體在復雜嘈雜環境中定位和跟蹤目標聲源的能力。
未來工作：
- 由于現有音頻視覺導航方法主要在仿真環境中開發，未來的研究將致力于將 ENMuS $^3$ 部署到現實世界的應用中。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/89050.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/89050.shtml
英文地址，請注明出處：http://en.pswp.cn/web/89050.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！