- 作者:Zhanbo Shi, Lin Zhang, Linfei Li, Ying Shen
- 單位:同濟大學計算機學院
- 論文標題:Towards Audio-visual Navigation in Noisy Environments: A Large-scale Benchmark Dataset and An Architecture Considering Multiple Sound-Sources
- 論文鏈接:https://ojs.aaai.org/index.php/AAAI/article/view/33608
- 代碼鏈接:https://github.com/ZhanboShiAI/ENMuS
主要貢獻
- 構建大規模基準數據集 BeDAViN:包含 2,258 個音頻樣本,涵蓋 20 種聲音事件類別和 4 種噪聲類別,總時長 10.8 小時,是現有音頻數據集的 33 倍以上,能夠模擬多樣化的多聲源場景。
- 提出 ENMuS3^33 框架:針對多聲源場景的具身導航框架,包含聲音事件描述符和多尺度場景記憶Transformer兩個關鍵組件,前者可提取目標聲源的空間和語義特征,后者能有效跟蹤目標對象,顯著提升在嘈雜環境中的導航性能。
- 實驗驗證:在 BeDAViN 數據集上進行的大量實驗表明,ENMuS3^33 在不同場景下的導航成功率和效率均大幅優于現有SOTA方法,成功率提升了一個數量級。
研究背景
- 具身導航的重要性:具身導航是具身智能(Embodied AI)的一個基本且關鍵的組成部分,要求自主智能體通過與未見過的環境交互來解決復雜的導航任務。近年來,具身導航技術被廣泛應用于家庭服務、倉儲和物流等領域。
- 現有研究的局限性:
- 數據集限制:現有的音頻-視覺導航數據集樣本有限,難以模擬多樣化的多聲源場景。
- 框架限制:大多數現有的導航框架是為單聲源場景設計的,在多聲源場景下的性能大幅下降。
- 多聲源場景的挑戰:現實世界中的環境通常存在多個聲源和背景噪聲,這對音頻-視覺導航提出了更高的要求。
BeDAViN: 音頻-視覺導航基準
- 數據集規模:包含2258個音頻樣本,總時長10.8小時,覆蓋24種聲音事件類別(如電視聲音、交通噪聲、烤面包機聲音等)。
- 數據收集:
- 手動錄制:使用Tascam DR-40X設備在室內環境中錄制了158個24位雙聲道音頻文件。
- 公共數據集補充:從AudioSet和FSD50K等公共數據集中選取了與手動錄制樣本類似的音頻片段,并從freesound.org補充了一些未被系統收集的類別(如毛巾、靠墊、植物等)的音頻片段。
- 導航場景生成:生成了150萬條導航場景,每個場景包含模擬導航過程的一組參數,如場景選擇、智能體起始位置和旋轉、目標物體位置、目標音頻文件名和時長等。
ENMuS3^33: 多源具身導航框架
- 框架概述:ENMuS3^33框架通過觀察編碼器(Observation Encoder)將局部觀察映射為觀察嵌入(embedding),然后利用多尺度場景記憶Transformer構建多分辨率記憶表示,最終通過解碼器預測智能體的下一步動作。
- 關鍵組件:
- 聲音事件描述符:從雙聲道音頻波形中提取目標聲源的空間和語義特征,能夠區分多個聲源并確定目標聲源的方向(DoA)。
- 多尺度場景記憶Transformer:利用全局交互和局部特征,提高在嘈雜環境中的導航效率。
- 觀察編碼器:
- 音頻編碼器:將雙聲道波形轉換為左、右聲道頻譜圖,計算雙耳相位差(IPD)和雙耳水平差(ILD),生成低級音頻表示。
- 聲音事件描述符:處理音頻編碼器的輸出,生成類別級輸出,包含周圍活躍聲源的估計類別及其方向。
- 視覺/姿態/動作編碼器:使用ResNet生成視覺表示,使用線性網絡生成姿態和動作的表示。
- 場景記憶存儲:存儲最近的NmN_mNm?個場景觀察,以便智能體利用歷史信息進行長時導航任務。
- 場景表示解碼器:通過多尺度場景記憶Transformer解碼當前觀察嵌入和場景記憶存儲,預測智能體的下一步動作。
實驗
- 實驗設置:
- 環境和模擬器:采用 Matterport3D 虛擬室內場景作為訓練和測試環境,修改 SoundSpaces 平臺以添加干擾聲音和背景噪聲的生成流程。
- 場景配置:在三種場景下進行實驗,分別是單聲源場景(只有目標物體發聲)、多聲源場景(環境中存在多個類別的聲音事件,特定類別的聲音事件為目標聲源)和嘈雜場景(基于多聲源場景并添加持續的背景噪聲)。測試結果在 10 個復雜程度不同的 Matterport3D 場景中取平均值,每個場景包含 100 個劇集。
- 評估指標:采用成功率(SR)、按路徑長度加權的成功率(SPL)、按動作數量加權的成功率(SNA)以及劇集結束時到目標的平均距離(DTG)來評估不同音頻視覺導航方案的性能。
- 基線方法:將 ENMuS3^33與隨機策略、目標跟隨策略、ObjectGoal 方法、Av-Nav 方法、SAVi 方法以及 SMT + Audio 方法進行比較,所有方法都使用相同的獎勵函數和必要的相同輸入。
- 定量實驗結果:
- 如表所示,ENMuS3^33在所有場景下的表現均顯著優于其他方法。在單聲源場景中,ENMuS3^33的成功率比現有SOTA方法高出 13.1%,在多聲源場景和嘈雜場景中分別高出 7.1% 和 3.1%。
- 此外,ENMuS3^33在 SPL 和 SNA 指標上也有顯著提升,表明其多尺度場景記憶Transformer能夠利用全局交互和局部特征找到更短的路徑,從而提高導航效率。
- 定性實驗結果:
- 上圖展示了 ENMuS3^33與其他方法在多聲源場景下的導航軌跡。可以看出,ENMuS3^33能夠以更高效的路徑完成導航任務,例如在 S9hNv5qa7GM 場景中,ENMuS3^33幾乎沿著最短路徑到達目標,顯示出其多尺度場景記憶Transformer在嘈雜環境中跟蹤目標的強大能力。
- 在目標物體距離智能體初始位置較遠的情況下,如 ac26ZMwG7aT 場景,ENMuS3^33 能夠借助聲音事件描述符成功到達目標,而其他方法則容易在起始點附近的區域停滯不前。
結論與未來工作
- 結論:
- 為了促進在嘈雜環境中的音頻視覺導航,本研究引入了 BeDAViN 大規模基準數據集,并提出了 ENMuS3^33框架。
- BeDAViN 能夠模擬不同聲源配置的多樣化場景,為在多聲源環境中訓練和測試智能體提供了支持。
- ENMuS3^33通過其聲音事件描述符和多尺度場景記憶Transformer,顯著增強了智能體在復雜嘈雜環境中定位和跟蹤目標聲源的能力。
- 未來工作:
- 由于現有音頻視覺導航方法主要在仿真環境中開發,未來的研究將致力于將 ENMuS3^33部署到現實世界的應用中。