-
作者:Hui Yuan, Yan Huang, Zetao Du, Naigong Yu, Ziqi Liu, Dongbo Zhang, Kun Zhang
-
單位:北京工業大學信息科學與技術學院,北京工業大學計算智能與智能系統北京市重點實驗室,中科院自動化研究所模式識別國家重點實驗室與多智能體系統實驗室,湘潭大學自動化與電子信息學院,上海科技大學信息科學與技術學院
-
論文標題:Multimodal Pretrained Knowledge for Real-world Object Navigation
-
論文鏈接:https://www.mi-research.net/en/article/pdf/preview/10.1007/s11633-024-1537-x.pdf
-
出版信息:Machine Intelligence Research (2025)
主要貢獻
-
提出了基于多模態預訓練知識的現實世界物體導航方法,通過在關鍵點進行視覺-語言跨模態對齊,有效地監督機器人導航。
-
構建了室內物體數據庫,并開發了多模態對齊概念知識(MACK(indoor)),以支持各種場景下的物體檢索。
-
提出了目標位置預測策略,能夠準確預測機器人接近目標物體的最佳位置和方向。
-
在物理機器人上實現了該方法,并通過實驗驗證了其在現實世界環境中的優越性,成功率達到66.7%,優于現有方法。
研究背景
-
視覺-語言導航(VLN)的挑戰:大多數VLN研究集中在模擬環境,但在現實世界中,由于視覺和語言之間的錯位,導致路徑偏差,方法難以泛化。
-
現有方法的局限性:現有方法在動態或復雜環境中泛化能力有限,尤其是在關鍵位置的語義概念理解、大規模空間導航和復雜決策過程中。
-
多模態預訓練知識的潛力:多模態預訓練技術在未配對圖像-文本匹配中表現出色,但尚未應用于現實世界的VLN任務。
研究方法
多模態預訓練知識(MACK(indoor))
-
通過Open Images V7數據集和實驗室數據,收集了100個常見室內物體的詞-區域對,構建了MACK(indoor)。
-
每個語義概念的視覺原型表示通過平均相關區域表示獲得,用于支持物體檢索。
關鍵點篩選與優化
-
在預先構建的2D網格地圖上隨機生成多個航點,去除非可導航區域的航點,并將剩余航點指定為關鍵點。
-
通過戰略性優化,確保生成的航點在關鍵位置(如交叉口、入口和視覺復雜區域)有效。
視覺-語言跨模態匹配
-
使用Kinect v2.0相機捕獲的RGB圖像,應用自下而上的注意力機制提取圖像區域特征。
-
將語音命令轉換為文本,通過MACK(indoor)映射到相應的特征表示,計算目標文本表示與圖像區域特征之間的相似性。
目標可導航位置預測
-
在成功匹配目標物體后,利用深度信息輔助路徑規劃,使機器人能夠高效地接近目標物體。
-
提出了一種結合目標物體深度信息和SLAM地圖數據的方法,預測機器人接近目標物體的最佳位置和方向。
實驗平臺與實現
-
在物理機器人上實現了該方法,機器人平臺包括Kinect v2.0 RGB-D相機、支持桿、升降平臺、聯想9000P電腦、夾持器、專用支架和移動底盤。
實驗
數據集與評估指標
-
使用Open Images V7數據集和實驗室收集的數據進行評估。
-
采用“R@1”、“R@3”和“R@5”等指標評估多模態預訓練知識在關聯圖像區域與文本描述方面的有效性,并記錄平均最大相似度分數。
-
通過平均路徑長度(APL)、成功率(SR)、路徑長度加權成功率(SPL)和平均導航時間等指標評估導航性能。
關鍵點密度的影響
-
評估了不同關鍵點密度范圍對導航效率的影響,發現優化后的關鍵點密度范圍在3.5~4.5 m/point時,導航成功率最高,為66.7%。
與SOTA方法的比較
-
與Sim-to-Real方法相比,所提出的方法在成功率和SPL方面分別提高了19.9和16.6個百分點。
不同物體對導航效率的影響
-
發現較大物體更容易檢索,導航性能更好,而較小或較遠的物體匹配相似度分數較低,影響導航成功率,但通過“先裁剪后匹配”的策略可以提高性能。
動態和視覺復雜環境中的魯棒性分析
-
在不同光照條件和環境布局下進行導航實驗,結果表明所提出的方法具有較強的泛化能力,在語義遮擋、相似干擾和復雜背景環境下,平均跨模態對齊相似度始終超過0.6。
討論與未來工作
討論
-
所提出的方法在現實世界環境中表現出色,尤其是在關鍵點的視覺-語言對齊和目標位置預測方面。
-
實驗結果表明,該方法在動態和視覺復雜環境中具有較強的魯棒性,但仍需進一步優化以應對極端條件(如黑暗環境)。
未來工作
-
計劃為機器人配備全景相機和高精度3D雷達系統,以提高感知能力。
-
將現有的VLN模型(如Discrete-Continuous-VLN、VLN-CE、Habitat和ETPNav)擴展到現實世界環境,以擴大其適用性。
-
持續改進視覺-語言導航的魯棒性、可靠性和適應性,縮小理論與實踐之間的差距,最大化其現實世界的影響。