【機器人】DualMap 具身導航 | 動態場景開放詞匯語義建圖導航系統

DualMap?是一個在線的開放詞匯語義映射系統，使得機器人能夠通過自然語言查詢在動態變化的環境中理解和導航

雙地圖導航，結合全局抽象地圖進行高層次候選選擇，以及局部具體地圖進行精確目標定位，有效管理和更新環境中的動態變化。

論文地址：DualMap: Online Open-Vocabulary Semantic Mapping for Natural Language Navigation in Dynamic Changing Scenes

代碼地址：https://github.com/Eku127/DualMap

?DualMap的框架思路流程，如下圖所示：

通過“具體地圖”和“抽象地圖”的雙地圖，進行目標導航：

輸入RGB-D數據、機器人的Pose信息
使用YOLO + FastSAM，進行物體對象檢測
生成一組帶有類別標簽、語義特征和點云的觀測物體對象
將新觀測的物體與地圖中已有的對象集進行匹配對比（特征相似度＋點云重疊匹配）；如果匹配成功更新該對象的點云與 CLIP 特征，如果匹配失敗則插入為新對象
生成當前最新的細粒度 3D語義地圖，也就是具體地圖；包含場景中所有靜態／動態物體的點云與語義信息

Concrete Map 具體地圖（三維）：

在線增量構建，記錄“長得什么樣、在哪兒、語義是誰”的全套信息：每個物體的 3D點云、類別標簽、以及 CLIP文本+圖像混合特征（0.7 圖像 + 0.3 文本加權）。
通過“匹配–累積–檢查”循環，既能吸納新出現的物體，也能剔除偶發誤檢物體。

Abstract Map 抽象地圖（二維）：

作用：既能保證速度（YOLO 30 FPS），也能“開箱即用”地識別千奇百怪的新物體。

初次導航：在 Abstract Map 上，根據用戶語言（“找紅色水杯”）在每個錨的語義列表里打分，選出最可能放杯子的家具（比如餐桌）。
局部搜索：機器人邊走邊用 Concrete Map 精細感知，到了目標家具附近再仔細找；
若沒找到，就把局部新觀測到的物體（例如之前遺漏的一堆杯子）抽象到 Abstract Map，對哪個家具下掛了哪些物件進行補充，然后再選下一個最優家具做第二次嘗試。

傳統開放詞匯建圖系統（如 HOV-SG）依賴 3D 物體合并操作處理分割碎片，需消耗大量計算資源（Replica 場景中每幀處理耗時 42 秒）?

DualMap 提出的輕量級對象狀態檢查通過兩大創新突破效率瓶頸：

通過兩種主要機制實現：穩定性和分裂檢測

穩定性檢查?目的是過濾掉那些觀察不足或可能由噪聲引起的對象，從而提高地圖的可靠性。

示例：會議室場景中，誤檢為 "椅子" 的陰影區域若在 15 幀內未被重新觀測，且 "椅子" 類別占比僅 30%，則被刪除
觸發條件：當對象超過T幀（默認 15 幀）未更新時，啟動穩定性評估
檢查標準：對象需要滿足兩個條件才能通過穩定性檢查：
1. 累積的觀測數量超過一個設定的閾值。
2. 在對象的觀測列表中，最頻繁出現的類別ID至少占總觀測數的三分之二。
結果處理：如果對象未通過穩定性檢查，它將被視為不穩定對象并從地圖中移除。