論文信息

題目：Multi-object navigation in real environments using hybrid policies
作者：Assem Sadek, Guillaume Bono
來源：CVPR
時間：2023

Abstract

機器人技術中的導航問題通常是通過 SLAM 和規劃的結合來解決的。

最近，除了航路點規劃之外，涉及（視覺）高級推理重要組成部分的問題也在模擬環境中得到了探索，這些問題大多通過大規模機器學習來解決，特別是強化學習、離線強化學習或模仿學習。

這些方法要求智能體學習各種技能，例如局部規劃、繪制對象和查詢所學習的空間表示。與航點規劃（PointGoal）等更簡單的任務相比，對于這些更復雜的任務，當前最先進的模型已經在模擬中進行了徹底的評估，但據我們所知，尚未在真實環境中進行評估。

在這項工作中，我們重點關注 sim2real 轉變。
我們的目標是具有挑戰性的多對象導航（Multi-ON）任務[41]，并將其移植到包含原始虛擬 Multi-ON 對象的真實副本的物理環境。

我們引入了一種混合導航方法，它將問題分解為兩種不同的技能：
(1) 路點導航通過經典 SLAM 與符號規劃器相結合來解決，
(2) 探索、語義映射和目標檢索則通過經過訓練的深度神經網絡來處理監督學習和強化學習的結合。

我們在模擬和真實環境中展示了這種方法與端到端方法相比的優勢，并且在該任務上優于 SOTA [28]。

Introduction

機器人導航已經從準備充分的環境中的簡單路徑點導航問題發展到涉及視覺和語義概念的高級推理的復雜任務。當策略從模擬轉移到物理機器人的真實環境時，它們會出現性能下降和缺乏魯棒性的情況。這主要是由于模擬與現實之間的真實性差距**（“sim2real 差距”），以及難以探索導航問題中固有的大量變化因素**，例如房間布局、家具、紋理和其他房間細節、罕見的局部場景幾何形狀等。

最近有一種模塊化方法的趨勢，它將問題分解為分層部分 [8]、[4] 和混合方法，將最短路徑規劃器（符號或經過訓練的）與經過訓練的策略相結合。雖然這些方法已被證明具有更高的樣本效率[32]，但最先進的方法仍在模擬中進行評估，并且缺乏對真實機器人的徹底測試。

在這項工作中，我們解決了多對象導航 [41] 的挑戰性問題，與 K 項物品場景 [5] 類似，需要代理按規定的順序順序導航一組對象。這個任務定義有利于代理能夠學習在內部空間表示中映射所看到的對象，因為后面在情節中導航到它們可以增加獎勵。這使得它在像 ObjectNav 這樣的簡單任務中脫穎而出，其中探索和當前觀察的反應性局部規劃的綜合能力足以解決任務。

我們的目標是 sim2real 遷移，據我們所知，我們是第一個在真實物理環境中對多對象導航方法進行全面性能評估的人，請參見圖 1。雖然更簡單的任務（例如 PointGoal）已在在真實的機器人[23]、[34]中，對更復雜任務的訓練模型的評估很少或不存在。我們提出了一種新的導航方法，其設計選擇是由優化實際環境中的性能的目標驅動的。
在這里插入圖片描述

我們提出了一種新的混合方法，將問題分解為兩部分：

“Good Old Fashioned Robotics”(GOFR)，處理與語義無關的經典導航方面，例如可導航空間的檢測和定位（幾何 SLAM）與地圖上的路點導航相結合。
Semantics through Machine Learning, 即映射視覺推理所需的語義概念并利用它們；利用布局規律探索環境中最有前途的區域

在導航過程中，經典的 SLAM 算法 [24] 以張量/地圖的形式創建并維護 2D 度量表示，并使用激光雷達輸入??在其上定位機器人。使用深度神經網絡從視覺 RGB-D 觀測中提取的高級特征形成空間和語義點云，其空間坐標與度量表示對齊，見圖 2。
組合的混合表示滿足相關子的需求。 -智能體所需的技能：
（i）確定過去是否觀察到目標物體，
（ii）規劃智能體和探索區域之間的最佳軌跡，以及
（iii）確定環境中未探索區域的邊界以及下一個中間子目標，以防環境需要探索以找到下一個目標。所有這些子技能都是單獨設計和訓練的，這可以限制訓練的樣本復雜性。

這項工作的貢獻如下：
（i）我們引入了一種多目標導航的混合方法，將經典的度量 SLAM 和路徑規劃與經過監督學習和 RL 訓練的學習組件相結合；
(ii) 我們在真實環境中重現 Multi-ON 基準測試 [41]，其中我們放置目標對象的制造復制品，用于最初模擬的目標環境；
(iii) 我們將所提出的方法與真實環境中的端到端訓練方法進行比較，特別是與 CVPR 2021 MultiON 競賽 [28] 的獲獎作品進行比較，我們在真實和模擬環境中都表現出色。

Related Work

(這部分沒太多有價值的)

Hybrid Planning and Navigation

我們的目標是 Wani 等人[41]引入的多對象導航（Multi-ON）任務，特別是 3 個對象變體：在每個情節中，智能體必須找到 3 個圓柱形對象 $G_n，n = 1, 2, 3$ ，按照預定義的順序，其中 $G_n$ 是要查找的第 n 個對象，并且需要在每個目標處調用 Found 操作。劇集持續時間限制為 2,500 個環境步驟。在每個步驟 t，智能體接收一個以自我為中心的 RGB-D 觀察 $O_t ∈ R^{h×w×4}$ 、一個激光雷達框架以及來自 8 個類別的當前目標對象的類別標簽。

在導航過程中，代理根據激光雷達輸入??構建度量鳥瞰占用圖，并使用度量 SLAM [39] 在其上進行自身定位。該二值圖與重疊的語義點云相結合，其中包含關鍵對象的位置及其語義類別，這些是通過對象檢測器從 RGB 輸入中檢測到的。檢測和建圖通過 SLAM 算法的定位模塊進行協調。

Navigation

在兩個不同的級別上分層執行。在較高級別（圖 2 中的外環）上，生成 2D 航路點坐標 pt=(x, y) 并將其提供給較低級別??控制器（內環），其任務是使用維護的占用地圖導航到航路點。高級控制器在兩種不同的策略之間切換：
? Exploration- 當目標物體尚未被觀察到時，即機器人探索環境，最大化覆蓋范圍。這是通過 RL 訓練的學習策略來完成的，見下文。
? Exploitation——當目標對象被觀察到并因此成為語義點云的一部分時，其位置被視為新的路徑點并提供給本地規劃器。

Metric EgoMap

為了收集沿其路徑的導航信息并更有效地重新訪問之前看到的區域，代理構建了所謂的 EgoMap，這是一個以其當前位置為中心并與其前進方向對齊的固定空間分辨率的占用網格。

在真實的機器人上，該地圖是使用 RTABMap [24] 庫獲得的。它使用基于圖形的 SLAM 算法和閉環功能，這是一種利用 RGB-D、激光雷達和里程計傳感器數據的靈活設計。激光雷達和/或深度用于創建 2D/3D 局部占用網格，與初始位置依賴于里程計積分的節點相關聯。

然后從 RGB 幀中提取的關鍵點創建描述符，以便于節點比較和回環檢測。 RTABMap 還包括短期和長期內存管理、全局映射壓縮和多會話映射。

在模擬中，我們利用特權信息，通過 Habitat-Sim 中的 Recast&Detour [1] 庫生成的 NavMesh 投影來檢索場景導航性的完整自上而下視圖。然后，通過使用完美定位，直接在該自上而下視圖上的代理視野中進行光線追蹤，構建戰爭迷霧掩模。

真實方法和模擬方法都會生成一個全局地圖，我們在該地圖上應用由代理當前姿勢參數化的簡單仿射變換來獲取 EgoMap。

Exploration

是基于機器學習的主要模塊。與最近的嵌入式 AI 工作相比 [4]、[8]，該策略不采用第一人稱 RGB 輸入，而是采用度量 SLAM 算法生成的 EgoMap Mt。這大大簡化了任務并提高了采樣效率，并且由于避免了閃電、顏色和紋理的變化，因此最大限度地減少了 sim2real 差距。該策略是外循環的一部分，預測 2D 航路點坐標 pt。

由于多種原因，該問題是部分可觀察到的：
(i) 并非場景的所有區域在任何時間點都已被觀察到；
(ii) 出于效率原因，EgoMap Mt 并未覆蓋整個場景，因此當智能體導航到距離觀察區域足夠遠時，可能會忘記觀察到的區域；
(iii) 在環境中存在不確定性的情況下，即使理論上完全可觀察的問題（MDP）也可以轉化為 POMDP（“認知 POMDP”），這是機器人技術的標準情況，正如最近在[18]中所顯示的那樣。

因此，我們為該策略注入了隱藏記憶 $h_t$ 并使其循環出現。

策略 π 需要能夠預測多模態分布，因為有多個有效軌跡可以有效地探索環境。我們通過歸納偏差將其納入策略中，這迫使預測通過空間熱圖 Ht，從中對所選航路點位置進行采樣。在采樣之前，我們通過掩蔽將熱圖限制在未探索的區域。這種選擇還導致了一個更可解釋的模型，因為目標探索點的分布可以可視化（參見第四節）。

這可以形式化如下（另請參見圖 3）：
在這里插入圖片描述

Local Navigation

本地導航 — 到航路點 $p_t$ 由分析規劃器執行，該規劃器計算當前占用 EgoMap Mt 上的最短路徑。這不一定是最佳路徑，因為地圖不等于（未觀察到的）GT 地圖和中間區域待穿越的區域（甚至路徑點 $p_t$ ）可能未被探索。

我們采用動態規劃器 $D^*$ ，它計算經典假設下的最短路徑，并在新信息可用時重新規劃。由于我們優化了我們的方法，使其在實際環境中穩健且高效，與最近的工作 [32]、[7] 不同，我們選擇 D* 規劃器而不是常用的快速行進方法 [37]。實際路徑的可行性和規劃的速度是這種設計選擇背后的兩個主要原因。

Stabilizing training

穩定訓練——如上所述，在不確定條件下使用 $D^*$ 的局部規劃產生的潛在失敗和次優軌跡也會對勘探策略的訓練過程產生負面影響。該策略是外循環的一部分，預測航路點 $p_t$ ，僅在完成完整的本地導航過程后才收到獎勵。局部規劃中的噪音會影響強化學習訓練過程的穩定性并導致缺乏收斂。

我們通過訓練與本地策略接口的探索策略來解決這個問題，并對其施加了長度限制。探索策略預測的從當前位置到下一個路點 pt 的完整軌跡被分成一系列距離為 0.3m 的小子目標，本地策略僅限于其中 5 個子目標。如果達到航路點 pt，或者達到 5 個子目標的限制，則將控制權交還給外循環。這種選擇導致了穩定的訓練，并且訓練后的策略很好地轉移到了有針對性的探索任務，而無需改變。對本地規劃長度的相同限制也適用于部署時，這提高了實際條件下的魯棒性，并使復雜的恢復行為變得過時。

Object Detection and Mapping

對象檢測和映射 - 被構建為來自當前 RGB-D 幀 ot 的語義分割任務，我們通過根據模擬器中的特權信息計算出的 GT 掩碼進行監督。預測器是 DeepLab v3 網絡 [12]，使用深度信息和情景里程計對掩模中檢測到的對象進行反向投影并與 EgoMap 對齊。請注意，深度和里程計在真實機器人/真實環境評估設置中都是有噪聲的。

High-level decisions

高層決策完全是手工制定的，因為這會帶來穩健且可轉移的決策過程，而可以說不需要學習。考慮到我們的決策選擇，只需要一種類型的決策，是進行探索還是利用（即朝著目標導航）。這是根據當前目標對象是否已在映射時被觀察到而采取的。如果已檢測到同一類的多個對象，則選擇最有可能檢測到的位置（就分段對象像素而言）。要映射的對象需要最小數量的像素