?前言
本工作開展的背景:
人類和其他物種構建類似地圖的環境表示來完成尋路:
(1)當人類只使用現成的駕駛或步行路徑到達目標時,構建認知地圖和獲取空間知識的能力就會下降;
(2)另一方面,當面對基于地標的導航指令而不是完整的路徑時,人類會建立更好的空間表示。
本工作的主要貢獻:
(1)提出了一種用于VLN任務的新系統,將地圖作為顯式的中間表示進行學習;
(2)預測語義圖:在RGB-D圖像和指令上應用跨模態注意力來學習在代理的視野之外產生幻覺信息,實現指令上的語義接地;
(3)預測路徑:在預測的語義圖和指令上應用跨模態注意力來學習預測路徑,實現指令的空間接地。
在本工作中,機器人正在構建一個認知地圖,該地圖對環境先驗進行編碼,并根據該地圖遵循指令。
一、模型整體框架
1.1 任務描述
在時間步??:
(1)圖片輸入:一個視野有限的幀(不是全景圖):
(2)文本輸入:指令;
(3)動作空間:向前移動0.25m、向左轉彎、向右轉彎
和停止。
1.2 模型介紹
在episode的每一步,主要工作流程:
?
(1)預測以自我為中心的本地地圖;
(2)預測以自我為中心的本地地圖上定義為一組航路點的整個路徑;
(3)代理將自己定位在當前預測的路徑上,并選擇路徑上的以下航路點作為短期目標;
(4)該目標被傳遞給現成的本地策略(DD-PPO),該策略預測下一個導航動作。
模型的整體框架如下圖所示:
可以看出,主要由以下幾部分組成:
(1)文本編碼器:預訓練的BERT,負責提取指令特征??;
(2)語義預測模塊:上圖中的藍色部分,包括語義分割器、地面投影、UNet和跨模態地圖注意力模塊;
(3)路徑預測模塊:上圖中的橙色部分,包括跨模態路徑注意力模塊和UNet。
二、難點
2.1 語義預測模塊
本部分的主要是作用在代理無法直接觀察的區域中產生語義信息的幻覺,主要通過利用指令中的空間和語義描述來學習布局先驗。
流程如下:
(1)模型首先以深度觀測??作為輸入,將該深度觀測?
?地面投影到一個包含“已占用”、“空閑”和“空白”類別的自我中心網格?
??中。其中地面投影的過程為:首先利用相機內參將深度數據反投影為三維點云,然后按照文獻[25]的方法將每個三維點云映射到?
?的網格中;
(2)將中心網格??編碼為特征表示?
?;?
(3)定義一個跨模態注意力模塊,以??為查詢,指令特征?
?為鍵和值,得到跨模態表示?
?:
(4)將??和?
?通過一個UNet,得到?
?:
(5)將??,
?和?
?通過另外一個UNet,得到?
?:
其中??表示 RGB 圖像幀的語義分割結果的地面投影。
此部分的損失函數如下:
其中??表示地圖中的像素數;
是像素?
?的地面真實標簽。
2.2 路徑預測模塊
本部分的主要作用是使代理學會預測整個軌跡。主要流程如下:
(1)將預測的自中心語義圖???編碼為特征表示?
?;
(2)定義一個跨模態注意力模塊,以??為查詢,指令特征?
?為鍵和值,得到跨模態表示?
?:
(3)將??和?
?通過一個UNet:
其中??是相對于當前代理位置的起始位置熱力圖,
?是當前時間步?
?預測的航路點熱力圖,
?是預測的每個航路點的概率。
此部分的損失函數如下:
其中??是一個二進制指示符,表示特定航路點?
?在時間?
?是否在以自我為中心的地圖上可見,
?表示真實的航路點熱力圖,
?權衡輔助損失。
2.3 動作決策
目前為止路徑是由一系列2D航路點??組成。決策的流程如下:
?
(1)選擇一個短期目標??:
其中?是歐幾里得距離,
?對應預測的航路點熱力圖
?的峰值,
?對應代理在當前時間步?
?的位姿。該機制通過以下方式確定短期目標:首先找到離智能體最近的預測航路點,然后選擇序列中的下一個航路點作為短期目標?
?;?
(2)為了達到短期目標,使用為PointNav任務訓練的現成深度強化學習模型DD-PPO。DD-PPO接收當前深度觀測值??和
?,并為代理輸出下一個導航動作。
三、總結
(1)當語言和視覺出現在顯式空間表征中時,它們之間的關聯更強;
(2)能否將本工作中的方法應用到CityNav中?