基于視覺語言模型的機器人實時探索系統！ClipRover：移動機器人零樣本視覺語言探索和目標發現

作者：Yuxuan Zhang $^{1}$ , Adnan Abdullah $^{2}$ , Sanjeev J. Koppal $^{3}$ , and Md Jahidul Islam $^{4}$
單位： $^{2,4}$ 佛羅里達大學電氣與計算機工程系RoboPI實驗室， $^{1,3}$ 佛羅里達大學電氣與計算機工程系FOCUS實驗室， $^{3}$ Amazon Robotics
論文標題：ClipRover: Zero-shot Vision-Language Exploration and Target Discovery by Mobile Robots
論文鏈接：https://arxiv.org/pdf/2502.08791
項目主頁：https://robopi.ece.ufl.edu/cliprover.html

主要貢獻

提出了新的導航管道流程ClipRover，用于無人地面車輛（UGV）在未知環境中的同時探索和目標發現。該系統利用視覺語言模型（VLM）的空間上下文感知能力，通過模塊化架構實現。
設計了新的UGV平臺Rover Master，支持VLM導航系統的機動性和計算需求，旨在為通用機器人研究提供強大且可配置的支持，并計劃開源供學術使用。
開發了功能齊全的系統，將提出的導航管道與UGV平臺集成在一起，并通過全面基準測試進行優化，以實現實時性能。
通過廣泛的實驗評估，證明了ClipRover在效率和成功率方面優于傳統的地圖遍歷算法，并且在軌跡效率或成功率方面達到了與依賴先驗知識的路徑規劃方法相當的性能。

研究背景

研究問題

傳統的系統通常將地圖探索和路徑規劃分開進行，導致探索效率低下。
論文主要解決的問題是如何在未知環境中實現移動機器人的零樣本視覺語言導航和目標發現。

研究難點

該問題的研究難點包括：

在沒有預先構建的地圖或目標知識的情況下，如何利用視覺語言模型（VLM）進行實時主動導航；
如何在動態和部分可觀測的環境中適應路徑規劃。
?

Rover Master

系統設計

平臺概述

Rover Master是一個便攜且可擴展的平臺，專為2D導航任務設計。它的主要傳感器和執行器組件包括一個單目RGB攝像頭和一個2D激光雷達，用于外部感知。
四個獨立的輪子組件負責執行動作，每個輪子組件都是模塊化的，自包含的，包括變速箱、無刷直流電機和懸掛系統。

輪子組件

每個輪子組件由一個無刷直流電機通過行星齒輪箱連接，齒輪比為16:1。這種設計允許機器人在較高速度下行駛，并輕松克服中等障礙物。
為了確保操作安全，設置了20%的油門限制，將機器人的最大速度限制在約2米/秒。

計算能力

Rover Master的計算管道由Nvidia Jetson Orin模塊提供動力。
這個模塊提供了足夠的計算能力來處理通用視覺語言模型和其他計算密集型任務。

攝像頭和LiDAR

使用FLIR全局快門RGB攝像頭進行視覺感知，攝像頭被提升到離地面大約30厘米的高度。這種設計確保了鏡頭的光學中心與機器人的幾何中心對齊。
此外，飛行控制器的IMU提供的航向值支持360度掃描能力。2D激光雷達安裝在上層甲板的前部，主要用于安全和可視化目的，不影響視覺語言導航（VLN）的決策。

懸掛系統

四輪獨立懸掛系統擴展了平臺在不平坦表面的應用。
使用Discovery Wheel（TPU）時，它在草地、巖石路面甚至沙地上表現良好，但機動性有所降低。

配置靈活性

Rover Master平臺可以配置為不同的驅動類型（全向或差動）、底盤尺寸（參數化CAD設計）以及特定任務的執行器和傳感器的附加組件（如攝像頭、LiDAR、室內和野外機器人應用的機械手）。
底盤板設計用于根據任務容納各種附加傳感器和執行器。

特點和能力

緊湊性

Rover Master系統的獨特優勢在于其輪子和電機組件的緊湊性。
四輪獨立懸掛系統使其能夠適應不平坦的表面。

配置靈活性

平臺可以配置為不同的驅動類型、底盤尺寸和任務特定的執行器和傳感器附加組件。
底盤板設計用于根據任務容納各種附加傳感器和執行器。

成本效益

Rover Master平臺的成本效益高，與其他標準UGV平臺相比具有競爭力。
具體來說，Rover Master的估計成本在650到850美元之間，而TurtleBot3（Waffle Pi）的成本約為1500美元，TurtleBot4（標準版）的成本約為2100美元。

ClipRover導航流程

視覺感知前端

在前端，原始相機幀被分割成多個小塊（tiles），這些小塊代表機器人的視場（FOV）中的空間位置。
每個tile經過縮放和處理后，通過CLIP的視覺編碼器進行編碼。具體來說，每個幀被分割成六個tile，并重新排列成一個張量，形狀為 $\times 3 \times H \times W$ ，其中 $H$ 和 $W$ 是tile的高度和寬度。
編碼器處理這些輸入并生成一個 $\times D$ 的嵌入向量，其中 $D$ 是每個預測向量的維度（在CLIP模型中為512）。
此外，每個tile的標準差也被計算并結合到模型的預測中，作為每個tile信息量的指標。這有助于在機器人遇到特征貧乏、顏色均勻的對象時，如墻壁、門或家具，識別視覺編碼器的輸出可能缺乏可靠性。

通行性：視覺-語言相關性

為了區分可行空間和非可行空間，設計了一組正面提示（positive prompts）來描述干凈和可行的環境，例如：“一張（平坦|開闊|寬闊|清晰）的（地板|地面|走廊）照片”。
同時，也設計了一組負面提示（negative prompts）來描述被障礙物遮擋的空間，例如：“一張（裁剪的|糟糕的|不完整的）（阻塞|雜亂|擁擠）的（場景|空間）照片”。
對于目標發現，使用類似的文本提示來定義任務的目標。例如，實驗中使用玩具熊作為目標，因為其在場景中具有獨特性。
通過比較每個tile的嵌入與提示數據庫的內積，計算出通行性和目標置信度的分數。這些分數的范圍從-1.0到1.0，由最高絕對匹配得分決定。

熟悉度：視覺-視覺相關性

除了通行性分數外，實時積累熟悉度數據庫以跟蹤已探索的空間。數據庫由表示已知空間的視覺嵌入（512維向量）構建，而不存儲或使用實際圖像。
當新嵌入與現有向量的相關性超過預定義閾值時，將其視為“已知”。新嵌入向量通過兩種策略之一逐步合并到熟悉度數據庫中：
- 平均法：在所有屬于已知點的向量之間取平均值，保持跟蹤已合并向量的計數：
  $v_{\text{next}} = \frac{s}{s+1} \cdot v_{\text{prev}} + \frac{1}{s+1} \cdot v_{\text{new}}$
- 滾動平均法：在合并新向量時執行滾動平均操作，不需要跟蹤已合并向量的總數。這種方法使向量傾向于新插入的向量，并逐漸“忘記”較舊的向量。遺忘率由因子 $\lambda$ 控制（即衰減因子）：
  $v_{\text{next}} = (1 - \lambda) \cdot v_{\text{prev}} + \lambda \cdot v_{\text{new}}$

導航決策后端

決策模塊根據感知和關聯系統提供的信息生成運動命令。
引入了一個“運動混合器”作為基線的相關性到運動的轉換器。它考慮每個tile的所有分數（即通行性、熟悉度和標準差），并做出智能決策。
運動混合器通常優先選擇高度可行但較不熟悉的區域，同時避免紋理少的區域。

此外，決策模塊還包括兩個附加功能：

陷阱檢測：使機器人能夠識別并逃離潛在的死胡同。
環顧四周：允許機器人在復雜環境中重新定位自己。通過執行 $360^\circ$ 旋轉并收集不同方向的導航分數，應用高斯卷積來識別最可行的方向。

實現細節

切片策略

為了增強管道中位置信息的嵌入，原始相機幀在輸入視覺語言模型之前被分割成更小的tiles。
這種策略旨在優化機器人基于其視覺感知做出明智導航決策的能力。具體來說，每個幀被分割成六個tiles（2行x3列），以適應機器人的控制能力。
使用較小的tiles代替整個相機幀可以減少視覺干擾，從而提高相關結果的準確性。
切片的尺寸在整個管道的所有階段保持一致。例如，在2x3切片策略下，分割后的幀產生一個相應的 $\times 3 \times 512$ 的視覺嵌入矩陣。
這些嵌入隨后被傳遞給關聯系統，生成一個 $\times 3$ 的相關分數矩陣，每個元素對應一個特定的tile。關聯系統的邏輯決定了單個tiles之間的相互影響。
為了保留每個tile中的空間上下文，分割的區域略微擴展到其原始邊界之外。
這種重疊引入了大約20%的共享區域，減少了相鄰tiles之間上下文信息的丟失。
這種調整在相機遇到無紋理表面（如墻壁、紙盒或門板）時特別有益，否則可能會損害機器人的感知和導航性能。

提示生成

設計了一個提示系統來組合文本提示，采用層次模板。該設計受到WinCLIP的啟發，一個異常檢測框架。提示系統包括以下模板和符號：

頂層prompts，如：“一張[描述]的（狀態）{對象}的照片”。
描述，如清晰、模糊、裁剪、空、損壞等。
狀態，如清潔、清晰、寬闊、狹窄、雜亂、堵塞等。
對象，如地板、墻、門、物體等。

使用YAML語法定義提示數據庫的結構，提供了選擇性集成和就地擴展兩個關鍵特性：

選擇性集成：允許提示繞過模板的某些層級，以實現精確定制。例如，提示“A（無意義）的照片”不應跟隨任何{對象}，通過提前終止提示來實現。
就地擴展：通過使用垂直條語法（即|）分隔術語，便于集體定義相似的短提示。例如，提示“A照片沒有{上下文|紋理|信息}”被擴展為三個不同的提示。

性能優化

導航決策是實時自主機器人系統的關鍵組件，需要快速執行以確保安全和操作效率。
然而，大多數視覺語言模型（VLMs）被設計為大型語言模型（LLMs）的擴展，對處理延遲和數據吞吐量的要求較低。
為了評估VLMs在機器人導航中的適用性，識別了兩個關鍵性能指標：
- 決策延遲：測量從機器人相機捕獲幀到向電機發出相應運動命令的時間。這個指標反映了系統對環境變化的反應能力，如避開障礙物和維護安全導航。
- 吞吐量：量化每秒處理的幀數，直接影響機器人運動的平滑度。有限的計算資源需要丟棄未處理的幀，只保留最新的幀進行決策。更高的吞吐量最小化幀間差異，減少運動的突然變化，確保更平滑的過渡。數學上，吞吐量是決策延遲的倒數。

為了減少決策延遲和提高數據吞吐量，提出的框架將導航管道分為四個主要節點：預處理、推理、相關性和決策。
計算密集型任務被卸載到GPU上，以利用并行處理能力。這些優化在功率受限的嵌入式系統上實現，平衡了效率和性能。通過這些優化，實現了：
- 決策延遲：252.10毫秒，提高了900%。
- 吞吐量：5.01幀每秒（FPS），相比順序CPU實現提高了400%。

2D LiDAR的使用

盡管ClipRover管道僅使用單目RGB數據進行VLN導航決策，但在機器人上安裝了一個2D 360°掃描LiDAR用于實驗安全、地圖生成和比較分析。LiDAR的具體功能包括：

模擬接近開關：
- LiDAR作為虛擬關閉開關，在操作期間檢測機器人路徑上的障礙物。
- 它監控發送到車輪的運動命令，推斷機器人的計劃軌跡，并檢查該方向上是否存在潛在障礙物。
- 檢測到潛在碰撞時，發出停止信號，嚴格用于安全目的，不影響導航算法。
地圖和機器人軌跡的可視化：
- 離線使用記錄的LiDAR和里程計數據進行地圖生成，隨后進行軌跡分析以評估導航效率和整體性能。
- 使用SLAM Toolbox生成地圖和軌跡，實施兩遍過程以提高結果質量。
與傳統算法的比較：使用LiDAR數據生成的2D地圖用于模擬和評估傳統范圍傳感器基于的地圖遍歷和路徑規劃算法，以進行性能比較。

波前模擬

設計了“波前”模擬包作為不同方法之間比較的一般基線指標。它利用經典波動方程的概念并將其解釋為概率分布，允許同時探索無限多的方向。
模擬實現了一個離散時間的二維拉普拉斯方程：
$\frac{\partial^2}{\partial t^2} \psi(x,y,t) = c^2 \nabla^2 \psi(x,y,t)$
離散化后的波動方程為：
$\begin{align*} \psi(x, y, t_{n+1}) &= 2 \cdot \psi(x, y, t_n) - \psi(x, y, t_{n-1}) \\ &+ \frac{c^2 \Delta t^2}{\Delta x^2} \nabla^2 \psi(x, y, t) \\ \text{s.t.} &\quad t_{n+1} - t_n = \Delta t \end{align*}$
離散化的拉普拉斯算子 $\nabla^2$ 定義為：
$\begin{align*} \nabla^2 \psi(x,y) &= \psi(x_{i+1}, y_j) + \psi(x_{i-1}, y_j) \\ &+ \psi(x_i, y_{j+1}) + \psi(x_i, y_{j-1}) \\ &- 4 \cdot \psi(x,y) \\ \text{s.t.} &\quad x_{i+1} - x_i = y_{j+1} - y_j = \Delta x \end{align*}$
此外，地圖邊界和障礙物通過反射條件模擬。在時間 $T = 0$ 時，初始化一個以機器人起始位置為中心的高斯概率分布，標準差設置為機器人大小的一半；總概率歸一化為1。
每次迭代，波函數乘以一個以目標位置為中心的反高斯函數，有效地減少地圖上的總概率，模擬一個排水效應。
模擬終止時，剩余概率低于定義的閾值（實驗中為 $1e^{-4}$ ）。輸出是一個二維概率分布 $p (t)$ ，指示機器人在每個時間步到達目標的概率。平均值和標準差用于與其他軌跡算法比較。

實驗分析

實驗設置

實驗在室內工作空間進行，選擇了一個布局復雜且包含多個障礙物、潛在陷阱和循環的環境。
實驗的目標是讓機器人探索實驗室空間并尋找一個指定的目標——一個大約20厘米高、10厘米寬的玩具熊。
實驗中，機器人的起始位置（源）和目標位置（目的地）從五個預定義的區域（如SW、C、NW、NE、SE）中選擇。

性能評估

實驗旨在評估在無先驗地圖或目標知識的情況下，探索區域和找到目標的效率。主要使用總行進距離（軌跡長度）作為核心指標來量化這些性能。
這種方法對CPU/GPU性能和機械驅動系統的能力不敏感，因為這些被認為是可以獨立改進的外部因素。

比較算法

為了公平比較，實驗將提出的ClipRover系統與六種廣泛使用的地圖遍歷和路徑規劃算法進行了比較。
為了確保一致性，開發了一個新的2D模擬框架RoboSim2D，利用相同的2D LiDAR地圖進行模擬，這些地圖是從實際實驗中記錄的掃描生成的。
隨機行走（Random Walk）：從一個給定的方向開始，遇到障礙物時隨機選擇新方向。
墻反彈（Wall Bounce）：從一個給定方向開始，根據碰撞點的法向量反彈。
波前（Wave Front）：從一個高斯概率分布開始，向外擴散并反彈障礙物。
Bug算法：
- Bug0：一直朝目標移動，直到遇到障礙物，然后沿著障礙物邊界移動。
- Bug1：盡可能朝目標移動，否則繞過障礙物。繞過障礙物后，移動到環上距離最小的點。
- Bug2：繞過障礙物，直到越過從起點到目標的直線（m線），然后恢復朝目標直行。

失敗標準

由于實際限制，如果行進距離超過預設上限，則任務被視為失敗。對于在測試區域進行的實際實驗，這個上限設定為100米。
在模擬中，隨機行走、墻反彈和波前算法的上限設定為1000米。對于Bug算法，通過檢測循環來識別無盡循環，并將其分類為任務失敗。

評估指標

實驗使用了路徑長度加權成功率（SPL）作為性能指標，定義為：
$\text{SPL} = \frac{1}{N} \sum_{i=1}^{N} S_{i} \frac{l_{i}}{\max(p_{i}, l_{i})}$
其中， $S_{i}$ 是成功次數， $l_{i}$ 是實際路徑長度， $p_{i}$ 是基線路徑長度。SPL指標結合了成功率和路徑效率。