-
作者:Xinyuan Zhang, Yonglin Tian, Fei Lin, Yue Liu, Jing Ma, Kornélia Sára Szatmáry, Fei-Yue Wang
-
單位:中國科學院大學人工智能學院,中科院自動化研究所多模態人工智能系統國家重點實驗室,澳門科技大學創新工程學院工程科學系,中國船舶科學研究中心,匈牙利歐拜達大學,中科院復雜系統管理與控制國家重點實驗室
-
論文標題:LogisticsVLN: Vision-Language Navigation For Low-Altitude Terminal Delivery Based on Agentic UAVs
-
論文鏈接:https://arxiv.org/pdf/2505.03460
主要貢獻
-
提出LogisticsVLN系統:這是首個針對窗口級終端配送場景的基于無人機的視覺語言導航(VLN)系統,僅使用簡單傳感器和輕量級大型模型,無需事先了解環境或微調,即可在未見環境中高度部署。
-
構建VLD數據集:創建了專注于終端配送的連續空中場景的視覺語言配送(VLD)數據集,填補了現有VLN基準測試的空白。該數據集在CARLA模擬器中構建,提供多樣化的場景和任務,用于評估最后一公里無人機配送系統。
-
應用多模態大型語言模型(MLLMs):在空中配送環境中應用MLLMs,并評估其在每個子任務中的作用和局限性。并為在現實世界中部署基于基礎模型的視覺語言配送系統提供見解。
研究背景
-
隨著電子商務和城市化的快速發展,物流已成為現代社會的關鍵組成部分,尤其是穩定、高效和以用戶為中心的終端配送需求日益增長。終端配送是指將貨物直接運輸到最終用戶的住所的最后一步。
-
傳統的終端配送主要依賴地面機器人,而現有的基于無人機的VLN任務大多關注長距離、粗粒度的目標,不適合精確的終端配送場景。
-
為了克服這些挑戰,作者提出了LogisticsVLN系統,旨在利用輕量級多模態大型語言模型(MLLMs)實現無人機在終端配送場景中的視覺語言導航,提供一個可擴展的解決方案,用于窗口級終端配送任務。
研究方法
任務定義
-
無人機從靠近目標建筑的位置開始,僅根據自然語言請求到達用戶的特定窗口,無需依賴預先構建的地圖。
-
目標是制定一個策略,將無人機在每個時間步的觀測映射到一個動作,使得無人機的最終狀態滿足成功交付的條件,即到達目標窗口的鄰近區域。
系統概述
-
無人機配備了五對RGB-深度相機,用于捕捉周圍環境的半全景圖像。
-
系統包括請求理解模塊、樓層定位模塊和目標探索模塊,分別負責解釋用戶請求、引導無人機到達目標樓層和識別目標窗口。
請求理解
-
使用DeepSeek-R1Distill-Qwen-14B模型和三步鏈式推理(CoT)提示來解析用戶請求,提取目標樓層號和目標周圍的獨特物體信息。
樓層定位
-
通過一個基于樓層計數的視覺語言模型(VLM),無人機從建筑底部開始,沿著垂直路徑上升,根據相機的垂直視場角生成一系列不重疊的垂直航點。
-
在每個航點,無人機捕獲RGB圖像并由VLM分析,以推斷可見樓層數量并更新當前估計位置。通過比較當前樓層和目標樓層,決定是否上升到下一個航點或進行微調以達到目標樓層高度。
目標探索
- 包括目標識別、視角選擇和動作選擇三個部分:
-
目標識別:使用目標識別VLM處理RGB圖像,判斷目標窗口是否可見,若可見則返回其邊界框,并通過深度助手計算安全接近軌跡。
-
視角選擇:若目標窗口不可見,則使用選擇VLM和深度助手共同決定無人機的下一步動作。設計了一種基于深度的算法,通過計算每個視角的深度切片的平均值,尋找深度不連續性,選擇最有希望的視角。
-
動作選擇:在每個時間步,使用選擇VLM根據深度助手計算的安全移動距離和任務描述,選擇最優的移動方向和距離。
-
實驗
VLD數據集
目的:為了支持無人機在終端配送場景中的視覺語言導航(VLN)研究,構建了VLD數據集。該數據集專注于模擬無人機從建筑外部接近特定窗口的任務,填補了現有VLN基準測試在空中配送領域的空白。
構建內容:
-
平臺:基于CARLA 0.9.12模擬器構建,涵蓋城市、住宅和農村環境。
-
任務數量:共設計了300個VLD任務,分布在22棟不同類型的建筑中。
-
目標對象:包括工具、容器、家居用品、食品、家具、海報、玩具和裝飾品等。
- 任務分布:
-
建筑類型:低層住宅、高層建筑、小別墅和文化特色建筑。
-
目標樓層:從低層到高層不等。
-
任務難度:根據無人機完成任務所需的最小轉彎次數,分為“簡單”(少于2次轉彎)、“中等”(2到3次轉彎)和“困難”(超過3次轉彎)三個級別。
-
-
用戶請求:使用GPT-4o生成多樣化的自然語言請求,并由人類專家審核優化。
特點:
-
多樣化場景:涵蓋多種建筑類型和目標對象。
-
任務難度分級:提供不同復雜度的實驗環境。
-
語言多樣性:模擬真實用戶在不同情境下的語言表達。
用途:
-
系統評估:用于評估LogisticsVLN系統的性能,包括成功率(SR)、按路徑長度加權的成功率(SPL)和平均步驟數等指標。
-
模型優化:幫助研究人員發現模型的不足之處,并針對性地進行優化。
評估指標和實施細節
-
采用成功完成任務的百分比(SR)和按路徑長度加權的成功率(SPL)作為評估指標,同時增加平均步驟數作為評估指標,反映完成VLD任務所需的時間和內存占用。
-
在模擬器中使用四旋翼無人機模型,所有相機的分辨率為800×800像素,視場角為90°,安裝在無人機下方以避免干擾感知。
實驗結果
-
使用三種輕量級VLMs進行評估,Qwen2-VL-7B模型在成功率和路徑長度加權成功率方面表現最佳,成功完成超過一半的任務。
-
分析發現,不同VLMs的性能差異主要來源于目標識別的準確性和樓層定位的可靠性。Yi-VL在樓層計數模塊中頻繁拒絕給出精確答案,而Llama-3.1在樓層定位準確性方面表現不如Qwen2-VL。
消融研究
-
樓層定位方法的影響:與直接計數方法相比,提出的樓層定位方法將樓層定位失敗率從61.6%降低到27.9%,顯著提高了樓層定位性能。
-
視角選擇算法的影響:與隨機選擇和默認選擇策略相比,提出的視角選擇算法在成功率和路徑長度加權成功率方面表現出色,證明了其有效性。
-
選擇VLM的影響:在選擇VLM的情況下,系統性能略有下降,但在視角選擇次優時,選擇VLM的作用更為關鍵,能夠有效避免碰撞并繼續安全探索。
結論與未來工作
-
本文提出了LogisticsVLN系統,這是一個可擴展的基于無人機的終端配送系統,利用基礎模型的力量,無需針對特定任務的訓練或預先構建的地圖。
-
構建的VLD數據集涵蓋了CARLA模擬器中的多樣化建筑類型、配送目標和指令風格,為評估該領域提供了有力支持。
-
實驗結果證明了所提系統的有效性,而子任務級別的分析為當前VLMs在VLD場景中的優勢和局限性提供了寶貴的見解。
-
未來的工作將集中在優化系統架構,以更好地利用MLLMs的能力,并將LogisticsVLN擴展到現實世界的空中配送應用中。