中科院無人機導航物流配送的智能變革!LogisticsVLN:基于無人機視覺語言導航的低空終端配送系統

  • 作者:Xinyuan Zhang, Yonglin Tian, Fei Lin, Yue Liu, Jing Ma, Kornélia Sára Szatmáry, Fei-Yue Wang

  • 單位:中國科學院大學人工智能學院,中科院自動化研究所多模態人工智能系統國家重點實驗室,澳門科技大學創新工程學院工程科學系,中國船舶科學研究中心,匈牙利歐拜達大學,中科院復雜系統管理與控制國家重點實驗室

  • 論文標題:LogisticsVLN: Vision-Language Navigation For Low-Altitude Terminal Delivery Based on Agentic UAVs

  • 論文鏈接:https://arxiv.org/pdf/2505.03460

主要貢獻

  • 提出LogisticsVLN系統:這是首個針對窗口級終端配送場景的基于無人機的視覺語言導航(VLN)系統,僅使用簡單傳感器和輕量級大型模型,無需事先了解環境或微調,即可在未見環境中高度部署。

  • 構建VLD數據集:創建了專注于終端配送的連續空中場景的視覺語言配送(VLD)數據集,填補了現有VLN基準測試的空白。該數據集在CARLA模擬器中構建,提供多樣化的場景和任務,用于評估最后一公里無人機配送系統。

  • 應用多模態大型語言模型(MLLMs):在空中配送環境中應用MLLMs,并評估其在每個子任務中的作用和局限性。并為在現實世界中部署基于基礎模型的視覺語言配送系統提供見解。

研究背景

  • 隨著電子商務和城市化的快速發展,物流已成為現代社會的關鍵組成部分,尤其是穩定、高效和以用戶為中心的終端配送需求日益增長。終端配送是指將貨物直接運輸到最終用戶的住所的最后一步。

  • 傳統的終端配送主要依賴地面機器人,而現有的基于無人機的VLN任務大多關注長距離、粗粒度的目標,不適合精確的終端配送場景。

  • 為了克服這些挑戰,作者提出了LogisticsVLN系統,旨在利用輕量級多模態大型語言模型(MLLMs)實現無人機在終端配送場景中的視覺語言導航,提供一個可擴展的解決方案,用于窗口級終端配送任務。

研究方法

任務定義

  • 無人機從靠近目標建筑的位置開始,僅根據自然語言請求到達用戶的特定窗口,無需依賴預先構建的地圖。

  • 目標是制定一個策略,將無人機在每個時間步的觀測映射到一個動作,使得無人機的最終狀態滿足成功交付的條件,即到達目標窗口的鄰近區域。

系統概述

  • 無人機配備了五對RGB-深度相機,用于捕捉周圍環境的半全景圖像。

  • 系統包括請求理解模塊、樓層定位模塊和目標探索模塊,分別負責解釋用戶請求、引導無人機到達目標樓層和識別目標窗口。

請求理解

  • 使用DeepSeek-R1Distill-Qwen-14B模型和三步鏈式推理(CoT)提示來解析用戶請求,提取目標樓層號和目標周圍的獨特物體信息。

樓層定位

  • 通過一個基于樓層計數的視覺語言模型(VLM),無人機從建筑底部開始,沿著垂直路徑上升,根據相機的垂直視場角生成一系列不重疊的垂直航點。

  • 在每個航點,無人機捕獲RGB圖像并由VLM分析,以推斷可見樓層數量并更新當前估計位置。通過比較當前樓層和目標樓層,決定是否上升到下一個航點或進行微調以達到目標樓層高度。

目標探索

  • 包括目標識別、視角選擇和動作選擇三個部分:
    • 目標識別:使用目標識別VLM處理RGB圖像,判斷目標窗口是否可見,若可見則返回其邊界框,并通過深度助手計算安全接近軌跡。

    • 視角選擇:若目標窗口不可見,則使用選擇VLM和深度助手共同決定無人機的下一步動作。設計了一種基于深度的算法,通過計算每個視角的深度切片的平均值,尋找深度不連續性,選擇最有希望的視角。

    • 動作選擇:在每個時間步,使用選擇VLM根據深度助手計算的安全移動距離和任務描述,選擇最優的移動方向和距離。

實驗

VLD數據集

目的:為了支持無人機在終端配送場景中的視覺語言導航(VLN)研究,構建了VLD數據集。該數據集專注于模擬無人機從建筑外部接近特定窗口的任務,填補了現有VLN基準測試在空中配送領域的空白。

構建內容

  • 平臺:基于CARLA 0.9.12模擬器構建,涵蓋城市、住宅和農村環境。

  • 任務數量:共設計了300個VLD任務,分布在22棟不同類型的建筑中。

  • 目標對象:包括工具、容器、家居用品、食品、家具、海報、玩具和裝飾品等。

  • 任務分布
    • 建筑類型:低層住宅、高層建筑、小別墅和文化特色建筑。

    • 目標樓層:從低層到高層不等。

    • 任務難度:根據無人機完成任務所需的最小轉彎次數,分為“簡單”(少于2次轉彎)、“中等”(2到3次轉彎)和“困難”(超過3次轉彎)三個級別。

  • 用戶請求:使用GPT-4o生成多樣化的自然語言請求,并由人類專家審核優化。

特點

  • 多樣化場景:涵蓋多種建筑類型和目標對象。

  • 任務難度分級:提供不同復雜度的實驗環境。

  • 語言多樣性:模擬真實用戶在不同情境下的語言表達。

用途

  • 系統評估:用于評估LogisticsVLN系統的性能,包括成功率(SR)、按路徑長度加權的成功率(SPL)和平均步驟數等指標。

  • 模型優化:幫助研究人員發現模型的不足之處,并針對性地進行優化。

評估指標和實施細節

  • 采用成功完成任務的百分比(SR)和按路徑長度加權的成功率(SPL)作為評估指標,同時增加平均步驟數作為評估指標,反映完成VLD任務所需的時間和內存占用。

  • 在模擬器中使用四旋翼無人機模型,所有相機的分辨率為800×800像素,視場角為90°,安裝在無人機下方以避免干擾感知。

實驗結果

  • 使用三種輕量級VLMs進行評估,Qwen2-VL-7B模型在成功率和路徑長度加權成功率方面表現最佳,成功完成超過一半的任務。

  • 分析發現,不同VLMs的性能差異主要來源于目標識別的準確性和樓層定位的可靠性。Yi-VL在樓層計數模塊中頻繁拒絕給出精確答案,而Llama-3.1在樓層定位準確性方面表現不如Qwen2-VL。

消融研究

  • 樓層定位方法的影響:與直接計數方法相比,提出的樓層定位方法將樓層定位失敗率從61.6%降低到27.9%,顯著提高了樓層定位性能。

  • 視角選擇算法的影響:與隨機選擇和默認選擇策略相比,提出的視角選擇算法在成功率和路徑長度加權成功率方面表現出色,證明了其有效性。

  • 選擇VLM的影響:在選擇VLM的情況下,系統性能略有下降,但在視角選擇次優時,選擇VLM的作用更為關鍵,能夠有效避免碰撞并繼續安全探索。

結論與未來工作

  • 本文提出了LogisticsVLN系統,這是一個可擴展的基于無人機的終端配送系統,利用基礎模型的力量,無需針對特定任務的訓練或預先構建的地圖。

  • 構建的VLD數據集涵蓋了CARLA模擬器中的多樣化建筑類型、配送目標和指令風格,為評估該領域提供了有力支持。

  • 實驗結果證明了所提系統的有效性,而子任務級別的分析為當前VLMs在VLD場景中的優勢和局限性提供了寶貴的見解。

  • 未來的工作將集中在優化系統架構,以更好地利用MLLMs的能力,并將LogisticsVLN擴展到現實世界的空中配送應用中。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/80695.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/80695.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/80695.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

1.10-數據傳輸格式

1.10-數據傳輸格式 在對網站進行滲透測試時,使用目標服務器規定的數據傳輸格式來進行 payload 測試非常關鍵 如果不按規定格式發送數據,服務器可能直接拒絕請求或返回錯誤響應,比如: 接口要求 JSON 格式,而你用的是…

dfs 第一次加訓 詳解 下

目錄 P1706 全排列問題 思路 B3618 尋找團伙 思路 B3621 枚舉元組 思路 B3622 枚舉子集(遞歸實現指數型枚舉) 思路 B3623 枚舉排列(遞歸實現排列型枚舉) B3625 迷宮尋路 思路 P6183 [USACO10MAR] The Rock Game S 總結…

通信網絡編程——JAVA

1.計算機網絡 IP 定義與作用 :IP 地址是在網絡中用于標識設備的數字標簽,它允許網絡中的設備之間相互定位和通信。每一個設備在特定網絡環境下都有一個唯一的 IP 地址,以此來確定其在網絡中的位置。 分類 :常見的 IP 地址分為 I…

#在 CentOS 7 中手動編譯安裝軟件操作及原理

在 CentOS 7 中,手動編譯安裝軟件(即從源代碼編譯安裝)是一種高度靈活的方式,適用于需要定制化軟件功能、優化性能或安裝官方倉庫未提供的軟件版本的場景。以下是針對手動編譯安裝的詳細說明,包括原理、步驟、注意事項…

菊廠0510面試手撕題目解答

題目 輸入一個整數數組,返回該數組中最小差出現的次數。 示例1:輸入:[1,3,7,5,9,12],輸出:4,最小差為2,共出現4次; 示例2:輸入:[90,98,90,90,1,1]&#xf…

C——五子棋小游戲

前言 五子棋,又稱連珠棋,是一種雙人對弈的棋類游戲。游戲目標是在一個棋盤上,通過在橫、豎、斜線上依次放置棋子,使自己的五個棋子連成一線,即橫線、豎線或斜線,且無被對手堵住的空位,從而獲勝…

ik 分詞器 設置自定義詞典

進入 ES 的安裝目錄,進入 /elasticsearch-8.10.0/plugins/ik/config/ 文件夾目錄,打開 IKAnalyzer.cfg.xml 文件進行配置。 一、添加 自定義擴展詞典 擴展詞:就是不想哪些詞分開,讓他們成為一個詞,比如“蒙的全是對…

Linux筆記---信號(上)

1. 信號的概念 Linux下的信號機制是一種進程間通信(IPC)的方式,用于在不同進程之間傳遞信息。 信號是一種異步的信息傳遞方式,這意味著發送信號的進程只發送由信號作為載體的命令,而并不關心接收信號的進程如何處置這…

UG 二次開發- UG內部調用DLL

【1】用VS新建一個dll工程 將項目設置為x64平臺(這步很重要,否則程序無法編譯成功) 【2】添加UG頭文件目錄,屬性頁->C/C->常規->附加包含目錄 【3】添加UG庫所在目錄,屬性頁->鏈接器->常規->附加庫目…

wordcount在mapreduce的例子

1.啟動集群 2.創建項目 項目結構為&#xff1a; 3.pom.xml文件為 <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache.org/POM/4.0.0 http://mave…

智慧城市綜合運營管理系統Axure原型

這款Axure原型的設計理念緊緊圍繞城市管理者的需求展開。它旨在打破傳統城市管理中信息孤島的局面&#xff0c;通過統一標準接入各類業務系統&#xff0c;實現城市運營管理信息資源的全面整合與共享。以城市管理者為中心&#xff0c;為其提供一個直觀、便捷、高效的協同服務平臺…

Go語言:json 作用和語法

在 Go 語言中&#xff0c;JSON 字段&#xff08;也稱為 JSON Tag&#xff09;是附加在結構體字段上的元數據&#xff0c;用于控制該字段在 JSON 編碼&#xff08;序列化&#xff09;和解碼&#xff08;反序列化&#xff09; 時的行為。它的語法是&#xff1a; type StructName…

MATLAB復制Excel數據到指定區域

Matlab中如何將Excel表中的265-528行F-AA列數據復制到1-263行AE-AZ中 版本&#xff1a;MatlabR2018b clc; clear; %舊Excel文件名 oldFile ; %新Excel文件名 newFile ; % 工作表名稱&#xff08;舊表和新表一致&#xff09; sheetName Sheet1; % 舊文件中待復制的數據范…

vue3+flask+sqlite前后端項目實戰

基礎環境安裝 pycharm 下載地址&#xff1a; https://www.jetbrains.com/zh-cn/pycharm/download/?sectionwindows vscode 下載地址 https://code.visualstudio.com/docs/?dvwin64user python 下載地址 https://www.python.org/downloads/windows/ Node.js&#xff08;含npm…

Java 內存模型(JMM)與內存屏障:原理、實踐與性能權衡

Java 內存模型&#xff08;JMM&#xff09;與內存屏障&#xff1a;原理、實踐與性能權衡 在多線程高并發時代&#xff0c;Java 內存模型&#xff08;JMM&#xff09; 及其背后的內存屏障機制&#xff0c;是保障并發程序正確性與性能的基石。本文將系統梳理 JMM 的核心原理、內…

動手學深度學習12.3.自動并行-筆記練習(PyTorch)

以下內容為結合李沐老師的課程和教材補充的學習筆記&#xff0c;以及對課后練習的一些思考&#xff0c;自留回顧&#xff0c;也供同學之人交流參考。 本節課程地址&#xff1a;無 本節教材地址&#xff1a;12.3. 自動并行 — 動手學深度學習 2.0.0 documentation 本節開源代…

C++類和對象之初始化列表

初始化列表 C初始化列表詳解&#xff1a;性能優化與正確實踐什么是初始化列表&#xff1f;初始化列表的三大核心作用1. 性能優化&#xff1a;避免不必要的賦值操作2. 強制初始化&#xff1a;處理const和引用成員3. 基類初始化&#xff1a;正確調用父類構造函數4.必須使用初始化…

continue通過我們的開源 IDE 擴展和模型、規則、提示、文檔和其他構建塊中心,創建、共享和使用自定義 AI 代碼助手

?一、軟件介紹 文末提供程序和源碼下載 Continue 使開發人員能夠通過我們的開源 VS Code 和 JetBrains 擴展以及模型、規則、提示、文檔和其他構建塊的中心創建、共享和使用自定義 AI 代碼助手。 二、功能 Chat 聊天 Chat makes it easy to ask for help from an LLM without…

基于Spring Boot + Vue的母嬰商城系統( 前后端分離)

一、項目背景介紹 隨著母嬰行業在互聯網平臺的快速發展&#xff0c;越來越多的家庭傾向于在線選購母嬰產品。為了提高商品管理效率和用戶購物體驗&#xff0c;本項目開發了一個基于 Spring Boot Vue 技術棧的母嬰商城系統&#xff0c;實現了商品分類、商品瀏覽、資訊展示、評…

實戰演練:用 AWS Lambda 和 API Gateway 構建你的第一個 Serverless API

實戰演練:用 AWS Lambda 和 API Gateway 構建你的第一個 Serverless API 理論千遍,不如動手一遍!在前面幾篇文章中,我們了解了 Serverless 的概念、FaaS 的核心原理以及 BaaS 的重要作用。現在,是時候把這些知識運用起來,親手構建一個簡單但完整的 Serverless 應用了。 …