首個窗口級無人機配送VLN系統!中科院LogisticsVLN:基于MLLM實現精準投遞

導讀

隨著智能物流需求日益增長,特別是“最后一公里”配送場景的精細化,傳統地面機器人逐漸暴露出適應性差、精度不足等瓶頸。為此,本文提出了LogisticsVLN系統——一個基于多模態大語言模型的無人機視覺語言導航框架,專為窗戶級別的終端配送任務設計。

??【深藍AI】編譯

本文由paper一作——Xinyuan Zhang授權【深藍AI】編譯發布!

論文標題:LogisticsVLN: Vision-Language Navigation For Low-Altitude Terminal Delivery Based on Agentic UAVs

論文作者:Xinyuan Zhang, Yonglin Tian, Fei Lin, Yue Liu, Jing Ma, Kornelia Sara Szatmary, Fei-Yue Wang

論文地址:https://www.arxiv.org/abs/2505.03460

與現有研究多聚焦于長距離、粗粒度的目標定位不同,LogisticsVLN面向真實住宅場景中的窗戶級精細導航任務,無需環境先驗地圖或特定訓練。系統通過語言理解模塊解析用戶請求,利用輕量化的VLM完成樓層定位、目標窗口識別,并結合深度輔助機制進行視角選擇與導航控制,最終實現精準投遞。

論文還構建了VLD數據集,模擬復雜住宅環境下的300個任務,涵蓋不同樓層、難度與指令風格。實驗驗證了系統的可行性,并通過模塊級消融分析,評估了VLM在各子任務中的表現優劣。

這項研究不僅填補了空中VLN在終端配送中的空白,還為基礎模型在真實智能物流系統中的部署提供了可行路徑和有益啟示。

1.?引入

在電子商務與城市化迅速發展的推動下,物流系統已成為現代社會中愈發關鍵的組成部分。特別是在終端配送環節,即將商品直接送達用戶住所的最后一步,穩定、高效且以用戶為中心的配送服務需求日益增長。

該研究認為,一種有前景的解決方案是利用具備智能體能力的無人機(Agentic UAVs)執行視覺-語言導航(VLN)任務,來滿足終端配送的需求。

然而,傳統的視覺-語言導航方法大多依賴于基于網絡的模型,這些方法通常需要大量訓練數據來實現泛化。現有基于無人機的VLN研究主要集中在長距離、粗粒度目標的導航任務上,因此難以滿足對終端配送任務中高精度、細粒度導航的需求。雖然近期有研究嘗試將基礎模型用于地面機器人進行樓宇級配送,并取得了無需訓練即可實現的零樣本導航能力,但這種方法無法實現更精細的窗戶級送達目標。

為了解決這些問題,該研究提出了LogisticsVLN系統,這是一個基于輕量級多模態大語言模型(MLLM)的無人機導航系統,具備良好的可擴展性,專為窗戶級終端配送任務而設計。

該系統首先通過大語言模型(LLM)解析用戶的自然語言請求,提取出目標窗戶的關鍵屬性;接著利用視覺-語言模型(VLM)實現樓層定位,引導無人機上升到合適的高度;在抵達目標樓層后,無人機再通過視角選擇算法、目標檢測VLM與決策VLM,在建筑周圍探索尋找目標窗戶。同時系統集成了一個深度感知輔助模塊,提升操作的安全性。

圖1全文方法總覽??【深藍AI】編譯

2.?具體方法與實現

1.?任務定義

該研究聚焦于面向窗戶級終端配送的空中視覺語言導航任務。任務場景假設無人機從目標建筑附近出發,僅依據用戶提供的自然語言請求,自主導航至指定窗戶位置完成配送。整個過程中不依賴預先構建的環境地圖,更貼近現實中住宅區域缺乏詳盡室內結構信息的實際場景。

在執行任務過程中:

●?無人機以離散時間步推進,每一步都會從傳感器(包括多個方向的 RGB-D 攝像頭)獲取環境觀測;

●?系統融合當前觀測信息與語言描述,通過策略模型動態規劃下一步動作;

●?最終目標是在滿足空間安全約束的前提下,使無人機抵達目標窗戶附近的鄰域區域,實現高精度包裹投遞。

2. 系統總覽

該系統部署于具備智能體能力的無人機平臺上。無人機配備了五組朝向不同角度(前、左前、右前、左側、右側)的 RGB-D 攝像頭,實現對周圍環境的半環繞感知。

配送流程從自然語言請求開始,系統首先使用內嵌的大語言模型解析請求信息;隨后由視覺語言模型模塊完成樓層定位和目標窗戶識別。三個 VLM 被分別用于樓層估計、對象識別和動作決策,并通過一個深度輔助模塊增強空間理解能力。當目標窗戶被成功檢測到后,無人機根據這些模塊的引導精準調整位置,完成包裹的窗戶級配送。

2.1 請求理解

用戶的請求文本通常包含了目標窗戶的位置描述、所在樓層、附近的顯著物體(例如綠色花盆)以及一些無關或干擾性內容。

該系統采用 DeepSeek-R1-Distill-Qwen-14B 模型,結合三步鏈式推理(Chain-of-Thought)設計的提示詞模板,對請求進行解析。通過這一過程,系統提取出兩個關鍵信息:目標樓層編號和顯著參照物,為后續模塊的環境感知和決策提供支持。

2.2 樓層定位

該模塊旨在引導無人機到達目標所在樓層高度,具備以下特點:

●?使用一個基于視覺語言模型構建的樓層計數器(Floor Count VLM);

●?無人機從建筑底部依次飛行到預設的垂直高度點,并在每個高度拍攝正前方圖像;

●?模型分析圖像中可見樓層數,實時更新無人機當前位置的樓層估計;

●?基于當前估計結果與目標樓層的對比,系統決定:

○?繼續上升;

○?或進入樓層內微調階段;

一旦到達目標高度,無人機鎖定該樓層,維持固定飛行高度,進入環繞探索階段。

2.3 目標探索

由于該任務中沒有預構建地圖,無人機需依靠自身感知能力探索目標窗戶。為此,系統設計了一個探索模塊,結合了對象識別 VLM、動作選擇 VLM 和深度輔助模塊。

對象識別:?系統將五個方向的 RGB 圖像輸入對象識別 VLM,并結合顯著參照物的描述,判斷目標窗戶是否在視野內。如果識別成功,系統返回目標窗戶的邊界框,并利用深度信息計算一條安全的接近路徑,確保無人機能夠精準且安全地靠近目標。

視角選擇:?若當前圖像中未檢測到目標窗戶,系統會基于深度圖評估各個攝像頭視角的探索潛力,選出最有可能發現目標的視角繼續移動。該過程通過分析深度圖中的顯著深度變化區來推斷建筑轉角等潛在視野突破口。

動作選擇:?一旦選定新的視角,系統會在圖像上標記若干探索方向,結合深度信息估算每個方向的安全行進距離,并將這些信息連同任務描述送入動作選擇 VLM,選擇最佳的移動方向與距離,從而實現連續、高效且避障的探索行為。

3.實驗

為驗證系統性能,該研究在 CARLA 模擬器中構建了一個名為 VLD 的視覺語言配送數據集,覆蓋22類建筑,共300個窗戶級別配送任務。任務具有多樣的目標類別、樓層分布和不同難度等級,通過模擬不同用戶請求風格,進一步提升數據集的語言多樣性。

圖4|數據集示例??【深藍AI】編譯

在系統評估中,研究者選用了三種輕量級視覺語言模型(VLM)進行對比。結果顯示,Qwen2-VL 模型表現最佳,在任務完成率與導航效率上均優于 LLaMA-3.1 和 Yi-VL 模型。Yi-VL 模型在任務執行中頻繁拒絕提供明確的樓層判斷,導致定位失敗率較高,而 LLaMA-3.1 也在對象識別與樓層判斷上表現不穩定,尤其容易被顏色等視覺屬性干擾,誤識別目標。

圖5不同樓層定位結果??【深藍AI】編譯

為進一步驗證系統中各模塊的效果,該研究還設計了多項消融實驗。例如,與傳統樓層計數方式相比,自研的樓層定位方法顯著降低了定位失敗率,提高了系統的穩定性。在探索策略方面,深度驅動的視角選擇算法相比于隨機或默認策略,在成功率和路徑效率上也有明顯優勢,尤其在需要繞行建筑多面的“困難任務”中表現突出。

圖6消融實驗結果??【深藍AI】編譯

盡管動作選擇模塊(Choice VLM)在整體指標上提升有限,但在視角選擇不理想的情況下,其策略性判斷能有效避免死鎖和碰撞,保障任務安全完成。

總結

這項研究提出了一個叫 LogisticsVLN 的系統,目標是讓無人機能夠自動把包裹送到用戶家窗戶前,整個過程不需要提前訓練、也不需要地圖。系統主要依靠“多模態大模型”來理解語言、識別圖像,并做出導航決策。

為了測試這個系統是否真的有效,研究團隊在一個逼真的虛擬城市環境里,設計了一個專門的數據集,模擬了各種建筑、不同風格的用戶請求和復雜的送貨場景。實驗結果表明,LogisticsVLN 不僅能完成任務,還能較好應對樓層定位、窗戶識別等挑戰。

更重要的是,研究者還對系統中的每個關鍵環節做了分析,比如:哪種模型更適合識別樓層?哪種算法能更聰明地選擇視角來探索?這些分析幫助大家更清楚地了解大模型在真實配送任務中的優點與不足。

未來,該團隊計劃繼續優化系統結構,讓它能更充分地發揮大模型的能力,并探索如何把這套方案真正用在現實中的空中配送服務中。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/906016.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/906016.shtml
英文地址,請注明出處:http://en.pswp.cn/news/906016.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

WPF Datagrid 數據加載和性能

這篇文章并非討論 WPF Datagrid 的性能數據,而只是簡單介紹一下為了使其性能良好,你需要注意哪些方面。我不太想使用性能分析器來展示實際數據,而是盡可能地使用了 Stopwatch 類。這篇文章不會深入探討處理海量數據的技術,例如分頁…

matlab求矩陣的逆、行列式、秩、轉置

inv - 計算矩陣的逆 用途:計算一個可逆矩陣的逆矩陣。 D [1, 2; 3, 4]; % 定義一個2x2矩陣 D_inv inv(D); % 計算矩陣D的逆 disp(D_inv);det - 計算矩陣的行列式 用途:計算方陣的行列式。 E [1, 2; 3, 4]; determinant det(E); % 計算行列式 disp…

ridecore流水線解讀

文章目錄 流水線stage分屬前后端PCpipelineIFIDDPDP 與 SW 中間沒有latchSWCOM 源碼地址 流水線stage分屬前后端 IF -> ID -> DP -> SW -> EX -> COM分類階段說明前端IF指令獲取階段。PC 使用分支預測器,訪問指令存儲器。典型前端操作。前端ID解碼并…

【SpringBoot】關于MP使用中配置了數據庫表前綴的問題

problem 使用MP時,在application.yml配置文件中配置了MP匹配數據庫表中的表名時的前綴作了規定,如下: 那么當我運行時報錯了錯誤,報錯信息如下: 因為我數據庫表的書類表名是book,MP在匹配時使用了表名前…

印度Rummy游戲支付通道申請策略:技巧類游戲的合規與創新

本文為印度支付申請科普文,自去年開始,印度Rummy類游戲申請印度支付都需要擁有AIGF的會員及產品證書。 如需要rummy可以通過AIGF審核的源。碼,或咨詢AIGF的相關內容,可以聯。系老妙。 印度作為全球棋牌類游戲增長最快的市場之一&…

日志與策略模式

什么是設計模式 IT?業 ,為了讓 菜雞們不太拖?佬的后腿, 于是?佬們針對?些經典的常?的場景, 給定了?些對應的解決?案, 這個就是 設計模式 日志認識 計算機中的?志是記錄系統和軟件運?中發?事件的?件,主要作?是監控運?狀態、記錄異常信 息&#xff…

解鎖Ubuntu高效部署!自動安裝配置文件YAML全解析

我們之前介紹了兩種Ubuntu系統的安裝方式,分別對應桌面版(準備搞OpenStack了,先裝一臺最新的Ubuntu 23.10)和服務器版(Ubuntu 22.04 LTS服務器版本安裝演示)。但對于有些用戶,因為技術問題&…

關系代數和關系數據庫語言(SQL)

閱讀提示:本篇文章較長,建議從目錄上選取想看的內容。代碼上的話,我習慣用小寫,如果看不習慣建議跳過。有問題歡迎討論!!! 一、基礎概念 1.1數據庫的概念 數據庫(Database)是按照數據結構來組…

EXO 可以將 Mac M4 和 Mac Air 連接起來,并通過 Ollama 運行 DeepSeek 模型

EXO 可以將 Mac M4 和 Mac Air 連接起來,并通過 Ollama 運行 DeepSeek 模型。以下是具體實現方法: 1. EXO 的分布式計算能力 EXO 是一個支持 分布式 AI 計算 的開源框架,能夠將多臺 Mac 設備(如 M4 和 Mac Air)組合成…

區塊鏈基本理解

文章目錄 前言一、什么是分布式賬本(DLT)二、什么是P2P網絡?二、共識算法三、密碼算法前言 區塊鏈是由一個一個數據塊組成的鏈條,按照時間順序將數據塊逐一鏈接,通過哈希指針鏈接,所有的數據塊共同維護一份分布式賬本(DLT),每個節點(可以理解為一個玩家,一臺計算機)都擁…

Node.js中的洋蔥模型

文章目錄 前言 前言 Node.js中的洋蔥模型是一種中間件執行機制,主要用于處理HTTP請求和響應的流程控制。該模型通過層層包裹的中間件結構,實現請求從外到內穿透、響應從內向外返回的順序執行。以下從核心概念、實現原理、框架差異及實際應用等方面解析&…

UI-TARS Desktop:用自然語言操控電腦,AI 重新定義人機交互

在人工智能技術飛速發展的今天,從文本生成到圖像識別,AI 的能力邊界不斷被打破。而字節跳動近期開源的 UI-TARS Desktop,則將這一技術推向了更復雜的交互場景——通過自然語言直接控制計算機界面,實現了圖形用戶界面(GUI)的智能化自動化。這款工具不僅降低了操作門檻,更…

一個可拖拉實現列表排序的WPF開源控件

從零學習構建一個完整的系統 推薦一個可通過拖拉,來實現列表元素的排序的WPF控件。 項目簡介 gong-wpf-dragdrop是一個開源的.NET項目,用于在WPF應用程序中實現拖放功能,可以讓開發人員快速、簡單的實現拖放的操作功能。 可以在同一控件內…

C語言中字符串函數的詳細講解

C語言提供了豐富的字符串處理函數&#xff0c;這些函數在<string.h>頭文件中聲明。以下是一些常用字符串函數的詳細講解&#xff1a; 字符串拷貝函數 strcpy 功能&#xff1a;將源字符串&#xff08;包括結尾的\0&#xff09;復制到目標字符串。原型&#xff1a;char *s…

可視化數據圖表怎么做?如何實現三維數據可視化?

目錄 一、三維數據可視化的要點 1. 明確數據可視化的目標 2. 篩選與整理數據 3. 選擇合適的圖表類型 4. 運用專業工具制作 5. 優化圖表的展示效果 二、數據可視化圖表怎么做&#xff1f; 1. 理解三維數據的特性 2. 數據處理與三維建模 3. 設置光照與材質效果 4. 添加…

在Linux服務器上部署Jupyter Notebook并實現ssh無密碼遠程訪問

Jupyter notebook版本7.4.2&#xff08;這個版本AI提示我Jupyter7&#xff08;底層是 jupyter_server 2.x&#xff09; 服務器開啟服務 安裝Jupyter notebook 7.4.2成功后&#xff0c;終端輸入 jupyter notebook --generate-config 這將在 ~/.jupyter/ 目錄下生成 jupyter_…

走出 Demo,走向現實:DeepSeek-VL 的多模態工程路線圖

目錄 一、引言&#xff1a;多模態模型的關鍵轉折點 &#xff08;一&#xff09;當前 LMM 的三個關鍵挑戰 1. 數據的真實性不足 2. 模型設計缺乏場景感知 3. 語言能力與視覺能力難以兼顧 &#xff08;二&#xff09;DeepSeek-VL 的根本出發點&#xff1a;以真實任務為錨點…

數據庫原理及其應用 第六次作業

題目 參考答案 題目1. 教材P148第1題 問題&#xff1a;什么是數據庫的安全性&#xff1f; 答案&#xff1a;數據庫的安全性是指保護數據庫以防止不合法的使用所造成的數據泄露、更改或破壞 。它通過用戶身份鑒別、存取控制&#xff08;包括自主存取控制和強制存取控制&#x…

2025系統架構師---選擇題知識點(押題)

1.《計算機信息系統安全保護等級劃分準則》(GB 17859-1999)由低到高定義了五個不同級別的計算機系統安全保護能力。 第一級:用戶自主保護級---通過隔離用戶與數據實現訪問控制,保護用戶信息安全; 第二級:系統審計保護級---實施更細粒度的訪問控制,通過審計和隔離資源確…

Qt操作SQLite數據庫教程

Qt 中操作 SQLite 數據庫的步驟如下&#xff1a; 1. 添加 SQLite 驅動并打開數據庫 #include <QSqlDatabase> #include <QSqlError> #include <QSqlQuery>// 創建數據庫連接 QSqlDatabase db QSqlDatabase::addDatabase("QSQLITE"); db.setData…