印度語言指令驅動的無人機導航！UAV-VLN：端到端視覺語言導航助力無人機自主飛行

印度語言指令驅動的無人機導航！UAV-VLN：端到端視覺語言導航助力無人機自主飛行

news/2025/7/1 22:43:34/文章來源:https://blog.csdn.net/weixin_37990186/article/details/148143801

作者：Pranav Saxena, Nishant Raghuvanshi and Neena Goveas
單位：比爾拉理工學院（戈瓦校區）
論文標題：UAV-VLN: End-to-End Vision Language guided Navigation for UAVs
論文鏈接：https://arxiv.org/pdf/2504.21432

主要貢獻

提出了UAV-VLN，這是一個針對無人機（UAV）的端到端視覺語言導航（VLN）框架，能夠在復雜的真實世界環境中解釋和執行自由形式的自然語言指令，填補了無人機視覺語言導航領域的研究空白。
構建了一個包含1000多個空中導航指令提示及其對應子計劃的新穎數據集，專門用于訓練和評估適用于3D無人機環境的大型語言模型。
證明了該方法能夠泛化到未見環境和指令，在室內外環境中均實現了穩健的零樣本導航性能。

研究背景

無人機（UAV）在室內和室外環境中承擔著越來越多的任務，如包裹遞送、空中監視和搜索救援等，這些任務要求無人機能夠在動態、以人類為中心的環境中導航，同時與靜態物體和移動主體進行交互。
傳統的無人機導航方法依賴于預定義的飛行路徑或基于GPS的航點，難以應對動態環境、不確定性和信息不完整的挑戰。
視覺語言導航（VLN）為無人機導航提供了新的方向，使無人機能夠通過視覺輸入將高級自然語言指令轉化為復雜的導航任務，但以往的VLN方法主要針對在結構化二維環境中運行的輪式或腿式機器人，對無人機的適用性有限。

研究方法

問題定義

任務目標：給定一個自由形式的自然語言指令 $I$ 和無人機從機載RGB相機捕獲的視覺觀測流 $\{v_1, v_2, \dots, v_T\}$ ，目標是預測一個控制指令序列 $\{a_1, a_2, \dots, a_T\}$ ，引導無人機從起始位置到達指令中描述的目標位置或目標狀態，同時安全地穿越環境。
關鍵挑戰：
- 語義解析：從非結構化語言中提取可操作的目標和空間線索。
- 視覺定位：在動態、無結構的環境中，將語言引用的對象和區域與無人機的視覺視野對齊。
- 軌跡規劃：在三維空間中生成可行、安全且符合指令的飛行路徑。
- 泛化能力：在新環境中保持魯棒性，對新的指令和視覺場景具有最小的重新訓練需求。

自然語言Prompt

核心目標：準確理解和執行自然語言指令。
問題：通用的預訓練大型語言模型（如ChatGPT或Gemini）在無人機導航任務中可能會出現誤解或錯誤分類動作，且依賴云端基礎設施可能導致延遲或可用性問題。
解決方案：采用基于領域特定數據集的微調方法。作者定制了一個無人機指令數據集，并在該數據集上微調了TinyLlama-1.1B模型，使其更好地理解無人機特定的術語、空間指令和安全關鍵細節。
輸入：
- 輸入提示：用戶提供的高級自然語言指令。
- 動作空間：無人機可以執行的所有有效離散動作集合。
輸出：微調后的LLM生成一系列中間子目標，每個子目標對應一個可執行的無人機動作。

自動化任務規劃器

功能：將LLM分解的高級子目標進一步轉換為具體的行動計劃，以便無人機在物理環境中執行。
實現：
- 利用無人機的離散動作空間，結合當前狀態和環境上下文，為每個子目標生成有效且高效的子計劃。
- 將這些子計劃組合成一個連貫的最終執行計劃，確保無人機安全且最優地完成任務。
技術實現：使用Robot Operating System 2（ROS 2）實現控制流程，提供模塊化、實時能力和與無人機飛行堆棧的穩健集成。

視覺輸入

目標：結合語言理解分析視覺輸入，確定無人機的目標位置。
挑戰：無人機不僅要準確感知環境，還要根據自然語言指令對感知結果進行語義定位。
解決方案：采用開放詞匯對象檢測器Grounding DINO，利用文本查詢的語義豐富性定位視覺輸入中的相關實體。
- 輸入：指令和微調后的TinyLlama-1.1B模型處理后的文本。
- 輸出：目標對象或區域的描述符，用于在相機流中定位目標。
- 功能：
- 解釋指令以識別目標對象或地標。
- 使用Grounding DINO在相機流中定位這些目標。
- 根據無人機與檢測到的實體之間的空間關系生成基于語義的子目標。

終止條件

重要性：準確判斷何時終止導航任務與執行路徑本身同等重要。過早或過晚終止可能導致無人機懸停、漂移或錯過目標位置。
終止邏輯：
- 目標對象檢測：使用Grounding DINO確認當前視野中是否存在指令中指定的目標對象或地標。
- 接近度檢查：使用預定義的空間閾值驗證無人機是否在目標的可接受范圍內。
- 指令滿足：驗證從指令中派生的子目標是否已成功執行。
實現：終止邏輯集成在ROS 2控制堆棧中，確保任務結束時無人機狀態的安全處理，并為未來擴展（如用戶發起的停止信號或任務失敗時的動態重新規劃）提供支持。

實驗

實驗設置

硬件：在配備Nvidia GTX 1650 GPU的筆記本電腦上運行，模擬真實無人機配備的計算能力。
模擬器：使用Gazebo Garden與ROS 2進行仿真，無人機配備Pixhawk飛行控制器和底部安裝的單目相機。
評估指標：使用成功完成任務的比例（Success Rate, SR）和路徑效率（Success Rate Weighted by Inverse Path Length, SPL）進行評估。

評估場景

實驗在四個不同場景中進行，每個場景包含15個不同的導航任務：

倉庫
公園
房屋社區
辦公室

基線方法

DEPS：使用LLM進行中間推理，通過描述環境、解釋子目標、規劃候選動作并選擇可行計劃。
VLMNav：使用Gemini 2.0 Flash作為零樣本和端到端的語言條件導航策略。

實驗結果

UAV-VLN在所有場景中的表現均優于基線方法，顯示出更高的成功完成任務的比例和路徑效率。
例如，在“公園”場景中，UAV-VLN的成功率達到93.33%，路徑效率為0.0792，而DEPS的成功率為86.67%，路徑效率為0.0733；VLMNav的成功率為73.33%，路徑效率為0.0755。

消融研究

不同LLM和視覺模型的組合：實驗結果表明，使用開放詞匯模型（如CLIPSeg和Grounding DINO）比封閉詞匯模型（如YOLO）表現更好，能夠更好地泛化到不同場景。
微調的重要性：微調后的TinyLlama-1.1B模型在所有場景中均優于未微調的模型，強調了針對無人機任務定制語言模型的重要性。

結論與未來工作

UAV-VLN通過結合微調的大型語言模型的語義推理能力和開放詞匯視覺定位，顯著提高了指令遵循準確性和路徑效率，能夠在復雜動態環境中實現穩健的導航。
未來工作計劃將導航歷史和輕量級語義映射納入系統，幫助無人機進行全局推理，避免冗余探索并規劃更高效的路徑，使UAV-VLN系統更接近于在具有挑戰性的開放世界環境中實現真正可擴展和終身導航的目標。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/906585.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/906585.shtml
英文地址，請注明出處：http://en.pswp.cn/news/906585.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

基于Zynq SDK的LWIP UDP組播開發實戰指南

基于Zynq SDK的LWIP UDP組播開發實戰指南

一、為什么選擇LWIP組播？在工業控制、智能安防、物聯網等領域，一對多的高效數據傳輸需求日益增長。Zynq-7000系列SoC憑借其ARM+FPGA的獨特架構，結合LWIP輕量級網絡協議棧，成為嵌入式網絡開發的理想選擇。本文將帶您實現： LWIP組播配置全流程動態組播組切換技術零拷貝數據…

閱讀更多...

（三）MMA（KeyCloak身份服務器/OutBox Pattern）

（三）MMA（KeyCloak身份服務器/OutBox Pattern）

文章目錄項目地址一、KeyCloak二、OutBox Pattern2.1 配置Common模塊的OutBox1. OutboxMessage2. 數據庫配置OutboxMessageConfiguration3. 創建Save前的EF攔截器4. 創建Quartz后臺任務5. 配置后臺任務6. 注冊服務2.2 創建OutBox的消費者1. 自定義IDomainEventHandler2. 定義抽…

閱讀更多...

初步認識HarmonyOS NEXT端云一體化開發

初步認識HarmonyOS NEXT端云一體化開發

視頻課程學習報名入口：HarmonyOS NEXT端云一體化開發 1、課程設計理念本課程采用"四維能力成長模型"設計理念，通過“能看懂→能聽懂→能上手→能實戰”的漸進式學習路徑，幫助零基礎開發者實現從理論認知到商業級應用開發的跨越。該模型將學習過程劃分為四個維度…

閱讀更多...

Vue百日學習計劃Day43-45天詳細計劃-Gemini版

Vue百日學習計劃Day43-45天詳細計劃-Gemini版

Day 43: Composable 函數基礎與抽取簡單邏輯 (~3 小時) 本日目標: 理解 Composable 函數的概念、優勢，并學會如何將簡單的、無狀態的邏輯抽取為 Composable。所需資源: Vue 3 官方文檔 (組合式函數): https://cn.vuejs.org/guide/reusability/composables.html 學…

閱讀更多...

C++：list容器，deque容器

C++：list容器，deque容器

list容器：雙向鏈表容器，底層是雙向鏈表。簡單使用如下： #include<iostream> #include<list> using namespace std;int main() {list<int> lst;lst.push_back(1);lst.push_back(2);lst.push_back(3);lst.push_front(4);l…

閱讀更多...

STM32之溫濕度傳感器(DHT11)

STM32之溫濕度傳感器(DHT11)

KEIL軟件實現printf格式化輸出一般在標準C庫是提供了格式化輸出和格式化輸入等函數，用戶想要使用該接口，則需要包含頭文件 #include ，由于printf函數以及scanf函數是向標準輸出以及標準輸入中進行輸出與輸入，標準輸出一般指的是…

閱讀更多...

【蒼穹外賣】Day01—Mac前端環境搭建

【蒼穹外賣】Day01—Mac前端環境搭建

目錄一、安裝Nginx （一）安裝Homebrew （二）Homebrew安裝Nginx 1. 執行安裝命令： 2. 驗證安裝： （三）啟動與停止Nginx 二、配置Nginx 1. 替換nginx.conf 2. 替換html文件夾三…

閱讀更多...

docker面試題（3）

docker面試題（3）

如何臨時退出一個正在交互的容器的終端，而不終止它按ctrlp，后按ctrlq ，如果按ctrlc會使容器內的應用進程終止，進而會使容器終止很多應用容器都默認是后臺運行的，怎么查看它們輸出的日志信息使用docker logs &#…

閱讀更多...

單片機設計_四軸飛行器（STM32）

單片機設計_四軸飛行器（STM32）

四軸飛行器（STM32） 想要更多項目私wo!!! 一、系統簡介四軸飛行器是一種通過四個旋翼產生的升力實現飛行的無人機，其核心控制原理基于歐拉角動力學模型。四軸飛行器通過改變四個電機的轉速來實現六自由度控制（前后、左右、上下…

閱讀更多...

Vue 3 與 Vue 2 的區別詳解

Vue 3 與 Vue 2 的區別詳解

Vue 3 在性能、語法、響應式、類型系統等方面相比 Vue 2 做了大幅優化和改進。本篇將從多個維度詳細對比 Vue 3 與 Vue 2 的核心區別。 📌 核心對比表格對比維度Vue 2Vue 3說明核心 API 模式Options APIComposition API（兼容 Options）Vue 3…

閱讀更多...

深入理解 Redisson 看門狗機制：保障分布式鎖自動續期

深入理解 Redisson 看門狗機制：保障分布式鎖自動續期

在分布式系統的開發中，分布式鎖是解決資源競爭、數據一致性問題的關鍵手段。Redisson 作為一個在 Java 領域廣泛使用的 Redis 客戶端框架，為我們提供了功能強大且易用的分布式鎖實現。其中，看門狗（watchDog）機制更是 R…

閱讀更多...

配置gem5環境：Dockerfile使用

配置gem5環境：Dockerfile使用

下載ZIP文件到dockerfile所在目錄下： 運行以下命令注意不要忘記最后的標點 . docker build -t gem5bootcamp .在 Dockerfile 所在目錄下執行 docker build 時，Docker 會按照 Dockerfile 中的指令，自動下載和構建所需的一切。不過這過程里…

閱讀更多...

角度回歸——八參數檢測四邊形Gliding Vertex

角度回歸——八參數檢測四邊形Gliding Vertex

文章目錄一、介紹（一）五參數檢測方法（ 基于角度）（二）八參數檢測方法（point-based）的邊界二、方案分析（一）問題定義（二）方案&#xf…

閱讀更多...

鴻蒙系統電腦：開啟智能辦公新時代

鴻蒙系統電腦：開啟智能辦公新時代

鴻蒙系統電腦：開啟智能辦公新時代引言 2025 年 5 月 8 日，華為正式推出了鴻蒙系統電腦，這款具有里程碑意義的產品，不僅彰顯了華為在智能設備領域的創新實力，也為用戶帶來了全新的智能辦公體驗。在數字化轉型加速的背…

閱讀更多...

計量單片機 RN8302：特性、使用與應用

計量單片機 RN8302：特性、使用與應用

在現代電力監測與能源管理領域，精確的電能計量至關重要。計量單片機 RN8302 作為一款高性能的電能計量芯片，憑借其卓越的特性與功能，在眾多應用場景中發揮著關鍵作用。本文將全面深入地介紹 RN8302 的各項特性、使用方法、注意事項以及廣泛的…

閱讀更多...

Flink 的窗口機制

Flink 的窗口機制

🪟 1. 基于時間驅動的滾動時間窗口（Tumbling Time Window - Time-based） ? 定義： 每隔固定的時間周期開啟一個新的窗口。窗口之間不重疊。 🕒 示例： DataStream<Tuple2<String, Integer>>…

閱讀更多...

【RA-Eco-RA2L1-48PIN】ADC 電壓表與OLED顯示

【RA-Eco-RA2L1-48PIN】ADC 電壓表與OLED顯示

【RA-Eco-RA2L1-48PIN】ADC 電壓表與OLED顯示本文介紹了 RA-Eco-RA2L1-48PIN 開發板通過瑞薩 e2 Studio 靈活軟件包（FSP）編程實現 ADC 串口采集電壓和OLED顯示電壓數值的項目設計，包括串口電壓值串口打印、硬件 IIC 通信協議配置、 OLED顯示…

閱讀更多...

GraphQL在.NET 8中的全面實踐指南

GraphQL在.NET 8中的全面實踐指南

一、GraphQL與.NET 8概述 GraphQL是一種由Facebook開發的API查詢語言，它提供了一種更高效、更靈活的替代REST的方案。與REST不同，GraphQL允許客戶端精確指定需要的數據結構和字段，避免了"過度獲取"或"不足獲取"的問題。…

閱讀更多...

Elasticsearch 寫入性能優化有哪些常見手段？

Elasticsearch 寫入性能優化有哪些常見手段？

Elasticsearch 寫入性能優化常見手段主要有以下 10 個方向，建議根據具體業務場景組合使用： 批量寫入優化使用_bulk API 批量提交文檔建議每批次 5-15MB 數據量并發執行多個批量請求索引配置調優 PUT /my_index {"settings": {"inde…

閱讀更多...

【圖像大模型】基于深度對抗網絡的圖像超分辨率重建技術ESRGAN深度解析

【圖像大模型】基于深度對抗網絡的圖像超分辨率重建技術ESRGAN深度解析

基于深度對抗網絡的圖像超分辨率重建技術ESRGAN深度解析一、技術背景與核心創新1.1 圖像超分辨率技術演進1.2 核心技術創新對比二、算法原理深度解析2.1 網絡架構設計2.1.1 RRDB模塊結構 2.2 損失函數設計2.2.1 對抗損失（Adversarial Loss）2.2.2 感知損…

閱讀更多...

最新文章