中科院自動化研究所通用空中任務無人機!基于大模型的通用任務執行與自主飛行

  • 作者: Ji Zhao and Xiao Lin

  • 單位:中科院自動化研究所

  • 論文標題:General-Purpose Aerial Intelligent Agents Empowered by Large Language Models

  • 論文鏈接:https://arxiv.org/pdf/2503.08302

主要貢獻

  • 硬件-軟件協同設計框架:提出了一種針對無人機(UAV)的硬件-軟件協同設計框架,通過邊緣計算平臺實現了14B參數的大型語言模型(LLM)的高效推理(5-6 tokens/second),同時保持了220W的峰值功耗。

  • 雙向認知架構:設計了一種雙向認知架構,將LLM的慢速深思熟慮規劃(任務規劃)與快速反應控制(狀態估計、建圖、避障和運動規劃)相結合,實現了任務規劃與反應控制的協同。

  • 任務規劃和場景理解驗證:通過原型系統驗證了LLM/VLM在通信受限環境中的任務規劃和場景理解能力,如甘蔗監測、電網巡檢、礦井隧道勘探和生物觀測等應用,展示了系統在真實世界場景中的泛化能力。

研究背景

  • 無人機的局限性:盡管無人機在農業、電網巡檢、礦業和生物觀測等領域有廣泛應用,但現有的無人機系統大多局限于執行預定義任務,缺乏靈活性和適應性。

  • 大型語言模型的潛力:隨著LLM和視覺-語言模型(VLM)的發展,無人機有望基于開放式語言指令執行任務并與開放集對象交互,但目前的無人機系統由于硬件和軟件的限制,難以實現這一目標。

  • 挑戰:LLM具有龐大的參數規模和對計算資源的高需求,而無人機受到重量、功耗和尺寸的限制。此外,如何將LLM的慢速推理能力與無人機的快速反應能力有效結合也是一個關鍵問題。

研究方法

硬件設計

  • 智能計算域:無人機配備了強大的計算模塊,包括16核5GHz的Intel CPU、12核2.5GHz的ARM處理器以及雙層GPU架構,能夠提供高達10 TFLOPS的通用計算能力和40 TOPS(Int8)的嵌入式計算能力,支持運行14B參數的DeepSeek-R1 LLM。

  • 能源供應域:電池艙和電源系統能夠為智能計算域提供1000Wh的峰值功耗,支持大模型連續運行4小時,同時為飛行域提供22000WmAh(700Wh)的電力。

  • 飛行域:飛行控制系統和螺旋槳能夠提供足夠的推力,最大起飛重量可達18kg。

  • 通信與GPS域:配備2×2 MIMO 5G通信模塊,理論帶寬2Gbps,實際帶寬400Mbps,RTK模塊提供厘米級導航精度,視頻傳輸模塊傳輸距離可達30km。

  • 感知域:配備14個攝像頭、6個ToF攝像頭、4D LiDAR和IMU,能夠實現高精度的環境感知和障礙物檢測。

  • 載荷域:配備多種載荷,如紅外熱像儀、激光測距儀、FPV相機、三軸云臺、探照燈、夜視設備等,以滿足不同任務需求。

雙向認知架構

  • 任務規劃階段:通過向LLM(如DeepSeek-R1)提供任務描述,生成詳細的任務計劃,并由人類操作員審核確認。LLM利用其常識和推理能力,即使提示中未提及某些細節,也能生成合理的計劃。

  • 任務執行階段:無人機自主執行任務。感知模塊檢測障礙物,狀態估計和建圖模塊提供無人機的位姿和局部地圖,VLM生成圖像的場景描述。這些信息與地理信息和無人機的動作集一起,形成提示輸入LLM,作為運動規劃器,選擇動作并生成航點,輸入飛行控制單元(FCU)以控制無人機。

提示設計框架

  • 提出了一個兩階段的提示設計框架,將LLM的推理能力與傳統無人機自主模塊(如狀態估計、運動規劃、控制等)進行整合,實現了任務規劃與反應控制之間的雙向信息流。

實驗

任務定義

  • 甘蔗監測:利用無人機的高精度測量和感知能力,對甘蔗的倒伏情況進行監測,通過快思維和慢思維系統的協同,自主識別甘蔗生長狀態,及時檢測倒伏等問題。

  • 電網巡檢:無人機實現自主飛行跟蹤和缺陷識別,快思維系統負責避障和路徑規劃,慢思維系統對巡檢數據進行深入分析,識別潛在缺陷。

  • 礦井隧道勘探:利用LiDAR SLAM技術進行精確導航和建圖,快思維系統提供實時感知和路徑規劃能力,慢思維系統進行綜合分析和處理,使無人機能夠自主穿越復雜礦井環境。

  • 鯨魚表面生物觀測:通過實時多傳感器融合保持良好的定位精度,慢思維系統結合歷史潛水模式和海洋數據預測鯨魚浮出水面的區域。

實驗結果

  • 任務規劃結果
    • 對于上述四種應用,LLM能夠生成合理的任務規劃,包括任務目標、準備階段、任務規劃等。

    • 例如,在甘蔗監測任務中,LLM建議選擇靠近甘蔗田的開闊區域作為起飛點;在礦井隧道勘探任務中,LLM注意到礦井隧道內沒有GPS信號,即使在提示中沒有提及這一點。

  • 場景理解結果
    • 使用真實世界的邊緣案例圖像測試了機載VLM的場景理解能力。

    • 在甘蔗監測和電網巡檢任務中,VLM成功檢測到甘蔗倒伏情況和電網潛在危險。

    • 實驗結果表明,空中智能代理有潛力替代人類執行危險或單調的任務。

結論與未來工作

  • 結論
    • 提出的框架通過優化硬件設計實現了14B參數LLM的邊緣部署,克服了傳統功耗和計算能力的限制。

    • 提出的兩階段提示設計框架實現了LLM引導的任務規劃與低級反應能力之間的有效交互。

    • 在需要環境意識和操作精度的關鍵任務中,該框架表現出有效性。

    • 實驗表明,LLM推理和反應模塊之間的雙向信息流可以應用于具有特定設計方法的通用任務,且機載LLM運行對無人機(尤其是安全關鍵操作)有益。

  • 未來工作
    • 進一步減輕無人機重量,將當前使用的鋁合金框架替換為碳纖維等更輕的材料。

    • 通過真實飛行測試進一步驗證系統的有效性,并將硬件平臺開源。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/81517.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/81517.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/81517.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

數據結構 -- 樹形查找(三)紅黑樹

紅黑樹 為什么要發明紅黑樹 平衡二叉樹AVL:插入/刪除很容易破壞平衡性,需要頻繁調整樹的形態。如:插入操作導致不平衡,則需要先計算平衡因子,找到最小不平衡子樹(時間開銷大),在進行…

容器化-k8s-使用和部署

一、K8s 使用 1、基本概念 集群: 由 master 節點和多個 slaver 節點組成,是 K8s 的運行基礎。節點: 可以是物理機或虛擬機,是 K8s 集群的工作單元,運行容器化應用。Pod: K8s 中最小的部署單元,一個 Pod 可以包含一個或多個緊密相關的容器,這些容器共享網絡和存儲資源。…

力扣-283-移動零

1.題目描述 2.題目鏈接 283. 移動零 - 力扣&#xff08;LeetCode&#xff09; 3.題目代碼 class Solution {public void moveZeroes(int[] nums) {int dest-1;int cur0;while(cur<nums.length){if(nums[cur]0){cur;}else if(nums[cur]!0){swap(nums,cur,dest1);cur;dest…

前端開發筆記與實踐

一、Vue 開發規范與響應式機制 1. 組件命名規范 自定義組件使用大駝峰命名法&#xff08;如 MyComponent&#xff09;&#xff0c;符合 Vue 官方推薦&#xff0c;便于與原生 HTML 元素區分。 2. Proxy vs defineProperty 特性Proxy&#xff08;Vue3&#xff09;Object.defi…

如何給PSCAD添加庫文件

1、點擊Options 2、選擇藍色的選項 3、查看Intel(R) Visual Fortran Compiler XE 的版本 4、打開原文件的Library 5、打開 6、點擊這個文件的右鍵 7、然后選擇第一項project setting 9、先把第8步中link里面原有的路徑刪除&#xff0c;再點browes[A1] &#xff0c;然后選擇 [A…

milvus+flask山寨《從零構建向量數據庫》第7章case2

繼續流水賬完這本書&#xff0c;這個案例是打造文字形式的個人知識庫雛形。 create_context_db: # Milvus Setup Arguments COLLECTION_NAME text_content_search DIMENSION 2048 MILVUS_HOST "localhost" MILVUS_PORT "19530"# Inference Arguments…

【第一篇】 創建SpringBoot工程的四種方式

簡介&#xff1a; 通過此篇博客你可以使用任何方式進行創建 SpringBoot 項目&#xff0c;并且在文章的最后附上答疑解惑一節&#xff0c;為你排除在使用過程中發生的常見問題。文章內容若存在錯誤或需改進的地方&#xff0c;歡迎大家指正&#xff01;若對操作有任何疑問歡迎留言…

GPT( Generative Pre-trained Transformer )模型:基于Transformer

GPT是由openAI開發的一款基于Transformer架構的預訓練語言模型&#xff0c;擁有強大的生成能力和多任務處理能力&#xff0c;推動了自然語言處理&#xff08;NLP&#xff09;的快速發展。 一 GPT發展歷程 1.1 GPT-1&#xff08;2018年&#xff09; 是首個基于Transformer架構…

網絡檢測工具InternetTest v8.9.1.2504 單文件版,支持一鍵查詢IP/DNS、WIFI密碼信息

—————【下 載 地 址】——————— 【?本章下載一】&#xff1a;https://drive.uc.cn/s/295e068b79314 【?本章下載二】&#xff1a;https://pan.xunlei.com/s/VOQDXguH0DYPxrql5y2zlkhTA1?pwdg2nx# 【百款黑科技】&#xff1a;https://ucnygalh6wle.feishu.cn/wiki/…

CSS- 4.1 浮動(Float)

本系列可作為前端學習系列的筆記&#xff0c;代碼的運行環境是在HBuilder中&#xff0c;小編會將代碼復制下來&#xff0c;大家復制下來就可以練習了&#xff0c;方便大家學習。 HTML系列文章 已經收錄在前端專欄&#xff0c;有需要的寶寶們可以點擊前端專欄查看&#xff01; 點…

配置WebStorm鍵盤快捷鍵

目錄 配置快捷鍵添加鍵盤快捷鍵添加鼠標快捷鍵添加縮寫重置為默認快捷鍵 禁用雙快捷鍵用戶快捷鍵的保存位置與操作系統沖突 配置快捷鍵 WebStorm包含預定義的快捷鍵&#xff0c;同時允許自定義快捷鍵。要查看快捷鍵配置&#xff0c;請打開“設置”對話框&#xff0c;然后選擇K…

Java 21 + Spring Boot 3.5:AI驅動的高性能框架實戰

簡介 在微服務架構日益普及的今天,如何構建一個既高性能又具備AI驅動能力的后端系統成為開發者關注的焦點。本篇文章將深入探討Java 21與Spring Boot 3.5的結合,展示如何通過Vector API和JIT優化實現單線程性能提升30%,并利用飛算JavaAI生成智能重試機制和超時控制代碼,解…

Matrix-Game:鍵鼠實時控制、實時生成的游戲生成模型(論文代碼詳細解讀)

1.簡介 本文介紹了一種名為Matrix-Game的交互式世界基礎模型&#xff0c;專門用于可控的游戲世界生成。 Matrix-Game通過一個兩階段的訓練流程來實現&#xff1a;首先進行大規模無標簽預訓練以理解環境&#xff0c;然后進行動作標記訓練以生成交互式視頻。為此&#xff0c;研…

AI生成信息準確性,Ask-Refine提問策略,Agent最少的工具箱是什么樣的?

關于AI生成信息準確性的探討 在社群聊天記錄中&#xff0c;用戶提出在使用多種AI工具搜索培生出版企業上市信息時&#xff0c;遇到80%信息錯誤的問題&#xff0c;質疑AI為何無法勝任簡單的網絡信息爬取任務&#xff0c;并表達了對AI實用性的期望。 我抽空對此做出解答&#xff…

Linux系統中部署java服務(docker)

1、不使用docker ? 1. 檢查并安裝 Java 環境 檢查 Java 是否已安裝&#xff1a; java -version? 2. 上傳 Java 項目 JAR 文件 可以創建一個server文件夾&#xff0c;然后上傳目錄 查看當前目錄 然后創建目錄上傳jar包 ? 3. 啟動 Java 服務 java -jar hywl-server.jar…

遨游科普:三防平板是什么?有什么功能?

清晨的露珠還掛在帳篷邊緣&#xff0c;背包里的三防平板卻已開機導航&#xff1b;工地的塵土飛揚中&#xff0c;工程師正通過它查看施工圖紙&#xff1b;暴雨傾盆的救援現場&#xff0c;應急隊員用它實時回傳災情數據……這些看似科幻的場景&#xff0c;正因三防平板的普及成為…

Flask Docker Demo 項目指南

首先&#xff0c;創建一個新的項目目錄并創建必要的文件&#xff1a; mkdir flask-docker-demo cd flask-docker-demo創建一個簡單的Flask應用 (app.py)&#xff1a; from flask import Flaskapp Flask(__name__)app.route(/) def hello_world():return Hello, Docker World…

GO語言語法---if語句

文章目錄 1. 基本語法1.1 單分支1.2 雙分支1.3 多分支 2. Go特有的if語句特性2.1 條件前可以包含初始化語句2.2 條件表達式不需要括號2.3 必須使用大括號2.4 判斷語句所在行數控制 Go語言的if語句用于條件判斷&#xff0c;與其他C風格語言類似&#xff0c;但有一些獨特的語法特…

自動化 NuGet 包打包與上傳:完整批處理腳本詳解(含 SVN 支持)

在大型項目中&#xff0c;我們常常需要定期打包多個 .csproj 項目為 NuGet 包&#xff0c;并上傳到私有 NuGet 服務。這篇文章分享一份實戰腳本&#xff0c;支持以下自動化流程&#xff1a; 自動讀取、更新 .csproj 文件中的 Version、PackageOutputPath 等節點&#xff1b; 自…

刷leetcodehot100返航版--雙指針5/16

for (int i 0, j 0; i < n; i ) { while (j < i && check(i, j)) j ; // 具體問題的邏輯 } 常見問題分類&#xff1a; (1) 對于一個序列&#xff0c;用兩個指針維護一段區間 (2) 對于兩個序列&#xff0c;維護某種次序&#xff0c;比如歸并排序中…