-
作者: Ji Zhao and Xiao Lin
-
單位:中科院自動化研究所
-
論文標題:General-Purpose Aerial Intelligent Agents Empowered by Large Language Models
-
論文鏈接:https://arxiv.org/pdf/2503.08302
主要貢獻
-
硬件-軟件協同設計框架:提出了一種針對無人機(UAV)的硬件-軟件協同設計框架,通過邊緣計算平臺實現了14B參數的大型語言模型(LLM)的高效推理(5-6 tokens/second),同時保持了220W的峰值功耗。
-
雙向認知架構:設計了一種雙向認知架構,將LLM的慢速深思熟慮規劃(任務規劃)與快速反應控制(狀態估計、建圖、避障和運動規劃)相結合,實現了任務規劃與反應控制的協同。
-
任務規劃和場景理解驗證:通過原型系統驗證了LLM/VLM在通信受限環境中的任務規劃和場景理解能力,如甘蔗監測、電網巡檢、礦井隧道勘探和生物觀測等應用,展示了系統在真實世界場景中的泛化能力。
研究背景
-
無人機的局限性:盡管無人機在農業、電網巡檢、礦業和生物觀測等領域有廣泛應用,但現有的無人機系統大多局限于執行預定義任務,缺乏靈活性和適應性。
-
大型語言模型的潛力:隨著LLM和視覺-語言模型(VLM)的發展,無人機有望基于開放式語言指令執行任務并與開放集對象交互,但目前的無人機系統由于硬件和軟件的限制,難以實現這一目標。
-
挑戰:LLM具有龐大的參數規模和對計算資源的高需求,而無人機受到重量、功耗和尺寸的限制。此外,如何將LLM的慢速推理能力與無人機的快速反應能力有效結合也是一個關鍵問題。
研究方法
硬件設計
-
智能計算域:無人機配備了強大的計算模塊,包括16核5GHz的Intel CPU、12核2.5GHz的ARM處理器以及雙層GPU架構,能夠提供高達10 TFLOPS的通用計算能力和40 TOPS(Int8)的嵌入式計算能力,支持運行14B參數的DeepSeek-R1 LLM。
-
能源供應域:電池艙和電源系統能夠為智能計算域提供1000Wh的峰值功耗,支持大模型連續運行4小時,同時為飛行域提供22000WmAh(700Wh)的電力。
-
飛行域:飛行控制系統和螺旋槳能夠提供足夠的推力,最大起飛重量可達18kg。
-
通信與GPS域:配備2×2 MIMO 5G通信模塊,理論帶寬2Gbps,實際帶寬400Mbps,RTK模塊提供厘米級導航精度,視頻傳輸模塊傳輸距離可達30km。
-
感知域:配備14個攝像頭、6個ToF攝像頭、4D LiDAR和IMU,能夠實現高精度的環境感知和障礙物檢測。
-
載荷域:配備多種載荷,如紅外熱像儀、激光測距儀、FPV相機、三軸云臺、探照燈、夜視設備等,以滿足不同任務需求。
雙向認知架構
-
任務規劃階段:通過向LLM(如DeepSeek-R1)提供任務描述,生成詳細的任務計劃,并由人類操作員審核確認。LLM利用其常識和推理能力,即使提示中未提及某些細節,也能生成合理的計劃。
-
任務執行階段:無人機自主執行任務。感知模塊檢測障礙物,狀態估計和建圖模塊提供無人機的位姿和局部地圖,VLM生成圖像的場景描述。這些信息與地理信息和無人機的動作集一起,形成提示輸入LLM,作為運動規劃器,選擇動作并生成航點,輸入飛行控制單元(FCU)以控制無人機。
提示設計框架
-
提出了一個兩階段的提示設計框架,將LLM的推理能力與傳統無人機自主模塊(如狀態估計、運動規劃、控制等)進行整合,實現了任務規劃與反應控制之間的雙向信息流。
實驗
任務定義:
-
甘蔗監測:利用無人機的高精度測量和感知能力,對甘蔗的倒伏情況進行監測,通過快思維和慢思維系統的協同,自主識別甘蔗生長狀態,及時檢測倒伏等問題。
-
電網巡檢:無人機實現自主飛行跟蹤和缺陷識別,快思維系統負責避障和路徑規劃,慢思維系統對巡檢數據進行深入分析,識別潛在缺陷。
-
礦井隧道勘探:利用LiDAR SLAM技術進行精確導航和建圖,快思維系統提供實時感知和路徑規劃能力,慢思維系統進行綜合分析和處理,使無人機能夠自主穿越復雜礦井環境。
-
鯨魚表面生物觀測:通過實時多傳感器融合保持良好的定位精度,慢思維系統結合歷史潛水模式和海洋數據預測鯨魚浮出水面的區域。
實驗結果
- 任務規劃結果:
-
對于上述四種應用,LLM能夠生成合理的任務規劃,包括任務目標、準備階段、任務規劃等。
-
例如,在甘蔗監測任務中,LLM建議選擇靠近甘蔗田的開闊區域作為起飛點;在礦井隧道勘探任務中,LLM注意到礦井隧道內沒有GPS信號,即使在提示中沒有提及這一點。
-
- 場景理解結果:
-
使用真實世界的邊緣案例圖像測試了機載VLM的場景理解能力。
-
在甘蔗監測和電網巡檢任務中,VLM成功檢測到甘蔗倒伏情況和電網潛在危險。
-
實驗結果表明,空中智能代理有潛力替代人類執行危險或單調的任務。
-
結論與未來工作
- 結論:
-
提出的框架通過優化硬件設計實現了14B參數LLM的邊緣部署,克服了傳統功耗和計算能力的限制。
-
提出的兩階段提示設計框架實現了LLM引導的任務規劃與低級反應能力之間的有效交互。
-
在需要環境意識和操作精度的關鍵任務中,該框架表現出有效性。
-
實驗表明,LLM推理和反應模塊之間的雙向信息流可以應用于具有特定設計方法的通用任務,且機載LLM運行對無人機(尤其是安全關鍵操作)有益。
-
- 未來工作:
-
進一步減輕無人機重量,將當前使用的鋁合金框架替換為碳纖維等更輕的材料。
-
通過真實飛行測試進一步驗證系統的有效性,并將硬件平臺開源。
-