兼顧長、短視頻任務的無人機具身理解！AirVista-II：面向動態場景語義理解的無人機具身智能體系統

兼顧長、短視頻任務的無人機具身理解！AirVista-II：面向動態場景語義理解的無人機具身智能體系統

news/2025/7/13 19:53:49/文章來源:https://blog.csdn.net/weixin_37990186/article/details/147990899

作者：Fei Lin $^{1}$ , Yonglin Tian $^{2}$ , Tengchao Zhang $^{1}$ , Jun Huang $^{1}$ , Sangtian Guan $^{1}$ , and Fei-Yue Wang $^{2,1}$
單位： $^{1}$ 澳門科技大學創新工程學院工程科學系， $^{2}$ 中科院自動化研究所復雜系統管理與控制國家重點實驗室
論文標題：AirVista-II: An Agentic System for Embodied UAVs Toward Dynamic Scene Semantic Understanding
論文鏈接：https://arxiv.org/pdf/2504.09583

主要貢獻

提出AirVista-II系統：這是一個端到端的代理系統，用于使無人機（UAV）從被動的數據采集平臺向主動的語義交互范式轉變，實現了無人機在動態場景中的通用語義理解和推理。
設計自適應關鍵幀提取策略：針對長視頻場景，提出了一種結合運動感知采樣、聚類分析和模型引導選擇的自適應關鍵幀提取策略。該策略能夠有效地捕捉語義顯著的幀，增強無人機對復雜動態場景的理解能力。
在多個公共航拍視頻數據集上驗證：在零樣本（zero-shot）設置下，展示了系統在多樣化無人機動態場景中的高準確性和描述質量，證明了其在實際應用中的潛力。

研究背景

無人機在動態環境中的重要性：
- 無人機在物流運輸、災難響應等動態環境中扮演著越來越重要的角色。
- 然而，目前的任務通常依賴于人類操作員監控航拍視頻并做出決策，這種人機協作模式在效率和適應性方面存在顯著限制。
語義理解任務的需求：
- 為了實現更高效的自主操作，無人機需要具備語義理解能力，不僅作為數據采集平臺，還要能夠進行環境的語義建模和自然語言交互，從而根據感知信息生成對人類操作指令的高級語義響應。
現有方法的局限性：
- 近年來，以大型語言模型（LLM）為代表的基礎模型（FM）在具身智能領域展現了強大的自主性和領域適應性。
- 然而，現有方法通常缺乏顯式的任務規劃機制，導致響應可控性不穩定。此外，由于缺乏外部工具調用能力和協調多模塊框架，在處理結構復雜和開放性任務時泛化能力有限。

研究方法

系統架構

AirVista-II系統由規劃模塊和執行模塊組成。根據輸入場景的時間長度，將動態場景分為三種類型：即時場景（單幀圖像）、短視頻（小于60秒）和長視頻（大于等于60秒），分別對應不同的任務形式和執行策略。

規劃模塊

核心功能：基于LLaVA或GPT-4o的規劃代理，將自然語言指令轉化為結構化任務，并分派給下游執行代理。
處理流程：
- 如果查詢缺乏明確的時間信息，則通過交互式細化模塊更新查詢。
- 對于語義模糊的查詢，應用鏈式思考（CoT）模板將其分解為更具體的子問題。
- 根據提取的時間信息，使用FFmpeg工具從輸入視頻中檢索圖像幀或視頻片段。
- 根據持續時間確定數據的模態標簽（圖像、短視頻或長視頻）。

執行模塊

即時圖像任務

處理方式：圖像代理接收圖像和用戶查詢，并調用AirVista工具生成答案。AirVista是一個專門針對無人機的多模態問答模型，能夠進行細粒度的語義理解和3D空間推理。

短視頻任務

關鍵幀提取：短視頻代理首先使用OpenCV從短視頻中提取6個均勻間隔的關鍵幀，形成一個3×2的時間網格圖像。
推理過程：在網格提示的引導下，代理對網格和查詢進行自我推理以產生答案。這種策略顯著減少了計算開銷，同時保留了時間上下文。

長視頻任務

自適應關鍵幀提取策略：
- 運動感知采樣：計算采樣步長 $\left\lfloor \frac{f \cdot \lambda}{v} \right\rfloor$ ，其中 $f$ 是幀率， $v$ 是無人機的平均速度， $\lambda$ 是期望的語義分辨率。這確保了無人機在采樣幀之間至少移動 $\lambda$ 米，平衡了覆蓋范圍和效率。
- 聚類分析：使用CLIP ViT-B/16提取高維語義嵌入，對不同數量的聚類進行評估，選擇最優聚類數量。
- 模型引導選擇：從每個聚類中選擇最早時間戳的幀形成最終關鍵幀集，構建近方形網格圖像。
- 推理過程：在網格提示的引導下，代理對網格和查詢進行推理以生成答案。

實驗

短視視頻場景實驗

CapERA-QA任務

任務描述：基于CapERA數據集構建內容總結問答任務，隨機選擇一個人類標注的字幕作為參考答案，并手動構建相應的問題。
評估方法：采用基于GPT的語義評估方法，結果顯示準確率為75.6%，平均得分為3.703。這表明系統能夠準確捕捉大多數航拍視頻中的主要事件和動態語義。

可讀性評估：采用多種主流英語可讀性指標（如Gunning Fog Index、Dale–Chall Readability Formula等），統計結果顯示生成答案的可讀性較好。

ERA-QA任務

任務描述：基于ERA數據集構建開放性問答任務，包含運動理解、空間關系、時間關系和自由形式問題四種類型。
評估方法：比較基于LLaVA-1.6-34B和GPT-4o的短視頻代理的性能，結果顯示LLaVA-1.6-34B的準確率為66.5%，平均得分為3.715；GPT-4o的準確率為53.0%，平均得分為3.140。

長視頻場景實驗

任務描述：基于SynDrone數據集構建長視頻問答任務，手動設計開放性問題以評估系統在長時間、多事件動態場景中的綜合問答能力。
聚類評估：通過視覺分析聚類評估結果，選擇最優聚類數量。實驗結果表明，自適應關鍵幀提取策略能夠根據場景復雜性動態選擇不同數量的關鍵幀。
性能對比：與固定幀采樣策略（如均勻采樣6幀）相比，自適應關鍵幀提取策略更有效地捕捉長視頻的關鍵語義內容，使代理能夠生成完整準確的響應。

結論與未來工作

結論：
- AirVista-II系統通過自適應關鍵幀提取方法，有效提高了無人機對復雜動態內容的感知和推理性能，增強了無人機在動態環境中的通用語義理解和推理能力。
- 該系統在多個公共航拍視頻數據集上的實驗結果表明，其在零樣本設置下具有高準確性和描述質量，展示了良好的實際應用潛力。
未來工作：
- 優化流程：將專注于優化流程以減少計算開銷，特別是在長視頻處理中，進一步提高系統的實時性和效率。
- 增強魯棒性：通過更多的實驗和測試，增強整個系統在復雜環境下的魯棒性，確保其在實際應用中的穩定性和可靠性。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/905630.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/905630.shtml
英文地址，請注明出處：http://en.pswp.cn/news/905630.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

【藍橋杯省賽真題49】python偶數第十五屆藍橋杯青少組Python編程省賽真題解析

【藍橋杯省賽真題49】python偶數第十五屆藍橋杯青少組Python編程省賽真題解析

python偶數第十五屆藍橋杯青少組python比賽省賽真題詳細解析博主推薦所有考級比賽學習相關資料合集【推薦收藏】1、Python比賽信息素養大賽Python編程挑戰賽藍橋杯python選拔賽真題詳解

閱讀更多...

鴻蒙（HarmonyOS）應用開發入門教程

鴻蒙（HarmonyOS）應用開發入門教程

目錄第一章：鴻蒙系統簡介 1.1 什么是鴻蒙系統？ 1.2 鴻蒙系統架構第二章：開發環境搭建 2.1 安裝DevEco Studio 步驟1：下載與安裝步驟2：首次配置步驟3：設備準備 2.2 創建第一個項目第三章：鴻蒙應用開發基礎 3.1 核心概念：Ability與AbilitySlice 示例代碼…

閱讀更多...

VM中 ubuntu 網卡不顯示

VM中 ubuntu 網卡不顯示

1.添加網卡配置 #sudo nano /etc/netplan/01-netcfg.yaml network:version: 2renderer: networkdethernets:ens33:dhcp4: trueens37:dhcp4: trueens38:dhcp4: true#保存后 sudo netplan apply2.查看網絡狀態 sudo systemctl start systemd-networkd sudo systemctl status sy…

閱讀更多...

阿克曼-幻宇機器人系列教程3- 機器人交互實踐（Message）

阿克曼-幻宇機器人系列教程3- 機器人交互實踐（Message）

上一篇文章介紹了如何通過topic操作命令實現與機器人的交互，本篇我們介紹如何通過Message（即topic的下一級）實現與機器人的交互。和topic一樣，首先在一個終端通過ssh命令登錄機器人、啟動機器人，然后打開另外一個終端…

閱讀更多...

Python 調試擴展版本兼容問題解決紀實

Python 調試擴展版本兼容問題解決紀實

在 Python 開發中，調試工具的正常使用對效率至關重要。近期在公司項目中，便遇到了 Python 調試擴展與版本不兼容的問題。公司 ERP 服務器采用 Ubuntu 18.04 系統，其標配 Python 版本為 3.6，而常用的 Python Debugger 擴展對版本有…

閱讀更多...

React 第四十二節 Router 中useLoaderData的用途詳解

React 第四十二節 Router 中useLoaderData的用途詳解

一、前言 useLoaderData，用于在組件中獲取路由預加載的數據。它通常與路由配置中的 loader 函數配合使用，用于在頁面渲染前異步獲取數據（如 API 請求），并將數據直接注入組件，從而簡化數據流管理。二、us…

閱讀更多...

Linux——mysql主從復制與讀寫分離

Linux——mysql主從復制與讀寫分離

目錄一，理解什么是mysql主從復制 1，mysql支持的復制類型 2，mysql主從復制的工作流程二，配置mysql主從復制三，配置mysql主主復制四，mysql讀寫分離 1，了解什么是mysql讀寫分離 2&…

閱讀更多...

MongoDB數據庫深度解析：架構、特性與應用場景

MongoDB數據庫深度解析：架構、特性與應用場景

在現代應用程序開發中，數據存儲技術的選擇至關重要。在眾多的數據庫管理系統中，MongoDB以其靈活性和強大的功能迅速崛起，成為NoSQL數據庫中的佼佼者。本文將深入解析MongoDB的架構、核心特性、性能優化及其在實際應用中的最佳實踐&#xff0c…

閱讀更多...

3D曲面上的TSP問題（一）：曲面上點集距離求解

3D曲面上的TSP問題（一）：曲面上點集距離求解

3D曲面上，兩點的距離求解不能采用歐式距離，而需要計算測地線距離。代碼使用CGAL 5.6.2 OpenCV 4.11.0 版本實現 #include "cgal_utils.h" #include <CGAL/AABB_tree.h> #include <CGAL/AABB_traits.h> #include <CGAL/AABB_…

閱讀更多...

【歌曲結構】2：小節與歌曲結構信息整合

【歌曲結構】2：小節與歌曲結構信息整合

歌曲小節與結構信息整合我將為您整合小節信息與歌曲結構，創建一個更加詳細的JSON數據結構。處理方法將小節時間與歌曲結構段落進行匹配為每個小節添加所屬段落信息為小節添加格式化的時間戳為小節添加對應時間范圍內的歌詞{"song_title": "財神廟前許三億…

閱讀更多...

C語言：深入理解指針（3）

C語言：深入理解指針（3）

目錄一、數組名的理解二、用指針訪問數組三、一維數組傳參的本質四、冒泡排序五、二級指針六、指針數組七、指針數組模擬二維數組八、結語一、數組名的理解數組名其實就是首元素的地址 int arr[3] {1,2,3}; printf("arr :%p\n" ,arr); printf(…

閱讀更多...

Spring MVC 接口的訪問方法如何設置

Spring MVC 接口的訪問方法如何設置

RequestMapping 是 Spring 框架中用于映射 HTTP 請求到控制器方法的注解。它支持以下 HTTP 方法訪問類型，通過 method 屬性指定： GET：用于獲取資源POST：用于提交數據PUT：用于更新資源DELETE：用于刪除資源PA…

閱讀更多...

linux libdbus使用案例

linux libdbus使用案例

以下是一個基于 Linux libdbus 的詳細指南，包含服務端和客戶端的完整代碼示例，涵蓋方法調用、信號發送和異步消息處理。libdbus 是 D-Bus 的底層 C 庫，直接操作 D-Bus 協議，適合需要精細控制的場景。 1. libdbus 的核心機制連接管理：通過 dbus_bus_get 連接系統總線或…

閱讀更多...

Day118 | 靈神 | 二叉樹 | 刪點成林

Day118 | 靈神 | 二叉樹 | 刪點成林

Day118 | 靈神 | 二叉樹 | 刪點成林 1110.刪點成林 1110. 刪點成林 - 力扣（LeetCode） 思路： 最直接的思路就是看當前結點的值是不是在要刪除的列表中，在的話刪除當前結點并把左右孩子加入res中很可惜這樣是錯的，…

閱讀更多...

趣味編程：鐘表

趣味編程：鐘表

目錄 1. 效果展示 2. 源碼展示 3. 邏輯概述 3.1 表針繪制函數（DrawHand） 3.2 表盤繪制函數 3.3 主程序邏輯 4. 小結概述：本篇博客主要介紹簡易鐘表的繪制。 1. 效果展示該鐘表會隨著系統的時間變化而變化，動態的效…

閱讀更多...

ansible進階02

ansible進階02

管理主機清單變量使用變量的原則變量創建的位置角色的defaults或vars目錄主機清單playbook或主機清單所在位置的子目錄group_vars和host_varsplay或角色或任務無論在哪創建變量，都應該遵守一些規則： 保持簡潔不要重復造輪子。不要反復在多個位置…

閱讀更多...

C40-指針

C40-指針

一指針的引入什么是指針:指針是一個變量，其值是另一個變量的內存地址簡單的使用地址輸出一個變量: 代碼示例 #include <stdio.h> int main() {int a10;printf("a的地址是:%p\n",&a);printf("a%d\n",*(&a)); //*號是取值運算符…

閱讀更多...

Nginx 返回 504 狀態碼表示網關超時（Gateway Timeout）原因排查

Nginx 返回 504 狀態碼表示網關超時（Gateway Timeout）原因排查

Nginx 返回 504 狀態碼表示網關超時（Gateway Timeout），這意味著 Nginx 作為反向代理服務器，在等待上游服務器（如后端應用服務器、數據庫服務器等）響應時，超過了預設的時間限制，最終…

閱讀更多...

DeepSeek推理優化技巧：提升速度與降低成本

DeepSeek推理優化技巧：提升速度與降低成本

文章目錄 DeepSeek推理優化技巧：提升速度與降低成本引言一、模型優化：減少模型參數與計算量1. 模型剪枝（Pruning）2. 模型量化（Quantization）3. 知識蒸餾（Knowledge Distillation） 二…

閱讀更多...

深度解析 Sora：從技術原理到多場景實戰的 AI 視頻生成指南【附學習資料包下載】

深度解析 Sora：從技術原理到多場景實戰的 AI 視頻生成指南【附學習資料包下載】

一、技術架構與核心能力解析 1.1 時空建模體系的創新突破 Sora 在視頻生成領域的核心優勢源于其獨特的時空建模架構。區別于傳統將視頻拆解為單幀處理的模式，Sora 采用時空 Patch 嵌入技術，將連續視頻序列分割為 32x32 像素的時空塊（每個塊包含相鄰 3 幀畫面），通過線性投…

閱讀更多...

最新文章