Mobile-Agent-V:通過視頻引導的多智體協作學習移動設備操作

25年2月來自北京交大和阿里巴巴公司的論文“Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration”。

移動設備使用量的快速增長,迫切需要改進自動化以實現無縫任務管理。然而,因缺乏操作知識,許多人工智能驅動的框架舉步維艱。手寫知識雖然有幫助,但勞動強度大、效率低下。為了應對這些挑戰,Mobile-Agent-V,利用視頻指導為移動自動化提供豐富且經濟高效操作知識。Mobile-Agent-V通過利用視頻輸入來增強任務執行能力,而無需專門的采樣或預處理。Mobile-Agent-V集成滑動窗口策略,并結合視頻智體和深度反思智體,以確保動作和用戶指令對齊。通過這種創新方法,用戶可以在指導下記錄任務流程,使系統能夠自主學習并高效執行任務。與現有框架相比,Mobile-Agent-V的性能提高30%。

用戶每天執行大量操作,對移動設備的依賴性不斷增加,這凸顯簡化交互的必要性。目前,人工智能推動移動自動化,提高生產力研究。ChatGPT 和 Claude 等系統使設備能夠根據用戶輸入自主處理任務。

多模態大語言模型 (MLLM) 的發展顯著改善移動設備操作框架,并使用這些模型作為智體 (Liu et al., 2023b; Zhu et al., 2023; Ye et al., 2023a; Dai et al., 2023; Liu et al., 2023a; Chen et al., 2023; Bai et al., 2023; Ye et al., 2023b; Wang et al., 2023; Lu et al., 2024a; Ye et al., 2024; Wu et al., 2024)。這些框架利用智體的感知、決策和反思來執行跨多個應用程序的復雜任務,從而拓寬移動設備的自主能力。

為了提高用戶體驗,基于大語言模型 (LLM) 的智體框架在 GUI 操作方面正在迅速發展 (Wang,2024d;Liu,2025)。在 Web 上,基于 HTML 的解析因其可解釋性而占主導地位,而一些框架(例如 ChatGPT 的 Web 助手)則利用視覺感知 (Zhou,2023;Deng,2023;Zheng,2024;He,2024;Lù,2024;Yoran,2024;Reddy,2024)。相比之下,基于 PC 的框架,依靠系統 API 或自動化工具來增強控制和靈活性 (Zhang et al., 2024a; Tan et al., 2024; Xie et al., 2024)。在移動領域,一個關鍵挑戰是讓智體具備操作知識,而 LLM 通常缺乏這些知識。現有的方法包括:(1)在運營數據上訓練模型,成本高昂且缺乏可擴展性(Hong et al., 2023; Cheng et al., 2024; You et al., 2024; Zhang et al., 2024b; Chen and Li, 2024; Lu et al., 2024b; Chai et al., 2024; Rawles et al., 2024; Xu et al., 2024; Li et al., 2024a; Wan et al., 2024; Xing et al., 2024; Liu et al., 2024); (2) 實現自主探索,但這是資源密集型的 (Yang et al., 2023; Wang et al., 2024c; Li et al., 2024b; Wang et al., 2025);(3) 手動生成知識,但效率低下,且依賴于迭代的人為干預 (Wang et al., 2024b)。

視頻指導已成為訓練智體的重要方式,使它們能夠有效地理解動態環境并與之交互。早期的研究側重于使用大語言模型 (LLM) 作為視頻理解的中央智體。擴展這個想法,(Wang et al., 2024e) 可以提高長期時間理解能力。除了理解之外,視頻指導還被用于現實世界的應用。(Wang et al., 2024a) 將 LLM 集成到視頻編輯工作流程中,并自動執行基于語言的視頻描述和編輯。同樣,(Zhang et al., 2024c) 引入一種檢索相關視頻幀的有效方法,從而實現結構化視頻處理。在機器人技術中,(Chane-Sane et al., 2023) 利用人類演示視頻來教機器人新的操作技能,而無需明確的監督。這些研究展示視頻引導狀態日益增長的作用,從視頻理解和檢索到現實世界的任務執行,為更先進的多模式學習系統奠定基礎。

盡管取得進展,但現有方法仍然受到有限操作知識的限制。如圖所示,即使經過廣泛的探索,當前的智體仍然難以完成諸如在拍照時禁用位置記錄之類的任務。這種限制源于缺乏全面的訓練數據、由于應用程序更新而導致學習的知識迅速過時以及無法訪問特定于設備的操作信息。雖然 Odyssey 等方法利用外部任務路徑,但它們面臨著可擴展性和數據收集方面的挑戰(Lu,2024b)。由于任務序列冗長,AppAgent 的自我探索成本高昂(Yang,2023),而 Mobile-Agent-V2 對手動編程的依賴仍然效率低下(Wang,2024b)。這些挑戰凸顯移動自動化需要更具可擴展性和適應性的解決方案。

請添加圖片描述

Mobile-Agent-V 是一種通過視頻指導增強移動自動化的框架。其關鍵組件包括視頻處理、滑動窗口、視頻智體、深度反思智體、決策智體,這些組件協同工作,提高運營效率和準確性。

Mobile-Agent-V 的整體工作流程如圖所示。給定一個捕獲演示任務的輸入視頻 V,系統首先通過均勻采樣和冗余消除提取關鍵幀 F′。執行從位于關鍵幀序列開始處的初始滑動窗口開始。在每次迭代中,決策智體根據當前窗口、視頻指令和歷史決策生成動作 O_i。如果任務成功完成,則流程終止。否則,深度反思智體將驗證并優化該動作以確保與演示任務保持一致。然后在設備上執行優化后的決策 RO_i,將其狀態更新為 D_i+1。視頻智體隨后確定下一個窗口起點 S_i+1,以便在任務進展過程??中動態調整觀察范圍。此迭代過程持續進行,直到任務完成或達到預定義的最大探索限制。

請添加圖片描述

完整的流程在如下算法中概述:

請添加圖片描述

視頻處理

傳統的均勻采樣通常用于視頻理解,它只對具有相對靜態場景和幀間連續運動的真實世界視頻有效。然而,在移動視頻錄制中,大多數幀保持靜態,而其余幀由于間歇性的人機交互和快速的設備響應而快速變化。這使得均勻采樣不足以滿足移動設備視頻的需求。

為了解決這個問題,首先以頻率 d 對 V 進行均勻采樣,以獲得關鍵幀集 F。接下來,計算連續關鍵幀之間的相似度,并刪除相似度高于閾值 s 的關鍵幀,從而得到一個簡化的集合 F_s。最后,過濾掉時間間隔小于閾值 f_s 的關鍵幀,得到最終的關鍵幀集 F ′。

滑動窗口

為了提高 MLLM 對視頻的理解能力,通過僅選擇與當前操作相關的關鍵幀來減少輸入長度。這是通過滑動窗口實現的,其中窗口的起點和終點之間的關鍵幀 V_w 作為決策的輸入。

理想情況下,如果關鍵幀提取準確,窗口大小應為 2,覆蓋操作前后的狀態以預測狀態轉換。但是,為了增強魯棒性,窗口大小通常大于 2,并且起點向后移動以捕捉先前的狀態,從而獲得更好的上下文。

決策智體

動作空間。決策智體負責生成改變設備狀態的動作。為了確保通過操作工具無縫執行,采用與現有框架類似的動作空間。Mobile-Agent-V 定義六個基本動作:單擊、滾動、鍵入、返回、主頁和完成。它們分別對應于點擊特定位置、沿指定方向滾動、在活動輸入字段中輸入文本、導航到上一頁、返回主屏幕和完成任務。

決策。與依賴內部操作知識的先前方法不同,Mobile-Agent-V 中的決策智體直接從視頻內容中得出動作。這對上下文遵循提出了更高的要求。通過利用滑動窗口機制,過濾掉不相關的幀,在保留關鍵信息的同時減少輸入長度。

深度反思智體

即使使用滑動窗口,處理低質量的關鍵幀也需要增加窗口大小,因為較小的窗口可能由冗余幀主導,從而阻止關鍵關鍵幀被包含進來。在無法確保完美提取關鍵幀的情況下,決策智體在對長多幀序列進行推理時仍然面臨挑戰。為了解決這個問題,引入深度反思智體,它對決策智體的輸出進行深入驗證和改進。具體來說,它遵循一個結構化的過程:分析視頻中的每個操作,識別記錄序列中的當前設備狀態,驗證決策智體的操作是否與視頻中的相應操作一致,如果檢測到差異,則根據觀察的軌跡改進操作。這種反思機制通過確保嚴格遵守演示的操作來提高決策準確性,從而最終得出改進的決策 RO_i。

視頻智體

為了在整個任務執行過程中動態調整滑動窗口,引入了視頻智體。最初,窗口從第一個關鍵幀跨越到第 W 個關鍵幀。每次操作后,視頻智體都會分析操作前后的屏幕截圖、當前窗口內的關鍵幀以及用戶輸入,以識別相應的關鍵幀。然后,它確定更新后的窗口起點,確保自適應前進。

此外,視頻智體還可以處理異常情況,例如導致意外狀態的錯誤轉換或由冗余或缺失關鍵幀引起的差異。為了提高可靠性,它可以標記不一致并生成診斷反饋,從而促進錯誤恢復并提高決策穩健性。

將 Mobile-Agent-V 與幾個開源智體框架進行了比較,包括 ApAgent(Yang,2023)、Mobile-Agent(Wang,2024c)和 Mobile-Agent-v2(Wang,2024b)。為了評估其從視頻中學習操作知識的能力,引入人工策劃的知識基線,其中專家手動從視頻中提取關鍵操作步驟并將其作為文本輸入提供。此文本替換 Mobile-Agent-V 中的視頻輸入。

Mobile-Agent-V 和基線都使用 GPT-4o 作為 MLLM,確保與基線保持一致。該模型通過官方 API 訪問,具有默認超參數。

實驗在 OnePlus 7 Pro 智能手機上使用 Android Debug Bridge (ADB) 進行交互,與基線保持一致。可點擊位置從設備的 XML 層次結構中提取,在屏幕截圖上進行視覺標記,并由智體用于精確的操作選擇。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/898259.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/898259.shtml
英文地址,請注明出處:http://en.pswp.cn/news/898259.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

電魚智能EFISH-RK3576-SBC工控板已適配Android 14系統

EFISH-RK3576-SBC工控板此前已提供了Linux 6.1.57系統,為了滿足更多客戶的需求,電魚智能近日又為其成功適配了Android 14系統——硬件性能卓越的核心板與Android 14的深度組合,將為用戶帶來更加流暢、開放、智能的使用體驗。 一、高性能處理器…

正點原子[第三期]Arm(iMX6U)Linux移植學習筆記-5.1 uboot頂層Makefile分析-VSCode工程創建

前言: 本文是根據嗶哩嗶哩網站上“Arm(iMX6U)Linux系統移植和根文件系統構鍵篇”視頻的學習筆記,在這里會記錄下正點原子 I.MX6ULL 開發板的配套視頻教程所作的實驗和學習筆記內容。本文大量引用了正點原子教學視頻和鏈接中的內容。 引用: …

java 使用命令創建jar的常用參數整理

在Java中,創建JAR文件的命令是jar。以下是常用參數的表格展示: 參數信息含義使用場景使用示例c創建新的JAR文件用于創建一個新的JAR文件當需要打包類文件和資源文件時jar cf myapp.jar MyClass.classt列出JAR文件內容顯示JAR文件中的內容列表查看JAR文件…

無線頭戴式攝像頭系統:無需標記點攝像頭智能捕捉人臉表情

AH-T無線頭戴式攝像頭系統是一款可以精準捕捉人臉面部細微表情的設備,基于單目無標記點攝像頭智能識別算法,無需在臉上粘貼標記點即可實現真人細微臉部表情的精準捕捉,采用頭盔,面捕攝像頭一體式人性化設計,可以讓使用…

Cursor IDE 入門指南

什么是 Cursor? Cursor 是一款集成了 AI 功能的現代代碼編輯器,基于 VSCode 開發,專為提高開發效率而設計。它內置強大的 AI 助手功能,能夠理解代碼、生成代碼、解決問題,幫助開發者更快、更智能地完成編程任務。 基礎功能 1.…

Tailwind CSS 中的 spacing 詳解

🔍 Tailwind CSS 中的 spacing 詳解 spacing(間距)是 Tailwind CSS 里的一個核心概念,它主要用于控制 padding(內邊距)、margin(外邊距)、width(寬度)、heig…

go語言學習教程推薦,零基礎到做項目

一、基礎入門階段 官方教程(免費) ? A Tour of Go:交互式入門教程,邊學邊練 ? Go by Example:通過300代碼片段學習語法 入門書籍 ? 📘《Go語言圣經》中文版(免費在線閱讀)&#…

STM32---FreeRTOS內存管理實驗

一、簡介 1、FreeRTOS內存管理簡介 2、FreeRTOS提供的內存管理算法 1、heap_1內存管理算法 2、heap_2內存管理算法 4、heap_4內存管理算法 5、heap_5內存管理算法 二、FreeRTOS內存管理相關API函數介紹 三、 FreeRTOS內存管理實驗 1、代碼 main.c #include "st…

常見的前端安全問題

前端安全是 Web 開發中至關重要的一環,以下是常見的前端安全問題及對應的防御措施: 1. XSS(跨站腳本攻擊) 攻擊原理 攻擊者向頁面注入惡意腳本(如 JavaScript),在用戶瀏覽器中執行,…

【VUE】ant design vue實現表格table上下拖拽排序

適合版本&#xff1a;ant design vue 1.7.8 實現效果&#xff1a; 代碼&#xff1a; <template><div class"table-container"><a-table:columns"columns":dataSource"tableData":rowKey"record > record.id":row…

深入解析ES6+新語法:復雜的迭代器與生成器

一、迭代器&#xff08;Iterator&#xff09;&#xff1a;數據遍歷的統一協議 1. 迭代器協議的本質 **迭代器協議&#xff08;Iterator Protocol&#xff09;** 是一種標準化的數據訪問接口&#xff0c;它要求對象實現一個 next() 方法&#xff0c;每次調用返回包含 { valu…

LangChain介紹(開源大語言模型LLM應用構建框架,提供完整工具和組件,使開發者能夠創建復雜、交互式且上下文感知的LLM應用)LangServe

文章目錄 LangChain&#xff1a;構建LLM應用的強大框架引言LangChain核心理念- 超越模型訓練數據的局限性- 訪問最新信息- 與外部系統交互- 執行復雜推理鏈 核心組件體系1. 模型&#xff08;Models&#xff09;- **LLMs**&#xff1a;如OpenAI、Anthropic、Cohere等提供的完成型…

微軟 System Center Configuration Manager(SCCM)的組件文件

微軟 System Center Configuration Manager(SCCM) 或 Microsoft Endpoint Configuration Manager(MECM) 的組件文件,屬于企業級設備管理工具的一部分。以下是具體說明: C:\Windows\CCM\smsswd.exe C:\Windows\CCM\tsmanager.exe smsswd.exe 和 tsmanager.exe 是 Micros…

Java設計模式建模語言面向對象設計原則

設計模式 設計模式的概念 設計模式最初用于建筑領域的設計中。 軟件的設計模式&#xff0c;又稱設計模式&#xff0c;是一套被反復使用&#xff0c;多數人知道的&#xff0c;經過分類編目的&#xff0c;代碼設計經驗的總結。 它描述了在軟件設計過程中的一些不斷重復發生的…

uniapp 實現微信小程序電影選座功能

拖動代碼 /*** 獲取點擊或觸摸事件對應的座位位置* 通過事件對象獲取座位的行列信息* param {Event|TouchEvent} event - 點擊或觸摸事件對象* returns {Object} 返回座位位置對象&#xff0c;包含行(row)和列(col)信息&#xff0c;若未找到有效位置則返回 {row: -1, col: -1}*…

Docker - 切換源 (Linux / macOS)

文章目錄 Linux 系統macOS 系統 Linux 系統 修改配置文件&#xff1a;/etc/docker/daemon.json "registry-mirrors": ["https://docker.mirrors.ustc.edu.cn","https://hub-mirror.c.163.com"]驗證是否修改成功&#xff1a; docker info重啟 …

RocketMQ的安裝及配置(windows)

1. 環境準備 JDK需要先安裝好。 1. RocketMQ是用Java語言寫的&#xff0c;所以需要JDK的支持。2. 下載RocketMQ 建議下載這個低版本的 https://rocketmq.apache.org/release-notes/2020/12/21/4.8.0/ 下載之后解壓即可&#xff0c;目錄結構如下&#xff1a; 3. 配置RocketM…

【運維自動化-標準運維】如何實現一個最簡單的流程編排

流程編排是標準運維最核心的功能&#xff0c;通過將不同功能的原子插件在畫布上可視化的拖拽編排&#xff0c;可以實現各種不同場景的跨系統工作流。標準運維流程 根據實際運維操作場景梳理出來的操作步驟&#xff0c;通過不同的流轉邏輯&#xff08;并行、分支、條件并行&…

性能測試之grafana展示jmeter測試指標與主機監控

性能測試之grafana展示jmeter測試指標與主機監控 背景 ? 公司新的項目準備開展性能測試,之前性能監控主要使用的jmeter的插件jpgc-Transactions per Second 與 jpgc- Response Times Over Time 與 jpgc - Active Threads Over Time等等插件監控性能指標結果,PerfMon Metrics…

1~2 課程簡介+ESP32-IDF環境搭建(虛擬機Linux環境下)

嗶站“宸芯IOT”視頻鏈接 一、課程內容介紹 1.什么是ESP32 ESP32是集成2.4GHz Wi-Fi和藍牙雙模的單芯片方案&#xff0c;具有超高的射頻性能、穩定性、通用性和可靠性&#xff0c;以及超低的功耗&#xff0c;滿足不同的功耗需求&#xff0c;適用于各種應用場景。ESP32是ESP8…