Mobile-Agent-V：通過視頻引導的多智體協作學習移動設備操作

25年2月來自北京交大和阿里巴巴公司的論文“Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration”。

移動設備使用量的快速增長，迫切需要改進自動化以實現無縫任務管理。然而，因缺乏操作知識，許多人工智能驅動的框架舉步維艱。手寫知識雖然有幫助，但勞動強度大、效率低下。為了應對這些挑戰，Mobile-Agent-V，利用視頻指導為移動自動化提供豐富且經濟高效操作知識。Mobile-Agent-V通過利用視頻輸入來增強任務執行能力，而無需專門的采樣或預處理。Mobile-Agent-V集成滑動窗口策略，并結合視頻智體和深度反思智體，以確保動作和用戶指令對齊。通過這種創新方法，用戶可以在指導下記錄任務流程，使系統能夠自主學習并高效執行任務。與現有框架相比，Mobile-Agent-V的性能提高30%。

用戶每天執行大量操作，對移動設備的依賴性不斷增加，這凸顯簡化交互的必要性。目前，人工智能推動移動自動化，提高生產力研究。ChatGPT 和 Claude 等系統使設備能夠根據用戶輸入自主處理任務。

多模態大語言模型 (MLLM) 的發展顯著改善移動設備操作框架，并使用這些模型作為智體 (Liu et al., 2023b; Zhu et al., 2023; Ye et al., 2023a; Dai et al., 2023; Liu et al., 2023a; Chen et al., 2023; Bai et al., 2023; Ye et al., 2023b; Wang et al., 2023; Lu et al., 2024a; Ye et al., 2024; Wu et al., 2024)。這些框架利用智體的感知、決策和反思來執行跨多個應用程序的復雜任務，從而拓寬移動設備的自主能力。

為了提高用戶體驗，基于大語言模型 (LLM) 的智體框架在 GUI 操作方面正在迅速發展 (Wang，2024d；Liu，2025)。在 Web 上，基于 HTML 的解析因其可解釋性而占主導地位，而一些框架（例如 ChatGPT 的 Web 助手）則利用視覺感知 (Zhou，2023；Deng，2023；Zheng，2024；He，2024；Lù，2024；Yoran，2024；Reddy，2024)。相比之下，基于 PC 的框架，依靠系統 API 或自動化工具來增強控制和靈活性 (Zhang et al., 2024a; Tan et al., 2024; Xie et al., 2024)。在移動領域，一個關鍵挑戰是讓智體具備操作知識，而 LLM 通常缺乏這些知識。現有的方法包括：（1）在運營數據上訓練模型，成本高昂且缺乏可擴展性（Hong et al., 2023; Cheng et al., 2024; You et al., 2024; Zhang et al., 2024b; Chen and Li, 2024; Lu et al., 2024b; Chai et al., 2024; Rawles et al., 2024; Xu et al., 2024; Li et al., 2024a; Wan et al., 2024; Xing et al., 2024; Liu et al., 2024）； (2) 實現自主探索，但這是資源密集型的 (Yang et al., 2023; Wang et al., 2024c; Li et al., 2024b; Wang et al., 2025)；(3) 手動生成知識，但效率低下，且依賴于迭代的人為干預 (Wang et al., 2024b)。

視頻指導已成為訓練智體的重要方式，使它們能夠有效地理解動態環境并與之交互。早期的研究側重于使用大語言模型 (LLM) 作為視頻理解的中央智體。擴展這個想法，(Wang et al., 2024e) 可以提高長期時間理解能力。除了理解之外，視頻指導還被用于現實世界的應用。(Wang et al., 2024a) 將 LLM 集成到視頻編輯工作流程中，并自動執行基于語言的視頻描述和編輯。同樣，(Zhang et al., 2024c) 引入一種檢索相關視頻幀的有效方法，從而實現結構化視頻處理。在機器人技術中，(Chane-Sane et al., 2023) 利用人類演示視頻來教機器人新的操作技能，而無需明確的監督。這些研究展示視頻引導狀態日益增長的作用，從視頻理解和檢索到現實世界的任務執行，為更先進的多模式學習系統奠定基礎。

盡管取得進展，但現有方法仍然受到有限操作知識的限制。如圖所示，即使經過廣泛的探索，當前的智體仍然難以完成諸如在拍照時禁用位置記錄之類的任務。這種限制源于缺乏全面的訓練數據、由于應用程序更新而導致學習的知識迅速過時以及無法訪問特定于設備的操作信息。雖然 Odyssey 等方法利用外部任務路徑，但它們面臨著可擴展性和數據收集方面的挑戰（Lu，2024b）。由于任務序列冗長，AppAgent 的自我探索成本高昂（Yang，2023），而 Mobile-Agent-V2 對手動編程的依賴仍然效率低下（Wang，2024b）。這些挑戰凸顯移動自動化需要更具可擴展性和適應性的解決方案。

請添加圖片描述

Mobile-Agent-V 是一種通過視頻指導增強移動自動化的框架。其關鍵組件包括視頻處理、滑動窗口、視頻智體、深度反思智體、決策智體，這些組件協同工作，提高運營效率和準確性。

Mobile-Agent-V 的整體工作流程如圖所示。給定一個捕獲演示任務的輸入視頻 V，系統首先通過均勻采樣和冗余消除提取關鍵幀 F′。執行從位于關鍵幀序列開始處的初始滑動窗口開始。在每次迭代中，決策智體根據當前窗口、視頻指令和歷史決策生成動作 O_i。如果任務成功完成，則流程終止。否則，深度反思智體將驗證并優化該動作以確保與演示任務保持一致。然后在設備上執行優化后的決策 RO_i，將其狀態更新為 D_i+1。視頻智體隨后確定下一個窗口起點 S_i+1，以便在任務進展過程??中動態調整觀察范圍。此迭代過程持續進行，直到任務完成或達到預定義的最大探索限制。

請添加圖片描述

完整的流程在如下算法中概述：

請添加圖片描述

視頻處理

傳統的均勻采樣通常用于視頻理解，它只對具有相對靜態場景和幀間連續運動的真實世界視頻有效。然而，在移動視頻錄制中，大多數幀保持靜態，而其余幀由于間歇性的人機交互和快速的設備響應而快速變化。這使得均勻采樣不足以滿足移動設備視頻的需求。

為了解決這個問題，首先以頻率 d 對 V 進行均勻采樣，以獲得關鍵幀集 F。接下來，計算連續關鍵幀之間的相似度，并刪除相似度高于閾值 s 的關鍵幀，從而得到一個簡化的集合 F_s。最后，過濾掉時間間隔小于閾值 f_s 的關鍵幀，得到最終的關鍵幀集 F ′。

滑動窗口

為了提高 MLLM 對視頻的理解能力，通過僅選擇與當前操作相關的關鍵幀來減少輸入長度。這是通過滑動窗口實現的，其中窗口的起點和終點之間的關鍵幀 V_w 作為決策的輸入。

理想情況下，如果關鍵幀提取準確，窗口大小應為 2，覆蓋操作前后的狀態以預測狀態轉換。但是，為了增強魯棒性，窗口大小通常大于 2，并且起點向后移動以捕捉先前的狀態，從而獲得更好的上下文。

決策智體

動作空間。決策智體負責生成改變設備狀態的動作。為了確保通過操作工具無縫執行，采用與現有框架類似的動作空間。Mobile-Agent-V 定義六個基本動作：單擊、滾動、鍵入、返回、主頁和完成。它們分別對應于點擊特定位置、沿指定方向滾動、在活動輸入字段中輸入文本、導航到上一頁、返回主屏幕和完成任務。

決策。與依賴內部操作知識的先前方法不同，Mobile-Agent-V 中的決策智體直接從視頻內容中得出動作。這對上下文遵循提出了更高的要求。通過利用滑動窗口機制，過濾掉不相關的幀，在保留關鍵信息的同時減少輸入長度。

深度反思智體

即使使用滑動窗口，處理低質量的關鍵幀也需要增加窗口大小，因為較小的窗口可能由冗余幀主導，從而阻止關鍵關鍵幀被包含進來。在無法確保完美提取關鍵幀的情況下，決策智體在對長多幀序列進行推理時仍然面臨挑戰。為了解決這個問題，引入深度反思智體，它對決策智體的輸出進行深入驗證和改進。具體來說，它遵循一個結構化的過程：分析視頻中的每個操作，識別記錄序列中的當前設備狀態，驗證決策智體的操作是否與視頻中的相應操作一致，如果檢測到差異，則根據觀察的軌跡改進操作。這種反思機制通過確保嚴格遵守演示的操作來提高決策準確性，從而最終得出改進的決策 RO_i。

視頻智體

為了在整個任務執行過程中動態調整滑動窗口，引入了視頻智體。最初，窗口從第一個關鍵幀跨越到第 W 個關鍵幀。每次操作后，視頻智體都會分析操作前后的屏幕截圖、當前窗口內的關鍵幀以及用戶輸入，以識別相應的關鍵幀。然后，它確定更新后的窗口起點，確保自適應前進。

此外，視頻智體還可以處理異常情況，例如導致意外狀態的錯誤轉換或由冗余或缺失關鍵幀引起的差異。為了提高可靠性，它可以標記不一致并生成診斷反饋，從而促進錯誤恢復并提高決策穩健性。

將 Mobile-Agent-V 與幾個開源智體框架進行了比較，包括 ApAgent（Yang，2023）、Mobile-Agent（Wang，2024c）和 Mobile-Agent-v2（Wang，2024b）。為了評估其從視頻中學習操作知識的能力，引入人工策劃的知識基線，其中專家手動從視頻中提取關鍵操作步驟并將其作為文本輸入提供。此文本替換 Mobile-Agent-V 中的視頻輸入。

Mobile-Agent-V 和基線都使用 GPT-4o 作為 MLLM，確保與基線保持一致。該模型通過官方 API 訪問，具有默認超參數。

實驗在 OnePlus 7 Pro 智能手機上使用 Android Debug Bridge (ADB) 進行交互，與基線保持一致。可點擊位置從設備的 XML 層次結構中提取，在屏幕截圖上進行視覺標記，并由智體用于精確的操作選擇。