論文鏈接:https://arxiv.org/pdf/2411.02006
摘要
文章首先介紹了核心組件,并探討了移動基準和交互環境中的關鍵代表性作品,旨在全面理解研究重點及其局限性。
接著,將這些進展分為兩種主要方法:
- 基于提示的方法,利用大型語言模型(LLMs)進行指令式任務執行;
- 以及基于訓練的方法,對多模態模型進行微調以適應移動特定應用。
最后,與現有綜述不同,文章專注于比較這兩種范式的部署成本和效果,總結它們的優缺點及適用的應用場景。
引言
Mobile Agent從簡單的基于規則的系統發展到能夠處理多模態數據和復雜決策的高級模型。
Mobile Agent在移動界面、自動導航和智能助手等應用中扮演著重要角色,支持更高效和智能的任務執行。
基礎模型(如大型語言模型和多模態模型)對提升代理理解和適應能力方面至關重要。
評估方法:為了捕捉現實世界移動任務的動態和互動性,開發了諸如AndroidEnv和Mobile-Env等基準,用于在更逼真、互動的移動環境中評估代理,重點在于適應性和任務性能。
多模態移動代理研究的最新進展可以分為基于提示和基于訓練的方法。
基于提示的方法利用大型語言模型(LLMs),如ChatGPT和GPT-4,通過指令提示和思維鏈(CoT)推理來處理復雜任務。AppAgent和AutoDroid等著名作品展示了基于提示系統在交互式移動環境中的潛力,盡管可擴展性和魯棒性仍然是持續存在的挑戰。
另一方面,基于訓練的方法專注于針對移動應用對多模態模型進行微調,如LLaVA和Qwen-VL。這些模型通過整合視覺和文本輸入來處理豐富的多模態數據,提高了它們執行界面導航和任務執行等任務的能力。
Mobile Agent的組成
四個基本組成部分:感知、規劃、行動和記憶。
這些組成部分共同使代理能夠在動態移動環境中進行感知、推理和執行任務,動態調整其行為以提高任務效率和魯棒性。
感知
感知是移動代理從其周圍環境中收集和解釋多模態信息的過程。
在Mobile Agent中,感知組件側重于處理來自不同環境的多模態信息,提取相關信息以支持規劃和任務執行。近年來,關于移動代理感知方法的研究大致可分為兩類:
(1)僅依賴視覺輸入的視覺方法;
(2)結合移動特定上下文信息(如UI結構或API)的場景感知方法。
視覺方法
視覺方法旨在解決現實世界移動環境中的泛化挑戰,在這些環境中,由于加密、動態渲染或平臺限制,結構化UI表示(如布局樹或元數據)通常不可訪問或不可靠。因此,研究人員轉向依賴原始屏幕輸入的視覺為中心的解決方案,這種方法模仿了人類交互并提供了更好的跨平臺適用性。
早期的研究使用簡單模型從圖像或音頻生成文本描述,但往往產生冗余或不相關的內容,影響后續的計劃。大型語言模型中的輸入長度限制進一步加劇了這個問題。
為了改善移動環境中的視覺理解,最近的研究通過改進模型架構、構建專家流水線、設計有針對性的訓練策略以及構建專為移動交互場景量身定制的數據集,增強了視覺編碼器識別和處理關鍵UI元素(如圖標和按鈕)的能力。
場景感知方法
在結構化UI信息可用的情況下,最近的方法開始將DOM級別的線索與功能API結合,以增強自主代理的感知和執行能力。這些方法不僅解析和排名DOM元素,使大型語言模型能夠更準確地識別和理解交互組件,還利用API訪問動態信息,如應用程序的內部狀態和可調用功能。
DOM文檔對象模型(Document Object Model)
是一種用于 HTML 和 XML 文檔的編程接口,允許腳本語言(如 JavaScript)動態地訪問和更新文檔的內容、結構和樣式。
DOM 將文檔表示為由節點構成的樹結構,每個節點對應文檔的一部分,例如元素、屬性或文本。通過 DOM,開發者可以修改頁面上的內容和樣式,響應用戶事件,動態更新頁面等。這使得網頁能夠具備動態和交互功能。
通過結合界面的結構化表示,這些方法超越了僅依賴視覺輸入的局限,支持更準確和高效地理解和與移動UI交互。
此外,Octopus v2引入了專門的功能標記以抽象和簡化API的使用,顯著提高了設備上模型的效率,同時減少了推理延遲和計算開銷。
靜態結構和動態接口訪問的結合為代理在現實世界場景中提供了更大的控制力和可擴展性。
規劃
規劃是移動代理的核心機制,使其能夠在處理多模態輸入的同時,在動態環境中制定行動策略。
規劃策略通常分為靜態和動態兩類。
靜態規劃將任務分解為子目標,但缺乏錯誤校正機制;
動態規劃則根據實時反饋進行調整,允許代理回溯并重新規劃。
在提示工程方面的最新進展進一步增強了規劃能力。OmniAct通過結構化多模態輸入來改善推理,使agent能夠動態集成外部工具并調整輸出格式,以更高效地執行任務。
行動
行動組件展示了代理如何在移動環境中通過利用三個關鍵方面來執行任務:屏幕交互、API調用和agent交互。
通過屏幕交互,agent可以在圖形用戶界面(GUI)上進行點擊、滑動或輸入,模仿人類行為來導航應用程序。它們還可以通過API調用訪問更深層次的系統功能,例如發出命令來自動化超出GUI的任務。此外,通過與其他agent的協作,它們增強了適應復雜任務的能力,確保在不同環境中高效執行任務。
屏幕交互
在移動環境中,交互通常涉及在虛擬界面上進行點擊、滑動或輸入等操作。如AiTW、AITZ和AMEX等agents,通過模擬人類交互執行基于GUI的操作,確保它們能夠順利地與本地應用程序協作。這些操作超越了簡單手勢,包括需要agent動態適應變化或新輸入的復雜多步驟過程。
API調用
移動代理依賴各種方法來與GUI交互并執行需要深入集成移動操作系統的任務,其中API調用是基礎。基于API調用,移動代理可以進一步利用HTML和XML數據來訪問核心功能、修改設備設置、檢索傳感器數據以及自動化應用程序導航,將其能力擴展到超越基于GUI的輸入。通過整合這些方法,agent可以高效地完成任務,同時對其環境有更全面的理解。
記憶
記憶機制對于mobile agent至關重要,允許它們在任務間保留和使用信息。目前的研究將上下文學習映射到短期和長期記憶,并連接到外部向量存儲。
短期記憶
有效的任務連續性需要短期記憶,以保留和推理最近的上下文。Auto-UI結合歷史文本以改善決策,而最近的研究則存儲視覺記憶。與單模態代理不同,多模態代理必須跨文本、圖像和交互管理短期記憶。
長期記憶
管理長期、復雜的信息涉及結合參數記憶和向量數據庫。參數記憶捕獲隱含的語義,而向量存儲則保留最近的情節性知識。一些方法將多模態輸入轉換為統一的文本以簡化檢索和整合。
Mobile數據集和基準
基準為評估mobile agent在UI自動化、任務完成和實際應用等任務上的表現提供了標準化環境。
大多數現有的GUI基準依賴于靜態數據集,其中固定的動作序列充當標準答案。這種嚴格的評估忽視了多樣化的有效策略,并經常對正確但非標準的解決方案進行懲罰。
交互式基準如AndroidArena提供了更具動態性的設置,但仍然嚴重依賴于動作序列的相似性,限制了它們評估泛化和推理能力的能力。
最近的研究探討了基于LLM或人類的評估,但這些方法通常在不受控制的環境中進行,缺乏可重復性和一致的評估標準。因此,研究人員開始認識到,僅改善評估指標是不夠的。需要對環境進行更系統的分類,以建立一個健全的基準框架。
接下來,我們將審視靜態數據集、模擬環境和現實環境三種主要環境類型,以更好地理解當前的趨勢和mobile agent基準測試中出現的挑戰。
靜態數據集
靜態數據集提供了一組受控和預定義的任務及帶注釋的標準解決方案,使其成為在固定環境中評估移動agent的重要工具。它們主要用于評估任務自動化,要求agent遵循特定的動作或命令來完成指定任務。
早期的工作集中在將指稱表達鏈接到UI元素,每個實例包含一個屏幕、低級命令和相應的UI元素。例如,RicoSCA數據集使用合成命令,而MiniWoB++則包括用于多步驟任務的低級動作序列。最近的努力轉向了任務導向的指令,每個情節包括動作-觀察對以及截圖和結構化表示,如Android的視圖層次結構或基于網頁的文檔對象模型。
PixelHelp數據集包含187個高層次任務目標,并附有Pixel Phone幫助頁面的逐步說明,而UGIF則在多種語言中擴展了類似的查詢。MoTIF提供了4700個任務演示,每個任務平均有6.5個步驟和276個獨特的任務描述。規模更大的AITW數據集包含715,142個情節和30,378個獨特提示,一些靈感來自先前的基準。
模擬環境
模擬環境提供了動態的、實時交互的平臺,對于在復雜和不斷變化的場景中評估agent至關重要。與靜態數據集不同,這些環境支持持續的適應和反饋,使其成為測試agent靈活性和決策能力的重要工具。
在LLM-based agents出現之前,研究集中在強化學習(RL)系統上,如Android-Env,依賴于預定義的動作和獎勵。
隨著LLM的進步,注意力轉向了能夠進行自然語言理解和生成的agent,使其在應用程序自動化等任務中表現得更靈活、更具人性化。
最近的努力,如Mobile-Env,強調了基于LLM的agent在最小依賴于手動腳本的情況下自主探索多步驟任務的潛力,強調了在實際環境中的適應性。
現實環境
現實環境為解決封閉強化學習設置的一個主要限制提供了重要機會:無法完全捕捉現實交互的復雜性和多樣性。
雖然受控環境對于訓練和測試agent很有用,但它們往往錯過了現實場景中的動態元素,如內容變化、不可預測的用戶行為和多樣的設備配置等因素。
為克服這些挑戰,研究人員越來越多地探索開放的、現實的環境來研究基于LLM的GUI agent,使其能夠學習和適應實時系統和不斷變化的情境中的復雜性。
然而,在開放世界環境中部署agent會引入若干風險。這些包括安全問題、結果不可重復性以及可能的不公平比較。為了減輕這些問題并確保公平、可重復的評估,研究人員倡導在評估期間采用固定動態在線內容和重放機制等策略。這些方法有助于即使在開放世界部署的更廣泛范圍內,也能創建更受控的測試環境。
評估方法
在評估agent性能時,軌跡評估和結果評估是兩種主要方法。
軌跡評估關注agent行動與預定義路徑的對齊程度。
結果評估強調agent是否達成最終目標,關注結果而非具體過程。
以下部分將探討這兩個領域的最新研究進展,指出如何通過更全面的評估策略提升我們對agent在復雜環境中性能的理解。
軌跡評估
最近對GUI交互基準的改進集中在逐步評估上,通過比較預測的動作與參考動作軌跡,以評估agent性能的有效性。雖然這種方法在許多情況下是有效的,但任務完成通常有多種有效解決方案,agent可能會探索不同的路徑,而不一定遵循預定義的軌跡。為了提高這些評估的靈活性和穩健性,Mobile-Env評估了來自中間狀態環境的一部分信號,能夠在更廣泛的任務范圍內提供可靠的評估。
結果評估
通過評估agent是否達到期望的最終狀態來確定其成功,將任務目標視為隱藏狀態的子集,而不考慮為實現這些目標所采取的路徑。這些最終狀態可以通過各種系統信號來識別。
依賴單一信號類型可能無法捕捉所有相關的狀態轉換,因為某些動作(如表單提交)可能僅在GUI中可見,而在系統日志或數據庫中不可見。轉向基于結果的評估并使用多種信號可以使GUI交互基準更可靠、更具適應性,允許agent在不同場景中展示其全部能力。
性能比較
由于當前基準的局限性、實現方法的差異以及平臺的變化,在統一的評估環境中對所有方法進行比較具有挑戰性。同時,基于提示和基于訓練的方法由于評估指標的不一致性,導致跨研究比較變得復雜。
方法如AppAgent和AutoDroid引入了他們自己的基準和指標,但僅在這些基準內進行測試,并與GPT-4等模型進行比較。這些差異使得目前直接的實驗比較不切實際。
因此,在審查不同研究的實驗結果后,我們比較了AITW和MobileAgentbench基準。
AITW測量指令準確性,而MobileAgentbench測量成功率。有關更多細節,請參見附錄中的表4和表7,并了解未來研究中對標準化基準的需求。
Mobile Agent的分類
本節介紹了移動agent的分類,將其分為兩大類:基于提示的方法和基于訓練的方法。
如表9所示,基于提示的agent利用LLM(大規模語言模型)的進步,通過自然語言處理來解釋和執行指令,通常側重于需要與GUI動態交互的任務;
基于訓練的方法則涉及微調模型或應用強化學習,以增強agent的決策能力和隨著時間的適應能力。
基于提示的方法
最近在LLM方面的進展展示了發展自主GUI agent的巨大潛力,尤其是在需要遵循指令的任務中以及鏈式思維(CoT)提示中。
CoT提示特別有效,能夠使LLM處理分步流程、做出決策并執行動作。這些能力在涉及GUI控制的任務中表現出極大的好處。
感知工具
使LLM能夠與GUI交互是至關重要的,因為這些模型主要設計用于處理自然語言而非視覺元素。
感知工具在彌合這一差距上發揮著關鍵作用,通過文本命令允許LLM解釋和交互視覺元素,使模型能夠處理和響應圖形界面組件。
這種多模態集成顯著提高了移動agent在復雜環境中的效率和靈活性。像圖標識別和OCR等技術被用來分析GUI元素,然后將解析的元素轉化為HTML布局。然而,這種方法嚴重依賴于外部工具和特定應用程序接口,經常導致推理過程中的低效和錯誤。
雖然一些研究已經探索了多模態架構以處理不同類型的輸入,但這些方法仍依賴于詳細的環境解析以獲得最佳性能。鑒于準確的GUI對接的重要性,較新的研究開始探索預訓練方法來提高agent在GUI任務中的表現。
記憶機制
在基于提示的方法中,有效的任務執行依賴于強大的記憶機制來保留和使用相關信息。
在像AppAgen這樣的agent中,agent使用探索階段來進行記憶,允許其通過存儲先前探索的交互來學習和適應新應用。這種方法使得agent能夠保留知識而無需額外的訓練數據。MobileAgent通過分析帶有感知工具的屏幕截圖來自動化移動應用操作,避免依賴系統代碼。
基于訓練的方法
與基于提示的方法相對,基于訓練的方法涉及顯式的模型優化。這些agent通過收集指令跟隨數據來微調大型語言模型如LLama或多模態模型如LLaVA,以獲取指令信息。
預訓練的視覺語言模型(VLMs)
在移動環境中,預訓練的VLMs已成為決策和交互的強大工具。像LLaVA和Qwen-VL這樣的模型,在大規模通用數據集上進行預訓練,能夠有效捕捉視覺和語言信息。然而,它們在移動環境中的適用性受到對移動數據特定交互元素缺乏敏感性的限制。
為提高預訓練模型對移動數據交互元素的響應能力,CogAgent收集了大規模移動數據集用于預訓練表示。CogAgent整合了GUI agent的視覺和文本輸入,使用VLMs改善與復雜移動UI的交互。
Spotlight是一個用于移動UI任務的視覺語言模型,僅依賴于截圖和特定區域,支持多任務和小樣本學習,基于大規模數據集進行訓練。
VUT使用雙塔Transformer進行多任務UI建模,以更少的模型和較低的計算成本實現了具有競爭力的性能。
微調
通過視覺指令調優方法利用大規模移動數據集(如AitW)促進了具有常識推理能力的預訓練VLMs的微調過程。
現有方法主要涉及兩個方面:數據集增強和訓練策略改進。
ScreenAI和AMEX專注于使用合成數據和多層次注釋來精確識別和描述移動界面上的UI元素,為復雜的問題回答和導航任務提供高質量的數據集。
另一方面,Auto-GUI、UIVLM、COCO-Agent、Octo-planner和AutoDroid通過策略如直接界面交互、任務指令和元素布局改進以及將規劃與執行分離來顯著提高模型性能。
這些技術不僅優化了自動化過程,還提高了模型在實際應用中的預測準確性和操作效率。
強化學習
強化學習提供了一種動態訓練移動agent的方法,使其能夠從與環境的交互中學習。
這種方法在agent必須適應序列決策任務或根據獎勵優化其行為的場景中特別有效。WoB平臺通過允許agent使用類似人類的動作與網站交互,實現了在真實環境中的強化學習。
同時(Shi et al., 2017)將動作預測轉化為問答,提高了不同環境中的任務泛化能力。MiniWoB++引入了工作流程引導探索,將專家工作流程與任務特定動作相結合,加速學習并提高動作預測任務的效率。
DigiRL結合了離線和在線強化學習來訓練設備控制代理。它利用VLM-based評估器支持與64個安卓模擬器的實時交互,提高了基于RL的agent訓練的效率。
分析
為了評估基于提示和基于訓練的方法之間的實際權衡,我們進行了系列的真實應用自動化任務。
這些任務包括自動監控電子商務頁面上的價格信息,聚合和總結產品數據,分析相對于用戶偏好的性價比,以及完成結帳過程。
我們的觀察揭示了在部署成本、推理速度、操作費用和數據隱私方面兩種范式的顯著區別。
基于提示的agent依賴于GPT-4V和Gemini等商業API,不需要本地部署,并且能夠以最小的維護進行快速原型制作。然而,每個任務的成本相對較高(大約0.70至1.20美元),推理速度較慢(每步5到25秒),并且所有用戶數據都在外部處理——引發了隱私問題。
相比之下,基于訓練的agent需要預先訪問專用基礎設施,例如配置了兩個A100 GPU的服務器。雖然購買成本約為30,000美元,但我們在長達56天的評估期間選擇了基于租賃的設置,總租賃費用約為4,000美元。一旦部署,基于訓練的agent提供顯著較低的每任務成本($0.01到$0.05),更快的推理(每步1到3秒),并且對數據隱私擁有完全的控制。然而,這種方法需要更多的工程努力進行部署、微調和持續的系統維護。
總體而言,基于提示的解決方案更適合輕量級或快速變化的任務,而基于訓練的agent在高頻率或對延遲敏感的應用中提供了更優的長期效率、隱私和可擴展性。
結論
本文綜述提供了多模態移動agent技術的全面概述。首先,我們討論了感知、規劃、行動和記憶等核心組件,這些組件使移動agent能夠適應其環境,構成其功能的基礎。接下來,我們回顧了移動agent基準的進展,這些進展改善了移動agent的評估,但仍需要更全面的方法來捕捉現實動態。然后,我們提出了移動agent的分類,區分了基于提示和基于訓練的方法,每種方法在可擴展性和適應性方面各有優劣。
最后,我們強調了未來的研究方向,聚焦于安全性、適應性和多agent協作,以推進移動agent的能力。
限制
本綜述重點關注基于LLM的移動agent的最新進展,但對傳統的非LLM系統的覆蓋有限。對舊的基于規則的agent缺乏討論可能限制了移動agent技術發展的更廣泛背景。
附錄
A.1 未來研究方向
在本綜述中,我們展示了移動agent領域的最新進展。盡管取得了顯著進步,但仍有許多挑戰尚未解決。基于當前的研究現狀,我們提出以下未來研究方向:
模型架構優化:
在優化移動agent性能時,必須重視對接能力(grounding ability)對動作預測任務的影響。
為此,模型需要增強在UI元素定位上的對接能力,同時有效適應動作預測任務并做出高效決策。
專家混合(Mixture of Experts, MOE)架構在此過程中的作用至關重要。通過引入多個專家模塊,MOE允許模型根據任務動態選擇最適合的專家模塊,在處理多領域任務時尤為有效,從而提高任務適應性和表現。因此,采用MOE架構可以在增強對接能力的同時,確保在復雜任務中具備強大的決策能力,從而提升多領域任務的表現。
結合強化學習:
提高移動agent適應動態和不可預測環境的能力至關重要。移動agent的任務本質上是決策任務,而不僅僅是預測任務。
通過指令微調訓練可以改進動作空間內的預測,但在虛擬機或模擬器中,由預測結果引起分布變化的決策數據場景中,這種方法效果有限。
這些場景需要通過強化學習來完成序列決策任務。然而,這一領域的研究仍處于早期階段。目前的探索,如Digirl、Distrl和RL4VLM,尚未實現該領域的端到端對齊。
未來的研究應探索如何更好地利用強化學習,將多變的交互環境與多模態大語言模型相結合,實現實時行為調整。
安全性與隱私:
在開放環境中,移動agent面臨安全風險。無論是AITW和AMEX數據集中涉及在潛在空間中決策的任務,還是AITZ等通過鏈式思維完成決策的任務,模型的安全性及其倫理性都會影響決策表現。未來的研究應優先開發更強的安全機制,以防止惡意行為和數據泄露。此外,還需要開發隱私保護技術和倫理改進機制,以確保agent交互過程中的安全和倫理操作。
多agent協作:
集體智能通過分布式控制簡化復雜問題,通過冗余設計增強系統的魯棒性,并通過協調操作優化資源利用,在處理大規模、復雜任務時表現出顯著的效率和適應性。提高多個移動agent之間的協作能力仍是一項關鍵挑戰。
目前,多agent系統的研究仍局限于角色扮演、標準操作流程以及與專家模型協作。總體規模較小,對通信和組織結構的探索不足。未來的研究應聚焦于高效的通信和協作機制,使agent能夠動態組建團隊,完成任務更高效。
模型輕量化:
移動設備的計算資源有限,這對模型的部署和推理提出了更高的要求。因此,量化和推理加速變得尤為重要。現有方法如SphAgent、CogAgent和SeeClick仍然存在參數規模過大,難以在移動設備上部署的問題。
最新的研究如LiMAC,通過減少微調成本而不壓縮模型參數進行優化。未來的研究應專注于優化移動agent的模型尺寸并加速推理過程,以在資源受限的情況下確保高性能。
此外,改進推理管道以增強實時決策能力也是至關重要的,這涉及更高效的計算算法和硬件加速,以實現更快的響應并降低能耗。
A.2 補充技術
有效的補充技術對于提升移動agent的性能和可用性至關重要,除了基準、VLM模型、微調方法和先進推理技能等關鍵組件外。這些技術促進了與移動環境的無縫互動,使agent能夠高效地適應、學習和執行復雜任務。
UIED使用計算機視覺和深度學習檢測和分類GUI元素,支持交互式編輯。
WebGPT通過模仿學習和人類反饋微調GPT-3用于基于網頁的問題回答。
WebVLN訓練AI agent通過問題指導導航網站,結合HTML以更深入地理解。
A.3 可用相關技術
此外,OmniACT為評估跨各種桌面應用程序和自然語言任務的任務自動化提供了綜合平臺。
WebVoyager引入了一種使用GPT-4V的自動化評估協議,在導航過程中捕捉截圖,并實現了與人類判斷85.3%的一致性。
此外,Widget Captioning為改善UI可訪問性和交互設定基準,提供162,859個人工注釋短語,以描述來自多模態輸入的UI元素,為自然語言生成任務的進步鋪平了道路。最重要的是,利用多樣的系統信號集提供了更全面和準確的agent性能評估。
在桌面平臺上,研究集中在評估LLM-based agents如何利用API和軟件工具完成文件管理和演示等任務。AgentBench提供了一個靈活、可擴展的框架用于評估agent任務,
而PPTC Benchmark則針對評估LLM-based agents在PowerPoint相關任務中的表現。
A.4 GUI Agent性能比較
在安卓GUI基準上,GUI agent在靜態和對接任務中展示了競爭性的性能。
在表4(AITW靜態評估)中,CogAgent和SeeClick達到較強的整體準確性,CogAgent達到76.88%,SeeClick達到76.20%,表現優于大多數非GUI agent,顯示出在涉及復雜界面的決策場景中的穩健性。
值得注意的是,這些GUI agent集成了布局或多模態特征以增強UI理解,CoCo-LLAMA和MobileVLM在大多數拆分中也實現了70%+的準確性。
在對接任務基準ScreenSpot(表5)中,GUI agent如CogAgent、SeeClick和UGround-V1也表現出競爭力。UGround-V1實現了73.3%的平均準確性,SeeClick達到53.4%。CogAgent在AITW上的動作準確性很強,但在ScreenSpot的對接表現較低(47.4%),這可能表明其在基于截圖的設置下對接能力的不足。
總體而言,具有布局感知監督或多模態視覺編碼的GUI agent持續優于零樣本基準如Qwen2-VL和Qwen2.5-VL。
其中,UI-R1-3B,一個為GUI交互設計的基于規則的強化學習agent,在ScreenSpot上達到了最佳平均準確性(83.3%),展示了在GUI環境中結合結構化提示、精細視覺對接和布局推理的有效性。