項目地址: https://appagentx.github.io/?utm_source=ai-bot.cn
GitHub倉庫: https://github.com/Westlake-AGI-Lab/AppAgentX/tree/main
arXiv技術論文:https://arxiv.org/pdf/2503.02268
AppAgentx是什么:
AppAgentX 是西湖大學推出的一種自我進化式 GUI 代理框架。它通過從執行歷史中學習并抽象出高級動作,來提升智能手機交互的效率和智能性。該框架利用記憶與進化機制實現持續優化,性能在測試中顯著優于現有方法,為智能代理開辟了新方向。
AppAgentx的主要功能:
自動歸納高效操作模式:檢測任務執行中的重復性操作,自動總結為高級別的“一鍵”操作,簡化操作流程。
減少重復計算,提升執行效率:基于記憶和復用執行策略,避免重復推理,讓任務執行更高效。
基于視覺的通用操作能力::依賴屏幕視覺信息進行操作,無需后端API支持,在不同軟件和設備上通用,實現“即插即用”。
支持復雜任務和跨應用操作: :像人類一樣操作各種應用程序,支持復雜的跨應用任務,例如從網頁爬取信息后填入Excel,或在多個軟件之間聯動操作。
AppAgentX的應用場景:
自動化日常操作:自動完成手機設置調整、應用內任務等,減少手動操作。
智能助手增強: 集成到智能助手,幫助用戶快速執行復雜任務。
企業流程自動化: 用于企業數據錄入、報表生成等重復性任務,提高效率。
跨應用任務管理: 支持在不同應用間切換和操作,實現跨平臺自動化。
輔助特殊人群: 簡化操作流程,幫助老年人或身體不便者更輕松使用手機。
開始使用
-
LLM 設置和依賴項
本項目使用 LangChain 和 LangGraph 構建代理框架。建議按照其官網建議的安裝方法進行安裝。其他依賴項請使用pip install -r requirements.txt
。LLM 配置請在 文件中調整相關設置config.py
。
-
數據庫部署與連接
我們使用 Neo4j 作為代理的內存存儲,并利用其 Cypher 查詢語言來方便地檢索節點。向量存儲則使用 Pinecone。請確保在config.py
文件中配置了必要的 API 和密鑰。更多信息,請訪問Neo4j 官網和Pinecone 官網。
config.py 配置文件
你需要安裝Neo4j 到本地,進行部署和運行,同樣的Pinecone需要API_KEY
-
屏幕識別與特征提取部署
為了簡化部署,我們使用 Docker 將屏幕識別和特征提取服務容器化。有關啟動容器的說明,請參閱后端文件夾中的 README 文件。請注意,這可能需要 Docker 的 GPU 支持;有關配置,請參閱 Docker 官方文檔。這種模塊化方法可以輕松替換不同的屏幕解析和特征提取工具,從而顯著增強模型的可擴展性。如果您需要部署,請參閱當前項目后端文件夾中的README 文件。
-
啟動演示
要使用此項目,您首先需要配置ADB(Android Debug Bridge)以將您的 Android 設備連接到您的計算機。
-
設置 ADB 并連接您的設備
3.2 在您的電腦上安裝 ADB
下載并安裝Android Debug Bridge (adb) — 一種命令行工具,可實現您的電腦和 Android 設備之間的通信。
-
在您的 Android 設備上啟用 USB 調試:
-
轉到“設置” > “開發人員選項”并啟用“USB 調試”。
-
使用 USB 數據線將您的設備連接到 PC 。
推薦使用Qtscrcpy工具代替一下
同樣的可以使用Android studio的工具進行鏈接
啟動 Gradio
設置好設備或模擬器后,即可啟動項目。我們使用Gradio作為前端界面。使用以下命令之一啟動演示:
python demo.py 使用前提是你已經安裝好了python環境
或者
gradio demo.py
現在,AppAgent就可以使用了!🚀
綜上所述的僅適合你是有CUDA顯卡的人適合. macos可以直接退出了,因為博主踩坑了. 我還在嘗試使用,在macos上測試成功,有待實現.