AppAgentx 開源AI手機操控使用分享

項目地址: https://appagentx.github.io/?utm_source=ai-bot.cn

GitHub倉庫: https://github.com/Westlake-AGI-Lab/AppAgentX/tree/main

arXiv技術論文:https://arxiv.org/pdf/2503.02268

AppAgentx是什么:

AppAgentX西湖大學推出的一種自我進化式 GUI 代理框架。它通過從執行歷史中學習并抽象出高級動作,來提升智能手機交互的效率和智能性。該框架利用記憶與進化機制實現持續優化,性能在測試中顯著優于現有方法,為智能代理開辟了新方向。

AppAgentx的主要功能:

自動歸納高效操作模式:檢測任務執行中的重復性操作,自動總結為高級別的“一鍵”操作,簡化操作流程。

減少重復計算,提升執行效率:基于記憶和復用執行策略,避免重復推理,讓任務執行更高效。

基于視覺的通用操作能力::依賴屏幕視覺信息進行操作,無需后端API支持,在不同軟件和設備上通用,實現“即插即用”。

支持復雜任務和跨應用操作: :像人類一樣操作各種應用程序,支持復雜的跨應用任務,例如從網頁爬取信息后填入Excel,或在多個軟件之間聯動操作。

AppAgentX的應用場景:

自動化日常操作:自動完成手機設置調整、應用內任務等,減少手動操作。

智能助手增強: 集成到智能助手,幫助用戶快速執行復雜任務

企業流程自動化: 用于企業數據錄入、報表生成等重復性任務,提高效率。

跨應用任務管理: 支持在不同應用間切換和操作,實現跨平臺自動化。

輔助特殊人群: 簡化操作流程,幫助老年人或身體不便者更輕松使用手機。

開始使用

  1. LLM 設置和依賴項

本項目使用 LangChain 和 LangGraph 構建代理框架。建議按照其官網建議的安裝方法進行安裝。其他依賴項請使用pip install -r requirements.txt。LLM 配置請在 文件中調整相關設置config.py

  1. 數據庫部署與連接

我們使用 Neo4j 作為代理的內存存儲,并利用其 Cypher 查詢語言來方便地檢索節點。向量存儲則使用 Pinecone。請確保在config.py文件中配置了必要的 API 和密鑰。更多信息,請訪問Neo4j 官網Pinecone 官網

config.py 配置文件

你需要安裝Neo4j 到本地,進行部署和運行,同樣的Pinecone需要API_KEY

  1. 屏幕識別與特征提取部署

為了簡化部署,我們使用 Docker 將屏幕識別和特征提取服務容器化。有關啟動容器的說明,請參閱后端文件夾中的 README 文件。請注意,這可能需要 Docker 的 GPU 支持;有關配置,請參閱 Docker 官方文檔。這種模塊化方法可以輕松替換不同的屏幕解析和特征提取工具,從而顯著增強模型的可擴展性。如果您需要部署,請參閱當前項目后端文件夾中的README 文件。

  1. 啟動演示

要使用此項目,您首先需要配置ADB(Android Debug Bridge)以將您的 Android 設備連接到您的計算機。

  1. 設置 ADB 并連接您的設備
3.2 在您的電腦上安裝 ADB

下載并安裝Android Debug Bridge (adb) — 一種命令行工具,可實現您的電腦和 Android 設備之間的通信。

  • 在您的 Android 設備上啟用 USB 調試:

  • 轉到“設置” > “開發人員選項”并啟用“USB 調試”。

  • 使用 USB 數據線將您的設備連接到 PC 。

推薦使用Qtscrcpy工具代替一下

同樣的可以使用Android studio的工具進行鏈接

啟動 Gradio

設置好設備或模擬器后,即可啟動項目。我們使用Gradio作為前端界面。使用以下命令之一啟動演示:

python demo.py 使用前提是你已經安裝好了python環境

或者

gradio demo.py

現在,AppAgent就可以使用了!🚀

綜上所述的僅適合你是有CUDA顯卡的人適合. macos可以直接退出了,因為博主踩坑了. 我還在嘗試使用,在macos上測試成功,有待實現.

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/81163.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/81163.shtml
英文地址,請注明出處:http://en.pswp.cn/web/81163.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

[原創]X86C++反匯編01.IDA和提取簽名

https://bpsend.net/thread-415-1-1.html 用VC6.0新建一個控制臺工程 編譯成 debug 和 Release 2個版本 應ida分別查看2種版本的程序 高版本ida 可能會直接定位到函數入口,正常情況下,我們需要先調試找到關鍵,找到關鍵以后點再通過調試設置api斷點,讀寫斷點等,找到程序的關鍵…

vs2022 Qt Visual Studio Tools插件設置

安裝之后,需要指定QT中msvc編譯器的位置,點擊下圖Location右邊的按鈕即可 選擇msvc2022_64\bin目錄下的 qmake.exe 另一個問題,雙擊UI文件不能打開設計界面 設置打開方式 選擇msvc2022_64\bin目錄下的designer.exe 確定即可 然后設置為默認值即可 確定…

C++代碼隨想錄刷題知識分享-----兩數之和(哈希表)三種算法逐個擊破

題目描述 給定一個整數數組 nums 和一個目標值 target,請你在該數組中找出和為目標值的那兩個整數,并返回它們的下標。 每個輸入只對應一個答案。同一個元素不能重復使用。你可以按任意順序返回答案。 示例 輸入: nums [2, 7, 11, 15], ta…

List介紹

什么是List 在集合框架中,List是一個接口,繼承自Collection Collection也是一個接口,該接口中規范了后序容器中常用的一些方法 Iterable也是一個接口,表示實現該接口的類是可以逐個元素進行遍歷的,具體如下&#xff1…

深入理解API:從概念到實戰

引言 在現代軟件開發中,API(Application Programming Interface)無處不在。無論是調用第三方服務、訪問操作系統功能,還是使用編程語言的標準庫,API 都扮演著關鍵角色。但對于許多初學者來說,API 仍然是一…

織夢dedecms登錄后臺出現Safe Alert Request Error step 2

今天一個客戶在安裝織夢dedecms時候,安裝完成后登錄后臺就出現“Safe Alert Request Error step 2”,常用dedecms的朋友都知道,這是織夢的安全機制,在程序覺得有sql注入等攻擊時候,會有這種提示。 1、起初我以為是文件…

BLIP3-o:理解和生成統一的多模態模型

文章目錄 研究背景BLIP3-o 框架3個關鍵問題BLIP3-o模型總結 paper link: https://arxiv.org/pdf/2505.09568from saleforce research 研究背景 隨著gpt4o圖像生成和編輯的應用火爆,如何構造能夠同時處理圖像理解和生成任務的統一多模態模型,成為研究的…

練習小項目7:天氣狀態切換器

🧠 項目目標: 點擊按鈕切換不同天氣狀態,背景或圖標隨之變化。 ? 功能描述: 顯示當前天氣(如:?? 晴天 / ?? 多云 / 🌧? 雨天) 點擊“切換天氣”按鈕,每點擊一次…

esp32 lvgl9.2版本,透明底色圖片的,透明部分被渲染成黑色,不隨背景顏色變化解決辦法

在lvgl圖片轉換工具時,指定轉換格式為ARGB8888 代指Alpha RGB RGB565(不支持 Alpha),透明像素會被解釋為黑色。改用 ARGB8888。 有問題的 轉換為ARGB8888后的

AI智能分析網關V4區域入侵檢測算法:全功能覆蓋,多場景守護安防安全

一、方案背景? 在當今社會,安全需求日益增長,傳統安防監控系統因效率低、精準度不足等問題,已無法滿足現代安全防范的要求。AI智能分析網關V4區域入侵檢測算法憑借其先進的人工智能技術,能夠實時、精準地識別區域內的異常入侵行…

Phantom 視頻生成的流程

Phantom 視頻生成的流程 flyfish Phantom 視頻生成的實踐 Phantom 視頻生成的流程 Phantom 視頻生成的命令 Wan2.1 圖生視頻 支持批量生成 Wan2.1 文生視頻 支持批量生成、參數化配置和多語言提示詞管理 Wan2.1 加速推理方法 Wan2.1 通過首尾幀生成視頻 AnyText2 在圖片里玩…

瑞薩單片機筆記

1.CS for CC map文件中顯示變量地址 Link Option->List->Output Symbol information 2.FDL庫函數 pfdl_status_t R_FDL_Write(pfdl_u16 index, __near pfdl_u08* buffer, pfdl_u16 bytecount) pfdl_status_t R_FDL_Read(pfdl_u16 index, __near pfdl_u08* buffer, pfdl_…

uniapp+ts 多環境編譯

1. 創建項目 npx degit dcloudio/uni-preset-vue#vite-ts [項目名稱] 2.創建env目錄 多環境配置文件命名為.env.別名 添加index.d.ts interface ImportMetaEnv{readonly VITE_ENV:string,readonly UNI_PLATFORM:string,readonly VITE_APPID:string,readonly VITE_NAME:stri…

英語學習5.24

make informed decisions 表示“做出明智的決定”,是一個常用的固定搭配,常用于議論文中。 …to make informed decisions. 為了做出明智的決定(表示目的的動詞不定式)。 We need accurate data to make informed decisions. Ci…

【Qt】QImage::Format

QImage::Format 是 Qt 中用于指定圖像像素數據格式的枚舉類型。它決定了圖像如何存儲顏色信息和透明度(如果有)。選擇合適的 Format 對性能、內存占用以及是否支持某些特性(如透明通道)有重要影響。 常見的 QImage::Format 枚舉值…

算法筆記·數學·歐拉函數

題目:(AcWing) 給定 n 個正整數 ai,請你求出每個數的歐拉函數。 歐拉函數的定義 1~N 中與 N 互質的數的個數被稱為歐拉函數,記為 ?(N)。 若在算數基本定理中,N,則: ?(N) N 輸入…

深入理解Redis線程模型

Redis數據 redis數據保存在內存,但是會持久化到硬盤 Redis線程 Redis的整體線程模型可以簡單解釋為 客戶端多線程,服務端單線程。也就是可以多個客戶端同時連接。 核心線程模型:單線程 多路復用 Redis 的主線程負責處理所有客戶端請求&a…

「Python教案」輸入輸出函數的使用

課程目標 1.知識目標 能使用input()輸入函數和print()輸出函數實現人機之間的交互。能夠合理的確定輸入數據的數據類型,并進行數據類型轉換。能夠使用格式化字符串(f-string)將數據動態輸出。 2.能力目標 能夠使用…

醫療影像中,DICOM點云、三角面片實體混合渲染(VR)

此文章,涉及到專業性比較強,所以,大部分的內容,基本上都是示例代碼的形式出現。以下的技術路徑,完全經過實踐驗證,并且效果很好,可以放心使用。 1 概述 在醫學影像中,對DICOM的渲染…

【C/C++】線程狀態以及轉換

文章目錄 線程狀態以及轉換1 基本狀態1.1 新建(New)1.2 就緒(Ready / Runnable)1.3 運行中(Running)1.4 阻塞/等待(Blocked / Waiting / Sleeping)1.5 掛起(Suspended&am…