browser-use Web-UI
一、browser-use是什么
Browser Use 是一款開源Python庫,專為大語言模型設計的智能瀏覽器工具,目的是讓 AI 能夠像人類一樣自然地瀏覽和操作網頁。它支持多標簽頁管理、視覺識別、內容提取,并能記錄和重復執行特定動作。Browser Use 還支持開發者自定義動作,如保存數據到數據庫,文件等。支持多種主流的大型語言模型,如 DeepSeek,GPT-4 和 Claude等,并支持同時運行多個任務,具備自我修正功能,從而提高任務執行的準確性和效率。
官網:https://browser-use.com/
項目網址 :https://github.com/browser-use/browser-use
Browser-use采用的技術棧為:
- 1、Observation:頁面解析層,采用DOM解析+截圖輔助的非視覺+視覺方案。
- DOM解析(HTML + XPath):Browser-use通過底層框架(如Playwright)獲取當前頁面的完整HTML結構,并提取文本、元素屬性等關鍵信息。
- 截圖輔助:在某些情況下(如驗證碼識別、動態圖形驗證),純HTML解析可能無法直接獲取信息,此時系統會自動或按需生成頁面截圖,并將截圖作為輔助輸入傳遞給視覺模型
- 2、Thought:核心決策層,分析Observation提供的頁面信息并生成操作指令。
- 3、Action:指令執行層,微軟開發的Playwright作為瀏覽器控制框架直接與瀏覽器交互完成自動化任務。Playwright作為新一代高性能UI自動化測試框架,提供低延遲、高穩定性的瀏覽器控制能力,支持快速頁面加載和元素操作。
二、browser-use webui 主要功能
提供了全新的網頁界面,簡單好用,方便操作。
支持更多大語言模型,比如 Gemini、OpenAI、Azure 等,哦,還有最近爆火的國產大模型 DeepSeek,未來還會加更多。
支持用自己的瀏覽器,不用再反復登錄,還能錄屏。
定制了更智能的 Agent,通過優化后的提示讓瀏覽器使用更高效。
使用場景
- 自動化任務:適合重復高頻的瀏覽器操作任務,如表單填寫,信息檢索,文件下載
- 數據收集:適合爬取網絡上的數據,如爬蟲自動化測試:適合WEB UI
- 自動化測試,結合pytest輕松實現web自動化
簡介:Browser Use 是一款開源Python庫,專為大語言模型設計的智能瀏覽器工具。
目的:讓 AI 能夠像人類一樣自然地瀏覽和操作網頁。它支持多標簽頁管理、視覺識別、內容提取,并能記錄和重復執行特定動作。
支持:支持多種主流的大型語言模型,如 DeepSeek,GPT-4 和 Claude等,并支持同時運行多個任務,具備自我修正功能,從而提高任務執行的準確性和效率。
應用場景:該項目可以部署在本地,也可以部署在線上。可以整理固定的文案,run agent 之后,可用于員工培訓,可用于新員工入職,展示業務主要功能。
(一)下載與安裝
一、下載項目克隆倉庫
git clone https://github.com/browser-use/web-ui.git
二、進入項目
cd web-ui
三、設置python虛擬環境
1、安裝 uv(高性能虛擬環境工具)
pip install uv
2、創建虛擬環境
uv venv --python 3.11 # 確保 Python 3.11+ 已安裝
3、激活虛擬環境
source .venv/Scripts/activate
四、安裝依賴
uv pip install -r requirements.txt
五、安裝chrom瀏覽器的依賴
playwright install --with-deps chromium
或者所有瀏覽器的依賴
playwright install
六、配置環境變量
cp .env.example .env
(圖里發錯圖了,少了個v ,說明:將env.example復制一份命名為env,然后到第八步,配置env文件)
七、查看Chrome詳情
谷歌瀏覽器地址輸入,即可查看:
chrome://version/
八、配置env文件
(記事本打開就可以)
備注:deepseek的api獲取:
https://platform.deepseek.com/api_keys
需要充錢才可以用
九、運行web-ui
python webui.py --ip 127.0.0.1 --port 7788
十、運行方式,可通過git或者pycharm
1、開啟虛擬環境:source .venv/Scripts/activate
2、輸入啟動命令:python webui.py --ip 127.0.0.1 --port 7788
(二)使用
一、登錄平臺
輸入地址:127.0.0.1:7788
127.0.0.1:7788
二、關于瀏覽器的一些設置
三、運行,界面Demo 演示
輸入要執行的任務就可以點擊 Run Agent 了