微軟重磅發布Magentic UI,交互式AI Agent助手實測!
何為Magentic UI?
Magentic UI
是微軟于5.19重磅發布的開源Agent助手,并于24日剛更新了第二個版本0.04版
從官方的介紹來看,目標是打造一款 以人為中心 的智能助手,其底層由多個不同的智能體系統驅動,能夠實現網頁瀏覽與操作、代碼生成與執行、文件生成與分析等功能。
它區別于其他一些AI瀏覽器工具的主要區別在于其 透明可控的交互界面,支持高效的人機協同參與。該系統基于微軟的Agent構建框架 AutoGen 構建,目前還處在原型研究階段。
核心功能包括:
???????? 協同規劃:用戶和AI通過聊天和計劃編輯器協作創建并修訂分步執行計劃。
?? 協同任務:用戶可直接通過網頁瀏覽器或聊天界面實時介入并指導任務執行。Magentic-UI 能在需要時主動確認或要求協助。
??? 操作防護:敏感操作需經用戶明確批準后方可執行。
?? 計劃學習與檢索:從過往任務中學習經驗以優化未來自動化流程,并將優秀方案保存至計劃庫。在后續任務中可自動或手動調用已存儲的計劃。
?? 并行任務執行:支持多任務并行運行,會話狀態指示器會實時提示 Magentic-UI 何時需要您的輸入或任務已完成。
設計架構
Magentic-UI 的底層系統是由一組從 AutoGen 的 Magentic-One 系統(如上圖所示)改造而來的專業化 Agent 組構成,各Agent通過模塊化協作實現不同功能:
Agent功能說明
總控代理(Orchestrator)
- 功能定位:基于大語言模型(LLM)的主控智能體,負責與用戶協同制定計劃、決策何時請求用戶反饋,并向其他智能體分配子任務。
- 協作流程:
- 與用戶共同制定分步執行計劃;
- 動態判斷需用戶介入的節點;
- 將子任務分派至其他智能體執行。
網頁瀏覽代理(WebSurfer)
- 功能定位:配備網頁瀏覽器的 LLM 智能體,支持多輪次網頁交互操作。
- 核心能力:
- 根據總控代理的指令,執行點擊、輸入、滾動、頁面跳轉等操作;
- 超越 AutoGen 多模態網頁瀏覽器:新增標簽管理、選項選擇、文件上傳及多模態查詢支持。
代碼執行代理(Coder)
- 功能定位:配備 Docker 代碼執行容器的 LLM 智能體。
- 核心能力:
- 編寫并執行 Python 和 Shell 命令;
- 將執行結果反饋至總控代理。
文件處理代理(FileSurfer)
- 功能定位:集成 Docker 容器與 MarkItDown 包文件轉換工具的 LLM 智能體。
- 核心能力:
- 定位 Magentic-UI 控制目錄下的文件;
- 將文件轉換為 Markdown 格式并支持內容問答。
用戶代理(UserProxy)
- 功能定位:代表用戶與系統交互的代理角色。
- 協作模式:總控代理可將任務直接委派給用戶(而非其他智能體)完成。
用戶交互流程
用戶利用 Magentic UI 的交互流程可以用下圖表示: