何謂Agent
Agent 作為一種新興的人工智能技術,正在受到越來越多的關注。要說清楚什么是 Agent,先得看看人工智能的本質是什么。
人工智能這個名稱來自它試圖通過計算機程序或機器來模擬、擴展和增強人類智能的 一些方面。在這個定義中,“人工”指的是由人類創造或模擬,而“智能”指的是解決問 題、學習、適應新環境等的能力。人工智能領域的研究涵蓋了從簡單的自動化任務到復雜 的決策和問題解決過程,其根本追求是開發出能模仿、再現甚至超越人類智能水平的技術 和系統。
傳統的人工智能技術通常局限于靜態的功能,它們只能在特定且受限的環境中執行預先設定的任務 。這些系統往往缺乏靈活性和自適應能力,無法自主地根據環境變化調整自 己的行為。
這個局限就是 Agent 概念的出發點,它旨在推動 AI 從靜態的、被動的存在轉變為動 態的、主動的實體。
那么,下個定義:Agent,即智能體或智能代理(見圖 1.4),是一個具有一定程度自主性的人工智能系統。更具體地說,Agent 是一個能夠感知環境、做出決策并采取行動的系統。
在人工智能領域中, 代理是一種具有計算能力的實體,研究者只能觀察到它們的行為和決策過程。為了深入理解和描述這些代理,研究者通常會引入其他幾個關鍵屬性,包括自 主性、反應性、社會親和性以及學習能力,以全面地認識人工智能代理的能力和潛力。
Chat GPT 首先通過文本或語音輸出框來感知環境,并進行推 理決策,之后再通過文本框或者語音與人們互動。當然,還有更為復雜的 Age nt。這 里以自動駕駛 Agent 為例進行介紹。
■ 感知環境,就是指 Agent 能夠接收來自環境的信息。例如, 一個自動駕駛 Agent 可以感知周圍的交通情況、道路狀況等信息。
■ 做出決策,就是指 Agent 根據感知的信息制訂下一步的行動計劃。例如,自動駕 駛 Agent 根據感知的信息決定是否加速、減速、轉彎等。
■ 采取行動,就是指 Agent 根據決策執行相應的行動。例如,自動駕駛 Agent 根 據決策控制汽車的加速器、剎車、方向盤等。
因此,Agent 能夠獨立完成特定的任務。Agent 的四大特性如下。
■ 自主性:Agent 能夠根據自身的知識和經驗,獨立做出決策和執行行動。
■適應性:Agent能夠學習和適應環境,不斷提高自己的能力。
■ 交互性:Agent 能夠與人類進行交互,提供信息和服務。
■ 功能性:Agent 可以在特定領域內執行特定的任務。 從技術角度來說,Agent 通常包括以下核心組件。
■ 感知器:Agent 通過感知器接收關于環境的信息。這可以是通過傳感器收集的實 時數據,也可以是通過數據庫或互聯網獲取的信息。
■ 知識庫:Agent 根據目標和以往的經驗,通過知識庫存儲和管理有關環境和自身 狀態的信息。
■ 決策引擎:Agent 分析感知的信息,并結合知識庫中的數據,通過決策引擎做出 決策。
■ 執行器:Agent 通過執行器在環境中采取行動。這可以是物理動作,如機器人移 動其手臂,也可以是虛擬動作,如在線服務發送信息。
盡管構建 Agent 的基石已經準備就緒,但 Agent 的技術發展仍處于萌芽階段。開 發者需要進行深入思考并動手實踐,以確立 Agent 的開發框架、Agent 訪問工具的方 式、與數據交互的方式,以及如何對話以完成具體任務。這些問題的答案將塑造未來 Agent 的形態和能力。
在解鎖 Agent的巨大潛力的過程中,我們需要深入探討以下幾個關鍵問題。
■ Agent 如何在各行各業中提升效率以及創造機會和更多可能性?
■ 在眾多的 Agent 框架中,如何選擇適合自己需求的框架?
■ 在解決現實世界的問題時,如何實施 Agent 才最有效?
■ 自主 Agent 如何改變我們對人工智能驅動的任務管理的認知和實踐?
學習?Agent需要這樣一本AI Agent書籍
目前無論是學術界還是產業界,對人工智能應用開發的關鍵問題遠未達成共識。《動手做AI Agent GPT》或許可以作為讀者深入探討上述問題的漫長旅途的開端。本書旨在從技術和工具層面闡釋 Agent 設計的框架、功能和方法,具體涉及如下技術或工具。
■ Open AI API 以 及 Open AI Assistants :用 于 調 用 包 含 GP T -4 模 型 和 DALL ·E 3 模型在內的眾多人工智能模型。
■ LangCha in :開源框架,旨在簡化構建基于語言的人工智能應用的過程,其中 包含對 ReAct 框架的封裝和實現。
■ Llama Index :開源框架,用于幫助管理和檢索非結構化數據,利用大模型的 能力和 Agent 框架來提高文本檢索的準確性、效率和智能程度。
這些技術和工具都可以用于構建 Agent,它們通過接口連接大模型,為 Agent 提 供語言理解、內容生成和決策支持的能力。通過它們, Agent 可以支持多種外部工具, 進而執行復雜任務以及與環境進行交互。
除了介紹 Agent 的框架和開發工具之外, 本書還將通過 7 個實操項目, 帶領讀者 學習前沿的 Agent 實現技術。這 7 個項目分別如下。
Agent 1:自動化辦公的實現——通過 Assistants API 和 DALL ·E 3 模型創 作 PPT。
■ Agent 2:多功能選擇的引擎——通過 Function Calling 調用函數。
■ Agent 3:推理與行動的協同——通過 LangChain 中的 ReAct 框架實現自動 定價。
■ Agent 4: 計 劃 和 執 行 的 解 耦 —— 通 過 Lang Chain 中 的 Play - and - Execute 實現智能調度庫存。
■ Agent 5:知識的提取與整合——通過 LlamaIndex 實現檢索增強生成 Agent。
■ Agent 6:GitHub 的網紅聚落——AutoGPT、BabyAGI 和 CAMEL。
■ Agent 7:多 Agent 框架——AutoGen 和 MetaGPT。
此外,我還在附錄中簡要介紹了科研論文中 Agent 技術進展,旨在為讀者提供當前 Agent 技術發展的全面視角并展現相關的探索。