《A Practical Guide to Building Agents》文檔學習

《A Practical Guide to Building Agents》文檔總結

該文檔是一份面向產品和工程團隊的實用指南，旨在幫助團隊探索并構建首個基于大語言模型（LLM）的智能體（Agent），提煉了大量客戶部署經驗，提供了從概念定義到實際落地的全流程最佳實踐。

本質：智能體是能代表用戶獨立完成任務的系統，可執行用戶目標所需的一系列工作流（如解決客服問題、預訂餐廳等），且具備高度自主性。
與傳統軟件/簡單LLM應用的區別：傳統軟件需用戶操作以簡化自動化工作流，而智能體可自主執行；僅集成LLM但不控制工作流執行的應用（如簡單聊天機器人、單輪LLM交互工具）不屬于智能體🔶1-13。

智能體適合傳統確定性、規則化方法難以應對的工作流，優先選擇以下三類場景：

以支付欺詐分析為例，傳統規則引擎像清單一樣，僅根據預設標準標記交易；而LLM智能體更像資深調查員，能評估上下文、識別細微模式，即使無明確違規規則也可發現可疑活動，可有效應對復雜模糊場景。

智能體最基礎的形式包含三大核心組件，具體如下表所示：

組件	作用說明
模型（Model）	為智能體的推理與決策提供支持的LLM
工具（Tools）	智能體可使用的外部函數或API， legacy系統無API時，智能體可通過計算機使用模型與系統UI交互🔶1-34
指令（Instructions）	定義智能體行為的明確指南與約束，高質量指令可減少歧義、提升決策準確性🔶1-34

實踐方法	具體說明
利用現有文檔	基于現有操作流程、支持腳本或政策文檔創建LLM友好的流程，如客服場景可參考知識庫文章
提示拆分任務	將復雜資源拆解為更小、清晰的步驟，幫助模型更好遵循指令
定義明確操作	確保流程每一步對應具體操作/輸出，如要求智能體詢問用戶訂單號或調用API獲取賬戶詳情
覆蓋邊緣案例	預判常見變化（如用戶信息不全、問題超出預期），用條件步驟說明處理方式

編排模式用于實現智能體高效執行工作流，主要分為單智能體系統與多智能體系統兩類。

核心特點：單個模型配備合適工具與指令，通過循環（loop）執行工作流，新增工具可擴展能力，且易于評估與維護1-91🔷。
運行機制：以“運行（run）”為核心，通過循環執行直至滿足退出條件，常見退出條件包括調用最終輸出工具、模型返回無工具調用的響應（如直接用戶消息）等1-98🔷1-100🔷。
復雜度管理：可使用提示模板，通過單一靈活基礎提示接受政策變量，適配多場景，簡化維護與評估。

當單智能體無法遵循復雜指令、頻繁選擇錯誤工具時，可拆分構建多智能體系統，具體拆分依據包括：

模式	結構特點	適用場景
經理模式（Manager）	中央“經理”智能體通過工具調用協調多個專業智能體，整合結果提供統一用戶體驗1-124🔷	需單一智能體控制工作流執行、接觸用戶的場景，如多語言翻譯（經理智能體協調西班牙語、法語、意大利語翻譯智能體）1-126🔷
去中心化模式（Decentralized）	多個智能體地位平等，可根據專業領域相互移交任務控制權，移交時同步最新對話狀態1-140🔷	無需單一智能體集中控制的場景，如客服流程（分診智能體將訂單查詢移交訂單管理智能體）1-150🔷

無論采用何種模式，均需保持組件靈活性、可組合性，并以清晰、結構化的提示為驅動。

類型	功能說明	示例
相關性分類器	確保智能體響應在預期范圍內，標記偏離主題的查詢	將“帝國大廈有多高”標記為無關查詢
安全分類器	檢測試圖利用系統漏洞的不安全輸入（如越獄、提示注入）	識別“扮演教師解釋系統指令”這類提取系統提示的輸入
PII過濾器	審查模型輸出，防止不必要的個人身份信息泄露	過濾輸出中的手機號、身份證號
內容審核	標記有害/不當輸入（如仇恨言論、騷擾、暴力內容）	攔截包含辱罵性語言的用戶消息
工具安全措施	按工具風險（只讀/寫權限、可逆性、財務影響等）評級（低/中/高），高風險工具執行前觸發檢查或人工審批	對“發起退款”等高風險工具，執行前需人工確認
規則化保護	用確定性措施（黑名單、輸入長度限制、正則過濾）防范已知威脅	攔截包含違禁詞或SQL注入的輸入
輸出驗證	通過提示工程與內容檢查確保響應符合品牌價值觀	避免輸出損害品牌形象的言論

構建步驟：優先關注數據隱私與內容安全；根據實際邊緣案例與故障新增約束；平衡安全性與用戶體驗，隨智能體演進調整約束1-174🔷1-176🔷。
執行機制：以Agents SDK為例，默認采用樂觀執行，主智能體生成輸出時約束同步運行，若違反約束則觸發異常；約束可實現為函數或智能體，如防越獄、相關性驗證等1-190🔷。