領域LLM九講——第4講構建可測評、可優化的端到端商業AI Agent 系統

以 OpenAI Cookbook 的《receipt_inspection》示例為基礎，探討如何設計一個可測試、可優化的端到端 AI Agent 系統。整體流程分為三個階段：
(1) 端到端 Agent 構建（基線測試），
(2) 拆分中間任務與評分系統（可解釋性與對齊），
(3) 構建收益/成本框架（系統優化）。

在這里插入圖片描述

文章目錄

領域LLM九講——第4講構建可測評、可優化的端到端商業AI Agent 系統
- 1. 構建端到端系統 —— V0 Agent（基線）
- 2. 拆分中間任務與評分系統 —— V1 Agent（可解釋性與對齊）
- 3. 構建收益/成本框架 —— V2 Agent（系統優化）
- 附錄

1. 構建端到端系統 —— V0 Agent（基線）

構建最簡化系統
首先搭建一個最基礎的 Agent：直接使用一個 LLM 通過單次提示（或調用）完成整體任務。例如在收據解析場景中，可使用大模型對收據圖片進行文字識別，并一次性輸出所有字段信息與審核決策。示例中使用了 Pydantic 定義結構化輸出模型（包含商戶名稱、地點、時間、條目列表等字段），并調用 LLM 填充這些字段。該階段的目標是快速獲得一個粗粒度的可行解，并建立性能基準。此時可記錄關鍵指標（如整體識別準確率、誤判率等）作為后續優化的對比基線。
優點與風險
端到端設計簡單直接，開發迭代速度快。但也存在風險：缺乏內部可觀察性，一旦結果錯誤很難定位原因，容易出現“碰運氣”式的盲目迭代。沒有中間檢查點的系統可能隱藏關鍵錯誤，對復雜任務或高風險場景（如醫療診斷）欠妥。正如 OpenAI 所言，如果沒有將評估內置于流程核心，開發往往陷入“拍腦袋”的猜測和印象式判斷。因此該階段僅作為起點，一方面需要對輸出結果進行初步人工或規則驗證，另一方面需意識到端到端方案的局限。

2. 拆分中間任務與評分系統 —— V1 Agent（可解釋性與對齊）

任務拆解
在基線驗證后，將復雜任務拆分為可管理的子任務或步驟，增強系統可解釋性。例如，可按邏輯階段分別處理：先用 OCR 獲取文本，再讓 LLM 提取字段、計算總額，最后再讓 LLM 給出審核判定。示例中通過 Pydantic 模型來定義每個子任務的輸出（如交易項目列表、總金額等）。分解后，每個子任務的輸出都成為可獨立評估的中間結果，這有助于理解整體過程并針對性優化某一步。
引入 Grader 評分
針對每個中間輸出，引入一個Grader（評判器）來自動評估其質量，即“LLM 作為評判者”的思路。具體做法是設計多個評分模塊，對不同子輸出進行檢查：可以是簡單的相等檢查、文本相似度計算，或再次調用 LLM 作為評判模型。例如，收據示例定義了幾類 grader：字符串嚴格匹配檢查（如總額是否一致）、文本相似度檢查（如商戶名稱相似度）、以及基于模型的評分（如判斷提取的條目是否缺漏）。這些 grader 分別針對輸出的不同部分進行驗證（有的只看輸出本身，有的則需要對照正確答案）。Databricks 的 Agent Evaluation 也采用類似方法，使用一組 LLM 評判器分別對答案的正確性、相關性等方面進行評估。
控制節點與瓶頸定位
引入 grader 后，系統就有了“中控節點”，可以在每一步檢測失敗并采取措施。多個 Grader 評分后可合并結果，總結整體質量。如果整體評估失敗，系統能指出是哪一個子任務的 grader 首先未通過。比如若“總額檢查”未通過，就說明金額提取有問題；若“缺失條目檢查”未通過，就說明提取遺漏條目。這樣一方面提高了可解釋性，另一方面可針對性地調整模型或提示，形成閉環改進。使用 LLM-作為評判者的做法在實踐中被廣泛采用，它能自動化評估文本質量并提供明確評分指標，是人工評估的可擴展替代方案。綜上，在拆分任務并引入 Grader 后，我們可定位并修復 Agent 的弱點，從而對齊業務需求并逐步提升可靠性。

3. 構建收益/成本框架 —— V2 Agent（系統優化）

多維度成本度量
除準確率外，引入成本度量是優化的關鍵。首先要明確定義成本項：例如每張收據的處理成本（包含模型調用和基礎設施開銷）、低置信輸出的人力校驗成本、系統開發維護成本，以及因為錯誤帶來的業務損失（如漏檢或錯判的罰款等）。在 Agent 層面，可量化的成本指標包括：調用模型所用的 token 數（直接對應 API 費用）、端到端響應延遲（影響用戶體驗或業務處理速率）、人工干預頻率等。Databricks Agent Evaluation 就自動統計了整個任務過程中的總 token 數（含輸入、輸出）作為成本近似，也計算總時延。這些指標匯總到每次請求的評估報告中，幫助開發者了解資源消耗。
性能/成本權衡
系統優化即在多維指標上做權衡：精度、成本、延遲之間往往需要平衡。正如相關指導所指出的，需要權衡模型規模與延遲、質量與成本等因素。例如，可以先使用最強大的模型驗證正確性，再嘗試用更小模型或分步調用來降低成本；也可接受小幅度精度下降以換取大幅度的時間和費用節省。業務方可能愿意為降低延遲或費用而犧牲一定的準確率，反之亦然。因此需要明確量化：如每增加多少 token 花費多少美元、響應延遲對用戶體驗的影響，以及人工干預一次的成本等。通過這些量化指標，可以建立收益/成本模型，判斷在何種改進措施下投入產出比最高。例如，如果某個子模塊的 grader 失敗率很高，就算投入更大模型減少錯誤，增加的成本是否值得？這樣的分析需要具體計算錯誤降低帶來的收益和新增成本。綜合考慮后，可制定策略：如對重點子任務使用高質量模型，對一般子任務用小模型，或只對 grader 評分未通過的例外場景啟用人工復核，將資源聚焦到最需要的環節上。

如在文章中，作者建立的成本體系：

公司每年處理 100 萬張收據，基準成本為每張收據 0.20 美元, 審計收據的成本約為 2 美元
未能審計我們應該審計的收據，平均成本為 30 美元，5% 的收據需要審計
現有流程

識別 97% 情況下需要審計的收據
2% 的情況下錯誤識別不需要審計的收據

這給了我們兩個基準比較：

如果我們正確識別每張收據，我們將花費 100,000 美元進行審計
我們目前的流程在審計上花費了 135,000 美元，并因未審計的費用損失了 45,000 美元

除此之外，人工驅動的過程還需額外花費 20 萬美元。

這里只是構建了審核系統中構建節約成本的高效Agent，但本質上沒有帶來利潤。如果在成本基礎上添加利潤，如生圖框架、廣告視頻生成等，首先要考慮整個工作流pipeline的節點構造（結果為導向）；然后考慮生成過程中的穩定可控性（結果為導向）；其次考慮成本（LLM選擇）與利潤（生成時間與效果），利潤這塊還可以通過增加用戶復用率（如生成視頻的精修）。

附錄

本人github項目地址：https://github.com/oncecoo
歡迎關注！

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/908805.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/908805.shtml
英文地址，請注明出處：http://en.pswp.cn/news/908805.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！