領域LLM九講——第4講 構建可測評、可優化的端到端商業AI Agent 系統

領域LLM九講——第4講 構建可測評、可優化的端到端商業AI Agent 系統

以 OpenAI Cookbook 的《receipt_inspection》示例為基礎,探討如何設計一個可測試、可優化的端到端 AI Agent 系統。整體流程分為三個階段:
(1) 端到端 Agent 構建(基線測試),
(2) 拆分中間任務與評分系統(可解釋性與對齊),
(3) 構建收益/成本框架(系統優化)。

在這里插入圖片描述

文章目錄

  • 領域LLM九講——第4講 構建可測評、可優化的端到端商業AI Agent 系統
    • 1. 構建端到端系統 —— V0 Agent(基線)
    • 2. 拆分中間任務與評分系統 —— V1 Agent(可解釋性與對齊)
    • 3. 構建收益/成本框架 —— V2 Agent(系統優化)
    • 附錄

1. 構建端到端系統 —— V0 Agent(基線)

  • 構建最簡化系統
    首先搭建一個最基礎的 Agent:直接使用一個 LLM 通過單次提示(或調用)完成整體任務。例如在收據解析場景中,可使用大模型對收據圖片進行文字識別,并一次性輸出所有字段信息與審核決策。示例中使用了 Pydantic 定義結構化輸出模型(包含商戶名稱、地點、時間、條目列表等字段),并調用 LLM 填充這些字段。該階段的目標是快速獲得一個粗粒度的可行解,并建立性能基準。此時可記錄關鍵指標(如整體識別準確率、誤判率等)作為后續優化的對比基線。
  • 優點與風險
    端到端設計簡單直接,開發迭代速度快。但也存在風險:缺乏內部可觀察性,一旦結果錯誤很難定位原因,容易出現“碰運氣”式的盲目迭代。沒有中間檢查點的系統可能隱藏關鍵錯誤,對復雜任務或高風險場景(如醫療診斷)欠妥。正如 OpenAI 所言,如果沒有將評估內置于流程核心,開發往往陷入“拍腦袋”的猜測和印象式判斷。因此該階段僅作為起點,一方面需要對輸出結果進行初步人工或規則驗證,另一方面需意識到端到端方案的局限。

2. 拆分中間任務與評分系統 —— V1 Agent(可解釋性與對齊)

  • 任務拆解
    在基線驗證后,將復雜任務拆分為可管理的子任務或步驟,增強系統可解釋性。例如,可按邏輯階段分別處理:先用 OCR 獲取文本,再讓 LLM 提取字段、計算總額,最后再讓 LLM 給出審核判定。示例中通過 Pydantic 模型來定義每個子任務的輸出(如交易項目列表、總金額等)。分解后,每個子任務的輸出都成為可獨立評估的中間結果,這有助于理解整體過程并針對性優化某一步。

  • 引入 Grader 評分
    針對每個中間輸出,引入一個Grader(評判器)來自動評估其質量,即“LLM 作為評判者”的思路。具體做法是設計多個評分模塊,對不同子輸出進行檢查:可以是簡單的相等檢查、文本相似度計算,或再次調用 LLM 作為評判模型。例如,收據示例定義了幾類 grader:字符串嚴格匹配檢查(如總額是否一致)、文本相似度檢查(如商戶名稱相似度)、以及基于模型的評分(如判斷提取的條目是否缺漏)。這些 grader 分別針對輸出的不同部分進行驗證(有的只看輸出本身,有的則需要對照正確答案)。Databricks 的 Agent Evaluation 也采用類似方法,使用一組 LLM 評判器分別對答案的正確性、相關性等方面進行評估。

  • 控制節點與瓶頸定位
    引入 grader 后,系統就有了“中控節點”,可以在每一步檢測失敗并采取措施。多個 Grader 評分后可合并結果,總結整體質量。如果整體評估失敗,系統能指出是哪一個子任務的 grader 首先未通過。比如若“總額檢查”未通過,就說明金額提取有問題;若“缺失條目檢查”未通過,就說明提取遺漏條目。這樣一方面提高了可解釋性,另一方面可針對性地調整模型或提示,形成閉環改進。使用 LLM-作為評判者的做法在實踐中被廣泛采用,它能自動化評估文本質量并提供明確評分指標,是人工評估的可擴展替代方案。綜上,在拆分任務并引入 Grader 后,我們可定位并修復 Agent 的弱點,從而對齊業務需求并逐步提升可靠性。

3. 構建收益/成本框架 —— V2 Agent(系統優化)

  • 多維度成本度量
    除準確率外,引入成本度量是優化的關鍵。首先要明確定義成本項:例如每張收據的處理成本(包含模型調用和基礎設施開銷)、低置信輸出的人力校驗成本、系統開發維護成本,以及因為錯誤帶來的業務損失(如漏檢或錯判的罰款等)。在 Agent 層面,可量化的成本指標包括:調用模型所用的 token 數(直接對應 API 費用)、端到端響應延遲(影響用戶體驗或業務處理速率)、人工干預頻率等。Databricks Agent Evaluation 就自動統計了整個任務過程中的總 token 數(含輸入、輸出)作為成本近似,也計算總時延。這些指標匯總到每次請求的評估報告中,幫助開發者了解資源消耗。
  • 性能/成本權衡
    系統優化即在多維指標上做權衡:精度、成本、延遲之間往往需要平衡。正如相關指導所指出的,需要權衡模型規模與延遲、質量與成本等因素。例如,可以先使用最強大的模型驗證正確性,再嘗試用更小模型或分步調用來降低成本;也可接受小幅度精度下降以換取大幅度的時間和費用節省。業務方可能愿意為降低延遲或費用而犧牲一定的準確率,反之亦然。因此需要明確量化:如每增加多少 token 花費多少美元、響應延遲對用戶體驗的影響,以及人工干預一次的成本等。通過這些量化指標,可以建立收益/成本模型,判斷在何種改進措施下投入產出比最高。例如,如果某個子模塊的 grader 失敗率很高,就算投入更大模型減少錯誤,增加的成本是否值得?這樣的分析需要具體計算錯誤降低帶來的收益和新增成本。綜合考慮后,可制定策略:如對重點子任務使用高質量模型,對一般子任務用小模型,或只對 grader 評分未通過的例外場景啟用人工復核,將資源聚焦到最需要的環節上。

如在文章中,作者建立的成本體系:

公司每年處理 100 萬張收據,基準成本為每張收據 0.20 美元, 審計收據的成本約為 2 美元
未能審計我們應該審計的收據,平均成本為 30 美元,5% 的收據需要審計
現有流程

  • 識別 97% 情況下需要審計的收據
  • 2% 的情況下錯誤識別不需要審計的收據

這給了我們兩個基準比較:

  1. 如果我們正確識別每張收據,我們將花費 100,000 美元進行審計
  2. 我們目前的流程在審計上花費了 135,000 美元,并因未審計的費用損失了 45,000 美元

除此之外,人工驅動的過程還需額外花費 20 萬美元。

這里只是構建了審核系統中構建節約成本的高效Agent,但本質上沒有帶來利潤。如果在成本基礎上添加利潤,如生圖框架、廣告視頻生成等,首先要考慮整個工作流pipeline的節點構造(結果為導向);然后考慮生成過程中的穩定可控性(結果為導向);其次考慮成本(LLM選擇)與利潤(生成時間與效果),利潤這塊還可以通過增加用戶復用率(如生成視頻的精修)。

附錄

本人github項目地址:https://github.com/oncecoo
歡迎關注!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/908805.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/908805.shtml
英文地址,請注明出處:http://en.pswp.cn/news/908805.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

MySQL體系架構解析(三):MySQL目錄與啟動配置全解析

MySQL中的目錄和文件 bin目錄 在 MySQL 的安裝目錄下有一個特別重要的 bin 目錄,這個目錄下存放著許多可執行文件。與其他系統的可執行文件類似,這些可執行文件都是與服務器和客戶端程序相關的。 啟動MySQL服務器程序 在 UNIX 系統中,用…

Linux線程與進程關系及底層實現

在操作系統中,線程切換相比進程切換更輕量級的關鍵原因之一是 緩存(Cache)的有效性,尤其是對 CPU 緩存(如 L1/L2/L3)和 TLB(Translation Lookaside Buffer)的影響。以下從緩存角度詳…

【論文閱讀30】Bi-LSTM(2024)

用于精確實時滑坡檢測的雙向LSTM模型:以印度梅加拉亞邦毛永格里姆為例的研究 IEEE Internet of Things Journal(簡稱 IoT?J)是一份 IEEE 自 2014 年起雙月刊發表的國際頂級學術期刊,專注于物聯網各領域的研究。 作者&#xff1a…

Java編程之原型模式

原型模式的定義 原型模式(Prototype Pattern)是一種創建型設計模式,通過復制已有對象來創建新對象,而非通過常規的手段的new關鍵字來實例化。適用于對象創建成本較高或需要動態配置的場景。 例如,在一個游戲開發中&am…

RAG質量評估

當完成了一個RAG系統的開發工作以后,還需要對該系統的性能進行評估。如何對RAG系統的性能進行評估呢?仔細分析RAG系統的產出成果,主要涉及以下幾點: (1)檢索器組件 檢索的相關文檔 context, (…

LLMs基礎學習(八)強化學習專題(1)

LLMs基礎學習(八)強化學習專題(1) 文章目錄 LLMs基礎學習(八)強化學習專題(1)學習資料資源強化學習是什么強化學習一句話精準定義 強化學習與其他學習類型的對比強化學習 vs 監督學習…

19-Oracle 23 ai Database Sharding-知識準備

小伙伴是不是經常遇見大規模集群和數量的時候,業務就提出要對數據進行sharding。 Oracle 和其他數據庫(如 MySQL、PostgreSQL、MongoDB 等) 為什么要進行分片(sharding),分片的原因是什么,實現…

分類與邏輯回歸 - 一個完整的guide

線性回歸和邏輯回歸其實比你想象的更相似 😃 它們都是所謂的參數模型。讓我們先看看什么是參數模型,以及它們與非參數模型的區別。 線性回歸 vs 邏輯回歸 線性回歸:用于回歸問題的線性參數模型。邏輯回歸:用于分類問題的線性參數…

英語寫作中“每一個”each individual、every individual、every single的用法

一、Individual :個體,相對于團體,例如: Individual competition (個人比賽),相對于team competition (團體比賽) Individual users (個人用戶)…

由于 z(x,y) 的變化導致的影響(那部分被分給了鏈式項)

? 本質問題:為什么鏈式法則中 ? F ? x \frac{\partial F}{\partial x} ?x?F? 不考慮 z z ( x , y ) zz(x,y) zz(x,y)? 🔍 一、關鍵是:偏導數的定義是什么? 我們從最根本的定義開始: ? F ( x , y…

python打卡day44@浙大疏錦行

知識點回顧: 預訓練的概念常見的分類預訓練模型圖像預訓練模型的發展史預訓練的策略預訓練代碼實戰:resnet18 作業: 嘗試在cifar10對比如下其他的預訓練模型,觀察差異,盡可能和他人選擇的不同嘗試通過ctrl進入resnet的…

十一(3) 類,加深對拷貝構造函數的理解

class ClassName { public: // 拷貝構造函數:參數是同類型對象的引用(通常為 const 引用) ClassName(const ClassName& other) { // 復制 other 的成員變量到當前對象 } }; 參數要求:必須是同類型對象的引用&#xff0…

網頁后端開發(基礎1--maven)

maven的作用: Maven是一款管理和構建Java項目的工具。 1.依賴管理: 方便快捷的管理項目依賴的資源(jar包) 不用手動下載jar包,只需要中maven中引用,maven會查找本地倉庫。若本地倉庫沒有,會直…

認識電子元器件---高低邊驅動

目錄 一、基本概念 二、關鍵參數對比 三、工作原理 (1)高邊驅動 (2)低邊驅動 四、典型的應用場景 五、如何選擇 一、基本概念 可以理解成:高低邊驅動是MOS/IGBT的一種應用方式 高低邊驅動是電路拓撲概念&#…

JavaScript 標簽加載

目錄 JavaScript 標簽加載script 標簽的 async 和 defer 屬性,分別代表什么,有什么區別1. 普通 script 標簽2. async 屬性3. defer 屬性4. type"module"5. 各種加載方式的對比6. 使用建議 JavaScript 標簽加載 script 標簽的 async 和 defer …

C/CPP 結構體、聯合體、位段內存計算 指南

C/CPP 結構體、聯合體、位段內存計算 指南 在C語言中,結構體、聯合體和位段是對數據的高級抽象,它們可以讓程序員以更易于理解的方式來操作復雜的數據結構。然而,這些結構在內存中的布局可能并不如它們的語法結構那樣直觀,特別是當…

ASR(語音識別)語音/字幕標注 通過via(via_subtitle_annotator)

文章目錄 1 VIA 官網資料2 語音/字幕標注3 鍵盤快捷鍵常規當一個時間片段被選中時圖像或視頻幀中的空間區域 1 VIA 官網資料 VIA官網:https://www.robots.ox.ac.uk/~vgg/software/via/ VIA官網標注示例:https://www.robots.ox.ac.uk/~vgg/software/via/…

mq安裝新版-3.13.7的安裝

一、下載包,上傳到服務器 https://github.com/rabbitmq/rabbitmq-server/releases/download/v3.13.7/rabbitmq-server-generic-unix-3.13.7.tar.xz 二、 erlang直接安裝 rpm -ivh erlang-26.2.4-1.el8.x86_64.rpm不需要配置環境變量,直接就安裝了。 erl…

高通平臺PCIE EP模式log丟失問題

高通平臺PCIE EP模式log丟失問題 1 問題背景2 問題分析2.1 對比USB2.1.1 Logtool優化2.1.2 Device mhi與fs對比2.2 優化方案2.2.1 Diag系統優化2.2.2 Host mhi優化3 最終成果1 問題背景 高通5G模組如SDX55\SDX62\SDX65\SDX72\SDX75等支持pcie ep模式。會通過pcie與host(如MT7…

Python應用輸入輸出函數

大家好!在 Python 編程中,輸入輸出函數是與用戶進行交互的橋梁。通過輸入函數,我們可以獲取用戶的輸入數據;通過輸出函數,我們可以向用戶展示程序的運行結果。對于初學者來說,掌握基本的輸入輸出操作是編程入門的重要一…