Agent成本降低46%：緩存規劃器的思路模板

論文標題

Cost-Efficient Serving of LLM Agents via Test-Time Plan Caching

論文地址

https://arxiv.org/pdf/2506.14852

作者背景

斯坦福大學

動機

大模型能力的飛速進步催收了大量 AI 智能體應用，它們協調多種模型、工具、工作流來解決實際復雜任務。然而在實際應用中，Agent 系統需要反復地調用 LLM，由此產生了顯著的成本，如何降低整個流程中的 token 開銷是各智能體應用亟待解決的問題

對于常見的 ReAct 架構，規劃器通常需要反復閱讀冗長的上下文，是整個 Agent 系統中的資源大戶，并且它還是系統的核心模塊，承擔著任務劃分、工具理解、信息整合等多項復雜任務，所以在實踐中往往需要更貴更強力的大模型（如 GPT 4+）才可勝任，這進一步加劇了項目成本

在這里插入圖片描述

緩存是減少 LLM 應用服務成本的最常用技術之一，然而盡管規劃器經常需要處理相似的查詢，但查詢條件的細微差異與動態改變的環境使我們無法通過緩存直接復用之前的規劃結果，對此作者提出了一種緩存抽象思維的新方法，為規劃器提供問題的解決思路，從而降低規劃難度，進而使用更便宜的輕量模型代替部分昂貴的強模型調用

本文方法

本文所設計的 Agent 框架如下圖所示，它維護了一個專用于規劃器的思維模板庫。當問題匹配到思維模板的關鍵詞時，便將事先整理好的規劃思路放入上下文，然后去調用一個本地部署的輕量 LLM 來生成任務計劃；如果當前 query 匹配不上思維模板，則像原始流程一樣利用強模型生成任務計劃并執行；當任務執行成功后，還會對本次執行日志進行分析，從中提取出關鍵步驟并移除具體細節信息，得到抽象的思維模板以供未來使用

在這里插入圖片描述

值得注意的是，作者最終采用了基于關鍵詞的嚴格匹配而非基于語義的相似度匹配來召回模板，這是因為后者可能過度強調特定的上下文細節（例如個人或公司的名稱），而非泛化的查詢意圖，可能會導致較高的假陽與假陰性率；而基于規則的匹配方法更加可靠，并且成本更低速度更快

在這里插入圖片描述

緩存抽象的思維模板還帶來了一項好處：增強上下文更精簡。作者后續也嘗試了緩存細節執行過程日志的策略，但當前的輕量 LLM（如 LLaMa-3.2-8B）面對長上下下文時效果會變差

實驗結果

作者在涵蓋長文本的金融數據 FinanceBench 和表格數學應用題 Tabular Math Word Problems 上進行測試，使用 GPT-4o 作為強模型，本地部署的 LLaMa-3.2-8B 作為輕量模型，然后對比上述架構帶來的成本節省與性能變化，實驗組設置如下：

Accuracy Optimal: 不使用緩存，所有任務使用強模型來解決；
Cost Optimal: 所有任務使用輕量模型解決；
Full History Caching： 緩存完整的歷史執行日志；
Semantic Caching： 使用語義相似度來匹配思維模板；
Agentic Plan Caching： 使用關鍵詞來匹配思維模板

在這里插入圖片描述

可見本文提出的架構設計讓系統的 token 成本減半，并且維持了 96.67% 的準確率

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/910450.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/910450.shtml
英文地址，請注明出處：http://en.pswp.cn/news/910450.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！