論文標題
Cost-Efficient Serving of LLM Agents via Test-Time Plan Caching
論文地址
https://arxiv.org/pdf/2506.14852
作者背景
斯坦福大學
動機
大模型能力的飛速進步催收了大量 AI 智能體應用,它們協調多種模型、工具、工作流來解決實際復雜任務。然而在實際應用中,Agent 系統需要反復地調用 LLM,由此產生了顯著的成本,如何降低整個流程中的 token 開銷是各智能體應用亟待解決的問題
對于常見的 ReAct 架構,規劃器通常需要反復閱讀冗長的上下文,是整個 Agent 系統中的資源大戶,并且它還是系統的核心模塊,承擔著任務劃分、工具理解、信息整合等多項復雜任務,所以在實踐中往往需要更貴更強力的大模型(如 GPT 4+)才可勝任,這進一步加劇了項目成本
緩存是減少 LLM 應用服務成本的最常用技術之一,然而盡管規劃器經常需要處理相似的查詢,但查詢條件的細微差異與動態改變的環境使我們無法通過緩存直接復用之前的規劃結果,對此作者提出了一種緩存抽象思維的新方法,為規劃器提供問題的解決思路,從而降低規劃難度,進而使用更便宜的輕量模型代替部分昂貴的強模型調用
本文方法
本文所設計的 Agent 框架如下圖所示,它維護了一個專用于規劃器的思維模板庫。當問題匹配到思維模板的關鍵詞時,便將事先整理好的規劃思路放入上下文,然后去調用一個本地部署的輕量 LLM 來生成任務計劃;如果當前 query 匹配不上思維模板,則像原始流程一樣利用強模型生成任務計劃并執行;當任務執行成功后,還會對本次執行日志進行分析,從中提取出關鍵步驟并移除具體細節信息,得到抽象的思維模板以供未來使用
值得注意的是,作者最終采用了基于關鍵詞的嚴格匹配而非基于語義的相似度匹配來召回模板,這是因為后者可能過度強調特定的上下文細節(例如個人或公司的名稱),而非泛化的查詢意圖,可能會導致較高的假陽與假陰性率;而基于規則的匹配方法更加可靠,并且成本更低速度更快
緩存抽象的思維模板還帶來了一項好處:增強上下文更精簡。作者后續也嘗試了緩存細節執行過程日志的策略,但當前的輕量 LLM(如 LLaMa-3.2-8B)面對長上下下文時效果會變差
實驗結果
作者在涵蓋長文本的金融數據 FinanceBench 和表格數學應用題 Tabular Math Word Problems 上進行測試,使用 GPT-4o 作為強模型,本地部署的 LLaMa-3.2-8B 作為輕量模型,然后對比上述架構帶來的成本節省與性能變化,實驗組設置如下:
- Accuracy Optimal: 不使用緩存, 所有任務使用強模型來解決;
- Cost Optimal: 所有任務使用輕量模型解決;
- Full History Caching: 緩存完整的歷史執行日志;
- Semantic Caching: 使用語義相似度來匹配思維模板;
- Agentic Plan Caching: 使用關鍵詞來匹配思維模板
可見本文提出的架構設計讓系統的 token 成本減半,并且維持了 96.67% 的準確率