Agent成本降低46%:緩存規劃器的思路模板

論文標題

Cost-Efficient Serving of LLM Agents via Test-Time Plan Caching

論文地址

https://arxiv.org/pdf/2506.14852

作者背景

斯坦福大學

動機

大模型能力的飛速進步催收了大量 AI 智能體應用,它們協調多種模型、工具、工作流來解決實際復雜任務。然而在實際應用中,Agent 系統需要反復地調用 LLM,由此產生了顯著的成本,如何降低整個流程中的 token 開銷是各智能體應用亟待解決的問題

對于常見的 ReAct 架構,規劃器通常需要反復閱讀冗長的上下文,是整個 Agent 系統中的資源大戶,并且它還是系統的核心模塊,承擔著任務劃分、工具理解、信息整合等多項復雜任務,所以在實踐中往往需要更貴更強力的大模型(如 GPT 4+)才可勝任,這進一步加劇了項目成本

在這里插入圖片描述

緩存是減少 LLM 應用服務成本的最常用技術之一,然而盡管規劃器經常需要處理相似的查詢,但查詢條件的細微差異與動態改變的環境使我們無法通過緩存直接復用之前的規劃結果,對此作者提出了一種緩存抽象思維的新方法,為規劃器提供問題的解決思路,從而降低規劃難度,進而使用更便宜的輕量模型代替部分昂貴的強模型調用

本文方法

本文所設計的 Agent 框架如下圖所示,它維護了一個專用于規劃器的思維模板庫。當問題匹配到思維模板的關鍵詞時,便將事先整理好的規劃思路放入上下文,然后去調用一個本地部署的輕量 LLM 來生成任務計劃;如果當前 query 匹配不上思維模板,則像原始流程一樣利用強模型生成任務計劃并執行;當任務執行成功后,還會對本次執行日志進行分析,從中提取出關鍵步驟并移除具體細節信息,得到抽象的思維模板以供未來使用

在這里插入圖片描述

值得注意的是,作者最終采用了基于關鍵詞的嚴格匹配而非基于語義的相似度匹配來召回模板,這是因為后者可能過度強調特定的上下文細節(例如個人或公司的名稱),而非泛化的查詢意圖,可能會導致較高的假陽與假陰性率;而基于規則的匹配方法更加可靠,并且成本更低速度更快

在這里插入圖片描述

緩存抽象的思維模板還帶來了一項好處:增強上下文更精簡。作者后續也嘗試了緩存細節執行過程日志的策略,但當前的輕量 LLM(如 LLaMa-3.2-8B)面對長上下下文時效果會變差

實驗結果

作者在涵蓋長文本的金融數據 FinanceBench 和表格數學應用題 Tabular Math Word Problems 上進行測試,使用 GPT-4o 作為強模型,本地部署的 LLaMa-3.2-8B 作為輕量模型,然后對比上述架構帶來的成本節省與性能變化,實驗組設置如下:

  • Accuracy Optimal: 不使用緩存, 所有任務使用強模型來解決;
  • Cost Optimal: 所有任務使用輕量模型解決;
  • Full History Caching: 緩存完整的歷史執行日志;
  • Semantic Caching: 使用語義相似度來匹配思維模板;
  • Agentic Plan Caching: 使用關鍵詞來匹配思維模板

在這里插入圖片描述

可見本文提出的架構設計讓系統的 token 成本減半,并且維持了 96.67% 的準確率

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/910450.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/910450.shtml
英文地址,請注明出處:http://en.pswp.cn/news/910450.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Vue 3 + Axios 完整入門實戰指南

從入門到深入,手把手教你在 Vue 3 中正確使用 Axios,支持全局掛載、局部分離、使用 proxy 連接場景,適合所有前端小白和實戰設計。 大家好,我是石小石!一個熱愛技術分享的開源社區貢獻者,小冊《油猴腳本實戰…

CppCon 2017 學習:Effective Qt: 2017 Edition

這段內容講的是 Qt 容器(Qt Containers)和標準庫容器(STL Containers)之間的選擇和背景: 主要觀點: Qt 容器的歷史背景 Qt 自身帶有一套容器類(如 QList, QVector, QMap 等)&#…

Pandas 核心數據結構詳解:Series 和 DataFrame 完全指南

1. 前言:為什么需要 Pandas 數據結構? 在數據處理和分析中,我們需要高效的方式來存儲和操作結構化數據。Python 原生的列表(List)和字典(Dict)雖然靈活,但缺乏針對數據分析的優化。…

使用 Solscan API 的開發指南:快速獲取 Solana 鏈上數據

Solana 生態中有多個區塊瀏覽器,其中 Solscan 提供了功能全面的 API,適用于查詢地址資產、Solana 生態中有多個區塊瀏覽器,其中 Solscan 提供了功能全面的 API,適用于查詢地址資產、交易詳情、合約交互等多種開發場景。相比直接使…

高效工具-libretv

什么是libretv? LibreTV 是一個輕量級、免費的在線視頻搜索與觀看平臺,提供來自多個視頻源的內容搜索與播放服務。無需注冊,即開即用,支持多種設備訪問。項目結合了前端技術和后端代理功能,可部署在支持服務端功能的各類網站托管…

回溯----5.括號生成

題目鏈接 /** 合法括號生成規則: 第一個括號必須是左括號(第一個為右必定無法閉合) 選擇過程中左括號數量必須小于n才可選擇左括號(大于n則一定有括號無法閉合) 左括號數量必須大于右括號數量才可選擇右括號(相等代表所有前驅括號都已閉合) 所需參數: left 記錄已選擇左括號數…

【weaviate】分布式數據寫入之LSM樹深度解析:讀寫放大的權衡

文章目錄 一、LSM樹的設計哲學:寫優化的根本動機1、 傳統B樹存儲的性能瓶頸2、 LSM樹的根本性創新 二、寫入路徑的深度技術分析1、 WAL機制的精密設計2、 MemTable的數據結構3、 刷盤(Flush)過程的技術細節 三、Compaction策略:LS…

Pygame 大魚吃小魚

【Pygame 大魚吃小魚】是一款基于Python編程語言和Pygame庫開發的趣味游戲。Pygame是Python中一個廣泛用于開發2D游戲的開源模塊集合,它提供了豐富的功能,如窗口管理器、事件處理、圖形繪制等,使得初學者也能快速上手創建游戲。 這段 Python …

【為什么在觸發的事件中修改控件屬性需要使用`Invoke`】

在C#中,特別是在使用Windows Forms或WPF等GUI框架時,控件的屬性和狀態通常只能在創建它們的線程(即UI線程,即主線程或用戶界面線程)中直接修改。這是由于這些框架的設計基于單線程模型,其中所有與用戶界面&…

Android 當apk是系統應用時,無法使用webView的解決方案

最近在做項目時,遇到了一個無法使用webView的問題,apk是系統應用,點擊加載webView時應用就是崩潰,原因是系統應用時,Android會覺得webView不安全,不避讓加載。 解決的思路就是使用映射,把原生的…

ArcGIS Pro無插件加載(無偏移)天地圖!一次添加長久使用

以前我們介紹過:ArcGIS無插件加載(無偏移)天地圖。這次我們來介紹ArcGIS Pro中如何添加天地圖。 我們將通過從天地圖官網自己添加服務鏈接并添加至收藏的方式以及應急的方法來做本次的介紹。天地圖的數據主要包括影像、電子地圖、地形圖等。我…

Go堆內存管理

# Go堆內存管理 1. Go內存模型層級結構 Golang內存管理模型與TCMalloc的設計極其相似。基本輪廓和概念也幾乎相同,只是一些規則和流程存在差異。 2. Go內存管理的基本概念 Go內存管理的許多概念在TCMalloc中已經有了,含義是相同的,只是名字…

零售 EDI:Chewy EDI 項目注意事項

在此前的文章《供應商對接Chewy的EDI需求》中,介紹了Chewy的EDI需求,本文主要為大家分享Chewy對于各個業務單據的細節性需求,了解這些細節性注意事項將幫助企業快速基于知行軟件提供的EDI服務與Chewy建立EDI對接。 基于知行之橋EDI系統能夠通…

Android錄制視頻自帶鋪滿多行水印

文章目錄 引言環境要求代碼實現總結 引言 之前做過幾種水印需求,這篇文章是關于使用Android原生庫開發錄制視頻自帶滿幀文字水印。 環境要求 Android 7.0以上Android Studio ,官方開發者官網視頻錄制功能參考開源庫PictureSelector的camerax庫 //用到的…

觀遠ChatBI:加速零售消費企業數據驅動的敏捷決策

近年來,隨著國產大模型(如DeepSeek)的快速發展,企業對智能化數據分析工具的需求日益增長。觀遠數據推出的ChatBI,基于大語言模型(LLM)打造,旨在通過自然語言交互降低數據分析門檻&am…

鴻蒙NEXT-鴻蒙三層架構搭建,嵌入HMRouter,實現便捷跳轉,新手攻略。(1/3)

接下來,我將手把手帶領大家去完善,搭建一個鴻蒙的三層架構,另實現HMRouter的嵌入。完成后,大家可任意跳轉頁面,在三層架構中,書寫屬于自己的篇章。 第0步,項目與AGC華為控制臺關聯起來 首先AG…

鴻蒙ArkTs仿網易云音樂項目:架構剖析與功能展示

鴻蒙ArkTs仿網易云音樂項目:架構剖析與功能展示 一、引言 在移動應用開發的浪潮中,音樂類應用始終占據著重要的一席之地。網易云音樂憑借其豐富的音樂資源、個性化的推薦算法和獨特的社交互動功能,深受廣大用戶的喜愛。本文將詳細介紹一個基…

【web 安全】從 HTTP 無狀態到現代身份驗證機制

文章目錄 Web 安全與系統設計Web存在的問題:Web 是無狀態的解決方案一、早期解決方案:Session Cookie 的誕生二、第二階段:Token 的出現(前后端分離 移動端的解決方案)三、分析總結:1.早期版本&#xff1…

FlutterUnit TolyUI | 布局游樂場

FlutterUnit 基于 TolyUI 大大簡化了界面構建的代碼復雜程度,因此之前想要實現的一些小功能,就可以輕松支持。布局游樂場是通過交互的方式來 直觀體驗 組件的布局特性,從而更易學和掌握。目前 FlutterUnit 已在 知識集錄模塊新增了 布局寶庫&…

【數據分析一:Data Collection】信息檢索

本節內容含有各典型數據集的推薦,以及其網址,大家根據需要自取 一、檢索 最簡單、最靈活的數據獲取方式就是依靠檢索: Google:更適合搜索英文信息 Google Dataset Search(Google 數據集搜索) 網址&…