【AI論文】擴展大型語言模型(LLM)智能體在測試時的計算量

摘要:擴展測試時的計算量在提升大型語言模型(LLMs)的推理能力方面已展現出顯著成效。在本研究中,我們首次系統地探索了將測試時擴展方法應用于語言智能體,并研究了該方法在多大程度上能提高其有效性。具體而言,我們探索了不同的測試時擴展策略,包括:(1)并行采樣算法;(2)順序修訂策略;(3)驗證器與結果合并方法;(4)多樣化推演策略。我們仔細分析并消融了不同設計策略對語言智能體應用測試時擴展的影響,并得出以下發現:1. 擴展測試時的計算量能夠提升智能體的性能。2. 知道何時進行反思對智能體而言至關重要。3. 在不同的驗證和結果合并方法中,列表式方法表現最佳。4. 增加多樣化的推演對智能體的任務表現有積極影響。Huggingface鏈接:Paper page,論文鏈接:2506.12928。

研究背景和目的

研究背景

隨著大型語言模型(LLMs)在自然語言處理領域的快速發展,它們在各種任務中展現出了驚人的能力,如文本生成、問答系統、情感分析等。然而,盡管這些模型在基準測試中取得了顯著成績,但在實際應用中,尤其是在需要復雜推理和長時間思考的任務中,它們的性能仍然有限。這主要是因為當前的LLMs在推理過程中往往缺乏足夠的計算資源和時間來進行深入的思考和探索。

在智能體(Agents)領域,這一挑戰尤為明顯。智能體通常需要分解復雜問題為多個步驟,并依次調用多個模型或工具來解決問題。這種多步驟的推理過程不僅增加了出錯的概率,還使得模型在每一步都可能因為計算資源不足而無法達到最佳性能。因此,如何在測試時為智能體提供更多的計算資源,以提升其推理能力和任務完成效果,成為了一個亟待解決的問題。

此外,現有的測試時擴展方法(Test-Time Scaling, TTS)主要針對LLMs設計,直接應用于智能體框架時面臨諸多挑戰。智能體的多步驟推理過程與LLMs的端到端問題解決方式存在本質差異,傳統的TTS方法(如Best-of-N, Beam Search等)在智能體框架中可能無法充分發揮作用。因此,需要探索適合智能體框架的測試時擴展策略,以充分利用計算資源,提升智能體的整體性能。

研究目的

本研究的主要目的是系統地探索測試時擴展方法在智能體框架中的應用,并評估其對智能體性能的提升效果。具體而言,本研究旨在:

  1. 探索并行采樣算法在智能體測試時擴展中的應用:通過比較不同并行采樣算法(如Best-of-N, Beam Search, Tree Search等)在智能體框架中的性能,找出最適合智能體推理過程的采樣策略。
  1. 研究順序修訂策略對智能體性能的影響:通過引入反思模型,使智能體能夠在推理過程中進行自我反思和修訂,探索不同反思頻率和時機對智能體性能的影響,找出最優的反思策略。
  1. 評估驗證器和結果合并方法的有效性:通過比較不同的驗證器和結果合并方法(如投票、評分、列表式等),找出最適合智能體框架的驗證和合并策略,以提升智能體的推理準確性和穩定性。
  1. 探索多樣化推演策略對智能體性能的提升:通過引入多智能體協作采樣策略,增加智能體推理過程的多樣性,評估多樣化推演對智能體任務完成效果的影響。

研究方法

并行采樣算法

本研究選擇了多種主流的并行采樣算法進行評估,包括Best-of-N (BoN), Step-wise Best-of-N (BoN-wise), Beam Search, 和 Diverse Verifier Tree Search (DVTS)。這些算法在智能體框架中的實現方式如下:

  • Best-of-N (BoN):在每個問題或任務上獨立采樣N個響應,然后選擇最佳響應。
  • Step-wise Best-of-N (BoN-wise):在每個推理步驟上獨立采樣N個響應,然后選擇最佳響應作為下一步的輸入。
  • Beam Search:在每個步驟上維護一個固定大小的候選集,選擇最有可能的K個響應進行擴展。
  • Diverse Verifier Tree Search (DVTS):將任務分解為多個子樹,每個子樹獨立進行Beam Search,以增加搜索的多樣性。
順序修訂策略

本研究引入了反思模型(RefM),使智能體能夠在推理過程中進行自我反思和修訂。反思模型通過總結當前步驟和最近的動作/觀察,生成總結信息(Sum_t),并在模型動作得分低于預設閾值時,將總結信息加入到LLM中,生成新的響應。

驗證器和結果合并方法

本研究比較了三種主流的結果合并方法:投票(Voting)、評分(Scoring)和列表式(List-wise)。

  • 投票(Voting):直接從所有候選響應中選擇多數。
  • 評分(Scoring):使用驗證模型對每個候選響應進行評分,選擇得分最高的響應。
  • 列表式(List-wise):將所有候選響應提供給LLM,由LLM直接選擇最優響應。
多樣化推演策略

本研究通過引入多智能體協作采樣策略,增加智能體推理過程的多樣性。具體而言,我們使用了不同的LLMs作為推演模型,每個LLMs在推理過程中展現出不同的能力特征。通過組合不同的LLMs,我們能夠最大化推演的多樣性,從而提升智能體的任務完成效果。

研究結果

并行采樣算法的效果

實驗結果表明,并行采樣算法能夠顯著提升智能體的性能。其中,Best-of-N (BoN)算法表現最佳,與基準模型相比,在簡單和中等難度任務上實現了顯著的性能提升。BoN-wise算法在復雜任務上表現最佳,超過了基準模型和BoN算法。相比之下,Beam Search和DVTS算法在基準模型上沒有顯示出顯著的性能提升。

順序修訂策略的影響

實驗結果表明,了解何時進行反思對智能體至關重要。在每一步都進行反思的策略并沒有帶來明顯的性能提升,反而可能在中等復雜度任務上造成干擾。相比之下,僅在模型動作得分低于預設閾值時進行反思的策略表現最佳,能夠在所有任務級別上實現性能提升。

驗證器和結果合并方法的有效性

實驗結果表明,列表式(List-wise)方法在驗證和結果合并方面表現最佳。無論是投票、評分還是列表式方法,列表式方法都能夠更準確地評估候選響應的質量,并選擇出最優響應。

多樣化推演策略的效果

實驗結果表明,增加推演的多樣性對智能體的任務完成效果有積極影響。通過引入多智能體協作采樣策略,我們能夠最大化推演的多樣性,從而提升智能體的整體性能。實驗結果顯示,在混合模型設置下,使用多個不同模型的組合能夠實現比單一模型更高的性能。

研究局限

盡管本研究在測試時擴展方法在智能體框架中的應用方面取得了顯著進展,但仍存在一些局限性:

  1. 驗證模型的準確性:本研究中使用的驗證模型(RM)在評估候選響應質量時可能存在一定的誤差。未來研究可以探索更準確的驗證模型,以提升智能體推理過程的可靠性。
  1. 反思頻率和時機的選擇:本研究中反思頻率和時機的選擇是通過實驗確定的,可能存在一定的主觀性。未來研究可以探索更自動化的方法來確定最優的反思頻率和時機。
  1. 多樣化推演策略的實現:本研究中多樣化推演策略的實現是通過引入多智能體協作采樣策略來實現的,這可能增加了系統的復雜性和計算成本。未來研究可以探索更高效的多樣化推演策略,以降低系統的復雜性和計算成本。
  1. 基準測試的選擇:本研究中使用的基準測試(GAIA)可能無法完全反映智能體在實際應用中的性能。未來研究可以選擇更多樣化的基準測試,以更全面地評估智能體的性能。

未來研究方向

基于本研究的結果和局限性,未來研究可以從以下幾個方面展開:

  1. 探索更準確的驗證模型:未來研究可以探索使用更先進的驗證模型(如基于深度學習的驗證模型)來評估候選響應的質量,以提升智能體推理過程的可靠性。
  1. 自動化反思策略:未來研究可以探索使用自動化方法來確定最優的反思頻率和時機,以減少人工干預,并提升智能體的自適應能力。
  1. 高效的多樣化推演策略:未來研究可以探索使用更高效的多樣化推演策略(如基于遺傳算法的推演策略)來降低系統的復雜性和計算成本,同時保持推演的多樣性。
  1. 多模態智能體的測試時擴展:未來研究可以探索將測試時擴展方法應用于多模態智能體(如結合文本、圖像和音頻的智能體),以提升多模態智能體的推理能力和任務完成效果。
  1. 實際應用場景的測試:未來研究可以在更多實際應用場景中測試測試時擴展方法的效果,如金融分析、醫療診斷和自動駕駛等領域,以驗證其在實際應用中的有效性和可靠性。

總之,本研究系統地探索了測試時擴展方法在智能體框架中的應用,并取得了顯著進展。然而,仍存在一些局限性和挑戰需要未來研究進一步解決。通過不斷的研究和改進,有望推動智能體在更廣泛領域的應用和發展。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/910608.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/910608.shtml
英文地址,請注明出處:http://en.pswp.cn/news/910608.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

LeapMotion-PhysicalHandsManager 類詳解

PhysicalHandsManager 類詳解 這個類是 Ultraleap 物理手交互系統的核心管理器,負責處理手部物理交互的不同模式。下面我將詳細解析這個類的結構和功能: 類概述 PhysicalHandsManager 繼承自 LeapProvider,是物理手交互系統的中央控制器: public class PhysicalHandsMa…

vue-22(理解組合式 API:setup、ref、reactive)

Vue.js 中的組合式 API 代表了我們構建和組織組件方式的重大轉變。它為傳統的選項式 API 提供了一種更靈活、更強大的替代方案,尤其適用于復雜的應用程序。本章將深入探討組合式 API 的核心概念:setup函數、ref和reactive,為你構建更可維護、…

【Golang玩轉MCP】-實現一個加減乘除MCP服務

文章目錄 概要1 首先創建一個MCP服務器2 添加MCP工具如何測試我們的MCP服務功能是否正常呢小結 概要 今天我們使用golang簡單實現一個加減乘除MCP服務 1 首先創建一個MCP服務器 s : server.NewMCPServer("Hello World Server","1.0.0",server.WithToolCa…

計算機網絡期末 網絡基礎概述

目錄 網絡的定義歷史發展(了解) 網絡的分類,功能和應用(熟悉) 網絡的組成與結構(理解) 網絡的 OSI 七層參考模型(熟悉) 網絡的 TCP/IP 四次模型(理解) 網絡有關性能指標(掌握) 網絡的定義歷史發展(了解) 計算機網絡是什么 四個階段 總結 網絡 互連網 因特網的…

SwiftUI學習筆記day4: Lecture 4 | Stanford CS193p 2023

Lecture 4 | Stanford CS193p 2023 課程鏈接:https://www.youtube.com/watch?v4CkEVfdqjLw 代碼倉庫:iOS 課程大綱: 簡要課程大綱:SwiftUI 高級主題 Swift 訪問控制(Access Control) 5 個級別&#xff1…

Docker 高級管理——容器通信技術與數據持久化

目錄 一、Docker 容器的網絡模式 1. Bridge 模式 2. Host 模式 3. Container 模式 4. None 模式 5. Overlay 模式 6. Macvlan 模式 7. 自定義網絡模式 二、端口映射 1. 端口映射 2. 隨機映射端口 3. 指定映射端口 (1)固定端口 (…

git操作案例 -設置遠程分支,并提交到新遠程新分支

文章目錄 前言一、分析當前的問題二、修改遠程倉庫地址(一)修改遠程倉庫地址場景 現有保留遠程分支場景替換現有遠程分支 二、 找回已經提交的文件場景:提交后,代碼在本地倉庫但未推送 三、同步遠程分支四、提交到新遠程的新分支 …

mysql一張表,其中一個字段設置了唯一索引,又設置了普通索引,查詢的時候很慢,沒有走普通索引,是const

問題分析 在 MySQL 中,當一個字段同時存在唯一索引和普通索引時,查詢優化器通常會優先選擇最嚴格的索引(即能最快縮小結果集的索引)。在你的場景中,優化器選擇了唯一索引并將查詢視為const類型,這通常是高…

ARCGIS國土超級工具集1.6更新說明

ARCGIS國土超級工具集V1.6版本,功能已增加至60 個。本次更新在V1.5版本的基礎上,除修復了使用時發現的若干小問題外,還更新及新增了若干工具。其中勘測定界工具欄更新了界址點西北角重排工具,新增了提示圖斑起始點、指定圖斑起始點…

零基礎學習RabbitMQ(2)--Linux安裝RabbitMQ

注意:這里使用的是ubuntu系統 1. 安裝Erlang RabbitMQ需要Erlang語言的支持,在安裝rabbitMQ之前需要安裝Erlang #更新軟件包 sudo apt-get update #安裝erlang sudo apt-get install erlang 安裝后輸入 rel可查看Erlang版本: 輸入halt().…

Centos進單用戶模式

一、開機按E 二、修改里面的linux行 把ro 修改成rw init/sysroot/bin/sh 修改前: 修改后: 三、ctrl x退出,進入單用戶模式

RabbitMQ 的工作流程

RabbitMQ 是一個消息中間件,實現了生產者消費者模型,可以用來接收、存儲、轉發消息。 專有名詞介紹 要了解 RabbitMQ 的工作流程,我們需要先了解下面幾個關鍵詞: 1、Producer 生產者,即向 RabbitMQ 發送消息。 2…

HTTP——不同版本區別

目錄 HTTP1.0和HTTP1.1的區別 HTTP1.1相比HTTP1.0性能上的改進: 但是HTTP1.1還是有性能瓶頸: HTTP/2做了什么優化? HTTP/3的優點 HTTP與HTTPS的區別 HTTPS的工作原理 1.ClientHello 2.ServerHello 3.客戶端回應 4.服務器的最后回應…

關于M0+芯片的IAP應用導致延時不準確解釋

前言:在給項目中使用的M0芯片做IAP功能時一切一切都是那么的自然水到渠成,但是筆者在實現完IAP功能后,卻發現APP端掛載的單總線功能崩潰了,最開始沒有懷疑是bootload導致的。因為筆者在使用同一篇代碼的時候單總線掛載的設備不同&…

安卓登錄學習筆記

1. 背景與目標 (Background and Goal) 背景: 我們要創建一個用戶登錄界面。用戶輸入用戶名和密碼,點擊“登錄”按鈕。應用會顯示一個加載中的“圈圈”(ProgressBar),然后模擬一個耗時2秒的網絡請求。根據請求結果,界面…

Git(三):分支管理

文章目錄 Git(三):分支管理理解分支創建分支切換分支合并分支刪除分支合并沖突分支管理策略分支策略Bug分支刪除臨時分支 Git(三):分支管理 理解分支 本章介紹Git的殺手級功能之一:分支 分支就 是科幻電影里面的平行宇宙,當你正…

電子電氣架構 --- 電氣架構基礎(汽車電子)

我是穿拖鞋的漢子,魔都中堅持長期主義的汽車電子工程師。 老規矩,分享一段喜歡的文字,避免自己成為高知識低文化的工程師: 做到欲望極簡,了解自己的真實欲望,不受外在潮流的影響,不盲從,不跟風。把自己的精力全部用在自己。一是去掉多余,凡事找規律,基礎是誠信;二是…

RestClient 功能介紹、完整使用示例演示, 和RestTemplate、WebClient 對比

RestClient功能介紹 RestClient是Spring Framework 6.1版本引入的同步HTTP客戶端,旨在替代老舊的RestTemplate,提供更現代、流暢的API設計。其核心特點包括: 流暢API(Fluent API): 支持鏈式調用&#xff0…

VM經常遇見的運行慢幾種情況、以及設置方法

大家好,我是東哥說-MES 啟動虛擬機是提示如下內容 “無法打開內核設備“\.\VMCIDev\VMX”: 操作成功完成。是否在安裝 VMware Workstation 后重新引導? 模塊“DevicePowerOn”啟動失敗。 未能啟動虛擬機。” 2.用記事本打開安裝目錄下TIA Portal STEP7 Prof Safety WinCC …

【C++語法】類和對象(4)——日期類和const成員函數

6.類和對象&#xff08;4&#xff09; 文章目錄 6.類和對象&#xff08;4&#xff09;回顧簡單日期類的實現代碼補充&#xff1a;前置與后置的重載區別補充&#xff1a;關于流插入運算符&#xff08;<<&#xff09;的解釋拓展&#xff1a;仿照流插入操作符(<<)的作…