【AI論文】擴展大型語言模型（LLM）智能體在測試時的計算量

摘要：擴展測試時的計算量在提升大型語言模型（LLMs）的推理能力方面已展現出顯著成效。在本研究中，我們首次系統地探索了將測試時擴展方法應用于語言智能體，并研究了該方法在多大程度上能提高其有效性。具體而言，我們探索了不同的測試時擴展策略，包括：（1）并行采樣算法；（2）順序修訂策略；（3）驗證器與結果合并方法；（4）多樣化推演策略。我們仔細分析并消融了不同設計策略對語言智能體應用測試時擴展的影響，并得出以下發現：1. 擴展測試時的計算量能夠提升智能體的性能。2. 知道何時進行反思對智能體而言至關重要。3. 在不同的驗證和結果合并方法中，列表式方法表現最佳。4. 增加多樣化的推演對智能體的任務表現有積極影響。Huggingface鏈接：Paper page，論文鏈接：2506.12928。

研究背景和目的

研究背景

隨著大型語言模型（LLMs）在自然語言處理領域的快速發展，它們在各種任務中展現出了驚人的能力，如文本生成、問答系統、情感分析等。然而，盡管這些模型在基準測試中取得了顯著成績，但在實際應用中，尤其是在需要復雜推理和長時間思考的任務中，它們的性能仍然有限。這主要是因為當前的LLMs在推理過程中往往缺乏足夠的計算資源和時間來進行深入的思考和探索。

在智能體（Agents）領域，這一挑戰尤為明顯。智能體通常需要分解復雜問題為多個步驟，并依次調用多個模型或工具來解決問題。這種多步驟的推理過程不僅增加了出錯的概率，還使得模型在每一步都可能因為計算資源不足而無法達到最佳性能。因此，如何在測試時為智能體提供更多的計算資源，以提升其推理能力和任務完成效果，成為了一個亟待解決的問題。

此外，現有的測試時擴展方法（Test-Time Scaling, TTS）主要針對LLMs設計，直接應用于智能體框架時面臨諸多挑戰。智能體的多步驟推理過程與LLMs的端到端問題解決方式存在本質差異，傳統的TTS方法（如Best-of-N, Beam Search等）在智能體框架中可能無法充分發揮作用。因此，需要探索適合智能體框架的測試時擴展策略，以充分利用計算資源，提升智能體的整體性能。

研究目的

本研究的主要目的是系統地探索測試時擴展方法在智能體框架中的應用，并評估其對智能體性能的提升效果。具體而言，本研究旨在：

探索并行采樣算法在智能體測試時擴展中的應用：通過比較不同并行采樣算法（如Best-of-N, Beam Search, Tree Search等）在智能體框架中的性能，找出最適合智能體推理過程的采樣策略。

研究順序修訂策略對智能體性能的影響：通過引入反思模型，使智能體能夠在推理過程中進行自我反思和修訂，探索不同反思頻率和時機對智能體性能的影響，找出最優的反思策略。

評估驗證器和結果合并方法的有效性：通過比較不同的驗證器和結果合并方法（如投票、評分、列表式等），找出最適合智能體框架的驗證和合并策略，以提升智能體的推理準確性和穩定性。

探索多樣化推演策略對智能體性能的提升：通過引入多智能體協作采樣策略，增加智能體推理過程的多樣性，評估多樣化推演對智能體任務完成效果的影響。

研究方法

并行采樣算法

本研究選擇了多種主流的并行采樣算法進行評估，包括Best-of-N (BoN), Step-wise Best-of-N (BoN-wise), Beam Search, 和 Diverse Verifier Tree Search (DVTS)。這些算法在智能體框架中的實現方式如下：

Best-of-N (BoN)：在每個問題或任務上獨立采樣N個響應，然后選擇最佳響應。
Step-wise Best-of-N (BoN-wise)：在每個推理步驟上獨立采樣N個響應，然后選擇最佳響應作為下一步的輸入。
Beam Search：在每個步驟上維護一個固定大小的候選集，選擇最有可能的K個響應進行擴展。
Diverse Verifier Tree Search (DVTS)：將任務分解為多個子樹，每個子樹獨立進行Beam Search，以增加搜索的多樣性。

順序修訂策略

本研究引入了反思模型（RefM），使智能體能夠在推理過程中進行自我反思和修訂。反思模型通過總結當前步驟和最近的動作/觀察，生成總結信息（Sum_t），并在模型動作得分低于預設閾值時，將總結信息加入到LLM中，生成新的響應。

驗證器和結果合并方法

本研究比較了三種主流的結果合并方法：投票（Voting）、評分（Scoring）和列表式（List-wise）。

投票（Voting）：直接從所有候選響應中選擇多數。
評分（Scoring）：使用驗證模型對每個候選響應進行評分，選擇得分最高的響應。
列表式（List-wise）：將所有候選響應提供給LLM，由LLM直接選擇最優響應。

多樣化推演策略

本研究通過引入多智能體協作采樣策略，增加智能體推理過程的多樣性。具體而言，我們使用了不同的LLMs作為推演模型，每個LLMs在推理過程中展現出不同的能力特征。通過組合不同的LLMs，我們能夠最大化推演的多樣性，從而提升智能體的任務完成效果。

研究結果

并行采樣算法的效果

實驗結果表明，并行采樣算法能夠顯著提升智能體的性能。其中，Best-of-N (BoN)算法表現最佳，與基準模型相比，在簡單和中等難度任務上實現了顯著的性能提升。BoN-wise算法在復雜任務上表現最佳，超過了基準模型和BoN算法。相比之下，Beam Search和DVTS算法在基準模型上沒有顯示出顯著的性能提升。