AGILE：開啟LLM Agent強化學習的創新框架

在大語言模型（LLMs）蓬勃發展的今天，基于LLMs構建的智能體成為研究熱點。但如何將各組件整合優化仍是難題。本文提出的AGILE框架給出了創新解法，它不僅統一多組件，還讓智能體性能超越GPT-4。想知道它是如何做到的嗎？快來一探究竟！

論文標題
AGILE: A Novel Reinforcement Learning Framework of LLM Agents
來源
arXiv:2405.14751v2 [cs.LG] 5 Nov 2024
https://arxiv.org/abs/2405.14751

文章核心

研究背景

大語言模型（LLMs）展現出強大能力，推動了基于LLMs的智能體（LLM agents）發展，但目前尚不清楚如何將規劃、反思、工具使用等組件整合到統一框架并進行端到端優化。

研究問題

缺乏統一框架整合和優化LLM智能體的多個組件，如規劃、反思、工具使用等，各組件間協同工作機制不明確。
現有復雜問答（QA）基準測試無法全面評估智能體結合所有模塊和能力的表現，難以反映智能體在實際應用中的綜合能力。
大語言模型存在幻覺、缺乏長尾知識等問題，在智能體中如何有效利用人類專家知識提升性能，同時平衡準確性和人力成本是挑戰。

主要貢獻

提出新強化學習框架：設計AGILE（AGent that Interacts and Learns from Environments）框架，實現智能體端到端學習。該框架讓智能體可主動向人類專家尋求建議，處理復雜問題時能保證準確性，并從人類學習中提升適應新任務的能力。
開發新基準數據集：創建ProductQA數據集，包含88,229個問答對，涉及26個QA任務，涵蓋多種問題類型，可全面評估智能體處理歷史信息、使用工具、與人交互、自我評估和反思等能力。
驗證框架有效性：在ProductQA、MedMCQA和HotPotQA等多個任務上實驗，結果表明基于7B和13B LLMs且經近端策略優化算法（PPO）訓練的AGILE智能體性能優于GPT-4智能體。

方法論精要

1. 核心算法/框架：AGILE框架由LLM、記憶、工具和執行器四個模塊構成。將智能體構建視為強化學習問題，LLM作為策略模型，執行器根據LLM指令實現狀態轉換，環境給出獎勵，通過這種方式實現智能體與環境的交互和學習。

2. 關鍵參數設計原理：在策略學習中，無論是模仿學習（IL）還是強化學習（RL），都將損失計算限定在動作令牌上，并使用當前LLM上下文$ c_{i} $作為注意力掩碼。對于長軌跡問題， ? ? 通過將軌跡劃分為較小片段，并提出會話級優化算法 ? ? ，引入代理獎勵$ \overline{r}{k}\left(\tau{i}\right) $ ，簡化優化過程。

3. 創新性技術組合：結合LLM、記憶、工具和執行器，使智能體具備推理、規劃、反思和尋求建議等能力。例如，智能體可利用記憶模塊檢索歷史信息，使用工具模塊進行產品搜索等操作，遇到難題時向專家尋求建議并通過反思積累知識。

4. 實驗驗證方式：在ProductQA、MedMCQA和HotPotQA三個復雜QA任務上評估AGILE智能體。選擇GPT-3.5、GPT-4等作為基線模型，對比直接提示模型回答（如gpt3.5-prompt、gpt4-prompt）和在AGILE框架內提示模型回答（如agile-gpt3.5-prompt、agile-gpt4-prompt）的結果。同時，通過調整尋求建議成本、進行消融研究等方式驗證框架和各模塊的有效性。

實驗洞察

1. 性能優勢：在ProductQA數據集上，agile-vic13b-ppo相比agile-gpt4-prompt，短答案平均總得分相對提高9.2%，長答案提高5.0%；在MedMCQA數據集上，agile-mek7b-ppo準確率達到85.2%，相比基線模型Meerkat-7b-prompt提升31.8%，超過當前最優模型gpt4-Medprompt（79.1%）；在HotPotQA數據集上，agile-vic13b-ppo準確率為67.5%，相比最強基線ReAct-gpt4-prompt提升40.0%。

2. 消融研究：在ProductQA數據集上的消融實驗表明，禁用尋求建議功能導致準確率下降10.7%，總得分降低5.0%；移除工具使用功能使尋求建議頻率增加25.9%，總得分降低9.3%；去除記憶或反思能力也會使尋求建議頻率上升，總得分下降，驗證了各核心模塊的重要性。

本文由AI輔助完成。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/78703.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/78703.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/78703.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！