在大語言模型(LLMs)蓬勃發展的今天,基于LLMs構建的智能體成為研究熱點。但如何將各組件整合優化仍是難題。本文提出的AGILE框架給出了創新解法,它不僅統一多組件,還讓智能體性能超越GPT-4。想知道它是如何做到的嗎?快來一探究竟!
論文標題
AGILE: A Novel Reinforcement Learning Framework of LLM Agents
來源
arXiv:2405.14751v2 [cs.LG] 5 Nov 2024
https://arxiv.org/abs/2405.14751
文章核心
研究背景
大語言模型(LLMs)展現出強大能力,推動了基于LLMs的智能體(LLM agents)發展,但目前尚不清楚如何將規劃、反思、工具使用等組件整合到統一框架并進行端到端優化。
研究問題
- 缺乏統一框架整合和優化LLM智能體的多個組件,如規劃、反思、工具使用等,各組件間協同工作機制不明確。
- 現有復雜問答(QA)基準測試無法全面評估智能體結合所有模塊和能力的表現,難以反映智能體在實際應用中的綜合能力。
- 大語言模型存在幻覺、缺乏長尾知識等問題,在智能體中如何有效利用人類專家知識提升性能,同時平衡準確性和人力成本是挑戰。
主要貢獻
- 提出新強化學習框架:設計AGILE(AGent that Interacts and Learns from Environments)框架,實現智能體端到端學習。該框架讓智能體可主動向人類專家尋求建議,處理復雜問題時能保證準確性,并從人類學習中提升適應新任務的能力。
- 開發新基準數據集:創建ProductQA數據集,包含88,229個問答對,涉及26個QA任務,涵蓋多種問題類型,可全面評估智能體處理歷史信息、使用工具、與人交互、自我評估和反思等能力。
- 驗證框架有效性:在ProductQA、MedMCQA和HotPotQA等多個任務上實驗,結果表明基于7B和13B LLMs且經近端策略優化算法(PPO)訓練的AGILE智能體性能優于GPT-4智能體。
方法論精要
1. 核心算法/框架:AGILE框架由LLM、記憶、工具和執行器四個模塊構成。將智能體構建視為強化學習問題,LLM作為策略模型,執行器根據LLM指令實現狀態轉換,環境給出獎勵,通過這種方式實現智能體與環境的交互和學習。
2. 關鍵參數設計原理:在策略學習中,無論是模仿學習(IL)還是強化學習(RL),都將損失計算限定在動作令牌上,并使用當前LLM上下文$ c_{i} 作為注意力掩碼。對于長軌跡問題, ? ? 通過將軌跡劃分為較小片段,并提出會話級優化算法 ? ? ,引入代理獎勵 作為注意力掩碼。對于長軌跡問題,**通過將軌跡劃分為較小片段,并提出會話級優化算法**,引入代理獎勵 作為注意力掩碼。對于長軌跡問題,??通過將軌跡劃分為較小片段,并提出會話級優化算法??,引入代理獎勵 \overline{r}{k}\left(\tau{i}\right) $ ,簡化優化過程。
3. 創新性技術組合:結合LLM、記憶、工具和執行器,使智能體具備推理、規劃、反思和尋求建議等能力。例如,智能體可利用記憶模塊檢索歷史信息,使用工具模塊進行產品搜索等操作,遇到難題時向專家尋求建議并通過反思積累知識。
4. 實驗驗證方式:在ProductQA、MedMCQA和HotPotQA三個復雜QA任務上評估AGILE智能體。選擇GPT-3.5、GPT-4等作為基線模型,對比直接提示模型回答(如gpt3.5-prompt、gpt4-prompt)和在AGILE框架內提示模型回答(如agile-gpt3.5-prompt、agile-gpt4-prompt)的結果。同時,通過調整尋求建議成本、進行消融研究等方式驗證框架和各模塊的有效性。
實驗洞察
1. 性能優勢:在ProductQA數據集上,agile-vic13b-ppo相比agile-gpt4-prompt,短答案平均總得分相對提高9.2%,長答案提高5.0%;在MedMCQA數據集上,agile-mek7b-ppo準確率達到85.2%,相比基線模型Meerkat-7b-prompt提升31.8%,超過當前最優模型gpt4-Medprompt(79.1%);在HotPotQA數據集上,agile-vic13b-ppo準確率為67.5%,相比最強基線ReAct-gpt4-prompt提升40.0%。
2. 消融研究:在ProductQA數據集上的消融實驗表明,禁用尋求建議功能導致準確率下降10.7%,總得分降低5.0%;移除工具使用功能使尋求建議頻率增加25.9%,總得分降低9.3%;去除記憶或反思能力也會使尋求建議頻率上升,總得分下降,驗證了各核心模塊的重要性。
本文由AI輔助完成。