Agentic RL Survey: 從被動生成到自主決策

本文將系統解讀《The Landscape of Agentic Reinforcement Learning for LLMs: A Survey》這篇綜述。該綜述首次將智能體強化學習（Agentic RL）與傳統LLM-RL范式正式區分，通過MDP/POMDP理論框架梳理其核心特征，并從“智能體能力”與“任務場景”雙維度構建分類體系，同時整合開源環境、框架與基準，為LLM基自主智能體的研究提供清晰路線圖。

論文標題：The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
來源：arXiv:2509.02547 [cs.AI]，鏈接：http://arxiv.org/abs/2509.02547
PS: 整理了LLM、量化投資、機器學習方向的學習資料，關注同名公眾號「亞里隨筆」即刻免費解鎖

文章核心

研究背景

大型語言模型（LLMs）與強化學習（RL）的融合已從“對齊人類偏好”邁向“自主決策”新階段。早期LLM-RL（如RLHF、DPO）將LLMs視為靜態序列生成器，僅優化單輪輸出質量，忽視動態環境中的多步決策需求。隨著OpenAI o3、DeepSeek-R1等具備推理與工具使用能力的模型問世，研究者開始探索如何通過RL讓LLMs在部分可觀測、動態環境中自主規劃、調用工具與維護記憶——這一范式被定義為Agentic RL，其核心是將LLMs從“文本生成器”轉化為“復雜環境的決策智能體”。

研究問題

范式混淆：現有研究未明確區分Agentic RL與傳統LLM-RL，前者聚焦動態環境中的多步決策，后者局限于靜態數據集的單輪對齊，導致術語與評估標準混亂。
能力碎片化：LLM智能體的核心能力（規劃、工具使用、記憶等）多被視為獨立模塊優化，缺乏RL驅動的協同訓練框架，難以形成魯棒的自主行為。
環境與工具缺口：支撐Agentic RL的動態環境、可擴展框架與統一基準稀缺，制約了算法驗證與跨領域泛化。

主要貢獻

理論形式化：首次通過馬爾可夫決策過程（MDP）與部分可觀測馬爾可夫決策過程（POMDP），嚴格區分Agentic RL（多步、部分觀測、動態轉移）與傳統LLM-RL（單步、全觀測、確定性轉移）的本質差異。
雙維度分類體系：從“智能體能力”維度（規劃、工具使用、記憶、推理、自改進、感知）與“任務場景”維度（搜索、代碼、數學、GUI等）構建分類框架，系統整合500+最新研究，揭示RL如何將靜態模塊轉化為自適應行為。
實用資源整合：梳理開源環境（如WebArena、SWE-bench）、RL框架（如AgentFly、OpenRLHF）與基準測試，形成可直接復用的研究工具包。
挑戰與方向：明確Agentic RL在可信度、訓練規模化、環境規模化三大核心挑戰，為通用智能體研究提供優先級路線。

思維導圖

方法論精要

范式區分：從LLM-RL到Agentic RL

通過MDP/POMDP tuple形式化兩者差異，核心區別如表1所示：

其中， $Aaction\mathcal{A}{action}$ 通過<action_start>/<action_end>標記，支持工具調用（如call("search","Einstein")）或環境交互（如move("north")，動態改變環境狀態；而 $Atext\mathcal{A}{text}$ 僅生成自然語言，不影響外部狀態。

核心RL算法演進

Agentic RL基于經典RL算法優化，關鍵變體及其特性如表2所示：

智能體能力的RL優化

RL通過以下機制增強LLM智能體的核心能力：

規劃（Planning）：分為“外部引導”（如RL訓練獎勵函數引導MCTS搜索，如RAP [72]）與“內部驅動”（如RL直接優化LLM的規劃策略，如VOYAGER [75]的技能庫迭代）。

工具使用（Tool Use）：從ReAct-style的靜態模仿（SFT/提示工程），演進為RL驅動的動態決策——如ToolRL [83]通過結果獎勵自主發現工具調用時機，ASPO [58]證明工具整合推理（TIR）可突破純文本RL的局限。

記憶（Memory）：從RAG的靜態檢索，升級為RL控制的動態管理——如MemAgent [118]通過RL決定token級記憶的保留/覆蓋，Memory-R1 [117]通過PPO/GRPO優化記憶的ADD/UPDATE/DELETE操作。

自改進（Self-Improvement）：從單輪語言反思（如Reflexion [130]），發展為RL內化的持續優化——如KnowSelf [141]用DPO增強文本游戲中的自我反思，Absolute Zero [149]通過自生成任務與執行反饋實現無數據自訓練。

推理（Reasoning）：分為 “快推理優化” 與 “慢推理增強”—— 快推理中，RENT [307] 以 token 級平均負熵為獎勵減少幻覺；慢推理中，StepCoder [278] 通過步驟級執行信號引導多步邏輯，LADDER [313] 用 RL 構建難度 curriculum 提升數學推理連貫性。

感知（Perception）：從被動視覺理解轉向主動認知 —— 視覺領域，Vision-R1 [208] 結合 IoU 設計獎勵優化定位，GRIT [220] 用 GRPO 對齊邊界框與文本推理；音頻領域，SARI [234] 以 RL 增強音頻問答的結構化推理，Dmospeech 2 [237] 通過 RL 優化語音合成的時長預測模塊，提升語音自然度。

關鍵洞察

任務場景

Agentic RL在多領域展現顯著優勢，核心任務的代表性結果如下：

搜索與研究智能體：

開源方法：Search-R1 [249]通過PPO學習“何時調用搜索”，在WebWalkerQA上超傳統RAG 8%；WebWatcher [255]結合視覺語言推理，在BrowseComp-VL上優于文本-only方法12%。
閉源方法：OpenAI DeepResearch [103]在BrowseComp（硬信息定位基準）達51.5% pass@1，Kimi-Researcher [104]通過多輪RL實現報告自動生成。

代碼智能體：

代碼生成：DeepCoder-14B [273]用GRPO+單元測試獎勵，在LiveCodeBench達60.6% Pass@1，超同規模模型8%。
軟件工程：DeepSWE [293]通過任務完成獎勵訓練，在SWE-bench Verified（真實GitHub修復任務）上取得開源最優，較SFT提升15%。

數學智能體：

非形式推理：rStar2-Agent [107]用GRPO-RoC算法，在AIME24/AIME25達80.6%/69.8% pass@1。
形式推理：DeepSeek-Prover-v2 [329]通過子目標分解RL，在miniF2F（定理證明基準）超基線10%。

GUI智能體：

靜態環境：UI-R1 [347]用組相對優化，在AndroidWorld任務的動作匹配準確率達72%，超SFT 9%。
交互環境：ZeroGUI [354]通過在線RL+自動任務生成，在真實Android設備上實現零人工監督訓練，任務完成率超傳統方法18%。

視覺智能體（Vision Agents）：

圖像任務：Visual-RFT [205] 以 IoU 置信度為獎勵優化邊界框輸出，在目標檢測任務中定位精度提升 11%；Diffusion-KTO [365] 將 RL 融入擴散模型，在圖像生成的人類偏好對齊上超基線 7%。
視頻任務：DeepVideo-R1 [373] 重構 GRPO 為回歸任務，增強視頻時序推理，在視頻問答準確率達 68%；VideoChat-R1 [374] 通過 RL 微調，用少量數據實現視頻 - 文本交互性能提升 15%。

具身智能體（Embodied Agents）：

導航任務：VLN-R1 [43] 以軌跡對齊為獎勵，結合 GRPO 優化路徑規劃，在 NavBench-GS 基準的成功率超傳統 VLA 模型 12%；OctoNav-R1 [416] 用 RL 強化 “思考后行動”，提升復雜環境避障能力 9%。
操控任務：RLVLA [418] 以 VLMs 為評估器提供軌跡獎勵，在機器人臂精細操作（如零件組裝）的成功率達 70%，較 SFT 提升 20%；TGRPO [419] 用規則獎勵優化軌跡預測，實現未知場景泛化能力提升 14%。

多智能體系統（Multi-Agent Systems）：

協同訓練：MAGRPO [441] 將多 LLM 協作建模為 Dec-POMDP，通過多智能體 GRPO 聯合訓練，在團隊推理任務的準確率超獨立智能體 16%；MAPoRL [434] 用驗證反饋作為 RL 獎勵，增強辯論式協作推理，錯誤修正率提升 21%。
自演化系統：SiriuS [153] 以多智能體交互軌跡構建知識庫，通過 RL bootstrap 訓練，在復雜決策任務的響應質量超單智能體 23%；MALT [154] 結合 SFT 與 DPO，用多智能體搜索樹生成訓練數據，推理一致性提升 18%。

其他任務：

文本游戲：ARIA [444] 用意圖驅動獎勵聚合，在 TextWorld（文本冒險游戲）的任務完成率達 75%，超軌跡級 RL 10%；GiGPO [110] 以層級分組優化時序信用分配，在 ALFWorld 的多輪交互成功率提升 13%。
時序任務：Time-R1 [449] 用漸進式 RL 課程 + 動態規則獎勵，在時間序列預測任務的 MAE 誤差降低 22%；TimeMaster [450] 結合 GRPO 優化可視化時序推理，在金融數據解讀準確率達 81%，超 SFT 16%。
SQL 生成：SkyRL-SQL [447] 通過多輪 RL 讓 LLM 交互式驗證查詢，僅 653 個訓練樣本便在 SQL 生成基準超 GPT-4o 5%，查詢執行正確率達 89%。

環境與框架支撐

核心環境：
- Web環境：WebArena [466]（Docker部署的多域名網站）、VisualWebArena [467]（視覺增強版）。
- 代碼環境：SWE-bench [483]（真實GitHub修復任務）、LiveCodeBench [482]（持續更新的競賽題）。
- 游戲環境：Crafter [491]（2D生存游戲）、Factorio [495]（工業模擬，動態環境）。

主流框架：
- Agentic RL專用：AgentFly [502]（裝飾器式工具集成+異步訓練）、AWorld [504]（分布式rollout，14.6×單節點加速）。
- LLM-RL通用：OpenRLHF [505]（高性能RLHF工具包）、TRL [506]（Hugging Face生態適配）。

關鍵發現與挑戰

能力涌現規律：Agent RL Scaling Law [306]證明，延長RL訓練時間可系統性提升工具使用頻率與推理深度——小模型（如Qwen2.5-7B）經充分RL訓練后，在數學/代碼任務上可媲美更大參數的SFT模型。
可信度瓶頸：RL可能放大LLM的缺陷——如獎勵 hacking（利用工具漏洞最大化獎勵）、幻覺（結果驅動RL忽視中間步驟真實性）、諂媚性（迎合用戶錯誤信念以獲取高反饋），需通過過程監督與對抗訓練緩解。
規模化挑戰：訓練規模化需突破計算成本（多環境并行rollout需求）、數據干擾（跨領域RL數據可能相互抑制）；環境規模化需開發動態生成環境（如EnvGen [541]用LLM生成自適應任務），減少人工設計依賴。

總結與展望

該綜述通過理論形式化、分類整合與資源梳理，清晰界定了Agentic RL的研究邊界與核心方向。其核心價值在于：將RL從“LLM對齊工具”升級為“智能體能力塑造引擎”，為通用自主智能體提供了從理論到實踐的完整路線。未來研究需重點突破可信度保障、訓練/環境規模化三大瓶頸，推動LLM從“任務執行者”向“自主決策者”的最終轉變。