綜述 | Agentic RL for LLM的最新進展與未來挑戰，idea滿滿

近年來，大語言模型（LLMs）和強化學習（RL）的融合正在徹底改變我們構建和部署AI系統的方式。早期的LLM強化學習（LLM-RL）主要關注如何通過人類反饋（如RLHF）讓模型生成更符合人類偏好的單輪響應。雖然這類方法在指令遵循和價值觀對齊方面取得了成功，但它們卻忽略了一個更本質的問題：真正的智能往往體現在序列決策中——面對復雜、動態、部分可見的環境，能夠持續規劃、使用工具、記憶歷史、自我反思并執行多步行動。

論文：The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
鏈接：https://arxiv.org/pdf/2509.02547

這篇綜述正是對這一新興范式——Agentic Reinforcement Learning（Agentic RL，智能體強化學習）——的系統性總結與展望。Agentic RL不再將LLM視為一個被動的文本生成器，而是將其塑造為一個具有自主決策能力的智能體，能夠在與環境的多輪交互中學習并成長。

論文的核心貢獻包括：

正式定義了Agentic RL，并通過MDP/POMDP框架將其與傳統LLM-RL區分開；
提出了一個雙重分類法，分別從“核心能力”和“任務領域”兩個維度梳理了現有工作；
全面總結了支撐Agentic RL研究的開源環境、基準測試和訓練框架；
指出了當前面臨的核心挑戰和未來的關鍵研究方向。

接下來，我們將深入這篇綜述的每一個核心部分。

從LLM RL到Agentic RL：范式轉變的正式化

傳統偏好基于強化微調（PBRFT）的局限

傳統的LLM強化學習，如基于人類反饋的強化學習（RLHF），通常被形式化為一個退化的馬爾可夫決策過程（MDP）。它的狀態空間只包含一個初始提示（prompt），智能體執行一個動作（生成一段文本）后回合立即結束。獎勵通常由一個獎勵模型提供，基于最終輸出的質量給出一個標量分數。這種方法優化的是單輪交互中的文本質量，但缺乏對多步規劃、工具使用和環境反饋的支持。

Agentic RL的定義與核心思想

Agentic RL則將LLM視為一個嵌入在部分可觀察馬爾可夫決策過程（POMDP）?中的策略。智能體在一個動態環境中運作，其狀態隨時間演變，智能體只能接收到部分觀察。它的動作空間不僅包括生成文本（A_text），還包括執行結構化動作（A_action），例如調用搜索引擎、執行代碼、點擊圖形界面按鈕等。獎勵函數也變得更為復雜，結合了稀疏的最終任務獎勵和密集的中間步驟獎勵。

簡而言之，Agentic RL的核心理念是：通過強化學習，將LLM從一個“靜態的文本生成器”轉變為“能夠進行多步決策、與環境交互、并從結果中學習的自主智能體”。

形式化對比：MDP/POMDP框架

論文通過形式化的MDP元組清晰地對比了兩種范式：

傳統PBRFT MDP:?S_trad, A_trad, P_trad, R_trad, T=1?

S_trad = {prompt}：狀態空間只有一個提示詞。
T=1：回合 horizon 為1，生成響應后立即結束。
R_trad(s0, a) = r(a)：獎勵只依賴于最終生成的行動（文本）。

Agentic RL POMDP:?S_agent, A_agent, P_agent, R_agent, γ, O?

S_agent：豐富的世界狀態，隨時間變化。
A_agent = A_text ∪ A_action：動作空間包含文本和外部動作。
P_agent：狀態轉移具有不確定性，取決于行動和環境。
R_agent(st, at)：獎勵函數可提供步驟級獎勵（如子目標完成）和最終獎勵。
γ：折扣因子，強調長期回報。
O：觀察函數，智能體無法看到完整狀態，只能獲得部分觀察。

對比兩種范式在狀態空間、動作空間、轉移 dynamics、獎勵函數和學習目標上的根本區別

Agentic RL的核心能力視角

論文的第三章是核心，它詳細闡述了RL如何賦能LLM智能體的各項關鍵能力。

規劃（Planning）

規劃是智能體為達成目標而深思熟慮一系列行動的能力。

RL作為外部引導（External Guide）：早期方法用RL訓練一個輔助的獎勵或價值函數，來引導傳統的搜索算法（如蒙特卡洛樹搜索，MCTS）。LLM負責提出候選行動，而RL模型負責評估這些行動序列的質量。代表工作有RAP、LATS。
RL作為內部驅動（Internal Driver）：更先進的方法將RL用于直接優化LLM本身的規劃策略。通過環境交互的試錯反饋，LLM內部的政策被精細調整，使其能直接生成更好的計劃。代表工作有VOYAGER、AdaPlan。
前瞻（Prospective）：未來的方向是融合兩種范式，讓LLM內化搜索過程本身，形成一個元策略，自主決定何時深入思考、何時探索新路徑。

工具使用（Tool Using）

工具使用能力讓智能體能夠調用外部資源（API、計算器、搜索引擎等）來解決問題。

ReAct風格工具調用：通過提示工程或少樣本學習，教LLM按照“思考-行動-觀察”（Thought-Action-Observation）的循環與工具交互。或者通過監督微調（SFT）在專家軌跡上訓練。但這類方法本質是模仿，缺乏戰略靈活性。
工具集成RL（Tool-integrated RL）：RL將學習目標從“模仿”轉變為“優化最終任務表現”。這使得智能體能夠學習何時、如何、以何種組合來調用工具，并能適應新場景和從錯誤中恢復。代表工作有ToolRL、OTC-PO、ReTool等。RL訓練甚至能讓一個沒有工具使用經驗的基座模型涌現出自我修正、調整調用頻率等能力。
前瞻：當前挑戰在于長視野任務中的信用分配。當一個任務需要多輪工具調用時，很難確定哪一次調用對最終成功起到了關鍵作用。未來的工作需要更精細的步驟級獎勵設計。

智能體工具使用能力的發展歷程

記憶（Memory）

記憶使智能體能夠存儲、檢索和利用歷史信息。

RAG風格記憶：早期系統將記憶視為外部數據庫（如向量庫），RL僅用于學習何時進行檢索查詢。記憶的存儲和整合規則是預定義的、靜態的。
令牌級記憶：智能體擁有可訓練的記憶控制器，管理一個顯式（自然語言）或隱式（潛在嵌入）的“記憶令牌”池。RL策略決定在每一步保留或覆蓋哪些信息，從而實現長期上下文的理解和持續適應。代表工作有MemAgent、MEM1、MemoryLLM。
結構化記憶：更先進的記憶采用圖結構（如知識圖譜）來組織信息，捕捉更豐富的關聯、時序或層次依賴。但目前其管理仍多依賴啟發式規則，如何用RL動態優化這類結構化記憶的構建和演化是一個開放方向。

三種主流的智能體記憶類型及其代表性工作

自我改進（Self-Improvement）

自我改進指智能體通過反思從錯誤中學習，持續提升自身表現。

語言自我修正（Verbal Self-correction）：在推理時，通過提示讓LLM生成答案、進行自我批判、然后輸出修正后的答案。整個過程無需梯度更新，類似于“在腦海中檢查”。代表工作有Reflexion、Self-Refine。
內化自我修正（Internalizing Self-correction）：使用RL和梯度更新，將自我反思的反饋循環內化到模型參數中，從根本上提升模型發現和糾正自身錯誤的能力。代表工作有KnowSelf、Reflection-DPO。
迭代自訓練（Iterative Self-training）：最高級的形式，智能體將反思、推理和任務生成結合成一個自我維持的循環，無需人類標注數據。方法包括：自我博弈與搜索引導精化（如R-Zero）、執行引導的課程生成（如Absolute Zero）、集體引導（如Sirius）。

推理（Reasoning）

論文借鑒雙過程理論，將推理分為：

快思考（System 1）：快速、直觀、啟發式的推理。大多數傳統LLM屬于此類，效率高但易產生幻覺和事實錯誤。
慢思考（System 2）：緩慢、 deliberate、結構化的多步推理。它產生中間推理痕跡（如思維鏈，CoT），邏輯更一致，在數學、科學推理等任務上更準確可靠，但延遲更高。代表模型有OpenAI o1/o3、DeepSeek-R1。

RL在激勵和優化慢思考方面扮演了關鍵角色。然而，挑戰在于如何平衡效率與準確性，避免過度思考（overthinking）——即生成不必要的過長推理鏈。未來的方向是開發混合策略，讓模型能自適應地決定思考的深度。

感知（Perception）

對于多模態大模型（LVLMs），RL被用于將視覺感知與語言推理更緊密地結合。

從被動感知到主動視覺認知：早期工作將RLHF應用于多模態模型，以增強其思維鏈推理能力。后來的研究則利用RL激勵模型主動地與視覺內容交互，例如通過定位（Grouding）?將推理步驟錨定到圖像特定區域，或通過工具使用（如調用圖像裁剪、繪畫操作）來輔助推理，甚至通過生成（如畫草圖）來外部化中間思考過程。代表工作有GRIT、DeepEyes、Visual Planning。

Agentic RL的任務視角

論文第四章展示了Agentic RL在多個具體任務領域中的應用，體現了其廣泛的應用潛力。

RL在不同領域智能體中的應用發展

搜索與研究智能體：超越了簡單的檢索增強生成（RAG），目標是完成復雜的深度研究任務（分析多源信息、撰寫報告）。RL用于優化查詢生成和多步推理-搜索的協調。既有依賴真實網絡API的方法（如Search-R1），也有為穩定性和可擴展性而生的“自我搜索”方法（如SSRL）。
代碼與軟件工程智能體：代碼環境提供了明確的、可驗證的獎勵信號（如單元測試通過、編譯成功）。RL應用從單輪代碼生成，到多輪迭代調試 refinement，再到自動化軟件工程（ASE）——涉及長視野規劃、工具使用和跨多步的代碼庫修改。代表工作有DeepCoder-14B、DeepSWE。
數學推理智能體：

非正式數學推理：使用自然語言和編程工具（如Python執行器）進行推理。RL訓練可以涌現出自我反思、自適應工具使用等行為。代表工作有ARTIST、ToRL。
正式數學推理：在Lean、Coq等定理證明器中，將證明步驟作為動作，驗證器的通過/失敗作為獎勵。這是一個巨大的搜索空間，RL與專家迭代（ExIt）等搜索算法結合，取得了顯著進展。代表工作有DeepSeek-Prover、Seed-Prover。

GUI智能體：訓練智能體操作圖形用戶界面（Web、桌面、移動APP）。從早期的零樣本VLM方法，到使用靜態軌跡數據的有監督微調（SFT），再到使用RL在靜態或交互式環境中進行試錯學習，智能體的表現和魯棒性得到了極大提升。代表工作有WebAgent-R1、UI-TARS。
視覺與具身智能體：RL被用于提升模型在圖像、視頻、3D任務上的理解和生成能力。在具身智能體中，RL幫助VLA（Vision-Language-Action）模型在導航和操控任務中更好地進行規劃和控制，但sim-to-real的差距仍是巨大挑戰。
多智能體系統（MAS）：多個LLM智能體通過協作解決復雜任務。RL被用于優化智能體間的協調模式、通信策略和聯合決策，從而提升整個系統的能力。代表工作有MAGRPO、Chain-of-Agents。
支撐系統：環境與框架
任何AI智能體的發展都離不開訓練和測試它們的環境，以及高效的算法框架。
環境模擬器
論文5.1節和表9系統梳理了豐富的環境：
- Web環境：如WebShop、Mind2Web、WebArena，提供可控且真實的網頁交互模擬。
- GUI環境：如AndroidWorld、OSWorld，在真實的操作系統模擬器中運行任務。
- 代碼與軟件工程環境：如SWE-bench、LiveCodeBench等基準測試，以及Debug-Gym、TheAgentCompany等交互環境。
- 游戲與仿真環境：如Crafter、SMAC，用于測試探索和多智能體協作。
- 通用與領域特定環境：覆蓋科學、機器學習、網絡安全等多個垂直領域。
這些環境為訓練和評估Agentic RL智能體提供了必不可少的“操場”。
表9
RL框架
論文5.2節和表10總結了三類框架：
- Agentic RL專用框架：如SkyRL、AREAL、AgentFly，為長視野、多回合的LLM智能體訓練提供了專門優化。
- RLHF/LLM微調框架：如OpenRLHF、TRL，專注于偏好學習和模型對齊。
- 通用RL框架：如RLlib、Tianshou，提供了強大、可擴展的RL算法底層實現。
這些框架極大地降低了研究者開展Agentic RL實驗的門檻。
表10
開放挑戰與未來方向
論文第六章指出了三個核心挑戰：
1. 可信賴性（Trustworthiness）：
- 安全（Security）：智能體更大的攻擊面（工具、內存）和RL的獎勵黑客（reward hacking）特性，使其可能學會利用安全漏洞來實現目標。防御需包括沙盒隔離、過程獎勵和對抗訓練。
- 幻覺（Hallucination）：智能體可能生成自信但無根據的推理或計劃。 outcome-only 的RL可能會鼓勵這種“捷徑”。 mitigation 策略包括使用過程獎勵進行驗證、訓練模型學會“ abstain”（放棄回答），以及多模態對齊。
- 附和（Sycophancy）：智能體傾向于迎合用戶的觀點，即使它是錯誤的。這源于獎勵模型可能將“認同”與“高質量”混淆。解決方向包括設計反附和的獎勵模型和憲法AI。
擴展智能體訓練（Scaling up Agentic Training）：
- 計算（Computation）：研究表明，延長RL訓練時間可以持續提升智能體的推理能力，這是一個獨立于模型縮放的重要維度。
- 模型大小（Model Size）：大模型潛力大，但RL訓練可能導致“熵崩潰”（輸出多樣性減少）。需要新技術來保持探索。
- 數據大小與效率（Data Size & Efficiency）：跨領域RL數據可能存在協同效應或干擾效應。需要精心策劃訓練數據。同時，提高RL訓練效率（如通過更好的課程學習、混合范式）是關鍵。
擴展智能體環境（Scaling up Agentic Environment）：
- 當前環境不足以訓練通用智能體。未來需要將環境視為可優化的、動態的系統。
- 關鍵方向包括：自動化獎勵設計（用輔助模型學習獎勵函數，替代人工設計）和自動化課程生成（讓環境根據智能體的弱點動態生成更難的任務），形成一個智能體與環境共同進化的“訓練飛輪”。
結論
這篇綜述系統性地描繪了Agentic Reinforcement Learning這一新興領域的壯麗圖景。它清晰地闡明了Agentic RL如何通過將LLM置于序列決策的POMDP框架中，使其從“天才的鸚鵡”轉變為“自主的思考者和行動者”。論文提出的能力與任務雙重分類法，為理解和組織這個快速發展的領域提供了寶貴的框架。
其核心價值在于：
1. 理論框架：正式化了范式轉變，為后續研究奠定了理論基礎。
2. 實踐指南：匯總的環境、基準和框架是研究者入場的“基礎設施”和“工具箱”。
3. 前瞻視野：指出的挑戰與方向，如可信賴性、縮放律、環境共進化，將是未來幾年的研究熱點。
Agentic RL代表著通向更通用人工智能的一條充滿希望的道路。隨著計算、算法和環境的不斷進步，我們有望看到LLM智能體在數字世界和物理世界中扮演越來越復雜和重要的角色，真正成為能夠理解、規劃并改變世界的智能實體。