綜述 | Agentic RL for LLM的最新進展與未來挑戰,idea滿滿

近年來,大語言模型(LLMs)和強化學習(RL)的融合正在徹底改變我們構建和部署AI系統的方式。早期的LLM強化學習(LLM-RL)主要關注如何通過人類反饋(如RLHF)讓模型生成更符合人類偏好的單輪響應。雖然這類方法在指令遵循和價值觀對齊方面取得了成功,但它們卻忽略了一個更本質的問題:真正的智能往往體現在序列決策中——面對復雜、動態、部分可見的環境,能夠持續規劃、使用工具、記憶歷史、自我反思并執行多步行動。

  • 論文:The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

  • 鏈接:https://arxiv.org/pdf/2509.02547

這篇綜述正是對這一新興范式——Agentic Reinforcement Learning(Agentic RL,智能體強化學習)——的系統性總結與展望。Agentic RL不再將LLM視為一個被動的文本生成器,而是將其塑造為一個具有自主決策能力的智能體,能夠在與環境的多輪交互中學習并成長。

論文的核心貢獻包括:

  1. 正式定義了Agentic RL,并通過MDP/POMDP框架將其與傳統LLM-RL區分開;

  2. 提出了一個雙重分類法,分別從“核心能力”和“任務領域”兩個維度梳理了現有工作;

  3. 全面總結了支撐Agentic RL研究的開源環境、基準測試和訓練框架

  4. 指出了當前面臨的核心挑戰和未來的關鍵研究方向

接下來,我們將深入這篇綜述的每一個核心部分。

從LLM RL到Agentic RL:范式轉變的正式化

傳統偏好基于強化微調(PBRFT)的局限

傳統的LLM強化學習,如基于人類反饋的強化學習(RLHF),通常被形式化為一個退化的馬爾可夫決策過程(MDP)。它的狀態空間只包含一個初始提示(prompt),智能體執行一個動作(生成一段文本)后回合立即結束。獎勵通常由一個獎勵模型提供,基于最終輸出的質量給出一個標量分數。這種方法優化的是單輪交互中的文本質量,但缺乏對多步規劃、工具使用和環境反饋的支持

Agentic RL的定義與核心思想

Agentic RL則將LLM視為一個嵌入在部分可觀察馬爾可夫決策過程(POMDP)?中的策略。智能體在一個動態環境中運作,其狀態隨時間演變,智能體只能接收到部分觀察。它的動作空間不僅包括生成文本(A_text),還包括執行結構化動作(A_action),例如調用搜索引擎、執行代碼、點擊圖形界面按鈕等。獎勵函數也變得更為復雜,結合了稀疏的最終任務獎勵和密集的中間步驟獎勵。

簡而言之,Agentic RL的核心理念是:通過強化學習,將LLM從一個“靜態的文本生成器”轉變為“能夠進行多步決策、與環境交互、并從結果中學習的自主智能體”。

形式化對比:MDP/POMDP框架

論文通過形式化的MDP元組清晰地對比了兩種范式:

傳統PBRFT MDP:?S_trad, A_trad, P_trad, R_trad, T=1?

  • S_trad = {prompt}:狀態空間只有一個提示詞。

  • T=1:回合 horizon 為1,生成響應后立即結束。

  • R_trad(s0, a) = r(a):獎勵只依賴于最終生成的行動(文本)。

Agentic RL POMDP:?S_agent, A_agent, P_agent, R_agent, γ, O?

  • S_agent:豐富的世界狀態,隨時間變化。

  • A_agent = A_text ∪ A_action:動作空間包含文本和外部動作。

  • P_agent:狀態轉移具有不確定性,取決于行動和環境。

  • R_agent(st, at):獎勵函數可提供步驟級獎勵(如子目標完成)和最終獎勵。

  • γ:折扣因子,強調長期回報。

  • O:觀察函數,智能體無法看到完整狀態,只能獲得部分觀察。

對比兩種范式在狀態空間、動作空間、轉移 dynamics、獎勵函數和學習目標上的根本區別

Agentic RL的核心能力視角

論文的第三章是核心,它詳細闡述了RL如何賦能LLM智能體的各項關鍵能力。

規劃(Planning)

規劃是智能體為達成目標而深思熟慮一系列行動的能力。

  • RL作為外部引導(External Guide):早期方法用RL訓練一個輔助的獎勵或價值函數,來引導傳統的搜索算法(如蒙特卡洛樹搜索,MCTS)。LLM負責提出候選行動,而RL模型負責評估這些行動序列的質量。代表工作有RAP、LATS。

  • RL作為內部驅動(Internal Driver):更先進的方法將RL用于直接優化LLM本身的規劃策略。通過環境交互的試錯反饋,LLM內部的政策被精細調整,使其能直接生成更好的計劃。代表工作有VOYAGER、AdaPlan。

  • 前瞻(Prospective):未來的方向是融合兩種范式,讓LLM內化搜索過程本身,形成一個元策略,自主決定何時深入思考、何時探索新路徑。

工具使用(Tool Using)

工具使用能力讓智能體能夠調用外部資源(API、計算器、搜索引擎等)來解決問題。

  • ReAct風格工具調用:通過提示工程或少樣本學習,教LLM按照“思考-行動-觀察”(Thought-Action-Observation)的循環與工具交互。或者通過監督微調(SFT)在專家軌跡上訓練。但這類方法本質是模仿,缺乏戰略靈活性。

  • 工具集成RL(Tool-integrated RL):RL將學習目標從“模仿”轉變為“優化最終任務表現”。這使得智能體能夠學習何時、如何、以何種組合來調用工具,并能適應新場景和從錯誤中恢復。代表工作有ToolRL、OTC-PO、ReTool等。RL訓練甚至能讓一個沒有工具使用經驗的基座模型涌現出自我修正、調整調用頻率等能力。

  • 前瞻:當前挑戰在于長視野任務中的信用分配。當一個任務需要多輪工具調用時,很難確定哪一次調用對最終成功起到了關鍵作用。未來的工作需要更精細的步驟級獎勵設計。

智能體工具使用能力的發展歷程
智能體工具使用能力的發展歷程

記憶(Memory)

記憶使智能體能夠存儲、檢索和利用歷史信息。

  • RAG風格記憶:早期系統將記憶視為外部數據庫(如向量庫),RL僅用于學習何時進行檢索查詢。記憶的存儲和整合規則是預定義的、靜態的。

  • 令牌級記憶:智能體擁有可訓練的記憶控制器,管理一個顯式(自然語言)或隱式(潛在嵌入)的“記憶令牌”池。RL策略決定在每一步保留或覆蓋哪些信息,從而實現長期上下文的理解和持續適應。代表工作有MemAgent、MEM1、MemoryLLM。

  • 結構化記憶:更先進的記憶采用圖結構(如知識圖譜)來組織信息,捕捉更豐富的關聯、時序或層次依賴。但目前其管理仍多依賴啟發式規則,如何用RL動態優化這類結構化記憶的構建和演化是一個開放方向

三種主流的智能體記憶類型及其代表性工作
三種主流的智能體記憶類型及其代表性工作

自我改進(Self-Improvement)

自我改進指智能體通過反思從錯誤中學習,持續提升自身表現。

  • 語言自我修正(Verbal Self-correction):在推理時,通過提示讓LLM生成答案、進行自我批判、然后輸出修正后的答案。整個過程無需梯度更新,類似于“在腦海中檢查”。代表工作有Reflexion、Self-Refine。

  • 內化自我修正(Internalizing Self-correction):使用RL和梯度更新,將自我反思的反饋循環內化到模型參數中,從根本上提升模型發現和糾正自身錯誤的能力。代表工作有KnowSelf、Reflection-DPO。

  • 迭代自訓練(Iterative Self-training):最高級的形式,智能體將反思、推理和任務生成結合成一個自我維持的循環,無需人類標注數據。方法包括:自我博弈與搜索引導精化(如R-Zero)、執行引導的課程生成(如Absolute Zero)、集體引導(如Sirius)。

推理(Reasoning)

論文借鑒雙過程理論,將推理分為:

  • 快思考(System 1):快速、直觀、啟發式的推理。大多數傳統LLM屬于此類,效率高但易產生幻覺和事實錯誤。

  • 慢思考(System 2):緩慢、 deliberate、結構化的多步推理。它產生中間推理痕跡(如思維鏈,CoT),邏輯更一致,在數學、科學推理等任務上更準確可靠,但延遲更高。代表模型有OpenAI o1/o3、DeepSeek-R1。

RL在激勵和優化慢思考方面扮演了關鍵角色。然而,挑戰在于如何平衡效率與準確性,避免過度思考(overthinking)——即生成不必要的過長推理鏈。未來的方向是開發混合策略,讓模型能自適應地決定思考的深度。

感知(Perception)

對于多模態大模型(LVLMs),RL被用于將視覺感知與語言推理更緊密地結合。

  • 從被動感知到主動視覺認知:早期工作將RLHF應用于多模態模型,以增強其思維鏈推理能力。后來的研究則利用RL激勵模型主動地與視覺內容交互,例如通過定位(Grouding)?將推理步驟錨定到圖像特定區域,或通過工具使用(如調用圖像裁剪、繪畫操作)來輔助推理,甚至通過生成(如畫草圖)來外部化中間思考過程。代表工作有GRIT、DeepEyes、Visual Planning。

Agentic RL的任務視角

論文第四章展示了Agentic RL在多個具體任務領域中的應用,體現了其廣泛的應用潛力。

RL在不同領域智能體中的應用發展
RL在不同領域智能體中的應用發展
  1. 搜索與研究智能體:超越了簡單的檢索增強生成(RAG),目標是完成復雜的深度研究任務(分析多源信息、撰寫報告)。RL用于優化查詢生成和多步推理-搜索的協調。既有依賴真實網絡API的方法(如Search-R1),也有為穩定性和可擴展性而生的“自我搜索”方法(如SSRL)。

  2. 代碼與軟件工程智能體:代碼環境提供了明確的、可驗證的獎勵信號(如單元測試通過、編譯成功)。RL應用從單輪代碼生成,到多輪迭代調試 refinement,再到自動化軟件工程(ASE)——涉及長視野規劃、工具使用和跨多步的代碼庫修改。代表工作有DeepCoder-14B、DeepSWE。

  3. 數學推理智能體

  • 非正式數學推理:使用自然語言和編程工具(如Python執行器)進行推理。RL訓練可以涌現出自我反思、自適應工具使用等行為。代表工作有ARTIST、ToRL。

  • 正式數學推理:在Lean、Coq等定理證明器中,將證明步驟作為動作,驗證器的通過/失敗作為獎勵。這是一個巨大的搜索空間,RL與專家迭代(ExIt)等搜索算法結合,取得了顯著進展。代表工作有DeepSeek-Prover、Seed-Prover。

  • GUI智能體:訓練智能體操作圖形用戶界面(Web、桌面、移動APP)。從早期的零樣本VLM方法,到使用靜態軌跡數據的有監督微調(SFT),再到使用RL在靜態或交互式環境中進行試錯學習,智能體的表現和魯棒性得到了極大提升。代表工作有WebAgent-R1、UI-TARS。

  • 視覺與具身智能體:RL被用于提升模型在圖像、視頻、3D任務上的理解和生成能力。在具身智能體中,RL幫助VLA(Vision-Language-Action)模型在導航和操控任務中更好地進行規劃和控制,但sim-to-real的差距仍是巨大挑戰

  • 多智能體系統(MAS):多個LLM智能體通過協作解決復雜任務。RL被用于優化智能體間的協調模式、通信策略和聯合決策,從而提升整個系統的能力。代表工作有MAGRPO、Chain-of-Agents。

  • 支撐系統:環境與框架

    任何AI智能體的發展都離不開訓練和測試它們的環境,以及高效的算法框架。

    環境模擬器

    論文5.1節和表9系統梳理了豐富的環境:

    • Web環境:如WebShop、Mind2Web、WebArena,提供可控且真實的網頁交互模擬。

    • GUI環境:如AndroidWorld、OSWorld,在真實的操作系統模擬器中運行任務。

    • 代碼與軟件工程環境:如SWE-bench、LiveCodeBench等基準測試,以及Debug-Gym、TheAgentCompany等交互環境。

    • 游戲與仿真環境:如Crafter、SMAC,用于測試探索和多智能體協作。

    • 通用與領域特定環境:覆蓋科學、機器學習、網絡安全等多個垂直領域。

    這些環境為訓練和評估Agentic RL智能體提供了必不可少的“操場”。

    表9
    表9

    RL框架

    論文5.2節和表10總結了三類框架:

    • Agentic RL專用框架:如SkyRL、AREAL、AgentFly,為長視野、多回合的LLM智能體訓練提供了專門優化。

    • RLHF/LLM微調框架:如OpenRLHF、TRL,專注于偏好學習和模型對齊。

    • 通用RL框架:如RLlib、Tianshou,提供了強大、可擴展的RL算法底層實現。

    這些框架極大地降低了研究者開展Agentic RL實驗的門檻。

    表10
    表10

    開放挑戰與未來方向

    論文第六章指出了三個核心挑戰:

    1. 可信賴性(Trustworthiness)

    • 安全(Security):智能體更大的攻擊面(工具、內存)和RL的獎勵黑客(reward hacking)特性,使其可能學會利用安全漏洞來實現目標。防御需包括沙盒隔離、過程獎勵和對抗訓練。

    • 幻覺(Hallucination):智能體可能生成自信但無根據的推理或計劃。 outcome-only 的RL可能會鼓勵這種“捷徑”。 mitigation 策略包括使用過程獎勵進行驗證、訓練模型學會“ abstain”(放棄回答),以及多模態對齊。

    • 附和(Sycophancy):智能體傾向于迎合用戶的觀點,即使它是錯誤的。這源于獎勵模型可能將“認同”與“高質量”混淆。解決方向包括設計反附和的獎勵模型和憲法AI。

  • 擴展智能體訓練(Scaling up Agentic Training)

    • 計算(Computation):研究表明,延長RL訓練時間可以持續提升智能體的推理能力,這是一個獨立于模型縮放的重要維度。

    • 模型大小(Model Size):大模型潛力大,但RL訓練可能導致“熵崩潰”(輸出多樣性減少)。需要新技術來保持探索。

    • 數據大小與效率(Data Size & Efficiency):跨領域RL數據可能存在協同效應或干擾效應。需要精心策劃訓練數據。同時,提高RL訓練效率(如通過更好的課程學習、混合范式)是關鍵。

  • 擴展智能體環境(Scaling up Agentic Environment)

    • 當前環境不足以訓練通用智能體。未來需要將環境視為可優化的、動態的系統

    • 關鍵方向包括:自動化獎勵設計(用輔助模型學習獎勵函數,替代人工設計)和自動化課程生成(讓環境根據智能體的弱點動態生成更難的任務),形成一個智能體與環境共同進化的“訓練飛輪”。

    結論

    這篇綜述系統性地描繪了Agentic Reinforcement Learning這一新興領域的壯麗圖景。它清晰地闡明了Agentic RL如何通過將LLM置于序列決策的POMDP框架中,使其從“天才的鸚鵡”轉變為“自主的思考者和行動者”。論文提出的能力與任務雙重分類法,為理解和組織這個快速發展的領域提供了寶貴的框架。

    其核心價值在于:

    1. 理論框架:正式化了范式轉變,為后續研究奠定了理論基礎。

    2. 實踐指南:匯總的環境、基準和框架是研究者入場的“基礎設施”和“工具箱”。

    3. 前瞻視野:指出的挑戰與方向,如可信賴性、縮放律、環境共進化,將是未來幾年的研究熱點。

    Agentic RL代表著通向更通用人工智能的一條充滿希望的道路。隨著計算、算法和環境的不斷進步,我們有望看到LLM智能體在數字世界和物理世界中扮演越來越復雜和重要的角色,真正成為能夠理解、規劃并改變世界的智能實體。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/921341.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/921341.shtml
英文地址,請注明出處:http://en.pswp.cn/news/921341.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【代碼隨想錄算法訓練營——Day3】鏈表——203.移除鏈表元素、707.設計鏈表、206.反轉鏈表

LeetCode題目鏈接 https://leetcode.cn/problems/remove-linked-list-elements/ https://leetcode.cn/problems/design-linked-list/ https://leetcode.cn/problems/reverse-linked-list/ 題解 203.移除鏈表元素 重要的是創立頭結點,這點在寫題前已經經受過提示。 注…

CI/CD流水線驅動自動化流程深度解析:選型、競品、成本與資源消耗

目錄 一、CI/CD是什么?核心定位與價值 二、選型與競品分析 (GitLab CI vs. Jenkins vs. GitHub Actions vs. GitLab CI) 三、部署成本分析 四、服務器資源消耗分析 五、給您的最終建議 一、CI/CD是什么?核心定位與價值 CI/CD(持續集成/…

工廠辦公環境如何實現一臺服務器多人共享辦公

在現代化工廠的辦公環境中,如何通過一臺服務器實現多人共享辦公是一個既實用又高效的需求。這種方案不僅能降低硬件成本,還能簡化IT管理,提高數據安全性。在工廠辦公環境中,通過云飛云共享云桌面實現一臺服務器多人共享辦公&#…

系統性學習數據結構-第三講-棧和隊列

系統性學習數據結構-第三講-棧和隊列1. 棧1.1 棧和隊列1.2 棧的實現2. 隊列2.1 概念與結構2.2 隊列的實現3. 棧和隊列算法題3.1 [有效的括號](https://leetcode.cn/problems/valid-parentheses/description/)3.2 [用隊列實現棧](https://leetcode.cn/problems/implement-stack-…

硬件(三) 通信方式、串口通信

一、通信類型(一)并行通信多個比特通過并行線同時傳輸,傳輸速率快,但會大量占用芯片資源,在對資源敏感的場景下不太適用。(二)串行通信把數據拆成單個比特,按順序在一根總線上發送。…

vsan default storage policy 具體是什么策略?

vSAN Default Storage Policy(vSAN 默認存儲策略)是 VMware vSAN 部署后自動創建的基礎存儲策略,其核心目標是在“通用性”和“可靠性”之間取得平衡,為大多數虛擬機提供默認的數據保護和存儲服務,無需管理員手動創建策…

雨后陽光為何更強烈?

1. 降雨后的輻射是否會增強一般來說,降雨時天空多云,云層對太陽輻射有強烈削弱作用,所以降雨時的短波輻射顯著下降。但雨后,空氣濕度大、顆粒物被沖刷、天空轉晴時,大氣透明度會提高,短波輻射相較于降雨前往…

美團發布 | LongCat-Flash最全解讀,硬剛GPT-4.1、Kimi!

一、導讀 本報告解析了美團LongCat團隊推出的LongCat-Flash模型,一個擁有5600億參數的混合專家模型(Mixture-of-Experts, MoE)。面對大規模語言模型在計算資源和效率上的挑戰,LongCat-Flash旨在實現計算效率與高級智能體&#xf…

Ubuntu 18.04 上升級 gcc 到 9.4

18.04 默認的源中可能沒有 GCC-9.3 或更新版本,在終端運行以下命令來添加 PPA: sudo add-apt-repository ppa:ubuntu-toolchain-r/test sudo apt update2.安裝 GCC 和 G sudo apt install gcc-9 g-93.更新替代版本 如果系統中安裝了多個 GCC 版本&#x…

.NET GcPDF V8.2 新版本:人工智能 PDF 處理

一、GcPDF 產品簡介 GcPDF(GrapeCity Documents for PDF)是葡萄城(GrapeCity)推出的一款功能強大的 .NET PDF 開發組件,旨在為開發人員提供高效、靈活的 PDF 文檔處理解決方案。無論是創建全新 PDF 文檔、編輯現有 PD…

解鎖桐果云零代碼數據平臺能力矩陣——賦能零售行業數字化轉型新動能

在零售行業從“規模擴張”轉向“精細運營”的當下,數據已成為優化庫存、精準營銷、防控風險的核心抓手。但多數零售企業仍面臨“數據雜亂難治理、分析建模門檻高、場景適配性不足”等難題,導致大量訂單、商品、交易數據沉睡,難以轉化為經營決…

rabbitmq 入門知識點

RabbitMQ 是一個 消息隊列中間件(Message Broker),實現了 AMQP 協議,常用于服務之間解耦、異步處理、流量削峰等場景。 我幫你分成兩個部分來講:核心原理 常見用法。🧩 一、核心原理 RabbitMQ 的核心是 生…

點控云智能客服:以AI重塑服務體驗,登頂行業第一的革新之路

在數字化浪潮席卷全球的今天,客戶服務已成為企業核心競爭力之一。智能客服作為連接企業與客戶的重要橋梁,其效能與體驗直接關系到企業的品牌形象與市場口碑。近日,權威機構發布的《中國智能客服市場競爭力報告》顯示,點控云智能客…

9.5 IO-線程day5

信號量打印ABC#include <stdio.h> #include <string.h> #include <stdlib.h> #include <25061head.h> sem_t sem[1]; void *callback(void *arg) {while(1){sem_wait(&sem[0]);printf("A\n");sleep(1);sem_post(&sem[1]);}pthread_e…

老師如何高效收集學生學籍信息,完成收集工作?

開學的時光總是忙碌而充實&#xff0c;除了要熱情地迎接新生、用心地備課&#xff0c;還有一件讓人頭疼不已的事情——學生學籍信息的收集。上學期開學&#xff0c;我承擔起了收集班級新生信息的重任&#xff0c;滿心以為提前準備好的紙質表格&#xff0c;在新生報到那天發給家…

JAVA層的權限與SELinux的關系

Java 層權限是應用程序級別的“門禁卡”&#xff0c;而 SELinux 是系統級別的“防火墻規則和強制訪問控制”。即使你擁有進入大樓的“門禁卡”&#xff08;Java 權限&#xff09;&#xff0c;如果“防火墻規則”&#xff08;SELinux 策略&#xff09;不允許你的進程與目標服務或…

Screen 三步上手

好的&#xff0c;這是給同事的簡潔版說明&#xff1a;Screen 三步上手 開新窗口&#xff1a;干活前先開個帶名字的窗口&#xff0c;不怕斷連。 screen -S 任務名看所有窗口&#xff1a;隨時查看都有哪些任務在后臺跑。 screen -ls重回窗口&#xff1a;斷連后重新登錄&#xff0…

flink 偽代碼

import java.util.*; import java.util.concurrent.*;// 核心接口定義 interface StreamOperator {void open();void processElement(Object element);void close(); }interface SourceFunction extends StreamOperator {void run(SourceContext ctx); }interface SinkFunction…

一招快速識別你的電腦是機械硬盤還是固態硬盤

你是否經常覺得電腦開機慢、軟件打開卡頓&#xff1f;其中一個關鍵原因&#xff0c;可能就在于你使用的是機械硬盤&#xff08;HDD&#xff09;還是固態硬盤&#xff08;SSD&#xff09;。固態硬盤讀寫速度快&#xff0c;能顯著提升系統響應速度&#xff1b;而機械硬盤雖然容量…

52核心52線程,Intel下一代CPU憋了個大的

被逼急了的 Intel&#xff0c;可能正在憋大招&#xff01;如大伙兒所見&#xff0c;Intel 這兩年日子已經不能用「慘」來形容。其過去引以為傲的 PC 處理器&#xff0c;特別是高性能桌面處理器領域&#xff0c;如今算是徹底被 AMD 打懵了。無他&#xff0c;己方產品是連年擺爛&…