原文:https://mp.weixin.qq.com/s/QLFKvb8Ol3CX9uWKBXSrow
論文:ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
Abs:https://arxiv.org/abs/2505.24864
權重下載:https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
最近LLM + RL的研究越來越火,但關于“RL是否真的能提升模型的推理能力”這一問題,社區仍存在不少爭議。一些研究指出,RL只是在讓模型變得更會“猜答案”,而非真正學會新能力。
我們認為這些質疑可能來自兩個“隱藏問題”:
- 太多研究只在數學領域做實驗,而這類任務基礎模型早就見過,根本沒有探索新能力的空間;
- RL訓練都太短了——幾百步就停止,模型還沒開始“發掘潛能”就被叫停了。
因此,我們認為應該在更加多樣的任務上做更加長期的強化學習訓練。然而,讓模型在強化學習中實現長期且穩定的訓練并不容易。傳統方法常常面臨梯度爆炸或訓練坍塌等問題。為此,我們將 模型的 entropy(熵) 作為衡量訓練健康程度的關鍵指標。Entropy 反映了模型在探索與利用之間的平衡能力,也代表了模型對問題理解的深度。
訓練過程中,我們力求保持 entropy 在一個合理且穩定的區間:過高的 entropy 意味著模型在做出決策時過于隨機,缺乏有效判斷;過低的 entropy 則表明模型可能陷入某個解法,失去了進一步探索的能力。
通過持續監控并調控 entropy,我們有效促進了 RL 訓練的穩定性和推理能力的提升。在此基礎上,我們提出了ProRL(Prolonged Reinforcement Learning),一個長期強化學習訓練框架,核心包括:
- KL控制(保持模型不跑偏)
- 參考策略重置(防止陷入局部最優)
- 多樣化任務集合(激發模型學習不同推理策略)
我們基于 DeepSeek-Distilled-Qwen-1.5B,訓練了一個專注于推理能力的模型 —— Nemotron-Research-Reasoning-Qwen-1.5B,在數學/編程/邏輯題/STEM推理/任務指令理解等多個領域展現出顯著提升。
更關鍵的是:
我們發現 RL 模型能解出 base model 無論怎么 sampling 都完全答不出的題,甚至做到 pass rate 100%。這不是隨機波動,而是新能力的誕生。
我們還用 Creativity Index 量化了“新解法”的創意程度,發現訓練越久,模型“跳出預訓練語料”的能力越強,推理路徑越來越有創造性。
此外,強化學習的效果與基礎模型的初始表現呈負相關關系:初始 pass@k 較低的任務,在推理邊界擴展方面的提升最大;而在諸如數學和代碼等高表現領域(其創造力指數較低),推理邊界的擴展則較為有限。對于改善幅度較小的任務(即圖中顯示為“Diminished Area”的部分),基礎模型通常具有較低的創造力指數,這表明這些任務可能已在預訓練數據中得到了充分覆蓋,因此在推理邊界上的擴展潛力有限。
我們希望這項工作為“如何通過RL真正提升大模型的推理能力”提供一個新的思考方向,歡迎大家交流!