如何通過RL真正提升大模型的推理能力?NVIDIA提出長期強化學習訓練框架ProRL

原文:https://mp.weixin.qq.com/s/QLFKvb8Ol3CX9uWKBXSrow

論文:ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
Abs:https://arxiv.org/abs/2505.24864
權重下載:https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B

最近LLM + RL的研究越來越火,但關于“RL是否真的能提升模型的推理能力”這一問題,社區仍存在不少爭議。一些研究指出,RL只是在讓模型變得更會“猜答案”,而非真正學會新能力。

我們認為這些質疑可能來自兩個“隱藏問題”:

  • 太多研究只在數學領域做實驗,而這類任務基礎模型早就見過,根本沒有探索新能力的空間;
  • RL訓練都太短了——幾百步就停止,模型還沒開始“發掘潛能”就被叫停了。

因此,我們認為應該在更加多樣的任務上做更加長期的強化學習訓練。然而,讓模型在強化學習中實現長期且穩定的訓練并不容易。傳統方法常常面臨梯度爆炸或訓練坍塌等問題。為此,我們將 模型的 entropy(熵) 作為衡量訓練健康程度的關鍵指標。Entropy 反映了模型在探索與利用之間的平衡能力,也代表了模型對問題理解的深度

訓練過程中,我們力求保持 entropy 在一個合理且穩定的區間:過高的 entropy 意味著模型在做出決策時過于隨機,缺乏有效判斷;過低的 entropy 則表明模型可能陷入某個解法,失去了進一步探索的能力

通過持續監控并調控 entropy,我們有效促進了 RL 訓練的穩定性和推理能力的提升。在此基礎上,我們提出了ProRL(Prolonged Reinforcement Learning),一個長期強化學習訓練框架,核心包括:

  • KL控制(保持模型不跑偏)
  • 參考策略重置(防止陷入局部最優)
  • 多樣化任務集合(激發模型學習不同推理策略)

我們基于 DeepSeek-Distilled-Qwen-1.5B,訓練了一個專注于推理能力的模型 —— Nemotron-Research-Reasoning-Qwen-1.5B,在數學/編程/邏輯題/STEM推理/任務指令理解等多個領域展現出顯著提升。

在這里插入圖片描述

更關鍵的是:

我們發現 RL 模型能解出 base model 無論怎么 sampling 都完全答不出的題,甚至做到 pass rate 100%。這不是隨機波動,而是新能力的誕生

我們還用 Creativity Index 量化了“新解法”的創意程度,發現訓練越久,模型“跳出預訓練語料”的能力越強,推理路徑越來越有創造性

在這里插入圖片描述

此外,強化學習的效果與基礎模型的初始表現呈負相關關系:初始 pass@k 較低的任務,在推理邊界擴展方面的提升最大;而在諸如數學和代碼等高表現領域(其創造力指數較低),推理邊界的擴展則較為有限。對于改善幅度較小的任務(即圖中顯示為“Diminished Area”的部分),基礎模型通常具有較低的創造力指數,這表明這些任務可能已在預訓練數據中得到了充分覆蓋,因此在推理邊界上的擴展潛力有限。

在這里插入圖片描述

我們希望這項工作為“如何通過RL真正提升大模型的推理能力”提供一個新的思考方向,歡迎大家交流!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/83620.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/83620.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/83620.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

ORM 框架的優缺點分析

ORM 框架的優缺點分析 一、ORM 框架概述 ORM(Object-Relational Mapping)是一種將關系型數據庫與面向對象編程進行映射的技術框架。它通過將數據庫表映射為編程語言中的類,將記錄映射為對象,將字段映射為屬性,實現了用面向對象的方式操作數據庫。 核心價值:ORM 在數據庫和…

1. 數據庫基礎

1.1 什么是數據庫 ? mysql 本質是一種網絡服務, 是基于 C(mysql) S(mysqld)的 網絡服務. 存儲數據用文件就可以了,為什么還要弄個數據庫?文件保存數據存在以下缺點: 文件的安全性問題。文件不利于數據查詢和管理。文件不利于存儲海量數據。…

go語言學習 第5章:函數

第5章:函數 函數是編程中不可或缺的一部分,它封裝了一段可重復使用的代碼,用于執行特定的任務。在Go語言中,函數同樣扮演著重要的角色。本章將詳細介紹Go語言中函數的定義、調用、參數傳遞、返回值處理以及一些高級特性&#xff…

MapReduce 分布式計算模型

what:分解大數據集,并行處理,匯總結果(分解組合思想) 目的:SQL查詢轉換為MR,理解MR更好優化SQL 優點: 只需關注業務邏輯(自定義函數map,reduce&#xff09…

RDMA簡介3之四種子協議對比

RDMA協議共有四種子協議,分別為InfiniBand、iWARP、RoCE v1和RoCE v2協議。這四種協議使用統一的RDMA API,但在具體的網絡層級實現上有所不同,如圖1所示,接下來將分別介紹這四種子協議。 圖1 RDMA四種子協議網絡層級關系圖 Infin…

LabelImg: 開源圖像標注工具指南

LabelImg: 開源圖像標注工具指南 1. 簡介 LabelImg 是一個圖形化的圖像標注工具,使用 Python 和 Qt 開發。它是目標檢測任務中最常用的標注工具之一,支持 PASCAL VOC 和 YOLO 格式的標注輸出。該工具開源、免費,并且跨平臺支持 Windows、Lin…

系統架構設計論文

disstertation 軟考高級-系統架構設計師-論文:論文范圍(十大知識領域)、歷年論題、預測論題及論述過程、論文要點、論文模板等。 —— 2025 年 4 月 4 日 甲辰年三月初七 清明 目錄 disstertation1、論文范圍(十大核心領域&#x…

數學復習筆記 26

5.25:這題還是有點難度的。主要是出現了新的知識點,我現在還沒有那么熟悉這個新的知識點。這塊就是,假設一個矩陣可以寫成一個列向量乘以一個行向量的形式,這兩個向量都是非零向量,那么這個矩陣的秩等于一。這個的原理…

[Java 基礎]注釋

注釋在編程中扮演著非常重要的角色,它們是寫給人類閱讀的,而不是給計算機執行的。良好的注釋可以極大地提高代碼的可讀性和可維護性。 為什么需要注釋? 提高可讀性: 注釋可以解釋代碼的功能、實現思路、特殊處理等,幫…

TortoiseSVN賬號切換

SVN登錄配置及賬號切換 本文主要為了解答svn客戶端如何進行賬號登錄及切換不同權限賬號的方式。 一、環境準備與客戶端安裝 安裝TortoiseSVN客戶端 ??下載地址??:TortoiseSVN官網 ??安裝步驟??: 雙擊安裝包,按向導完成安裝后&#x…

5分鐘了解JVM運行時數據區域

點擊藍字,關注我們 在 Java 程序運行期間,JVM 會劃分出幾塊重要的內存區域,用來支撐類加載、方法調用、對象分配、線程執行等一切運行時行為。 這些區域構成了 JVM 的“運行時數據區”。 一、運行時數據區域概覽圖 二、Java 堆(H…

深入理解CSS浮動:從基礎原理到實際應用

深入理解CSS浮動:從基礎原理到實際應用 引言 在網頁設計中,CSS浮動(float)是一個歷史悠久卻又至關重要的概念。雖然現代布局技術如Flexbox和Grid逐漸流行,但浮動仍然在許多場景中發揮著重要作用。本文將帶你深入理解…

Spring Bean 為何“難產”?攻克構造器注入的依賴與歧義

本文已收錄在Github,關注我,緊跟本系列專欄文章,咱們下篇再續! 🚀 魔都架構師 | 全網30W技術追隨者🔧 大廠分布式系統/數據中臺實戰專家🏆 主導交易系統百萬級流量調優 & 車聯網平臺架構&a…

華為云Flexus+DeepSeek征文|實戰體驗云服務器單機部署和CCE高可用的架構AI賦能

前引:“在數字化浪潮洶涌澎湃的今天,企業對云計算服務的需求已從基礎架構支撐,逐步轉向更深層次的AI賦能與業務創新驅動。面對復雜多變的市場環境,選擇一個強大、可靠且具備前瞻性的云服務伙伴,無疑是企業實現高速增長…

雷卯針對易百納G610Q-IPC-38E 模組防雷防靜電方案

一、應用場景 1、智能監控 2、智能家居 3、工業自動化 4、機器人 5、智能交通 6、醫療影像 7、教育科研 二、 功能概述 1 HI3516CV610(ARM Cortex-A7 MP2) 2 AI算力 1Tops 3 模組集成 4M30FPS Sensor,支持最高 6M30fps 的 ISP 圖像…

生成對抗網絡(GAN)基礎原理深度解析:從直觀理解到形式化表達

摘要 本文詳細解析 生成對抗網絡(GAN) 的 核心原理,從通俗類比入手,結合印假鈔與警察博弈的案例闡述生成器 與 判別器 的對抗機制;通過模型結構示意圖,解析 噪聲采樣、樣本生成 及判別流程;基于…

OptiStruct結構分析與工程應用:無限元法介紹

13.3 無限元方法 本節將詳細闡述如何利用無限元方法求解外聲場分析,具體包括無限元方法基本理論,無限單元介紹、無限元分析建模指南及檢查,最后以一個實例講解整個分析設置過程。 13.3.1 無限元分析基礎理論 無限元求解外聲場的基本原理如…

判斷:有那種使用了局部變量的遞歸過程在轉換成非遞歸過程時才必須使用棧

這道題的關鍵在于理解遞歸轉非遞歸與 “是否用棧” 的本質邏輯,和 “局部變量” 無關,核心看遞歸的調用上下文是否需要保存。 一、遞歸的本質:依賴 “調用棧” 遞歸函數執行時,系統會用調用棧保存: 每層遞歸的參數、…

leetcode1443. 收集樹上所有蘋果的最少時間-medium

1 題目:收集樹上所有蘋果的最少時間 官方標定難度:中 給你一棵有 n 個節點的無向樹,節點編號為 0 到 n-1 ,它們中有一些節點有蘋果。通過樹上的一條邊,需要花費 1 秒鐘。你從 節點 0 出發,請你返回最少需…

MySQL 索引底層原理剖析:B+ 樹結構、索引創建維護與性能優化策略全解讀

引言 在 MySQL 數據庫的世界里,索引是提升查詢性能的關鍵利器。然而,很多開發者雖然知道索引的重要性,但對于索引背后的底層原理卻知之甚少。本文將深入 MySQL 索引的底層實現,剖析 B 樹的結構特點,以及如何利用這些知…