RL?_ Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers

RL?: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers

在人工智能領域,大語言模型(LLM)的推理能力提升一直是研究熱點。今天要解讀的論文提出了一種全新的強化學習框架RL?,通過融合推理與驗證能力,為大模型的測試效率和泛化性能帶來了突破性進展。這一成果不僅解決了傳統強化學習方法的關鍵缺陷,更展現了統一化訓練在提升模型綜合能力上的巨大潛力。

論文標題

Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers

來源
arXiv:2505.04842 [cs.LG] + https://arxiv.org/abs/2505.04842

PS: 整理了LLM、量化投資、機器學習方向的學習資料,關注同名公眾號 「 亞里隨筆」 即刻免費解鎖

研究背景

在大語言模型(LLM)推理能力的強化學習(RL)優化中,主流方法(如 GRPO、VinePPO)為降低訓練成本,普遍舍棄傳統價值函數,轉而依賴經驗估計回報。這一 “去價值化” 策略雖提升了訓練階段的計算效率和內存利用率,卻導致測試階段喪失關鍵的內置驗證能力—— 傳統價值函數本可作為 “結果驗證器” 評估推理鏈正確性,支撐并行采樣(如 Best-of-N 投票)等計算擴展策略。這一策略雖然提升了訓練效率,卻導致模型在測試階段缺乏內置的驗證機制,難以利用并行采樣等計算擴展策略優化推理結果。

研究問題

1. 測試階段計算效率低下:缺少價值函數或驗證器,無法通過并行采樣(如Best-of-N投票)有效提升推理準確性。

2. 獨立驗證器的高成本:部署單獨的驗證模型會增加數據標注、計算資源和內存占用的負擔。

3. 泛化能力受限:傳統方法在跨難度(Easy-to-Hard)或跨領域(Out-of-Domain)任務中表現不足,難以應對復雜推理需求。

主要貢獻

1. 統一化訓練框架RL?
首次提出在單一LLM中同時訓練推理器(Reasoner)和生成式驗證器(Generative Verifier),利用強化學習過程中產生的(問題-解-獎勵)數據,通過聯合優化RL目標與驗證目標(如預測“是否正確”的下一個標記),實現“一次訓練,雙重能力”。與傳統方法相比,無需額外模型或數據開銷,驗證能力提升的同時推理性能保持穩定。

2. 測試階段計算效率的革命性提升

  • 并行采樣效率:在MATH500數據集上,使用加權投票策略時,RL?相比基線方法(如GRPO)的計算效率提升8-32倍,準確率提高超20%。
  • 動態序列長度優化:通過設定驗證置信度閾值,模型可自動為難題分配更長的推理序列,在AIME’24數據集上實現計算預算內的準確率最大化。

3. 跨場景泛化能力突破

  • 難度泛化:在MATH2(更復雜數學問題)上,RL?的成功率比基線方法高10%以上。
  • 領域泛化:在GPQA物理問題(跨領域任務)中,準確率提升超10%,證明其驗證機制具有通用性。

4. 長推理模型的互補性增強
與長思維鏈模型(如R1-Distill-Qwen-1.5B)結合時,RL?在并行+序列計算聯合擴展場景下,性能比基線方法高1.2-1.6倍,驗證了其與現有技術的兼容性。

方法論精要

1. 核心框架:RL?的統一訓練機制

  • 訓練階段
    LLM同時作為策略網絡(生成推理鏈)和驗證器(預測解的正確性)。利用RL生成的解及其正確性標簽(由獎勵函數提供),通過監督微調(SFT)訓練驗證器,目標為最大化預測“是/否”標簽的似然性。

統一目標函數

J Unified ( θ ) = J RL ( θ ; x ) + λ J Verify ( θ ; x ) \mathcal{J}_{\text{Unified}}(\theta) = \mathcal{J}_{\text{RL}}(\theta; x) + \lambda \mathcal{J}_{\text{Verify}}(\theta; x) JUnified?(θ)=JRL?(θ;x)+λJVerify?(θ;x)

其中, J RL \mathcal{J}_{\text{RL}} JRL?為強化學習目標, J Verify \mathcal{J}_{\text{Verify}} JVerify?為驗證目標, λ \lambda λ平衡兩者權重。

  • 測試階段
    LLM生成N個候選解,同時作為驗證器為每個解評分(“是”的概率),通過加權投票Best-of-N策略選擇最終答案。例如,加權投票將同一答案的驗證分數累加,選擇最高分答案,顯著優于無驗證的多數投票基線。

2. 關鍵參數設計原理

  • 驗證目標的形式
    將驗證視為“下一個標記預測”任務,輸入為(問題x,解y,提示“該解是否正確?回答是或否”),輸出為“是/否”標記,避免引入額外分類頭或回歸層,降低結構復雜度。
  • 超參數平衡
    λ \lambda λ的取值影響推理與驗證能力的權衡。實驗表明,Leave-one-out PPO?在 λ = 1 \lambda=1 λ=1時達到最佳平衡,推理準確率(Pass@1)與驗證準確率(對正誤解的區分能力)均保持高位,而GRPO?因優化特性導致兩者存在顯著取舍。

3. 創新性技術組合

  • 數據復用
    直接利用RL訓練中產生的解數據(無需額外標注),通過“生成-驗證”閉環實現數據高效利用,避免獨立驗證器所需的大規模標注成本。
  • 輕量級驗證
    驗證過程與推理共享同一模型參數,無額外內存占用,推理時僅需一次前向傳播即可同時獲得解和驗證分數,相比獨立驗證器節省約50%計算資源。
  1. 實驗驗證:數據集與基線選擇
  • 數據集
    • 數學推理:MATH(訓練)、MATH500、MATH2(難度泛化)、AIME’24(長序列推理)。
    • 跨領域:GPQA Physics(物理問題,測試領域泛化)。
  • 基線方法
    主流“無價值函數”RL方法,如GRPO、Leave-one-out PPO、VinePPO,對比時使用LLM-as-a-Judge(即直接提示基模型作為驗證器)或獨立驗證器作為基線驗證方案。

實驗洞察

1. 性能優勢:準確率與效率雙提升

  • 并行采樣效果
    在MATH500上,當使用64個并行樣本時,RL?(GRPO?)的加權投票準確率達79.0%,遠超基線GRPO的55.6%,且計算效率提升32倍(即達到相同準確率所需計算量僅為基線的1/32)。
  • 長序列推理
    在AIME’24數據集上,RL?(GRPO?)結合4096 token序列長度時,成功率比基線GRPO高15%,顯示其在處理復雜推理時的優勢。

2. 效率突破:計算資源的智能分配

  • 動態序列長度優化
    通過設定驗證置信度閾值(如加權投票分數≥0.6),模型可自動為難題延長推理序列。例如,在AIME’24中,平均序列長度從1024 token增加到4096 token時,準確率從30%提升至40%,證明其按需分配計算資源的能力。
  • 模型規模擴展性
    當模型從1.5B擴展至7B時,RL?的驗證準確率在MATH500上從76%提升至82%,加權投票準確率提升約5%,表明其性能隨模型規模增長而持續優化。

3. 消融研究:核心模塊的必要性驗證

  • 統一訓練 vs. 獨立驗證器
    對比使用獨立驗證器(基于相同RL數據訓練)和RL?的統一驗證器,兩者驗證準確率接近(約80% vs. 78%),但RL?無需額外模型參數,內存占用減少50%以上。
  • 驗證目標的形式
    對比二進制交叉熵(BCE)分類頭、回歸頭和生成式驗證(下一個標記預測),生成式驗證在推理準確率(Pass@1)和驗證準確率上均最優,表明利用LLM生成能力的有效性。

總結與展望

RL?通過將推理與驗證統一到單一LLM中,巧妙解決了傳統強化學習方法在測試階段的效率瓶頸,同時以近乎零成本增強了模型的泛化能力。其核心價值在于數據與計算資源的高效復用,為未來大模型的輕量化部署和復雜推理任務提供了新方向。

值得關注的是,論文提出的動態計算分配機制(如基于置信度的序列長度調整)為長上下文模型(如32K token模型)的優化提供了思路——通過驗證器實時評估推理進度,可避免無效的長序列生成,進一步提升計算效率。

未來研究方向可能包括:

  1. 擴展驗證器以生成思維鏈解釋(而非簡單“是/否”判斷),增強可解釋性;
  2. 探索RL?在代碼生成、科學推理等更廣泛領域的應用;
  3. 與更先進的并行采樣策略(如蒙特卡洛樹搜索)結合,進一步提升復雜任務的推理能力。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/81561.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/81561.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/81561.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

VS中將控制臺項目編程改為WINDOWS桌面程序

有時候因為誤操作,建立了控制臺項目,但是實際上想建立桌面程序。那么應該如何改過來呢? 一共要修改兩個地方,修改步驟如下: 第一處修改地點: 將C/C下面的預處理器選項中,將原本的_CONSOLE修改…

API Gateway REST API 集成 S3 服務自定義 404 頁面

需求分析 使用 API Gateway REST API 可以直接使用 S3 作為后端集成對外提供可以訪問的 API. 而當訪問的 URL 中存在無效的桶, 或者不存在的對象時, API Gateway 默認回向客戶端返回 200 狀態碼. 而實際上這并不是正確的響應, 本文將介紹如何自定義返回 404 錯誤頁面. 基本功…

【達夢數據庫】過程、函數、包頭和包體詳解零基礎

目錄 背景參考鏈接解釋包頭包體 背景 最近遇到關于包頭和包體的問題,學習并記錄 參考鏈接 參考鏈接: oracle的過程、函數、包頭和包體詳解零基礎 解釋 包頭主要用于定義接口,包體主要用以實現包體中聲明的存儲過程、函數等。 包頭 包體

C++字符串處理:`std::string`和`std::string_view`的區別與使用

在 C中,std::string和std::string_view都用于處理字符串,但它們的用途和性能特點有很大不同。本教程將通過代碼示例和流程圖,幫助你快速掌握它們的使用方法。 1.什么是std::string和std::string_view? 1.1std::string std::str…

Pod 節點數量

動態調整 在 Kubernetes 中,如果為量化交易系統的 Pod 設置了可伸縮(HPA / VPA / 自定義控制器),并且默認副本數是 5,那么節點數量(副本數)是否變化,主要取決于以下幾個因素。 ? …

基于OpenCV中的圖像拼接方法詳解

文章目錄 引言一、圖像拼接的基本流程二、代碼實現詳解1. 準備工作2. 特征檢測與描述detectAndDescribe 函數詳解(1)函數功能(2)代碼解析(3)為什么需要這個函數?(4)輸出數…

Java-List集合類全面解析

Java-List集合類全面解析 前言一、List接口概述與核心特性1.1 List在集合框架中的位置1.2 List的核心特性1.3 常見實現類對比 二、ArrayList源碼剖析與應用場景2.1 內部結構與初始化2.2 動態擴容機制2.3 性能特點與最佳實踐 三、LinkedList 源碼剖析與應用場景3.1 內部結構與節…

Flink 并行度的設置

在 Apache Flink 中,并行度(Parallelism) 是控制任務并發執行的核心參數之一。Flink 提供了 多個層級設置并行度的方式,優先級從高到低如下: 🧩 一、Flink 并行度的四個設置層級 層級描述設置方式Operator…

OpenCV 筆記(39):頻域中的拉普拉斯算子

1. 拉普拉斯算子 在該系列的第八篇文章中,我們曾經介紹過在二維空間拉普拉斯算子的定義為: 這是對函數 的二階偏導數之和。 2. 拉普拉斯算子的傅里葉變換及其推導 在該系列的第三十二篇文章中,我們曾給介紹過下面的公式 二維連續傅里葉變換&…

入職軟件開發與實施工程師了后........

時隔幾個月沒有創作的我又回來了,這幾個月很忙,我一直在找工作,在自考(順便還處理了一下分手的事),到處奔波,心力交瘁。可能我骨子里比較傲吧。我不愿意著急謀生,做我不愿意做的普通…

多卡跑ollama run deepseek-r1

# 設置環境變量并啟動模型 export CUDA_VISIBLE_DEVICES0,1,2,3 export OLLAMA_SCHED_SPREAD1 # 啟用多卡負載均衡 ollama run deepseek-r1:32b 若 deepseek-r1:32b 的顯存需求未超過單卡容量(如單卡 24GB),Ollama 不會自動啟用多卡 在run…

09、底層注解-@Import導入組件

09、底層注解-Import導入組件 Import是Spring框架中的一個注解,用于將組件導入到Spring的應用上下文中。以下是Import注解的詳細介紹: #### 基本用法 - **導入配置類** java Configuration public class MainConfig { // 配置內容 } Configuration Impo…

題解:P12207 [藍橋杯 2023 國 Python B] 劃分

鏈接 題目描述 給定 40 個數,請將其任意劃分成兩組,每組至少一個元素。每組的權值為組內所有元素的和。劃分的權值為兩組權值的乘積。請問對于以下 40 個數,劃分的權值最大為多少。 5160 9191 6410 4657 7492 1531 8854 1253 4520 9231126…

配置ssh服務-ubuntu到Windows拷貝文件方法

背景: 在工作中,需要頻繁從ubuntu到Windows拷貝文件,但有時間總是無法拷出,每次重啟虛擬機又比較麻煩并且效率較低。可以使用scp服務進行拷貝,不僅穩定而且高效,現將配置過程進行梳理,以供大家參…

線程池模式與C#中用法

一、線程池模式解析 1. 核心概念 線程池是一種 管理線程生命周期的技術,主要解決以下問題: 減少線程創建/銷毀開銷:復用已存在的線程 控制并發度:避免無限制創建線程導致資源耗盡 任務隊列:有序處理異步請求 2. …

設置IDEA打開新項目使用JDK17

由于最近在學習Spring-AI&#xff0c;所以JDK8已經不適用了&#xff0c;但是每次創建新項目都還是JDK8&#xff0c;每次調來調去很麻煩 把Projects和SDKs都調整為JDK17即可 同時&#xff0c;Maven也要做些更改&#xff0c;主要是添加build標簽 <build><plugins>&…

初識MySQL · 索引

目錄 前言&#xff1a; 重溫磁盤 認識索引 為什么這么做&#xff0c;怎么做 重談page 聚簇索引VS非聚簇索引 回表查詢 索引分類 前言&#xff1a; 前文我們主要是介紹了MySQL的一些基本操作&#xff0c;增刪查改一類的操作都介紹了&#xff0c;并且因為大多數情況下&am…

MySQL——7、復合查詢和表的內外連接

復合查詢和表的內外連接 1、基本查詢回顧2、多表查詢3、自連接4、子查詢4.1、單行子查詢4.2、多行子查詢4.3、多列子查詢4.4、在from子句中使用子查詢4.5、合并查詢 5、表的內連和外連5.1、內連接5.2、外連接5.2.1、左外連接5.2.2、右外連接 1、基本查詢回顧 1.1、查詢工資高于…

MYSQL故障排查和環境優化

一、MySQL故障排查 1. 單實例常見故障 &#xff08;1&#xff09;連接失敗類問題 ERROR 2002 (HY000): Cant connect to MySQL server 原因&#xff1a;MySQL未啟動或端口被防火墻攔截。 解決&#xff1a;啟動MySQL服務&#xff08;systemctl start mysqld&#xff09;或開放…

7GB顯存如何部署bf16精度的DeepSeek-R1 70B大模型?

構建RAG混合開發---PythonAIJavaEEVue.js前端的實踐-CSDN博客 服務容錯治理框架resilience4j&sentinel基礎應用---微服務的限流/熔斷/降級解決方案-CSDN博客 conda管理python環境-CSDN博客 快速搭建對象存儲服務 - Minio&#xff0c;并解決臨時地址暴露ip、短鏈接請求改…