RL?_ Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers

RL?: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers

在人工智能領域，大語言模型（LLM）的推理能力提升一直是研究熱點。今天要解讀的論文提出了一種全新的強化學習框架RL?，通過融合推理與驗證能力，為大模型的測試效率和泛化性能帶來了突破性進展。這一成果不僅解決了傳統強化學習方法的關鍵缺陷，更展現了統一化訓練在提升模型綜合能力上的巨大潛力。

論文標題

Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers

來源
arXiv:2505.04842 [cs.LG] + https://arxiv.org/abs/2505.04842

PS: 整理了LLM、量化投資、機器學習方向的學習資料，關注同名公眾號「亞里隨筆」即刻免費解鎖

研究背景

在大語言模型（LLM）推理能力的強化學習（RL）優化中，主流方法（如 GRPO、VinePPO）為降低訓練成本，普遍舍棄傳統價值函數，轉而依賴經驗估計回報。這一 “去價值化” 策略雖提升了訓練階段的計算效率和內存利用率，卻導致測試階段喪失關鍵的內置驗證能力—— 傳統價值函數本可作為 “結果驗證器” 評估推理鏈正確性，支撐并行采樣（如 Best-of-N 投票）等計算擴展策略。這一策略雖然提升了訓練效率，卻導致模型在測試階段缺乏內置的驗證機制，難以利用并行采樣等計算擴展策略優化推理結果。

研究問題

1. 測試階段計算效率低下：缺少價值函數或驗證器，無法通過并行采樣（如Best-of-N投票）有效提升推理準確性。

2. 獨立驗證器的高成本：部署單獨的驗證模型會增加數據標注、計算資源和內存占用的負擔。

3. 泛化能力受限：傳統方法在跨難度（Easy-to-Hard）或跨領域（Out-of-Domain）任務中表現不足，難以應對復雜推理需求。

主要貢獻

1. 統一化訓練框架RL?
首次提出在單一LLM中同時訓練推理器（Reasoner）和生成式驗證器（Generative Verifier），利用強化學習過程中產生的（問題-解-獎勵）數據，通過聯合優化RL目標與驗證目標（如預測“是否正確”的下一個標記），實現“一次訓練，雙重能力”。與傳統方法相比，無需額外模型或數據開銷，驗證能力提升的同時推理性能保持穩定。

2. 測試階段計算效率的革命性提升

并行采樣效率：在MATH500數據集上，使用加權投票策略時，RL?相比基線方法（如GRPO）的計算效率提升8-32倍，準確率提高超20%。
動態序列長度優化：通過設定驗證置信度閾值，模型可自動為難題分配更長的推理序列，在AIME’24數據集上實現計算預算內的準確率最大化。

3. 跨場景泛化能力突破

難度泛化：在MATH2（更復雜數學問題）上，RL?的成功率比基線方法高10%以上。
領域泛化：在GPQA物理問題（跨領域任務）中，準確率提升超10%，證明其驗證機制具有通用性。

4. 長推理模型的互補性增強
與長思維鏈模型（如R1-Distill-Qwen-1.5B）結合時，RL?在并行+序列計算聯合擴展場景下，性能比基線方法高1.2-1.6倍，驗證了其與現有技術的兼容性。

方法論精要

1. 核心框架：RL?的統一訓練機制

訓練階段：
LLM同時作為策略網絡（生成推理鏈）和驗證器（預測解的正確性）。利用RL生成的解及其正確性標簽（由獎勵函數提供），通過監督微調（SFT）訓練驗證器，目標為最大化預測“是/否”標簽的似然性。

統一目標函數：

$\mathcal{J}_{\text{Unified}}(\theta) = \mathcal{J}_{\text{RL}}(\theta; x) + \lambda \mathcal{J}_{\text{Verify}}(\theta; x)$

其中， $\mathcal{J}_{\text{RL}}$ 為強化學習目標， $\mathcal{J}_{\text{Verify}}$ 為驗證目標， $\lambda$ 平衡兩者權重。

測試階段：
LLM生成N個候選解，同時作為驗證器為每個解評分（“是”的概率），通過加權投票或Best-of-N策略選擇最終答案。例如，加權投票將同一答案的驗證分數累加，選擇最高分答案，顯著優于無驗證的多數投票基線。

2. 關鍵參數設計原理

驗證目標的形式：
將驗證視為“下一個標記預測”任務，輸入為（問題x，解y，提示“該解是否正確？回答是或否”），輸出為“是/否”標記，避免引入額外分類頭或回歸層，降低結構復雜度。
超參數平衡：
$\lambda$ 的取值影響推理與驗證能力的權衡。實驗表明，Leave-one-out PPO?在 $\lambda=1$ 時達到最佳平衡，推理準確率（Pass@1）與驗證準確率（對正誤解的區分能力）均保持高位，而GRPO?因優化特性導致兩者存在顯著取舍。

3. 創新性技術組合

數據復用：
直接利用RL訓練中產生的解數據（無需額外標注），通過“生成-驗證”閉環實現數據高效利用，避免獨立驗證器所需的大規模標注成本。
輕量級驗證：
驗證過程與推理共享同一模型參數，無額外內存占用，推理時僅需一次前向傳播即可同時獲得解和驗證分數，相比獨立驗證器節省約50%計算資源。

實驗驗證：數據集與基線選擇

數據集：
- 數學推理：MATH（訓練）、MATH500、MATH2（難度泛化）、AIME’24（長序列推理）。
- 跨領域：GPQA Physics（物理問題，測試領域泛化）。
基線方法：
主流“無價值函數”RL方法，如GRPO、Leave-one-out PPO、VinePPO，對比時使用LLM-as-a-Judge（即直接提示基模型作為驗證器）或獨立驗證器作為基線驗證方案。

實驗洞察

1. 性能優勢：準確率與效率雙提升

并行采樣效果：
在MATH500上，當使用64個并行樣本時，RL?（GRPO?）的加權投票準確率達79.0%，遠超基線GRPO的55.6%，且計算效率提升32倍（即達到相同準確率所需計算量僅為基線的1/32）。
長序列推理：
在AIME’24數據集上，RL?（GRPO?）結合4096 token序列長度時，成功率比基線GRPO高15%，顯示其在處理復雜推理時的優勢。

2. 效率突破：計算資源的智能分配

動態序列長度優化：
通過設定驗證置信度閾值（如加權投票分數≥0.6），模型可自動為難題延長推理序列。例如，在AIME’24中，平均序列長度從1024 token增加到4096 token時，準確率從30%提升至40%，證明其按需分配計算資源的能力。
模型規模擴展性：
當模型從1.5B擴展至7B時，RL?的驗證準確率在MATH500上從76%提升至82%，加權投票準確率提升約5%，表明其性能隨模型規模增長而持續優化。

3. 消融研究：核心模塊的必要性驗證

統一訓練 vs. 獨立驗證器：
對比使用獨立驗證器（基于相同RL數據訓練）和RL?的統一驗證器，兩者驗證準確率接近（約80% vs. 78%），但RL?無需額外模型參數，內存占用減少50%以上。
驗證目標的形式：
對比二進制交叉熵（BCE）分類頭、回歸頭和生成式驗證（下一個標記預測），生成式驗證在推理準確率（Pass@1）和驗證準確率上均最優，表明利用LLM生成能力的有效性。

總結與展望

RL?通過將推理與驗證統一到單一LLM中，巧妙解決了傳統強化學習方法在測試階段的效率瓶頸，同時以近乎零成本增強了模型的泛化能力。其核心價值在于數據與計算資源的高效復用，為未來大模型的輕量化部署和復雜推理任務提供了新方向。

值得關注的是，論文提出的動態計算分配機制（如基于置信度的序列長度調整）為長上下文模型（如32K token模型）的優化提供了思路——通過驗證器實時評估推理進度，可避免無效的長序列生成，進一步提升計算效率。

未來研究方向可能包括：

擴展驗證器以生成思維鏈解釋（而非簡單“是/否”判斷），增強可解釋性；
探索RL?在代碼生成、科學推理等更廣泛領域的應用；
與更先進的并行采樣策略（如蒙特卡洛樹搜索）結合，進一步提升復雜任務的推理能力。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/81561.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/81561.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/81561.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！