論文鏈接:RLPR: EXTRAPOLATING RLVR TO GENERAL DOMAINS WITHOUT VERIFIERS
文章目錄
- 簡介
- RLPR
- RLVR
- 概率獎勵/Probability Reward
- 獎勵設計
- 標準差過濾
- 總結
簡介
可驗證獎勵的強化學習(Reinforcement Learning with Verifiable Rewards, RLVR)在提升大語言模型(LLMs)的推理能力方面展現出了良好潛力,但其依賴基于規則、準確答案或代碼運行等可驗證的硬獎勵,使其很大程度上局限于數據和代碼領域。
為了解決此問題,本論文作者發現LLMs生成正確自由形式答案的內在概率能直接反應其對推理獎勵的自我評估,即推理過程對得出爭取答案的貢獻程度;基于這一見解,提出了一種無需驗證器的簡潔框架–基于參考概率獎勵的強化學習(Reinforcement Learning with Reference Probability Reward, RLPR),其可將RLVR擴展到更廣泛的通用領域。RLPR使用LLMs對參考答案的token概率分數作為獎勵信號,在訓練過程中最大化期待的獎勵;該概率分數是LLMs基礎能力中自然內置的一部分,即使沒有專門微調,也能為獎勵評估提供良好的覆蓋范圍和潛力;此外其還能更好地應對自由形式自然語言答案的復雜性和多樣性,即使對于部分正確的答案,也能給出合理的獎勵。RLPR引入了以下兩項關鍵創新:
- 提出一種簡單可擴展的獎勵方案,可替代來自外部驗證器的顯示獎勵,直接通過參考答案token的平均解碼概率計算內在概率的獎勵;包含一種簡單的去偏方法,通過優化同一提示在無推理情況下的獎勵優勢來消除文本帶來的獎勵偏差
- 提出一種自適應課程學習機制以穩定訓練過程,基于過去獎勵標準差的指數移動平均值設定動態閾值,自適應地移除那些產生低獎勵標準差的提示(過于簡單或過于復雜),這種方法能很好地適應訓練過程中獎勵分布的變化,提高訓練穩定性和最終性能
在四個通用領域基準和三個數學基準上進行的全面實驗表明,對于基于 Gemma、Llama 和 Qwen 的模型,RLPR 在這兩個領域中均能持續提升其推理能力。值得注意的是,RLPR 在 TheoremQA 基準上比同期的 VeriFree 方法高出 7.6 分,在 Minerva 基準上高出 7.5 分,甚至在七個基準上的平均得分比依賴強驗證器模型的 General-Reasoner 方法高出 1.6 分。
圖1詳細描述了傳統RLVR和RLPR之間的區別,RLVP依賴專用驗證器計算獎勵,如圖中描述的數學驗證器、代碼驗證器等,并且一般較為復雜且具有領域性,難以遷移到其他領域。RLPR則使用策略模型 πθ\pi_{\theta}πθ?生成的簡單概率獎勵替代負責的基于驗證器的獎勵,其中 Q,z,y,y?Q,z,y,y^*Q,z,y,y?分別表示輸入問題、LLMs生成最終答案前的推理內容、生成的最終答案和參考答案。圖1右側的一個例子則表明,RLVR常使用的規則和驗證器在處理自然語言負責性有限,它們會將 y2,y3y_2,y_3y2?,y3?標記為不正確,但是RLPR則能成功將 y2,y3y_2,y_3y2?,y3?標記為正向獎勵。
RLPR
RLVR
RLVR是一種典型的后訓練范式,其基于規則的驗證器為每個生成的響應分配一個獎勵分數的標量;即給定提示詞 xxx、策略模型 πθ\pi_{\theta}πθ?,LLMs生成推理內容 zzz和最終的答案 yyy,然后對期望的驗證器獎勵分數進行優化:
J(θ)=Ez,y~πθ(?∣x)[fverifier(y,y?)](1)\mathcal{J}(\theta)=\mathbb{E}_{z,y \sim \pi_{\theta}(\cdot|x)}[f_{verifier}(y,y^*)] \tag1J(θ)=Ez,y~πθ?(?∣x)?[fverifier?(y,y?)](1)
其中 fverifierf_{verifier}fverifier?是特定于任務的基于規則的驗證器,用于判斷生成的答案 yyy是否通過由真實答案 y?y^*y?定義的測試,常見的驗證器包括數學問題的符號驗證器、用于代碼生成的沙箱執行驗證器等。構建基于規則的驗證器是一項費力的系統性功能,需要人為設計規則并處理邊緣情況,極大限制了RLVR在新領域的領用。
概率獎勵/Probability Reward
將一個問題 QQQ的回復用 o=(o0,???,oN)o=(o_0,\cdot\cdot\cdot,o_N)o=(o0?,???,oN?)表示,其中 $o_i
$是回復中一個獨立的token。為了獲得概率,先從生成的整個回復序列中提取答案 yyy,剩下的部分為推理內容 zzz。然后將生成回復中的真實答案 yyy替換為參考答案 y?y^*y?得到一個調整后的序列 o′=(o0′,???,oN′′)o^{'}=(o^{'}_0,\cdot\cdot\cdot,o^{'}_{N^{'}})o′=(o0′?,???,oN′′?),將此序列送入策略模型得到概率 (p0,???,pN′)(p_0,\cdot\cdot\cdot,p_{N^{'}})(p0?,???,pN′?),獎勵則由以下公式計算:
r=fseq({pi∣oi′∈o′})(2)r=f_{seq}(\{p_i|o_i^{'} \in o^{'}\}) \tag2r=fseq?({pi?∣oi′?∈o′})(2)
其中 fseqf_{seq}fseq?用于將每個token的概率聚合為響應 ooo的單個獎勵標量。雖然使用 fseq=∏Nf_{seq}=\sqrt[N]{\prod}fseq?=N∏?(概率的歸一化乘積,即序列似然性)可以反映參考答案的整體似然性,但發現這種方式會引入高方差,并且對同義詞等細微變化過于敏感。例如,token 概率序列(0.01, 0.7, 0.9)和(0.05, 0.7, 0.9)在乘積運算下會產生差異極大的分數,盡管僅在第一個 token 上存在微小差異。為解決這一問題,轉而采用 fseq=1∣y?∣∑f_{seq} = \frac{1}{|y^*|}\sumfseq?=∣y?∣1?∑(均值概率),這種方式能產生更穩健的獎勵信號,與答案質量的相關性更優。實驗觀察到,概率獎勵值與生成答案 yyy的質量高度一致:當預測答案與參考答案在語義上相似時,會獲得較高獎勵;反之,則獎勵較低。
獎勵設計
基于概率的獎勵與響應質量有很強的相關性,但也會受到多種潛在因素的影響,大致可分解為兩個潛在因素,分別是推理內容 zzz和涵蓋其他相關但未觀測因素的特征,如問題、參考答案等。直接使用公式(2) 中的 rrr作為獎勵會引入未觀測因素,可能降低獎勵質量。為了緩解此問題,引入基準分數 r′=fseq({pi∣oi′∈y?})r^{'}=f_{seq}(\{p_i|o_i^{'} \in y^*\})r′=fseq?({pi?∣oi′?∈y?}),即使用公式(2)只計算參考答案 y?y^*y?的分數。去偏后的概率獎勵計算如下:
r^=clip(0,1,r?r′)(3)\hat{r}=\text{clip}(0,1,r-r^{'}) \tag3r^=clip(0,1,r?r′)(3)
其中的裁剪操作確保獎勵可保持在李強的數值范圍 [0,1][0,1][0,1]之內。公式(3)可有效消除來自問題和參考答案的潛在偏差,將概率獎勵/PR建模未給定生成推理過程 zzz后概率的提升量。實驗發現,此去偏方法可以穩定訓練過程,提高獎勵的穩健性,最終目標函數的梯度估計器為:
?JRLPR(θ)=?Eo~πθ(?∣x)[r^]=∑or^πθ(o∣x)?log?πθ(o∣x)=Eo~πθ(?∣x)[r^?log?πθ(o∣x)]\begin{align*} \nabla \mathcal{J}_{RLPR}(\theta) &= \nabla \mathbb{E}_{o \sim \pi_{\theta}(\cdot|x)}[\hat{r}] \\ &= \sum_{o} \hat{r}\pi_{\theta}(o|x) \nabla \log \pi_{\theta}(o|x) \\ &= \mathbb{E}_{o \sim \pi_{\theta}(\cdot|x)}[\hat{r}\nabla \log \pi_{\theta}(o|x)] \tag4 \end{align*}?JRLPR?(θ)?=?Eo~πθ?(?∣x)?[r^]=o∑?r^πθ?(o∣x)?logπθ?(o∣x)=Eo~πθ?(?∣x)?[r^?logπθ?(o∣x)]?(4)?
其中在整個回復 o=z∣∣yo=z||yo=z∣∣y上優化獎勵。
標準差過濾
常規的強化學習或RLVR一般采用準確率過濾,即排除過難或過易的prompts來穩定訓練,意味著很大概率會過濾掉完全正確或完全錯誤的prompts。然而概率獎勵/PR的連續性使其難以直接引用準確率過濾,因為很難為響應的正確性設定一個通用閾值。
通過分析準確率過濾,觀察到過濾獎勵標準差交替的prompts能夠達到類似的效果。具體來說,概率獎勵值取值范圍為 [0,1][0,1][0,1],具有有界性,那些產生全高分或圈地分的prompts會表現出較低的標準差。訓練過程中整體的標準差分布不斷變化,固定的閾值可能會在不同訓練階段導致過濾過嚴或過松的問題。為解決此問題,采用指數移動均值,利用每個訓練步的平均標準差來動態更新過濾閾值 β\betaβ。通過過濾掉獎勵標準差小于 β\betaβ的prompts,實現一種自適應課程學習機制,提升訓練穩定性的同時也提高最終性能。
總結
待補充…