RLVR的一種擴展方案--RLPR論文閱讀

論文鏈接:RLPR: EXTRAPOLATING RLVR TO GENERAL DOMAINS WITHOUT VERIFIERS

文章目錄

  • 簡介
  • RLPR
    • RLVR
    • 概率獎勵/Probability Reward
    • 獎勵設計
    • 標準差過濾
  • 總結

簡介

可驗證獎勵的強化學習(Reinforcement Learning with Verifiable Rewards, RLVR)在提升大語言模型(LLMs)的推理能力方面展現出了良好潛力,但其依賴基于規則、準確答案或代碼運行等可驗證的硬獎勵,使其很大程度上局限于數據和代碼領域。

為了解決此問題,本論文作者發現LLMs生成正確自由形式答案的內在概率能直接反應其對推理獎勵的自我評估,即推理過程對得出爭取答案的貢獻程度;基于這一見解,提出了一種無需驗證器的簡潔框架–基于參考概率獎勵的強化學習(Reinforcement Learning with Reference Probability Reward, RLPR),其可將RLVR擴展到更廣泛的通用領域。RLPR使用LLMs對參考答案的token概率分數作為獎勵信號,在訓練過程中最大化期待的獎勵;該概率分數是LLMs基礎能力中自然內置的一部分,即使沒有專門微調,也能為獎勵評估提供良好的覆蓋范圍和潛力;此外其還能更好地應對自由形式自然語言答案的復雜性和多樣性,即使對于部分正確的答案,也能給出合理的獎勵。RLPR引入了以下兩項關鍵創新:

  • 提出一種簡單可擴展的獎勵方案,可替代來自外部驗證器的顯示獎勵,直接通過參考答案token的平均解碼概率計算內在概率的獎勵;包含一種簡單的去偏方法,通過優化同一提示在無推理情況下的獎勵優勢來消除文本帶來的獎勵偏差
  • 提出一種自適應課程學習機制以穩定訓練過程,基于過去獎勵標準差的指數移動平均值設定動態閾值,自適應地移除那些產生低獎勵標準差的提示(過于簡單或過于復雜),這種方法能很好地適應訓練過程中獎勵分布的變化,提高訓練穩定性和最終性能

在四個通用領域基準和三個數學基準上進行的全面實驗表明,對于基于 Gemma、Llama 和 Qwen 的模型,RLPR 在這兩個領域中均能持續提升其推理能力。值得注意的是,RLPR 在 TheoremQA 基準上比同期的 VeriFree 方法高出 7.6 分,在 Minerva 基準上高出 7.5 分,甚至在七個基準上的平均得分比依賴強驗證器模型的 General-Reasoner 方法高出 1.6 分。

在這里插入圖片描述

圖1 常規RLVR和RLPR對比

圖1詳細描述了傳統RLVR和RLPR之間的區別,RLVP依賴專用驗證器計算獎勵,如圖中描述的數學驗證器、代碼驗證器等,并且一般較為復雜且具有領域性,難以遷移到其他領域。RLPR則使用策略模型 πθ\pi_{\theta}πθ?生成的簡單概率獎勵替代負責的基于驗證器的獎勵,其中 Q,z,y,y?Q,z,y,y^*Q,z,y,y?分別表示輸入問題、LLMs生成最終答案前的推理內容、生成的最終答案和參考答案。圖1右側的一個例子則表明,RLVR常使用的規則和驗證器在處理自然語言負責性有限,它們會將 y2,y3y_2,y_3y2?,y3?標記為不正確,但是RLPR則能成功將 y2,y3y_2,y_3y2?,y3?標記為正向獎勵。

RLPR

RLVR

RLVR是一種典型的后訓練范式,其基于規則的驗證器為每個生成的響應分配一個獎勵分數的標量;即給定提示詞 xxx、策略模型 πθ\pi_{\theta}πθ?,LLMs生成推理內容 zzz和最終的答案 yyy,然后對期望的驗證器獎勵分數進行優化:
J(θ)=Ez,y~πθ(?∣x)[fverifier(y,y?)](1)\mathcal{J}(\theta)=\mathbb{E}_{z,y \sim \pi_{\theta}(\cdot|x)}[f_{verifier}(y,y^*)] \tag1J(θ)=Ez,yπθ?(?x)?[fverifier?(y,y?)](1)

其中 fverifierf_{verifier}fverifier?是特定于任務的基于規則的驗證器,用于判斷生成的答案 yyy是否通過由真實答案 y?y^*y?定義的測試,常見的驗證器包括數學問題的符號驗證器、用于代碼生成的沙箱執行驗證器等。構建基于規則的驗證器是一項費力的系統性功能,需要人為設計規則并處理邊緣情況,極大限制了RLVR在新領域的領用。

概率獎勵/Probability Reward

將一個問題 QQQ的回復用 o=(o0,???,oN)o=(o_0,\cdot\cdot\cdot,o_N)o=(o0?,???,oN?)表示,其中 $o_i
$是回復中一個獨立的token。為了獲得概率,先從生成的整個回復序列中提取答案 yyy,剩下的部分為推理內容 zzz。然后將生成回復中的真實答案 yyy替換為參考答案 y?y^*y?得到一個調整后的序列 o′=(o0′,???,oN′′)o^{'}=(o^{'}_0,\cdot\cdot\cdot,o^{'}_{N^{'}})o=(o0?,???,oN?),將此序列送入策略模型得到概率 (p0,???,pN′)(p_0,\cdot\cdot\cdot,p_{N^{'}})(p0?,???,pN?),獎勵則由以下公式計算:
r=fseq({pi∣oi′∈o′})(2)r=f_{seq}(\{p_i|o_i^{'} \in o^{'}\}) \tag2r=fseq?({pi?oi?o})(2)

其中 fseqf_{seq}fseq?用于將每個token的概率聚合為響應 ooo的單個獎勵標量。雖然使用 fseq=∏Nf_{seq}=\sqrt[N]{\prod}fseq?=N?(概率的歸一化乘積,即序列似然性)可以反映參考答案的整體似然性,但發現這種方式會引入高方差,并且對同義詞等細微變化過于敏感。例如,token 概率序列(0.01, 0.7, 0.9)和(0.05, 0.7, 0.9)在乘積運算下會產生差異極大的分數,盡管僅在第一個 token 上存在微小差異。為解決這一問題,轉而采用 fseq=1∣y?∣∑f_{seq} = \frac{1}{|y^*|}\sumfseq?=y?1?(均值概率),這種方式能產生更穩健的獎勵信號,與答案質量的相關性更優。實驗觀察到,概率獎勵值與生成答案 yyy的質量高度一致:當預測答案與參考答案在語義上相似時,會獲得較高獎勵;反之,則獎勵較低。

獎勵設計

基于概率的獎勵與響應質量有很強的相關性,但也會受到多種潛在因素的影響,大致可分解為兩個潛在因素,分別是推理內容 zzz和涵蓋其他相關但未觀測因素的特征,如問題、參考答案等。直接使用公式(2) 中的 rrr作為獎勵會引入未觀測因素,可能降低獎勵質量。為了緩解此問題,引入基準分數 r′=fseq({pi∣oi′∈y?})r^{'}=f_{seq}(\{p_i|o_i^{'} \in y^*\})r=fseq?({pi?oi?y?}),即使用公式(2)只計算參考答案 y?y^*y?的分數。去偏后的概率獎勵計算如下:
r^=clip(0,1,r?r′)(3)\hat{r}=\text{clip}(0,1,r-r^{'}) \tag3r^=clip(0,1,r?r)(3)

其中的裁剪操作確保獎勵可保持在李強的數值范圍 [0,1][0,1][0,1]之內。公式(3)可有效消除來自問題和參考答案的潛在偏差,將概率獎勵/PR建模未給定生成推理過程 zzz后概率的提升量。實驗發現,此去偏方法可以穩定訓練過程,提高獎勵的穩健性,最終目標函數的梯度估計器為:
?JRLPR(θ)=?Eo~πθ(?∣x)[r^]=∑or^πθ(o∣x)?log?πθ(o∣x)=Eo~πθ(?∣x)[r^?log?πθ(o∣x)]\begin{align*} \nabla \mathcal{J}_{RLPR}(\theta) &= \nabla \mathbb{E}_{o \sim \pi_{\theta}(\cdot|x)}[\hat{r}] \\ &= \sum_{o} \hat{r}\pi_{\theta}(o|x) \nabla \log \pi_{\theta}(o|x) \\ &= \mathbb{E}_{o \sim \pi_{\theta}(\cdot|x)}[\hat{r}\nabla \log \pi_{\theta}(o|x)] \tag4 \end{align*}?JRLPR?(θ)?=?Eoπθ?(?x)?[r^]=o?r^πθ?(ox)?logπθ?(ox)=Eoπθ?(?x)?[r^?logπθ?(ox)]?(4)?

其中在整個回復 o=z∣∣yo=z||yo=z∣∣y上優化獎勵。

標準差過濾

常規的強化學習或RLVR一般采用準確率過濾,即排除過難或過易的prompts來穩定訓練,意味著很大概率會過濾掉完全正確或完全錯誤的prompts。然而概率獎勵/PR的連續性使其難以直接引用準確率過濾,因為很難為響應的正確性設定一個通用閾值。

通過分析準確率過濾,觀察到過濾獎勵標準差交替的prompts能夠達到類似的效果。具體來說,概率獎勵值取值范圍為 [0,1][0,1][0,1],具有有界性,那些產生全高分或圈地分的prompts會表現出較低的標準差。訓練過程中整體的標準差分布不斷變化,固定的閾值可能會在不同訓練階段導致過濾過嚴或過松的問題。為解決此問題,采用指數移動均值,利用每個訓練步的平均標準差來動態更新過濾閾值 β\betaβ。通過過濾掉獎勵標準差小于 β\betaβ的prompts,實現一種自適應課程學習機制,提升訓練穩定性的同時也提高最終性能。

總結

待補充…

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/90137.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/90137.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/90137.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

odoo歐度小程序——添加用戶

odoo歐度小程序添加登錄用戶 1. 直接在登錄用戶頁面添加用戶點擊 添加登錄用戶輸入用戶和密碼,點擊登錄驗證進入odoo頁面2. 在用戶切換頁面添加用戶點擊選擇切換用戶點擊域名彈出菜單點擊添加新用戶輸入用戶和密碼,點擊登錄驗證進入odoo頁面

Docker 應用數據備份、遷移方案

一、為什么要做Docker數據備份1、保障數據與配置的安全性防止數據丟失:Docker 容器本身是 “臨時性” 的(基于鏡像創建,刪除后數據默認丟失),但容器中運行的應用(如數據庫、日志服務)會產生持久…

【PTA數據結構 | C語言版】強連通分量

本專欄持續輸出數據結構題目集,歡迎訂閱。 文章目錄題目代碼題目 本題請你編寫程序,輸出給定有向圖中的各個強連通分量,并統計強連通分量的個數。 輸入格式: 輸入首先在第一行給出 2 個整數,依次為有向圖的頂點數 n&…

idea部署新項目時,用自定義的maven出現的問題解決

出現這個問題是因為maven版本和idea版本不兼容,例如圖示是maven3.9和idea2021.3的版本不兼容,maven換成3.8.x即可解決

OCR 身份識別:讓身份信息錄入場景更高效安全

在銀行柜臺開戶、線上平臺實名認證等場景中,身份信息錄入是基礎環節,OCR 身份識別產品正成為提升效率與安全性的關鍵。?傳統人工錄入身份證信息,不僅耗時久,還易因手誤導致姓名、號碼出錯,影響業務辦理進度。而 OCR 身…

Web 服務器和Web 中間件

一、什么是 Web 中間件 Web 中間件(Web Middleware)是運行在 Web 服務器與實際業務程序之間的一層“膠水”軟件,用來統一處理公共事務,讓開發者專注寫業務邏輯。常見職責: 請求/響應攔截(鑒權、日志、跨域、…

Paimon的部分更新以及DeleteVector實現

背景 本文基于 Paimon 0.9 出于對與Paimon內部的DeleteVctor的實現以及部分更新的實現進行的源碼閱讀。 關于 DeleteVector的介紹可以看這里 說明 對于Paimon來說無論是Spark中使用還是Flink使用,后面的邏輯都是一樣的,所以我們以Spark為例來說。所以…

Redis 的事務機制是怎樣的?

Redis 的事務機制 Redis支持事務機制,其主要目的是確保多個命令執行的原子性,即這些命令會作為一個不可分割的操作單元執行。 需要注意的是,Redis事務不支持回滾操作。從Redis 2.6.5版本開始,服務器會在命令累積階段檢測錯誤。在執行EXEC命令時,若發現錯誤則會拒絕執行事…

網安學習NO.17

1. VPN 概述定義:在公用網絡(如 Internet、幀中繼、ATM 等)中,通過技術手段虛擬出的一條企業內部專線,能像私有網絡一樣提供安全性、可靠性和可管理性。核心特征:利用公共網絡構建,具備 “虛擬性…

MCU芯片AS32S601在衛星光纖放大器(EDFA)中的應用探索

摘要:本文聚焦于國科安芯推出的AS32S601型MCU芯片在衛星光纖放大器(EDFA)中的潛在應用,探討其技術特性、抗輻射性能及適用性。通過分析其在單粒子效應脈沖激光試驗中的表現,結合EDFA系統對控制芯片的要求,評…

Hexo - 免費搭建個人博客02 - 創建個人博客

導言我的博客:https://q164129345.github.io/ 開始一步一步地完成博客的創建。 一、初始化Hexo博客以上所示,運行以下指令在myCode文件夾里初始化一個hexo博客。 hexo init myblog二、安裝依賴如上所示,完成依賴的安裝。 cd myblog npm insta…

單片機-----基礎知識整合

一、基礎知識1)單片機的組成:中央處理器CPU、隨機存儲器RAM、只讀存儲器ROM、定時器、多種I/O接口、中斷系統等2)STM32U575RIT6采用ARM Cortex-M33內核架構ARM是什么?①ARM是一家公司,ARM公司是一家芯片知識產權&#…

雙流join 、 Paimon Partial Update 和 動態schema

背景 Paimon 通過其獨特的 partial-update 合并引擎和底層的 LSM 存儲結構,巧妙地將傳統雙流 Join 中對 Flink State 的高頻隨機讀/寫,轉換為了對 Paimon 表的順序寫和后臺的高效合并,從而一站式地解決了 Flink 作業狀態過大、依賴外部 KV 系…

7.3.1 進程調度機制那些事兒

一:task_struct結構體分析 1、進程有兩種特殊形式:沒有用戶虛擬地址空間的進程叫內核線程,共享用戶虛擬地址空間的進程叫作用戶線程。共享同一個用戶虛擬地址空間的所有用戶線程叫線程組。 C語言標準庫進程 Linux內核進程 …

基于多種機器學習的水質污染及安全預測分析系統的設計與實現【隨機森林、XGBoost、LightGBM、SMOTE、貝葉斯優化】

文章目錄有需要本項目的代碼或文檔以及全部資源,或者部署調試可以私信博主項目介紹總結每文一語有需要本項目的代碼或文檔以及全部資源,或者部署調試可以私信博主 項目介紹 隨著工業化和城市化的不斷推進,水質污染問題逐漸成為影響生態環境…

Linux第三天Linux基礎命令(二)

1.grep命令可以通過grep命令,從文件中通過關鍵字過濾文件行。grep [-n] 關鍵字 文件路徑選項-n,可選,表示在結果中顯示匹配的行的行號。參數,關鍵字,必填,表示過濾的關鍵字,帶有空格或其它特殊符…

Linux Debian操作系統、Deepin深度操作系統手動分區方案參考

以下是Linux Debian操作系統、Deepin深度操作系統安裝過程中手動分區的建議,按UEFI、swap、boot、根分區、home分區劃分,以下是詳細的分區配置參考建議: 一、手動分區方案(UEFI模式)分區名稱分區類型大小建議掛載點文件…

jmeter如何做自動化接口測試?

全網最全流程!JmeterAntAllureJenkins搭建屬于你的接口自動化流水線,CI/CD直接起飛!1.什么是jmeter? JMeter是100%完全由Java語言編寫的,免費的開源軟件,是非常優秀的性能測試和接口測試工具,支…

MyBatis整合SpringBoot終極指南

以下是一份系統化的 ?MyBatis 整合 Spring Boot 學習筆記&#xff0c;結合官方文檔與最佳實踐整理&#xff0c;涵蓋配置、核心功能、實戰示例及常見問題解決。 一、整合基礎與依賴配置 1. ?核心依賴? 在 pom.xml 中添加&#xff1a; <dependency><groupId>or…

企業微信ipad協議接口解決方案最新功能概覽

支持最新版本企業微信&#xff0c;安全穩定0封號免費試用&#xff0c;技術支持&#xff1a;string wechat"Mrzhu0107"企微ipad協議接口最新功能升級如下&#xff1a;【初始化】初始化企業微信&#xff0c;設置消息回調地址&#xff0c;獲取運行中的實例&#xff0c;根…