論文閱讀:強化預訓練

大型語言模型 (LLMs) 的驚人能力很大程度上歸功于在海量文本語料庫上進行下一詞元預測 (Next-Token Prediction, NTP) 的規模化訓練。與此同時,強化學習 (Reinforcement Learning, RL) 已成為微調 LLMs、使其與人類偏好對齊或增強特定技能(如復雜推理)的強大技術。然而,當前的 RL 應用面臨規模化和泛化挑戰。RLHF (基于人類反饋的強化學習) 依賴昂貴的人類標注數據,且易受獎勵欺騙 (reward hacking)。RLVR (基于可驗證獎勵的強化學習) 雖然減輕了獎勵欺騙,但通常受限于帶有可驗證答案的標注數據稀缺性,難以泛化到通用預訓練。為此研究者提出了強化學習預訓練。

論文地址:https://www.arxiv.org/pdf/2506.08007

這篇論文引入了強化預訓練 (Reinforcement Pre-Training, RPT),這是一個連接可規模化的自監督預訓練和 RL 強大能力的新范式。

核心思想:將下一詞元預測重塑為推理任務

RPT 的核心思想是,將基礎的下一詞元預測任務重新定義為一個下一詞元推理過程。對于預訓練語料庫中的任何給定上下文,模型被激勵在預測下一個詞元之前進行推理。模型會根據其對下一個詞元的預測是否正確獲得一個可驗證的內在獎勵,這個獎勵直接來源于語料庫中的真實下一詞元。

這就像從只追求做出美味的“櫻桃頂蛋糕”(僅預測下一詞元)轉變為制作美味的“櫻桃蛋糕”(通過推理來預測下一詞元)(如圖 1 所示)。
在這里插入圖片描述

圖 1: 強化預訓練 (RPT) 將下一詞元預測重塑為推理任務。

在標準的下一詞元預測中,模型直接估計下一個詞元。而在下一詞元推理中(如圖 2 所示),模型在預測之前會生成一個思維鏈 (chain-of-thought)

在這里插入圖片描述

圖 2: 標準下一詞元預測與下一詞元推理的對比。

標準的下一詞元預測目標是最大化給定上下文下真實下一詞元的對數概率:

I N T P ( θ ) = ∑ t = 1 T log ? P ( x t ∣ x 0 , x 1 , . . . , x t ? 1 ; θ ) I_{NTP}(\theta) = \sum_{t=1}^{T} \log P(x_t | x_0, x_1, ..., x_{t-1}; \theta) INTP?(θ)=t=1T?logP(xt?x0?,x1?,...,xt?1?;θ)

其中 θ \theta θ 代表語言模型的參數, x 0 , . . . , x T x_0, ..., x_T x0?,...,xT? 是訓練語料庫中的序列。

在 RPT 中,模型 π θ \pi_\theta πθ? 接收上下文 x < t x_{<t} x<t? 后,生成包含思維鏈 c t c_t ct? 和最終預測 y t y_t yt? 的響應 o t = ( c t , y t ) o_t = (c_t, y_t) ot?=(ct?,yt?)。獎勵 r r r 的設定是基于預測 y y y 是否精確匹配真實后續序列 x > t x_{>t} x>t? 的某個有效詞元邊界前綴(如圖 3 所示):

在這里插入圖片描述

圖 3: 強化預訓練過程示意圖。

形式上,對于第 i 個輸出 o i = ( c i , y i ) o_i = (c_i, y_i) oi?=(ci?,yi?),獎勵 r i r_i ri? 定義為:

r i = { 1 if? y i = x > t [ 1 : l ] and? l ∈ L g t 0 otherwise r_i = \begin{cases} 1 & \text{if } y_i = x_{>t}[1:l] \text{ and } l \in \mathcal{L}_{gt} \\ 0 & \text{otherwise} \end{cases} ri?={10?if?yi?=x>t?[1:l]?and?lLgt?otherwise?

其中 y i y_i yi? 是預測的字節序列, x > t x_{>t} x>t? 是真實后續序列的字節序列, l l l y i y_i yi? 的字節長度, L g t \mathcal{L}_{gt} Lgt? 是真實后續序列中詞元的累積字節長度邊界集合。如果預測的字節序列是真實后續序列的一個精確前綴且長度匹配某個有效詞元邊界,則獎勵為 1,否則為 0。

模型訓練的目標是最大化期望獎勵:

J R P T ( θ ) = E ( x < t , x > t ) ~ D , o ~ π θ ( ? ∣ x < t ) [ r ] J_{RPT}(\theta) = E_{(x_{<t}, x_{>t}) \sim \mathcal{D}, o \sim \pi_\theta(\cdot|x_{<t})} [r] JRPT?(θ)=E(x<t?,x>t?)D,oπθ?(?x<t?)?[r]

其中 D \mathcal{D} D 是所有上下文-后續序列對的集合。

這種方法將海量的未標注文本數據轉化為通用 RL 的大規模數據集,而無需外部標注。

RPT 的優勢

RPT 提供了幾個關鍵優勢:

  1. 規模化和通用性: RPT 利用用于標準下一詞元預測的未標注文本數據,將其轉化為通用的 RL 數據集,無需外部標注。
  2. 最小化獎勵欺騙: 使用直接的、基于規則的獎勵信號(即預測下一個詞元的正確性)能有效最小化復雜學習獎勵模型常伴隨的獎勵欺騙風險。
  3. 促進理解和泛化: 通過明確鼓勵下一詞元推理模式,RPT 促進更深入的理解和泛化,而非僅僅死記硬背詞元級的關聯。
  4. 訓練時推理: 預訓練期間的內部推理過程使得模型能夠為每個預測步驟分配更多“思考”或計算資源,這有助于提高下一詞元預測準確性。

實驗結果

論文通過實驗驗證了 RPT 的有效性:

  1. 語言建模性能: RPT 顯著提高了下一詞元預測的準確性。在 OmniMATH 數據集上,根據詞元位置的難度劃分,RPT-14B 在所有難度級別上都持續優于 R1-Distill-Qwen-14B。特別是在推理模式下,RPT-14B 的表現優于 R1-Distill-Qwen-14B 的標準預測和推理模式基線。甚至接近了更大模型 R1-Distill-Qwen-32B 的性能(見表 1 和圖 4)。
EasyMediumHard
Standard next-token prediction
Qwen2.5-14B41.9030.0320.65
R1-Distill-Qwen-14B41.6029.4620.43
Next-token reasoning
R1-Distill-Qwen-14B3.311.661.41
RPT-14B45.1133.5623.75

表 1: 不同難度測試集上的下一詞元預測準確性。

關鍵點: RPT 顯著提高了下一詞元預測準確性,尤其是在有挑戰性的詞元上。

  1. 規模化特性: RPT 的性能隨著訓練計算資源的增加而持續提升,表現出良好的規模化特性。通過冪律形式擬合(公式 5)驗證了這一趨勢(見圖 5)。

P ( C ) = A C a + P ? P(C) = \frac{A}{C^a} + P^* P(C)=CaA?+P?

其中 P ( C ) P(C) P(C) 是驗證集上的下一詞元預測準確性, C C C 是訓練計算資源, A , a , P ? A, a, P^* A,a,P? 是估計參數。擬合曲線的高 R2 值表明其能準確捕捉性能趨勢。

在這里插入圖片描述

圖 5: 強化預訓練的下一詞元預測準確性隨訓練計算資源增加而持續提升。

關鍵點: RPT 性能隨訓練計算資源增加而持續提升,展現出良好的規模化特性。

  1. RL 微調基礎: RPT 為后續的強化學習微調提供了更強大的基礎。在 RLVR 任務上的實驗表明,經過 RPT 預訓練的模型在進一步 RL 微調后能達到更高的性能上限,優于僅通過標準下一詞元目標持續預訓練的模型(見表 2)。
Before RLAfter RL
R1-Distill-Qwen-14B51.252.7
+ Continual NTP training10.713.0
RPT-14B56.358.3

表 2: 不同模型的強化學習微調性能。

關鍵點: RPT 為后續強化學習微調提供了更強大的預訓練基礎。

  1. 零樣本任務性能: RPT 增強了模型在通用下游任務上的零樣本性能。在 SuperGPQA 和 MMLU-Pro 等基準測試上,RPT-14B 在推理模式下持續優于基線模型(包括更大的 R1-Distill-Qwen-32B 的標準下一詞元預測性能)(見表 3)。
SuperGPQAMMLU-Pro
Standard next-token prediction mode
R1-Distill-Qwen-14B32.048.4
R1-Distill-Qwen-32B37.256.5
Reasoning mode
R1-Distill-Qwen14B36.168.9
RPT-14B39.071.1

表 3: 通用領域零樣本任務性能。

關鍵點: RPT 提升了模型在通用下游任務上的零樣本性能

  1. 推理模式分析: RPT 訓練的模型展現出與結構化問題解決不同的推理模式。例如,RPT-14B 在下一詞元推理中更多使用了假設生成和演繹推理,而不是像解決問題時那樣側重分解問題(見圖 6 和表 9)。這表明 RPT 能夠誘導更具推斷性的過程。

在這里插入圖片描述

圖 6: R1-Distill-Qwen-14B 在問題解決和 RPT-14B 在下一詞元推理中使用的推理模式統計。

Pattern GroupKeywords
Transitionalternatively, think differently
Reflectionwait, initial answer, original answer, looking back, thought process
Breakdownbreak down, break this down
Hypothesisprobably, something like
Divergent Thinkingetc., or something, either, sometimes it refers, otherwise, exploring, options
Deductionsummarize, conclusion, conclude, finally, logically, consequently

表 9: 推理模式分組及關鍵詞。

關鍵點: RPT 鼓勵更具推斷性的推理模式

貢獻總結

這篇論文的主要貢獻可以總結為:

  • 引入了強化預訓練 (RPT),這是一個將下一詞元預測重塑為基于強化學習的推理任務的新范式,利用了直接從預訓練語料庫中獲得的內在可驗證獎勵
  • RPT 提供了一種可規模化且通用的 RL 預訓練方法,通過基于規則的獎勵最小化獎勵欺騙,并通過鼓勵下一詞元推理模式促進泛化
  • RPT 顯著提高了下一詞元預測準確性并展現出良好的規模化特性,性能隨訓練計算資源的增加而持續提升。
  • RPT 為后續的強化學習微調提供了更強大的預訓練基礎,并增強了各種下游任務的零樣本性能。

結論與未來工作

強化預訓練 (RPT) 為大型語言模型的預訓練提供了一個新穎且有前景的方向。通過將下一詞元預測框定為一個可驗證的推理任務并應用基于正確性的強化學習,RPT 使 LLMs 能夠在預訓練期間利用擴展的計算資源來構建更強的基礎推理能力。實驗證明了 RPT 在提高下一詞元預測準確性、增強零樣本性能以及為后續 RL 微調提供更好起點方面的有效性。

盡管如此,RPT 的初步探索也存在一些限制,例如主要使用了數學領域的語料庫,并且預訓練是從一個具備基礎推理能力的模型初始化的。未來的工作可以進一步探索在更廣泛的通用領域文本上的有效性,并研究從標準基礎語言模型進行 RPT 訓練的影響。

未來的方向包括:擴大訓練語料庫的大小和領域覆蓋;增加訓練計算資源以推進性能邊界;建立強化預訓練的規模化法則;以及探索將混合思維與 RPT 相結合,以實現細粒度的自適應推理。

Reference

https://www.arxiv.org/pdf/2506.08007

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/86746.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/86746.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/86746.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Java 大視界——Java大數據在智能安防視頻監控中的異常事件快速響應與處理機制

??摘要&#xff1a;?? 在智慧城市和工業4.0浪潮下&#xff0c;智能安防系統日均產生PB級視頻流數據。如何在實時性、準確性、成本三者間取得平衡&#xff0c;成為行業核心挑戰。本文將深入探討??Java技術棧在大規模視頻分析系統中的核心作用??&#xff1a;基于FlinkJav…

華為云Flexus+DeepSeek征文| 基于Dify-LLM平臺應用實踐:創建智能知識庫問答助手

華為云FlexusDeepSeek征文&#xff5c; 基于Dify-LLM平臺應用實踐&#xff1a;創建智能知識庫問答助手 前言一、相關名詞介紹1.1 華為云Flexus X實例介紹1.2 華為云ModelArts Studio介紹 二、本次實踐介紹2.1 本次實踐環境介紹2.2 Dify平臺介紹 三、搭建Dify-LLM開發平臺3.1 進…

Spark on yarn的作業提交流程

一、YarnClient 二、YarnCluster 三、詳細描述 客戶端&#xff08;Client&#xff09;通過YARN的ResourceManager提交應用程序。在此過程中&#xff0c;客戶端進行權限驗證&#xff0c;生成Job ID和資源上傳路徑&#xff0c;并將這些信息返回給客戶端。客戶端將jar包、配置…

MySQL 主從復制與一主多從架構實戰詳解

文章目錄 一、MySQL 主從復制的本質原理 數據同步流程&#xff1a; 主從復制三大線程&#xff1a; 二、主從復制的三種模式 三、一主多從架構設計與應用 應用場景&#xff1a; 優勢&#xff1a; 四、單機模擬主從復制&#xff08;實戰配置&#xff09; 環境準備&#xff1a…

分布式光纖測溫及紅外測溫系統的區別?

在現代工業監控系統中&#xff0c;溫度監測是保障設備安全運行的關鍵環節。分布式光纖測溫&#xff08;DTS&#xff09;和紅外測溫&#xff08;IR&#xff09;是兩種常見的溫度監測技術。 本文將介紹這兩種技術的原理、優勢以及應用場景的區別。 光纖測溫技術的原理是利用光纖…

sql優化:使用 exists 優化 in () 或 = ()

1、使用 exists 優化 in () 優化前&#xff1a; select id, order_no, apply_time, apply_dept, apply_operator, purpose, stage, remark from BranchWarehouseApplyMaster where stage 0 and warehouse_id 1 and apply_dept in ( select emp_DeptID from Employee where …

HTTP 響應狀態碼

HTTP 響應狀態碼&#xff08;Response Status Codes&#xff09; HTTP 響應狀態碼用于表示服務器對客戶端請求的處理結果&#xff0c;由3位數字 組成&#xff0c;分為5類&#xff1a; 狀態碼 類別 常見狀態碼 說明 1xx 信息響應 100&#xff08;Continue&#xff09; …

如何通過插件系統打造個性化效率工作流

在現代工作流中&#xff0c;快速調用工具與自動化操作已成為提升生產力的核心環節。一款真正出色的效率工具&#xff0c;不僅要在響應速度和跨平臺兼容性上表現出色&#xff0c;更需要具備高度的可擴展性&#xff0c;以滿足多樣化的使用場景。 它不僅輕量高效&#xff0c;還支…

Spring上下文模塊設計

經過此前我們設計的如&#xff1a;IoC、Web、數據訪問、AOP等模塊的設計&#xff0c;我們從設計上已經搭建好了Spring的基礎骨架了&#xff0c;但聰明的碼友會思考想到&#xff1a;作為一個基礎框架而言&#xff0c;目前應該是已經夠用了的&#xff0c;但是上進的碼友怎么會就此…

keil5怎么關閉工程

在project里面有一個close project&#xff0c;點擊后就關掉了&#xff0c;之前還按照其他軟件的操作習慣&#xff0c;右鍵工程選項&#xff0c;但是始終沒有發現關閉選項。

騰訊云:6月30日起,自動禁用,及時排查

大家好&#xff0c;我是小悟。 騰訊云發布公告&#xff0c;宣布從2025年6月30日開始&#xff0c;對長期未使用的AccessKey&#xff08;API訪問密鑰&#xff09;進行自動禁用。 簡單來說&#xff0c;如果你的密鑰在90天內沒動靜&#xff0c;系統就會把它關掉&#xff0c;不管是…

【C++】多重繼承與虛繼承

多重繼承與虛繼承 1.單繼承和多重繼承的區別2.語法規則示例代碼&#xff1a;多重繼承子類指定父類的構造示例代碼&#xff1a;多重繼承子類隱藏父類的同名方法 3.虛繼承解決多重繼承遇到的bug示例代碼&#xff1a;環狀繼承引發的問題 3.1 虛基類&#xff1a;3.2 語法規則&#…

GCC編譯/連接/優化等選項

1. GCC編譯/連接/優化等選項 1. GCC編譯/連接/優化等選項 1.1. 簡介1.2. 常用選項 1.2.1. -c -E -S -o1.2.2. -L<path> -l<library>1.2.3. -D<macro>1.2.4. -I<path> 1.3. 代碼生成和優化 1.3.1. -std<standard>1.3.2. -shared1.3.3. -fPIC1.3.…

FFmpeg 壓縮視頻文件

文章目錄 FFmpeg 壓縮視頻文件基本壓縮命令&#xff08;保持 MP4 格式&#xff09;轉換為其他格式示例&#xff1a;關鍵參數說明&#xff1a;額外優化選項&#xff1a; 在FFmpeg中使用多線程加速1. 幀級多線程 (frame-level multithreading)2. 切片級多線程 (slice-level multi…

Ubuntu 系統通過防火墻管控 Docker 容器

Ubuntu 系統通過防火墻管控 Docker 容器指南 一、基礎防火墻配置 # 啟用防火墻 sudo ufw enable# 允許 SSH 連接&#xff08;防止配置過程中斷聯&#xff09; sudo ufw allow 22/tcp二、Docker 配置調整 # 編輯 Docker 配置文件 sudo vim /etc/docker/daemon.json配置文件內…

虛擬機新增硬盤,與數據掛載

我有個虛擬機&#xff0c;當時選擇了獨立文件&#xff0c;現在遇到個問題&#xff0c;硬盤不夠了&#xff0c;索性加了一個新硬盤&#xff0c;現在想把數據庫的數據映射到這個新的硬盤處理。 羅列硬盤 lsblk我得是sdb是新硬盤 2. 分區 sudo fdisk /dev/sdb交互操作&#xff…

go語言學習 第10章:面向對象編程

第10章&#xff1a;面向對象編程 面向對象編程&#xff08;OOP&#xff09;是一種編程范式&#xff0c;它使用“對象”來表示數據和方法&#xff0c;并通過類來定義對象的結構和行為。Go語言雖然不是傳統的面向對象語言&#xff0c;但它通過結構體&#xff08;struct&#xff…

android計算器代碼

本次作業要求實現一個計算器應用的基礎框架。以下是布局文件的核心代碼&#xff1a; <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android"android:layout_width"match_parent"android:layout_height"match_parent"andr…

Go 語言接口詳解

Go 語言接口詳解 核心概念 接口定義 在 Go 語言中&#xff0c;接口是一種抽象類型&#xff0c;它定義了一組方法的集合&#xff1a; // 定義接口 type Shape interface {Area() float64Perimeter() float64 } 接口實現 Go 接口的實現是隱式的&#xff1a; // 矩形結構體…

我們來學mysql -- 8.4版本記錄慢查詢

記錄慢查詢 開啟慢查詢的配置查看慢查詢狀態動態開啟慢查詢日志永久開啟配置log_throttle_queries_not_using_indexes 記錄慢查詢對性能的影響實際案例說明第一條記錄第二條記錄第三條記錄第四條記錄 開啟慢查詢的配置 查看慢查詢狀態 - 執行 show variables like slow_quer…