大型語言模型 (LLMs) 的驚人能力很大程度上歸功于在海量文本語料庫上進行下一詞元預測 (Next-Token Prediction, NTP) 的規模化訓練。與此同時,強化學習 (Reinforcement Learning, RL) 已成為微調 LLMs、使其與人類偏好對齊或增強特定技能(如復雜推理)的強大技術。然而,當前的 RL 應用面臨規模化和泛化挑戰。RLHF (基于人類反饋的強化學習) 依賴昂貴的人類標注數據,且易受獎勵欺騙 (reward hacking)。RLVR (基于可驗證獎勵的強化學習) 雖然減輕了獎勵欺騙,但通常受限于帶有可驗證答案的標注數據稀缺性,難以泛化到通用預訓練。為此研究者提出了強化學習預訓練。
論文地址:https://www.arxiv.org/pdf/2506.08007
這篇論文引入了強化預訓練 (Reinforcement Pre-Training, RPT),這是一個連接可規模化的自監督預訓練和 RL 強大能力的新范式。
核心思想:將下一詞元預測重塑為推理任務
RPT 的核心思想是,將基礎的下一詞元預測任務重新定義為一個下一詞元推理過程。對于預訓練語料庫中的任何給定上下文,模型被激勵在預測下一個詞元之前進行推理。模型會根據其對下一個詞元的預測是否正確獲得一個可驗證的內在獎勵,這個獎勵直接來源于語料庫中的真實下一詞元。
這就像從只追求做出美味的“櫻桃頂蛋糕”(僅預測下一詞元)轉變為制作美味的“櫻桃蛋糕”(通過推理來預測下一詞元)(如圖 1 所示)。
圖 1: 強化預訓練 (RPT) 將下一詞元預測重塑為推理任務。
在標準的下一詞元預測中,模型直接估計下一個詞元。而在下一詞元推理中(如圖 2 所示),模型在預測之前會生成一個思維鏈 (chain-of-thought)。
圖 2: 標準下一詞元預測與下一詞元推理的對比。
標準的下一詞元預測目標是最大化給定上下文下真實下一詞元的對數概率:
I N T P ( θ ) = ∑ t = 1 T log ? P ( x t ∣ x 0 , x 1 , . . . , x t ? 1 ; θ ) I_{NTP}(\theta) = \sum_{t=1}^{T} \log P(x_t | x_0, x_1, ..., x_{t-1}; \theta) INTP?(θ)=t=1∑T?logP(xt?∣x0?,x1?,...,xt?1?;θ)
其中 θ \theta θ 代表語言模型的參數, x 0 , . . . , x T x_0, ..., x_T x0?,...,xT? 是訓練語料庫中的序列。
在 RPT 中,模型 π θ \pi_\theta πθ? 接收上下文 x < t x_{<t} x<t? 后,生成包含思維鏈 c t c_t ct? 和最終預測 y t y_t yt? 的響應 o t = ( c t , y t ) o_t = (c_t, y_t) ot?=(ct?,yt?)。獎勵 r r r 的設定是基于預測 y y y 是否精確匹配真實后續序列 x > t x_{>t} x>t? 的某個有效詞元邊界前綴(如圖 3 所示):
圖 3: 強化預訓練過程示意圖。
形式上,對于第 i 個輸出 o i = ( c i , y i ) o_i = (c_i, y_i) oi?=(ci?,yi?),獎勵 r i r_i ri? 定義為:
r i = { 1 if? y i = x > t [ 1 : l ] and? l ∈ L g t 0 otherwise r_i = \begin{cases} 1 & \text{if } y_i = x_{>t}[1:l] \text{ and } l \in \mathcal{L}_{gt} \\ 0 & \text{otherwise} \end{cases} ri?={10?if?yi?=x>t?[1:l]?and?l∈Lgt?otherwise?
其中 y i y_i yi? 是預測的字節序列, x > t x_{>t} x>t? 是真實后續序列的字節序列, l l l 是 y i y_i yi? 的字節長度, L g t \mathcal{L}_{gt} Lgt? 是真實后續序列中詞元的累積字節長度邊界集合。如果預測的字節序列是真實后續序列的一個精確前綴且長度匹配某個有效詞元邊界,則獎勵為 1,否則為 0。
模型訓練的目標是最大化期望獎勵:
J R P T ( θ ) = E ( x < t , x > t ) ~ D , o ~ π θ ( ? ∣ x < t ) [ r ] J_{RPT}(\theta) = E_{(x_{<t}, x_{>t}) \sim \mathcal{D}, o \sim \pi_\theta(\cdot|x_{<t})} [r] JRPT?(θ)=E(x<t?,x>t?)~D,o~πθ?(?∣x<t?)?[r]
其中 D \mathcal{D} D 是所有上下文-后續序列對的集合。
這種方法將海量的未標注文本數據轉化為通用 RL 的大規模數據集,而無需外部標注。
RPT 的優勢
RPT 提供了幾個關鍵優勢:
- 規模化和通用性: RPT 利用用于標準下一詞元預測的未標注文本數據,將其轉化為通用的 RL 數據集,無需外部標注。
- 最小化獎勵欺騙: 使用直接的、基于規則的獎勵信號(即預測下一個詞元的正確性)能有效最小化復雜學習獎勵模型常伴隨的獎勵欺騙風險。
- 促進理解和泛化: 通過明確鼓勵下一詞元推理模式,RPT 促進更深入的理解和泛化,而非僅僅死記硬背詞元級的關聯。
- 訓練時推理: 預訓練期間的內部推理過程使得模型能夠為每個預測步驟分配更多“思考”或計算資源,這有助于提高下一詞元預測準確性。
實驗結果
論文通過實驗驗證了 RPT 的有效性:
- 語言建模性能: RPT 顯著提高了下一詞元預測的準確性。在 OmniMATH 數據集上,根據詞元位置的難度劃分,RPT-14B 在所有難度級別上都持續優于 R1-Distill-Qwen-14B。特別是在推理模式下,RPT-14B 的表現優于 R1-Distill-Qwen-14B 的標準預測和推理模式基線。甚至接近了更大模型 R1-Distill-Qwen-32B 的性能(見表 1 和圖 4)。
Easy | Medium | Hard | |
---|---|---|---|
Standard next-token prediction | |||
Qwen2.5-14B | 41.90 | 30.03 | 20.65 |
R1-Distill-Qwen-14B | 41.60 | 29.46 | 20.43 |
Next-token reasoning | |||
R1-Distill-Qwen-14B | 3.31 | 1.66 | 1.41 |
RPT-14B | 45.11 | 33.56 | 23.75 |
表 1: 不同難度測試集上的下一詞元預測準確性。
關鍵點: RPT 顯著提高了下一詞元預測準確性,尤其是在有挑戰性的詞元上。
- 規模化特性: RPT 的性能隨著訓練計算資源的增加而持續提升,表現出良好的規模化特性。通過冪律形式擬合(公式 5)驗證了這一趨勢(見圖 5)。
P ( C ) = A C a + P ? P(C) = \frac{A}{C^a} + P^* P(C)=CaA?+P?
其中 P ( C ) P(C) P(C) 是驗證集上的下一詞元預測準確性, C C C 是訓練計算資源, A , a , P ? A, a, P^* A,a,P? 是估計參數。擬合曲線的高 R2 值表明其能準確捕捉性能趨勢。
圖 5: 強化預訓練的下一詞元預測準確性隨訓練計算資源增加而持續提升。
關鍵點: RPT 性能隨訓練計算資源增加而持續提升,展現出良好的規模化特性。
- RL 微調基礎: RPT 為后續的強化學習微調提供了更強大的基礎。在 RLVR 任務上的實驗表明,經過 RPT 預訓練的模型在進一步 RL 微調后能達到更高的性能上限,優于僅通過標準下一詞元目標持續預訓練的模型(見表 2)。
Before RL | After RL | |
---|---|---|
R1-Distill-Qwen-14B | 51.2 | 52.7 |
+ Continual NTP training | 10.7 | 13.0 |
RPT-14B | 56.3 | 58.3 |
表 2: 不同模型的強化學習微調性能。
關鍵點: RPT 為后續強化學習微調提供了更強大的預訓練基礎。
- 零樣本任務性能: RPT 增強了模型在通用下游任務上的零樣本性能。在 SuperGPQA 和 MMLU-Pro 等基準測試上,RPT-14B 在推理模式下持續優于基線模型(包括更大的 R1-Distill-Qwen-32B 的標準下一詞元預測性能)(見表 3)。
SuperGPQA | MMLU-Pro | |
---|---|---|
Standard next-token prediction mode | ||
R1-Distill-Qwen-14B | 32.0 | 48.4 |
R1-Distill-Qwen-32B | 37.2 | 56.5 |
Reasoning mode | ||
R1-Distill-Qwen14B | 36.1 | 68.9 |
RPT-14B | 39.0 | 71.1 |
表 3: 通用領域零樣本任務性能。
關鍵點: RPT 提升了模型在通用下游任務上的零樣本性能。
- 推理模式分析: RPT 訓練的模型展現出與結構化問題解決不同的推理模式。例如,RPT-14B 在下一詞元推理中更多使用了假設生成和演繹推理,而不是像解決問題時那樣側重分解問題(見圖 6 和表 9)。這表明 RPT 能夠誘導更具推斷性的過程。
圖 6: R1-Distill-Qwen-14B 在問題解決和 RPT-14B 在下一詞元推理中使用的推理模式統計。
Pattern Group | Keywords |
---|---|
Transition | alternatively, think differently |
Reflection | wait, initial answer, original answer, looking back, thought process |
Breakdown | break down, break this down |
Hypothesis | probably, something like |
Divergent Thinking | etc., or something, either, sometimes it refers, otherwise, exploring, options |
Deduction | summarize, conclusion, conclude, finally, logically, consequently |
表 9: 推理模式分組及關鍵詞。
關鍵點: RPT 鼓勵更具推斷性的推理模式。
貢獻總結
這篇論文的主要貢獻可以總結為:
- 引入了強化預訓練 (RPT),這是一個將下一詞元預測重塑為基于強化學習的推理任務的新范式,利用了直接從預訓練語料庫中獲得的內在可驗證獎勵。
- RPT 提供了一種可規模化且通用的 RL 預訓練方法,通過基于規則的獎勵最小化獎勵欺騙,并通過鼓勵下一詞元推理模式促進泛化。
- RPT 顯著提高了下一詞元預測準確性并展現出良好的規模化特性,性能隨訓練計算資源的增加而持續提升。
- RPT 為后續的強化學習微調提供了更強大的預訓練基礎,并增強了各種下游任務的零樣本性能。
結論與未來工作
強化預訓練 (RPT) 為大型語言模型的預訓練提供了一個新穎且有前景的方向。通過將下一詞元預測框定為一個可驗證的推理任務并應用基于正確性的強化學習,RPT 使 LLMs 能夠在預訓練期間利用擴展的計算資源來構建更強的基礎推理能力。實驗證明了 RPT 在提高下一詞元預測準確性、增強零樣本性能以及為后續 RL 微調提供更好起點方面的有效性。
盡管如此,RPT 的初步探索也存在一些限制,例如主要使用了數學領域的語料庫,并且預訓練是從一個具備基礎推理能力的模型初始化的。未來的工作可以進一步探索在更廣泛的通用領域文本上的有效性,并研究從標準基礎語言模型進行 RPT 訓練的影響。
未來的方向包括:擴大訓練語料庫的大小和領域覆蓋;增加訓練計算資源以推進性能邊界;建立強化預訓練的規模化法則;以及探索將混合思維與 RPT 相結合,以實現細粒度的自適應推理。
Reference
https://www.arxiv.org/pdf/2506.08007