1.概述
DeepSeek-R1-Zero [10] 最近展示了使用可驗證獎勵的強化學習(RL)訓練大型語言模型(LLMs)可以極大地提高推理能力。在這個可驗證獎勵的強化學習(RLVR)框架 [17] 中,LLM 生成一個推理過程(即,思維鏈,CoT),然后給出最終答案。一個基于規則的程序隨后提取并評估最終答案,如果最終答案是正確的,則將獎勵1分配給響應,否則為0。該模型使用 GRPO [37] 進行 RL 訓練——這是 PPO [36] 的一種簡化變體。
這種方法的簡單性,加上在數學推理任務中令人印象深刻的性能提升,引發了一波后續工作,這些工作在這個 RL 與基于規則的可驗證獎勵的范式中進行 [24, 26, 45],我們將在下文中稱之為 R1-Zero 風格訓練。然而,這些方法仍然局限于數學和編碼等領域,在這些領域中,基于規則的驗證是可行的。推理在數學和編碼之外的領域中至關重要;然而,一般推理任務中答案驗證的難度構成了將這種訓練范式應用于更廣泛領域的主要障礙。為了解決這一限制,我們研究了如何將 R1-Zero 風格訓練擴展到無法進行基于規則的答案驗證的任務中。
&nb