?更多 LLM 架構文章點擊查看:
LLM 架構專欄
大模型架構專欄文章閱讀指南
1. AI 智能體,顛覆還是賦能?一文讀懂!
2. 1W8000 字 解鎖 AI 高效運作密碼:工作流與智能體如何協同?
3. 萬字深度剖析 AI 代理:類型、應用及優勢與局限全解析
4. 1W5000 字 深度剖析大模型 Agent 框架
5. Agent 系列 1W 字用 Python 從零搭建 AI 智能體
在大推理模型中,基于規則的強化學習(RL)潛力幾何?今天咱們就來深入探討一篇與之相關的研究。研究人員選用合成邏輯謎題作為訓練數據,這是因為其復雜度可控,答案驗證也簡單直接。
研究發現,參數量 70 億的模型在訓練后,發展出了反思、驗證和總結等先進推理技能,而這些技能在原始邏輯語料庫中是不存在的。令人驚喜的是,僅在 5000 道邏輯題上訓練后,該模型就在具有挑戰性的數學基準測試 AIME 和 AMC 中展現出了泛化能力。
下面,就為大家詳細解讀這項研究中的有趣發現。
-
更長的回復不一定意味著更好的推理:回復長度并不能作為衡量訓練效果的有效指標,最有效的推理往往來自最短路徑。 -
語言混合會阻礙推理:這一現象表明,在獎勵建模中需要引入語言一致性懲罰機制。 -
增加 “思考” 標記有幫助:強化學習訓練會自然提高與反思相關詞匯的出現頻率,這顯示出某些標記的頻率與模型表現之間存在關聯。 -
監督微調(SFT)靠記憶,強化學習能泛化:監督微調嚴重依賴記憶,常導致表面的捷徑學習;而強化學習能自我進化,對數據集結構的依賴極小。 -
冷啟動是加分項,但不是必需的:無論從基礎模型還是指令模型開始訓練,訓練動態都驚人地相似,不過指令模型表現稍好。 -
課程學習仍然重要:在固定的數據整理比例下,精心設計的課程學習方法總是優于隨機打亂數據的方式。
數據合成
“騎士與無賴(K&K)” 謎題是通過算法生成的推理數據集。在這些謎題中,角色要么是騎士(總是說真話),要么是無賴(總是說謊)。玩家需要根據角色的陳述來判斷每個角色的身份。這個數據集有以下幾個顯著特點:
-
程序生成:謎題由邏輯模板系統生成,既保證了一致性,又具有無限的可變性。而且,這些謎題對原始模型來說是全新的數據,非常適合測試模型的泛化能力。 -
可控的難度級別:謎題難度可以精確調整,便于設計課程學習策略。通過改變角色數量(2 - 8 個)和邏輯運算的復雜度(1 - 4 種布爾運算符組合)來調節難度。更復雜的謎題還能作為分布外測試,檢驗在簡單謎題上訓練的模型的泛化能力。 -
易于驗證:每個謎題都有唯一確定的正確答案,生成算法保證了答案的正確性。解題需要嚴格的演繹推理,能準確評估模型的回答,降低獎勵作弊的風險。
基于規則的獎勵建模
在監測模型輸出的作弊行為過程中,研究人員不斷迭代優化獎勵設計,最終形成了兩種類型的獎勵。
-
格式獎勵:利用正則表達式提取,強制模型采用結構化的回復格式。模型需要將推理過程放在 <think></think>
標簽內,最終結論放在<answer></answer>
標簽內。在提示末尾直接加上<think>
標簽,能顯著降低基礎模型遵循指令的難度。
在早期不完善的規則設計下,出現了一系列問題: - 跳過<think></think>
過程直接回答。 - 在<answer></answer>
標簽內進行推理。 - 反復猜測答案,沒有合理推理。 - 除了給出答案,還包含不相關的內容。 - 以錯誤的方式組織正確答案,導致無法提取。 - 由于推理不充分,在輸出<answer>
后又回到思考階段。 - 重復原始問題或使用 “思考過程在此” 之類的短語來避免真正的推理。
針對這些問題,研究人員不斷改進規則設計。例如,每個標簽只能出現一次且順序正確,思考過程必須包含真正的推理,結論要以可提取且易讀的方式呈現。通過這些約束,模型的不同行為會根據對格式的遵守程度獲得相應獎勵。
-
答案獎勵:在格式驗證通過后,檢查模型的答案是否與正確答案匹配。
實驗設置
實驗最初選用 Qwen2.5 系列的多個模型作為潛在基線候選。比如,Qwen2.5 - Math - 7B 模型生成 Python 代碼塊的傾向很強,這常常與嚴格的格式要求沖突。盡管研究人員嘗試通過去除系統提示和懲罰特定的 Markdown 樣式來緩解這一問題,但仍難以完全解決。
隨后,對 Qwen2.5–7B-Base 和 Qwen2.5–7B-Instruct 模型進行測試。令人驚訝的是,在強化學習訓練過程中,基礎模型和指令模型的訓練指標幾乎相同,包括驗證準確率、回復長度增長曲線和獎勵曲線。不過,指令模型的測試準確率略高,因此成為更優選擇。
評估
-
不同模型在 K&K 邏輯謎題上的表現:研究人員對比了推理模型和通用模型在不同難度的 K&K 邏輯謎題上的表現。盡管訓練數據集僅包含不到 5000 個 3 - 7 人 K&K 邏輯謎題的合成樣本,但模型在分布外(OOD)場景(如 8 人謎題)中展現出了驚人的泛化能力。 -
回復長度的變化:在強化學習訓練 1000 步后,模型輸出的平均長度從最初的 500 個標記幾乎線性穩定增長到 2000 個標記,增長了 4 倍。隨著回復長度增加,模型開始表現出更復雜的行為,如反思和探索其他解決方案。 -
研究問題相關評估 -
RQ 1:GRPO 與其他強化學習算法相比如何?:在訓練速度、準確率和獎勵增益方面(通過滑動窗口 = 50 取平均值)進行比較,近端策略優化算法(PPO)達到了最高的準確率和獎勵,但訓練速度比 REINFORCE++慢 138%。REINFORCE++在穩定性、性能提升和訓練效率方面均優于廣義策略優化算法(GRPO),在幾乎所有指標上都超過了 GRPO,而 GRPO 在這三種算法中表現最差。 -
RQ 2:特定的思考標記和語言混合現象會提高推理能力嗎?:語言混合會顯著降低推理能力。像“wait”“verify”“yet”“re - evaluate”等詞匯能顯著提升推理能力,但并非所有復雜思考標記都有此效果,例如“recheck”。“recheck”會明顯降低推理能力,可能是因為它表明模型對自己的答案不確定。“re - evaluate”和“reevaluate”也有明顯差異,前者能帶來更高的答案得分,而后者會降低得分。從原始回復來看,“reevaluate”幾乎從未出現,“re - evaluate”則頻繁出現,這可能意味著模型對在預訓練語料庫中出現頻率更高的詞匯更適應。 -
RQ 3:訓練過程中會出現 “頓悟時刻” 嗎?:通過跟蹤前 1800 個訓練步驟中詞匯的頻率發現,復雜推理行為(自我反思、探索、驗證、總結)在訓練過程中逐漸出現,早在第 10 步就已顯現,并沒有出現某個突然的 “頓悟時刻” 使這些行為突然出現。 -
RQ 4:模型能泛化到分布外(OOD)任務嗎?:研究人員在 AIME 2021 - 2024 和 AMC 2022 - 2023 數據集上測試模型性能,這些數據集因其具有挑戰性和問題的多樣性被視為 “超級分布外” 測試。模型展現出了強大的超級分布外泛化能力,在 AIME 數據集上性能提升了 125%,在 AMC 數據集上提升了 38%。強化學習過程不僅提高了模型在分布內的性能,還促進了強大且可遷移的推理策略的發展,模型的推理技能能夠超越訓練數據的特定模式,凸顯了強化學習在更廣泛泛化方面的潛力。 -
RQ 5:監督微調(SFT)和強化學習(RL)哪個泛化能力更好?:研究人員在原始訓練數據和略有擾動的數據上評估模型性能,使用了兩種擾動類型:改變陳述的布爾邏輯和重新排列陳述順序。結果表明,監督微調(以 RFT 為代表)具有更高的記憶得分,對擾動更敏感,說明它只是表面上適應訓練數據格式;而強化學習的記憶得分較低,但對未見過的測試數據泛化能力更好,意味著它具有更強的推理能力,對表面模式的依賴更少,更鼓勵獨立探索,從而實現更好的泛化。 -
RQ 6:課程學習在強化學習中仍然必要嗎?:對比課程學習和混合難度訓練的測試分數發現,在訓練中期,課程學習的測試分數略高,但隨著時間推移,這種優勢逐漸減弱,幾乎可以忽略不計。在訓練早期,兩者的性能差異在統計上可以忽略不計,對初始收斂影響不大。雖然課程學習在樣本效率上可能有微弱的理論優勢,但由于在實際應用中性能差異極小,且分階段訓練增加了復雜性,其實際必要性值得商榷。 -
RQ 7:更長的回復長度能保證更好的推理嗎?:研究人員對比了兩個使用相同算法和基礎模型,但超參數和數據集難度不同的模型:正例模型(藍色,回復長度隨時間減少)和負例模型(紅色,回復長度隨時間增加)。正例模型盡管回復長度減少,但驗證準確率和獎勵都有所提高,推理和泛化能力更好;負例模型回復長度增加,驗證準確率和獎勵卻沒有提升,這表明回復長度本身并不能提升推理能力。回復長度的變化更可能是訓練動態(如強化學習動態)的副產品,而非推理能力提升的直接原因。從統計數據來看,沒有顯著證據表明回復長度的增加幅度與推理性能的提升成正比。更長的回復不一定意味著更好的推理,雖然推理能力的提升可能會導致更詳細、更長的解釋,但人為增加回復長度并不一定能提高性能。
-
論文鏈接:Logic - RL: Unleashing LLM Reasoning with Rule - Based Reinforcement Learning 2502.14768[1]
推薦閱讀
1. DeepSeek-R1 的頓悟時刻是如何出現的? 背后的數學原理
2. 微調 DeepSeek LLM:使用監督微調(SFT)與 Hugging Face 數據
3. 使用 DeepSeek-R1 等推理模型將 RAG 轉換為 RAT
4. DeepSeek R1:了解 GRPO 和多階段訓練
5. 深度探索:DeepSeek-R1 如何從零開始訓練
6. DeepSeek 發布 Janus Pro 7B 多模態模型,免費又強大!
Logic - RL: Unleashing LLM Reasoning with Rule - Based Reinforcement Learning 2502.14768: https://arxiv.org/abs/2502.14768
本文由 mdnice 多平臺發布