微軟提出 Logic-RL：基于規則的強化學習釋放大語言模型推理能力

?
更多 LLM 架構文章點擊查看：
LLM 架構專欄
大模型架構專欄文章閱讀指南
1. AI 智能體，顛覆還是賦能？一文讀懂！
2. 1W8000 字解鎖 AI 高效運作密碼：工作流與智能體如何協同？
3. 萬字深度剖析 AI 代理：類型、應用及優勢與局限全解析
4. 1W5000 字深度剖析大模型 Agent 框架
5. Agent 系列 1W 字用 Python 從零搭建 AI 智能體

在大推理模型中，基于規則的強化學習（RL）潛力幾何？今天咱們就來深入探討一篇與之相關的研究。研究人員選用合成邏輯謎題作為訓練數據，這是因為其復雜度可控，答案驗證也簡單直接。

研究發現，參數量 70 億的模型在訓練后，發展出了反思、驗證和總結等先進推理技能，而這些技能在原始邏輯語料庫中是不存在的。令人驚喜的是，僅在 5000 道邏輯題上訓練后，該模型就在具有挑戰性的數學基準測試 AIME 和 AMC 中展現出了泛化能力。

下面，就為大家詳細解讀這項研究中的有趣發現。

更長的回復不一定意味著更好的推理：回復長度并不能作為衡量訓練效果的有效指標，最有效的推理往往來自最短路徑。
語言混合會阻礙推理：這一現象表明，在獎勵建模中需要引入語言一致性懲罰機制。
增加 “思考” 標記有幫助：強化學習訓練會自然提高與反思相關詞匯的出現頻率，這顯示出某些標記的頻率與模型表現之間存在關聯。
監督微調（SFT）靠記憶，強化學習能泛化：監督微調嚴重依賴記憶，常導致表面的捷徑學習；而強化學習能自我進化，對數據集結構的依賴極小。
冷啟動是加分項，但不是必需的：無論從基礎模型還是指令模型開始訓練，訓練動態都驚人地相似，不過指令模型表現稍好。
課程學習仍然重要：在固定的數據整理比例下，精心設計的課程學習方法總是優于隨機打亂數據的方式。

數據合成

“騎士與無賴（K&K）” 謎題是通過算法生成的推理數據集。在這些謎題中，角色要么是騎士（總是說真話），要么是無賴（總是說謊）。玩家需要根據角色的陳述來判斷每個角色的身份。這個數據集有以下幾個顯著特點：

程序生成：謎題由邏輯模板系統生成，既保證了一致性，又具有無限的可變性。而且，這些謎題對原始模型來說是全新的數據，非常適合測試模型的泛化能力。
可控的難度級別：謎題難度可以精確調整，便于設計課程學習策略。通過改變角色數量（2 - 8 個）和邏輯運算的復雜度（1 - 4 種布爾運算符組合）來調節難度。更復雜的謎題還能作為分布外測試，檢驗在簡單謎題上訓練的模型的泛化能力。
易于驗證：每個謎題都有唯一確定的正確答案，生成算法保證了答案的正確性。解題需要嚴格的演繹推理，能準確評估模型的回答，降低獎勵作弊的風險。

基于規則的獎勵建模

在監測模型輸出的作弊行為過程中，研究人員不斷迭代優化獎勵設計，最終形成了兩種類型的獎勵。

格式獎勵：利用正則表達式提取，強制模型采用結構化的回復格式。模型需要將推理過程放在 <think></think>標簽內，最終結論放在 <answer></answer>標簽內。在提示末尾直接加上 <think>標簽，能顯著降低基礎模型遵循指令的難度。

在早期不完善的規則設計下，出現了一系列問題： - 跳過<think></think>過程直接回答。 - 在<answer></answer>標簽內進行推理。 - 反復猜測答案，沒有合理推理。 - 除了給出答案，還包含不相關的內容。 - 以錯誤的方式組織正確答案，導致無法提取。 - 由于推理不充分，在輸出<answer>后又回到思考階段。 - 重復原始問題或使用 “思考過程在此” 之類的短語來避免真正的推理。

針對這些問題，研究人員不斷改進規則設計。例如，每個標簽只能出現一次且順序正確，思考過程必須包含真正的推理，結論要以可提取且易讀的方式呈現。通過這些約束，模型的不同行為會根據對格式的遵守程度獲得相應獎勵。

答案獎勵：在格式驗證通過后，檢查模型的答案是否與正確答案匹配。

實驗設置

實驗最初選用 Qwen2.5 系列的多個模型作為潛在基線候選。比如，Qwen2.5 - Math - 7B 模型生成 Python 代碼塊的傾向很強，這常常與嚴格的格式要求沖突。盡管研究人員嘗試通過去除系統提示和懲罰特定的 Markdown 樣式來緩解這一問題，但仍難以完全解決。

隨后，對 Qwen2.5–7B-Base 和 Qwen2.5–7B-Instruct 模型進行測試。令人驚訝的是，在強化學習訓練過程中，基礎模型和指令模型的訓練指標幾乎相同，包括驗證準確率、回復長度增長曲線和獎勵曲線。不過，指令模型的測試準確率略高，因此成為更優選擇。

評估

不同模型在 K&K 邏輯謎題上的表現：研究人員對比了推理模型和通用模型在不同難度的 K&K 邏輯謎題上的表現。盡管訓練數據集僅包含不到 5000 個 3 - 7 人 K&K 邏輯謎題的合成樣本，但模型在分布外（OOD）場景（如 8 人謎題）中展現出了驚人的泛化能力。
回復長度的變化：在強化學習訓練 1000 步后，模型輸出的平均長度從最初的 500 個標記幾乎線性穩定增長到 2000 個標記，增長了 4 倍。隨著回復長度增加，模型開始表現出更復雜的行為，如反思和探索其他解決方案。
研究問題相關評估
- RQ 1：GRPO 與其他強化學習算法相比如何？：在訓練速度、準確率和獎勵增益方面（通過滑動窗口 = 50 取平均值）進行比較，近端策略優化算法（PPO）達到了最高的準確率和獎勵，但訓練速度比 REINFORCE++慢 138%。REINFORCE++在穩定性、性能提升和訓練效率方面均優于廣義策略優化算法（GRPO），在幾乎所有指標上都超過了 GRPO，而 GRPO 在這三種算法中表現最差。
- RQ 2：特定的思考標記和語言混合現象會提高推理能力嗎？：語言混合會顯著降低推理能力。像“wait”“verify”“yet”“re - evaluate”等詞匯能顯著提升推理能力，但并非所有復雜思考標記都有此效果，例如“recheck”。“recheck”會明顯降低推理能力，可能是因為它表明模型對自己的答案不確定。“re - evaluate”和“reevaluate”也有明顯差異，前者能帶來更高的答案得分，而后者會降低得分。從原始回復來看，“reevaluate”幾乎從未出現，“re - evaluate”則頻繁出現，這可能意味著模型對在預訓練語料庫中出現頻率更高的詞匯更適應。
- RQ 3：訓練過程中會出現 “頓悟時刻” 嗎？：通過跟蹤前 1800 個訓練步驟中詞匯的頻率發現，復雜推理行為（自我反思、探索、驗證、總結）在訓練過程中逐漸出現，早在第 10 步就已顯現，并沒有出現某個突然的 “頓悟時刻” 使這些行為突然出現。
- RQ 4：模型能泛化到分布外（OOD）任務嗎？：研究人員在 AIME 2021 - 2024 和 AMC 2022 - 2023 數據集上測試模型性能，這些數據集因其具有挑戰性和問題的多樣性被視為 “超級分布外” 測試。模型展現出了強大的超級分布外泛化能力，在 AIME 數據集上性能提升了 125%，在 AMC 數據集上提升了 38%。強化學習過程不僅提高了模型在分布內的性能，還促進了強大且可遷移的推理策略的發展，模型的推理技能能夠超越訓練數據的特定模式，凸顯了強化學習在更廣泛泛化方面的潛力。
- RQ 5：監督微調（SFT）和強化學習（RL）哪個泛化能力更好？：研究人員在原始訓練數據和略有擾動的數據上評估模型性能，使用了兩種擾動類型：改變陳述的布爾邏輯和重新排列陳述順序。結果表明，監督微調（以 RFT 為代表）具有更高的記憶得分，對擾動更敏感，說明它只是表面上適應訓練數據格式；而強化學習的記憶得分較低，但對未見過的測試數據泛化能力更好，意味著它具有更強的推理能力，對表面模式的依賴更少，更鼓勵獨立探索，從而實現更好的泛化。
- RQ 6：課程學習在強化學習中仍然必要嗎？：對比課程學習和混合難度訓練的測試分數發現，在訓練中期，課程學習的測試分數略高，但隨著時間推移，這種優勢逐漸減弱，幾乎可以忽略不計。在訓練早期，兩者的性能差異在統計上可以忽略不計，對初始收斂影響不大。雖然課程學習在樣本效率上可能有微弱的理論優勢，但由于在實際應用中性能差異極小，且分階段訓練增加了復雜性，其實際必要性值得商榷。
- RQ 7：更長的回復長度能保證更好的推理嗎？：研究人員對比了兩個使用相同算法和基礎模型，但超參數和數據集難度不同的模型：正例模型（藍色，回復長度隨時間減少）和負例模型（紅色，回復長度隨時間增加）。正例模型盡管回復長度減少，但驗證準確率和獎勵都有所提高，推理和泛化能力更好；負例模型回復長度增加，驗證準確率和獎勵卻沒有提升，這表明回復長度本身并不能提升推理能力。回復長度的變化更可能是訓練動態（如強化學習動態）的副產品，而非推理能力提升的直接原因。從統計數據來看，沒有顯著證據表明回復長度的增加幅度與推理性能的提升成正比。更長的回復不一定意味著更好的推理，雖然推理能力的提升可能會導致更詳細、更長的解釋，但人為增加回復長度并不一定能提高性能。