DeepSeek-R1論文深度解析：純強化學習如何引爆LLM推理革命？

技術突破：從“無監督”到“自主進化”的跨越

paper ：https://arxiv.org/pdf/2501.12948

技術突破：從“無監督”到“自主進化”的跨越
1 DeepSeek-R1-Zero： RL+noSFT
- 1.1 R1-Zero： GRPO（Group Relative Policy Optimization）
- 1.2 Prompt
- 1.3 Reward
- 1.4 Self-evolution “自我進化”
- 1.5 Aha Moment “頓悟時刻”
2 DeepSeek-R1 ：Reinforcement Learning with Cold Start
3 DeepSeek-Distill
4 Unsuccessful Attempts
5 總結
- 5.1 純強化學習（RL）革命：首次跳過SFT實現推理能力躍升
- 5.2 性能吊打GPT-4 O1：數學與代碼任務雙冠王
- 5.3 開源生態引爆硅谷：從學術圈到大眾的破圈效應
- 5.4 架構創新降本增效：打破算力封鎖的性價比之王
- 5.5 AGI新范式曙光：從“人工引導”到“自主進化”?

DeepSeek-R1-Zero： RL+noSFT
DeepSeek-R1： RL+CoT
DeepSeek-Distill: 蒸餾出小模型

1 DeepSeek-R1-Zero： RL+noSFT

??????

1.1 R1-Zero： GRPO（Group Relative Policy Optimization）

采樣動作組：對于每個輸入狀態s，GRPO從當前策略θ中采樣一組動作a1, a2, …, aG。這些動作基于策略模型的概率分布進行采樣，確保了多樣性。
獎勵評估：每個采樣動作都會通過一個獎勵函數進行評估，得到對應的獎勵值r(a)。獎勵函數可以根據具體任務設計，例如在數學推理任務中，獎勵函數可以基于答案的正確性
計算相對優勢：將每個動作的獎勵值進行歸一化處理，得到相對優勢A^i,j。這一步驟可以通過以下公式完成：
策略更新：根據計算得到的相對優勢，更新策略模型的參數θ。更新的目標是增加具有正相對優勢的動作的概率，同時減少具有負相對優勢的動作的概率。GRPO目標函數如下

??????目標函數是數學期望
??????min確保更新項不會太大和clip限制了概率比在1?? 和1+? 之間
??????Ai控制了相對優勢函數
??????KL 散度約束控制新舊策略的差異，確保更新穩定（注意此處的Π_ref是參考模型指的是一個不可訓練的模型，而Π_old是舊策略）
KL散度約束：為了防止策略更新過于劇烈，GRPO在更新過程中引入了KL散度約束。通過限制新舊策略之間的KL散度，確保策略分布的變化在可控范圍內（用于控制新舊策略之間的差異，確保策略更新的穩定性。）

1.2 Prompt

在這里插入圖片描述

用戶與助手之間的對話。用戶提出一個問題，然后助手解決它。助手首先在心里考慮推理過程，然后給用戶提供答案。
推理過程和答案分別被<think> </think>和<answer> </answer>標簽包圍，
即<think> 這里的推理過程 </think> 
<answer> 這里的答案 </answer>。
用戶：Prompt。助手：

具體示例如
在這里插入圖片描述

1.3 Reward

Reward策略：R1-Zero的具體訓練reward為純粹的規則：

準確性獎勵：準確性獎勵模型評估響應是否正確。例如，在數學問題中，如果結果是確定性的，模型需要以指定格式（例如，在一個框內）提供最終答案，以便進行可靠的基于規則的正確性驗證。同樣地，在LeetCode問題中，可以使用編譯器根據預定義的測試用例生成反饋。
格式獎勵：除了準確性獎勵模型外，使用一種格式獎勵模型，該模型強制模型將其思考過程放在和標簽之間。

總結R1-Zero 能夠在不需要任何監督微調數據的情況下獲得強大的推理能力。此外，DeepSeek-R1-Zero 的性能可以通過多數投票的方法進一步增強。例如，在使用多數投票應用于 AIME 基準測試時，DeepSeek-R1-Zero 的表現從 71.0% 提升到了 86.7%，從而超過了 OpenAI-o1-0912 的性能。

1.4 Self-evolution “自我進化”

在這里插入圖片描述
Self-evolution “自我進化”：且在R1-Zero在訓練過程中的思考時間和生成長度顯示出持續的改進。這種改進不是外部調整的結果，而是模型內部發展的結果。通過擴展測試時間計算自然獲得了解決越來越復雜的推理任務的能力。

1.5 Aha Moment “頓悟時刻”

在這里插入圖片描述
Aha Moment “頓悟時刻”: 在模型的中間版本中，R1-Zero學會了通過重新評估其初始方法來分配更多的思考時間來解決問題

2 DeepSeek-R1 ：Reinforcement Learning with Cold Start

在R1-Zero的成功下激發了兩個自然的問題：
（1) 通過在冷啟動階段加入少量高質量數據能否進一步提高推理性能或加速收斂？
（2) 如何訓練一個不僅能夠生成清晰連貫的思維鏈（CoT），而且具備強大通用能力的用戶友好型模型？

階段1：Cold Start

方法：收集并使用少量高質量的長思維鏈數據對模型進行微調作為初始的RL執行者。
數據收集方式：包括少樣本提示、直接要求模型生成詳細的答案（含反思和驗證）、收集DeepSeek-R1-Zero輸出并進行后處理等。

階段2：Reasoning-oriented RL 面向推理的強化學習

在冷啟動數據上微調DeepSeek-V3-Base之后，應用大規模強化學習訓練過程。
強調提升模型在編碼、數學、科學和邏輯推理等任務中的推理能力。
引入語言一致性獎勵以減少多語言混合問題，并將準確性獎勵和語言一致性獎勵結合形成最終獎勵。

階段3：拒絕采樣和監督微調

使用來自前一階段RL訓練檢查點的數據進行SFT數據收集。
擴展數據集，包括那些可以通過生成獎勵模型評估的數據。
對于非推理任務（如寫作、事實問答等），重用DeepSeek-V3的部分SFT數據集。
最終，使用大約80萬樣本的數據集對DeepSeek-V3-Base進行兩輪微調。

階段4：所有場景下的強化學習

實施第二次強化學習階段，旨在提高模型的幫助性和無害性同時細化其推理能力。
對于推理數據，繼續使用基于規則的獎勵指導學習；對于一般數據，則依賴獎勵模型捕捉人類偏好。
強調總結部分的幫助性評估以及整個響應（包括思維過程和總結）的危害性評估。

3 DeepSeek-Distill

目標：讓較小的開源模型（如Qwen和Llama系列）也能擁有類似DeepSeek-R1的強大推理能力。
方法：

使用在DeepSeek-R1訓練過程中整理出的80萬樣本對這些小型模型進行直接監督微調（SFT）。這里沒有包含強化學習（RL）階段，盡管引入RL可以顯著提高模型性能。
選擇的基礎模型包括不同規模的Qwen和Llama模型，例如Qwen2.5-Math-1.5B, Qwen2.5-Math-7B等，以及Llama-3.3-70B-Instruct，因為其推理能力略優于Llama-3.1版本。

4 Unsuccessful Attempts

在DeepSeek-R1的早期開發階段，使用過 過程獎勵模型（PRM）和蒙特卡洛樹搜索（MCTS）

PRM: 缺少細粒度數據和評判
引導模型找到解決推理任務的更好策略。這種方法依賴于對中間步驟的細粒度獎勵來指導模型進行優化。
局限性：
- 定義細粒度步驟的困難：在一般的推理過程中，明確界定一個細粒度步驟是具有挑戰性的。
- 中間步驟正確性的驗證難題：判斷當前的中間步驟是否正確是一個復雜的問題。自動標注可能無法得到滿意的結果，而手動標注又不利于大規模應用。
- 獎勵黑客問題：一旦引入基于模型的PRM，不可避免地會導致獎勵黑客現象，即模型可能會找到繞過獎勵機制的方法。重新訓練獎勵模型需要額外的資源，并且會使整個訓練流程變得復雜。
MCTS: 因文本復雜性無法訓練出一個不斷進度的Value Network
局限性：
- 受AlphaGo和AlphaZero啟發，研究團隊探索使用MCTS來增強測試時的計算可擴展性。該方法通過將答案分解為更小的部分，使模型能夠系統地探索解決方案空間。
- 搜索空間的巨大差異：與象棋等游戲相比，文本生成任務的搜索空間呈指數級增長。為了應對這一問題，團隊設定了每個節點的最大擴展限制，但這可能導致模型陷入局部最優解。
- 價值模型的重要性與難度：價值模型的質量直接影響到生成的質量，因為它指導著搜索過程的每一步。然而，訓練一個細致的價值模型本身就是一個難點，這使得模型難以逐步改進。雖然AlphaGo的成功在于訓練了一個不斷進步的價值模型，但在DeepSeek-R1的設置中復制這一點非常困難，因為文本生成的復雜性更高。

5 總結

🔥 ?DeepSeek-R1憑什么引爆全球AI圈？五大核心突破解析 🔥

5.1 純強化學習（RL）革命：首次跳過SFT實現推理能力躍升

DeepSeek-R1系列通過純強化學習訓練?（無需監督微調SFT），直接激發模型自主推理能力。其核心算法GRPO（組相對策略優化）?結合規則獎勵（答案準確性+格式規范），讓模型在數學競賽AIME 2024中從15.6%準確率飆升至86.7%。更驚艷的是，R1-Zero（零樣本RL訓練）通過自我迭代涌現出“反思”能力，主動修復推理錯誤，驗證了RL驅動的自主進化潛力。

5.2 性能吊打GPT-4 O1：數學與代碼任務雙冠王

在多項權威測試中，DeepSeek-R1以**97.3%**的Math-500準確率超越OpenAI-O1（96.6%），Codeforces編程任務表現與人類頂尖選手持平。其開源版本（如7B參數模型）在AIME 2024上達55.5%，碾壓同規模競品Qwen-Preview（32B參數僅42.0%）。這種“小模型大智慧”特性，為邊緣計算場景提供低成本解決方案。

5.3 開源生態引爆硅谷：從學術圈到大眾的破圈效應

?技術普惠：開源R1-Zero、R1及6個蒸餾模型（基于Qwen/Llama架構），推動推理技術從實驗室走向工業界。
?社區狂潮：春節期間，連重慶二線城市的老百姓都在討論R1原理，APP內置的“DeepThink”模式雖初期冷門，卻成為后續爆款的伏筆。
?國際認可：Nature雜志稱其為“中國廉價、開放的推理模型標桿”，Meta、英偉達等巨頭爭相接入。