DeepSeek-R1深度解讀

deepseek提出了一種通過強化學習（RL）激勵大語言模型（LLMs）推理能力的方法，個人認為最讓人興奮的點是：通過RL發現了一個叫“Aha Moment”的現象，這個時刻發生在模型的中間版本中。在這個階段，DeepSeek學會為問題分配更多的思考時間。性能直接達到國際頂流水平，這不僅實現了了大語言生成模型到推理模型0-1的越階，而且成功打破美國對AI技術和高端芯片的封鎖。

同時發布了 DeepSeek-R1-Zero 和 DeepSeek-R1 模型，通過純 RL 訓練和多階段訓練提升了模型在數學、編碼等任務中的推理能力，并通過模型蒸餾將推理能力遷移到更小的模型。

研究背景與目標

LLM 推理能力的重要性：近年來，大型語言模型（LLMs）在推理能力上取得顯著進展，如 OpenAI 的 o1 系列模型通過增加思維鏈（CoT）長度提升了數學、編碼等任務的表現。然而，如何有效提升測試時的推理能力仍是研究熱點。
現有方法的局限性：現有方法如過程獎勵模型、搜索算法等雖有一定效果，但未達到與 OpenAI o1 系列模型相當的通用推理性能。
研究目標：探索純強化學習（RL）在提升 LLM 推理能力中的潛力，無需監督微調（SFT），并通過多階段訓練和模型蒸餾進一步優化性能。

模型架構與方法

DeepSeek-R1-Zero
- 純 RL 訓練：直接在基礎模型（DeepSeek-V3-Base）上應用 Group Relative Policy Optimization (GRPO) 算法，無需 SFT 數據。GRPO公式看著十分復雜，拆解開來看看并不難懂：其中： $\theta$ ：待優化的策略參數； $G$ ：每個問題生成的候選答案數量（組大小）； $\pi _{\theta _{old}}$ ：舊策略（即上一輪迭代的策略）； $A_{i}$ ：優勢函數（Advantage），反映第i個答案的相對質量，將原始獎勵歸一化； $\varepsilon$ ：剪切閾值（通常取0.1-0.3）； $\beta$ ：KL散度正則化系數。紅框公式：最原始的強化學習公式，衡量新策略與舊策略生成答案的概率差異。若概率比>1，表示新策略更傾向于生成該答案。黃框公式：剪切機制，設置獎勵上下閾值clip一下，防止策略更新幅度過大，確保訓練穩定性。藍框公式：將原始獎勵和clip后的獎勵取最小值。綠框公式：KL散度懲罰，該懲罰項避免模型過度擬合短期獎勵，維持生成文本的多樣性和安全性。黑色公式：對同一問題q生成G個答案，使用組內比較代替傳統Critic模型。
- 獎勵模型：基于規則的獎勵系統，包括準確性獎勵（驗證答案正確性）和格式獎勵（強制使用特定格式輸出推理過程）。
- 訓練模板：引導模型生成推理過程和答案，結構化為 “推理過程” 和 “答案” 兩部分。
- 自進化與表現：在 AIME 2024 基準測試中，pass@1 從 15.6% 提升至 71.0%，多數投票后達 86.7%，接近 OpenAI-o1-0912 的水平。模型還表現出自我驗證、反思等能力。“頓悟時刻”。這個模型學會了用擬人化的語氣重新思考。
DeepSeek-R1
- 冷啟動數據：收集數千條長 CoT 數據進行微調，解決 DeepSeek-R1-Zero 可讀性差、語言混合等問題。
- 多階段訓練：包括冷啟動微調、推理導向的 RL（加入語言一致性獎勵）、拒絕采樣生成新 SFT 數據、多場景 RL（結合獎勵信號優化有用性和無害性）。
- 性能提升：在 AIME 2024 上 pass@1 達 79.8%，超過 OpenAI-o1-1217，MATH-500 達 97.3%，與 o1-1217 持平。
模型蒸餾
- 方法：使用 DeepSeek-R1 生成的 800k 數據微調開源模型（如 Qwen、Llama 系列），僅進行 SFT 而不進行 RL。
- 結果：蒸餾后的模型在多個基準測試中表現優異，如 DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上 pass@1 達 72.6%，超過 o1-mini。

實驗結果

基準測試表現
- 數學任務：DeepSeek-R1 在 AIME 2024（79.8%）和 MATH-500（97.3%）上接近或超過 OpenAI-o1-1217。
- 編碼任務：在 Codeforces 上 Elo 評分為 2029，超過 96.3% 的人類選手；LiveCodeBench pass@1 達 65.9%。
- 知識問答：MMLU（90.8%）、GPQA Diamond（71.5%）等任務上優于 DeepSeek-V3，稍遜于 o1-1217。
蒸餾模型對比：蒸餾后的小模型（如 14B、32B）在多個任務上顯著優于同類開源模型，證明了大模型推理模式的可遷移性。

討論與結論

蒸餾 vs. RL：蒸餾更高效，小模型通過學習大模型的推理模式即可獲得優秀性能；而直接對小模型進行 RL 訓練需大量計算資源且效果有限。
未成功嘗試：過程獎勵模型（PRM）因難以定義細粒度步驟和獎勵欺詐問題效果不佳；蒙特卡洛樹搜索（MCTS）因搜索空間過大和價值模型訓練困難未能顯著提升性能。
結論：純 RL 可有效提升 LLM 推理能力，多階段訓練和冷啟動數據進一步優化了模型表現。模型蒸餾為小模型賦予了強大的推理能力，開源模型將推動相關研究。

未來工作方向

通用能力擴展：提升在函數調用、多輪對話等任務上的表現。
語言混合問題：優化非中 / 英文查詢的處理能力。
提示工程優化：減少模型對提示的敏感性，提升零樣本性能。
軟件工程任務：增加相關 RL 訓練數據，提高在軟件工程項目中的表現。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/73910.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/73910.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/73910.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！