deepseek提出了一種通過強化學習(RL)激勵大語言模型(LLMs)推理能力的方法,個人認為最讓人興奮的點是:通過RL發現了一個叫“Aha Moment”的現象,這個時刻發生在模型的中間版本中。在這個階段,DeepSeek學會為問題分配更多的思考時間。性能直接達到國際頂流水平,這不僅實現了了大語言生成模型到推理模型0-1的越階,而且成功打破美國對AI技術和高端芯片的封鎖。
同時發布了 DeepSeek-R1-Zero 和 DeepSeek-R1 模型,通過純 RL 訓練和多階段訓練提升了模型在數學、編碼等任務中的推理能力,并通過模型蒸餾將推理能力遷移到更小的模型。
研究背景與目標
- LLM 推理能力的重要性:近年來,大型語言模型(LLMs)在推理能力上取得顯著進展,如 OpenAI 的 o1 系列模型通過增加思維鏈(CoT)長度提升了數學、編碼等任務的表現。然而,如何有效提升測試時的推理能力仍是研究熱點。
- 現有方法的局限性:現有方法如過程獎勵模型、搜索算法等雖有一定效果,但未達到與 OpenAI o1 系列模型相當的通用推理性能。
- 研究目標:探索純強化學習(RL)在提升 LLM 推理能力中的潛力,無需監督微調(SFT),并通過多階段訓練和模型蒸餾進一步優化性能。
模型架構與方法
- DeepSeek-R1-Zero
-
純 RL 訓練:直接在基礎模型(DeepSeek-V3-Base)上應用 Group Relative Policy Optimization (GRPO) 算法,無需 SFT 數據。GRPO公式看著十分復雜,拆解開來看看并不難懂:
其中:
:待優化的策略參數;
:每個問題生成的候選答案數量(組大小);
:舊策略(即上一輪迭代的策略);
:優勢函數(Advantage),反映第i個答案的相對質量,將原始獎勵歸一化;
:剪切閾值(通常取0.1-0.3);
:KL散度正則化系數。紅框公式:最原始的強化學習公式,衡量新策略與舊策略生成答案的概率差異。若概率比>1,表示新策略更傾向于生成該答案。黃框公式:剪切機制,設置獎勵上下閾值clip一下,防止策略更新幅度過大,確保訓練穩定性。藍框公式:將原始獎勵和clip后的獎勵取最小值。綠框公式:KL散度懲罰,該懲罰項避免模型過度擬合短期獎勵,維持生成文本的多樣性和安全性。黑色公式:對同一問題q生成G個答案,使用組內比較代替傳統Critic模型。
- 獎勵模型:基于規則的獎勵系統,包括準確性獎勵(驗證答案正確性)和格式獎勵(強制使用特定格式輸出推理過程)。
- 訓練模板:引導模型生成推理過程和答案,結構化為 “推理過程” 和 “答案” 兩部分。
- 自進化與表現:在 AIME 2024 基準測試中,pass@1 從 15.6% 提升至 71.0%,多數投票后達 86.7%,接近 OpenAI-o1-0912 的水平。模型還表現出自我驗證、反思等能力。
“頓悟時刻”。這個模型學會了用擬人化的語氣重新思考。
-
- DeepSeek-R1
- 冷啟動數據:收集數千條長 CoT 數據進行微調,解決 DeepSeek-R1-Zero 可讀性差、語言混合等問題。
- 多階段訓練:包括冷啟動微調、推理導向的 RL(加入語言一致性獎勵)、拒絕采樣生成新 SFT 數據、多場景 RL(結合獎勵信號優化有用性和無害性)。
- 性能提升:在 AIME 2024 上 pass@1 達 79.8%,超過 OpenAI-o1-1217,MATH-500 達 97.3%,與 o1-1217 持平。
- 模型蒸餾
- 方法:使用 DeepSeek-R1 生成的 800k 數據微調開源模型(如 Qwen、Llama 系列),僅進行 SFT 而不進行 RL。
- 結果:蒸餾后的模型在多個基準測試中表現優異,如 DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上 pass@1 達 72.6%,超過 o1-mini。
實驗結果
- 基準測試表現
- 數學任務:DeepSeek-R1 在 AIME 2024(79.8%)和 MATH-500(97.3%)上接近或超過 OpenAI-o1-1217。
- 編碼任務:在 Codeforces 上 Elo 評分為 2029,超過 96.3% 的人類選手;LiveCodeBench pass@1 達 65.9%。
- 知識問答:MMLU(90.8%)、GPQA Diamond(71.5%)等任務上優于 DeepSeek-V3,稍遜于 o1-1217。
- 蒸餾模型對比:蒸餾后的小模型(如 14B、32B)在多個任務上顯著優于同類開源模型,證明了大模型推理模式的可遷移性。
討論與結論
- 蒸餾 vs. RL:蒸餾更高效,小模型通過學習大模型的推理模式即可獲得優秀性能;而直接對小模型進行 RL 訓練需大量計算資源且效果有限。
- 未成功嘗試:過程獎勵模型(PRM)因難以定義細粒度步驟和獎勵欺詐問題效果不佳;蒙特卡洛樹搜索(MCTS)因搜索空間過大和價值模型訓練困難未能顯著提升性能。
- 結論:純 RL 可有效提升 LLM 推理能力,多階段訓練和冷啟動數據進一步優化了模型表現。模型蒸餾為小模型賦予了強大的推理能力,開源模型將推動相關研究。
未來工作方向
- 通用能力擴展:提升在函數調用、多輪對話等任務上的表現。
- 語言混合問題:優化非中 / 英文查詢的處理能力。
- 提示工程優化:減少模型對提示的敏感性,提升零樣本性能。
- 軟件工程任務:增加相關 RL 訓練數據,提高在軟件工程項目中的表現。