最近deepseek R1模型大火,正好復習一下他家的技驚四座的論文https://arxiv.org/pdf/2501.12948
近年來,大型語言模型(LLM)在推理能力上取得了顯著進展,但如何進一步有效提升仍然是研究熱點。DeepSeek-AI發布了 DeepSeek-R1 論文,探索了**強化學習(RL)**在激發LLM推理潛力方面的新方法,并開源了模型和相關資源。
一、背景:后訓練與推理能力提升(提出問題:如何超越openai的o1模型)
后訓練已成為提升LLM推理能力的關鍵環節。OpenAI的o1系列模型通過推理時縮放和思維鏈(CoT),在推理任務上取得突破。然而,如何有效進行推理時縮放仍是開放問題。
此前研究探索了獎勵模型、強化學習、搜索算法等方法,但通用推理性能仍有提升空間。DeepSeek-R1的目標是探索純強化學習提升LLM推理能力的可能性,關注LLM在無監督數據下的自我進化。
二、DeepSeek-R1-Zero:從零開始的純RL探索(利器1: RL引導V3模型出現自我進化)
DeepSeek-R1-Zero是DeepSeek-AI的首個純RL推理模型,完全不依賴監督微調(SFT),直接在 DeepSeek-V3-Base 上應用RL。
RL算法:GRPO
DeepSeek-R1-Zero采用Group Relative Policy Optimization (GRPO)算法,節省RL訓練成本。GRPO避免了傳統的評論員模型,通過組得分估計基線,目標函數如下:
J_GRPO(θ) = E[q ~ P(Q), {o_i}_{i=1}^G ~ π_{θold}(O|q)] [ (1/G) * ∑_{i=1}^G (min(clip(π_θ(o_i|q) / π_{θold}(o_i|q)), 1-ε, 1+ε) * A_i - β * D_{KL}(π_θ || π_{ref})) ]
獎勵模型:規則驅動
獎勵模型采用規則驅動方式,包含:
- 準確率獎勵:評估答案正確性,規則驅動驗證。
- 格式獎勵:強制模型思考過程置于
<think>
和</think>
標簽內。
訓練模版:引導思考
訓練模版引導模型先輸出思考過程,再給出答案,結構如下:
A conversation between User and Assistant... <think> reasoning process here </think> <answer> answer here </answer>. User: prompt. Assistant:
性能與自我進化
DeepSeek-R1-Zero展現了自我進化能力,推理能力隨RL訓練穩步提升。在AIME 2024測試中,pass@1分數從15.6%躍升至71.0%,媲美OpenAI-01-0912。訓練中還出現**“頓悟時刻”**,模型學會分配更多思考時間,提升解題能力。
局限性
DeepSeek-R1-Zero存在可讀性差和語言混合問題。
三、DeepSeek-R1:冷啟動與多階段RL(利器2:多階段訓練,推理能力起飛,瞬間兼顧通用能力)
DeepSeek-R1在Zero基礎上,引入冷啟動數據和多階段訓練,旨在提升性能并解決Zero的局限性。
- 冷啟動
DeepSeek-R1收集少量高質量長CoT數據進行微調,作為RL初始actor,提升訓練穩定性。冷啟動數據強調可讀性,采用格式 | special_token | <reasoning_process> | special_token | <summary>
。
- 推理導向RL
在冷啟動微調后,進行與Zero相同的RL訓練,重點增強推理能力。引入語言一致性獎勵,緩解語言混合問題,最終獎勵結合準確率和語言一致性。
- 拒絕采樣與SFT
RL收斂后,使用checkpoint收集SFT數據,擴展到寫作、角色扮演等通用任務,提升模型泛化能力。SFT數據包括:
- 推理數據:拒絕采樣生成,包含生成獎勵模型輔助判斷的數據,過濾低質量CoT。
- 非推理數據:復用DeepSeek-V3 pipeline和SFT數據,少量CoT用于復雜任務。
使用約80萬SFT數據微調DeepSeek-V3-Base。
- 面向所有場景的RL
二次RL階段,提升模型的helpfulness和harmlessness。結合規則驅動(推理數據)和獎勵模型(通用數據),訓練目標兼顧推理能力和安全對齊。
四、蒸餾:賦予小型模型推理能力(不止拉升自己模型推理能力,順便提拉一下同行)
為使小型模型具備推理能力,DeepSeek-AI采用蒸餾技術,使用DeepSeek-R1數據微調Qwen和Llama系列。實驗表明,蒸餾顯著提升小型模型推理能力,例如DeepSeek-R1-Distill-Qwen-7B
超越QwQ-32B-Preview
。DeepSeek-AI開源了蒸餾模型,僅SFT,未包含RL階段,旨在展示蒸餾有效性。
實驗評估
DeepSeek-R1在知識型、代碼型和數學型基準上進行全面評估,并與主流模型對比。
DeepSeek-R1評估結果
- 知識型基準:優于DeepSeek-V3,STEM問題提升顯著。
- 長文本QA (FRAMES):表現出色,文檔分析能力強。
- 事實性QA (SimpleQA):優于DeepSeek-V3。
- 指令遵循 (IF-Eval):表現出色,歸功于SFT和RL階段的指令數據。
- 開放域問答 (AlpacaEval & ArenaHard):卓越性能,寫作能力強,大規模RL提升泛化能力。
- 數學 & 代碼任務:媲美OpenAI-01-1217,大幅超越其他模型。
蒸餾模型評估
DeepSeek-R1-Distill-Qwen-7B
超越GPT-40-0513,DeepSeek-R1-14B
超越QwQ-32B-Preview
,DeepSeek-R1-32B/70B
顯著超越o1-mini,證明蒸餾潛力巨大。
討論:蒸餾 vs. 強化學習
實驗對比了蒸餾模型和RL訓練模型。結果表明,蒸餾模型DeepSeek-R1-Distill-Qwen-32B
優于RL訓練模型DeepSeek-R1-Zero-Qwen-32B
,即使后者經過大規模RL訓練。
結論:
- 蒸餾更強大模型到小型模型效果顯著,純RL小型模型計算成本高,性能可能不及蒸餾。
- 蒸餾經濟有效,但突破智能邊界可能仍需更強基礎模型和更大規模RL。
結論與創新貢獻
DeepSeek-R1研究探索了RL提升LLM推理能力,DeepSeek-R1-Zero驗證了純RL潛力,DeepSeek-R1通過冷啟動和多階段訓練進一步提升性能,并通過蒸餾賦予小型模型推理能力。
文章創新點和貢獻:
- 公開純RL如何提升LLM推理能力:首次公開驗證純RL無需SFT即可激勵LLM推理能力,解開o1模型面紗。
- 更強的模型,更低的成本,還是開源的:多多少少有點針對openai,不不不,是close ai
- 核心點
- DeepSeek-R1多階段訓練流程:有效提升推理能力、可讀性和通用性。(DeepSeek來告訴世界,推理能力要怎么訓出來)
- 證明蒸餾技術傳遞推理能力:蒸餾可高效賦予小型模型高性能推理能力。(普遍使用,老少兼宜)