DeepSeek-R1 論文解讀：強化學習如何 “煉” 出超強推理模型？

`深度解析DeepSeek-R1：強化學習驅動大語言模型推理能力新突破`

論文鏈接：DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

在這里插入圖片描述

在大語言模型（LLMs）飛速發展的當下，提升模型推理能力成為邁向通用人工智能（AGI）的關鍵一環。近期，DeepSeek-AI發布的“DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning”一文，介紹了通過強化學習提升模型推理能力的創新成果——DeepSeek-R1-Zero和DeepSeek-R1，為該領域研究開辟了新路徑。

Abstract

介紹了DeepSeek-R1-Zero和DeepSeek-R1這兩款推理模型，涵蓋模型訓練方式、特點、性能表現以及開源情況，具體如下：

模型介紹：首次提出第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。其中，DeepSeek-R1-Zero是基于大規模強化學習（RL）訓練而成，且未經過監督微調（SFT）的初步步驟。在RL訓練過程中，它展現出了強大且有趣的推理行為，不過也面臨可讀性差、語言混合等問題。為解決這些問題并進一步提升推理性能，團隊開發了DeepSeek-R1，該模型采用了多階段訓練，并在RL之前引入冷啟動數據。
性能表現：DeepSeek-R1在推理任務上的表現可與OpenAI-o1-1217相媲美。這意味著在處理各類推理問題時，DeepSeek-R1達到了與OpenAI先進模型相近的水平，展現出其在推理能力方面的卓越性。
開源貢獻：為推動研究社區的發展，團隊開源了DeepSeek-R1-Zero、DeepSeek-R1，以及基于Qwen和Llama從DeepSeek-R1中提煉出的六個密集模型（參數規模分別為1.5B、7B、8B、14B、32B、70B ）。開源這些模型，有助于其他研究人員基于此進行更深入的研究和開發，促進整個大語言模型領域的發展。

1. Introduction

主要介紹了研究背景、目標、主要方法及貢獻，為理解后續研究內容奠定基礎。具體如下：

研究背景：近年來，大語言模型（LLMs）發展迅速，逐漸縮小與通用人工智能（AGI）的差距。后訓練成為訓練流程的重要部分，它能提升推理任務的準確性、使模型符合社會價值觀并適應用戶偏好，且與預訓練相比所需計算資源較少。在推理能力提升方面，OpenAI的o1系列模型引入推理時擴展思維鏈的方法，在數學、編程和科學推理等任務上取得顯著進步，但有效測試時擴展仍是研究難題。此前的研究方法，如基于過程的獎勵模型、強化學習、蒙特卡羅樹搜索和束搜索等，都未能達到o1系列模型的通用推理性能。
研究目標與方法：本文旨在通過純強化學習（RL）提升語言模型的推理能力，探索大語言模型在無監督數據情況下，通過純RL過程自我進化發展推理能力的潛力。研究以DeepSeek-V3-Base為基礎模型，采用GRPO（Group Relative Policy Optimization）作為RL框架來提高模型在推理任務中的性能。在訓練過程中，DeepSeek-R1-Zero自然地展現出許多強大且有趣的推理行為，在推理基準測試中表現出色，例如在AIME 2024基準測試中，pass@1分數大幅提升。不過，DeepSeek-R1-Zero存在可讀性差和語言混合等問題。因此，研究引入DeepSeek-R1，通過收集少量冷啟動數據對基礎模型進行微調，并采用多階段訓練流程，最終獲得了與OpenAI-o1-1217性能相當的模型。
研究貢獻：一是在基礎模型上進行大規模強化學習的后訓練，直接將RL應用于基礎模型，開發出DeepSeek-R1-Zero，證明了僅通過RL無需監督微調就能激發大語言模型的推理能力，為該領域研究開辟新方向。同時，介紹了DeepSeek-R1的開發流程，包括兩個RL階段和兩個SFT階段，有望推動行業發展。二是通過蒸餾將大模型的推理模式融入小模型，使小模型性能提升。開源了DeepSeek-R1及其API，以及多個蒸餾后的小模型，為研究社區提供了有價值的資源，有助于后續開發性能更優的小模型。
評估結果總結：在推理任務上，DeepSeek-R1在AIME 2024和MATH-500等測試中表現優異，與OpenAI-o1-1217相當甚至超越。在編碼相關任務中達到專家水平；在知識基準測試如MMLU、GPQA Diamond等中，DeepSeek-R1成績突出，雖然略遜于OpenAI-o1-1217，但優于其他閉源模型。此外，在創意寫作、問答、編輯和總結等多種任務中，DeepSeek-R1也表現出色，在長上下文理解任務中大幅超越DeepSeek-V3。

2. Approach

主要闡述了提升模型推理能力的研究方法，涵蓋總體思路、DeepSeek - R1 - Zero和DeepSeek - R1的構建以及知識蒸餾的應用，具體如下：

總體思路：傳統方法多依賴大量監督數據提升模型性能，本研究表明大規模強化學習（RL）可顯著提升推理能力，即便不依賴監督微調（SFT）作為冷啟動。加入少量冷啟動數據，性能還能進一步增強。接下來分別介紹了直接在基礎模型上應用RL的DeepSeek - R1 - Zero，從冷啟動數據微調后進行RL的DeepSeek - R1，以及將DeepSeek - R1推理能力蒸餾到小型密集模型的方法。
DeepSeek - R1 - Zero：基礎模型上的強化學習
- 強化學習算法：采用Group Relative Policy Optimization（GRPO）算法，該算法放棄了與策略模型通常同樣大小的批評模型，通過組分數估計基線。優化策略模型時，綜合考慮優勢、策略比率和KL散度，在節省訓練成本的同時引導模型學習。
- 獎勵建模：采用基于規則的獎勵系統，包括準確性獎勵（評估響應是否正確，如數學題按指定格式給出最終答案，或用編譯器評估LeetCode問題）和格式獎勵（要求模型將思考過程放在特定標簽內）。未使用神經獎勵模型，以避免獎勵作弊和簡化訓練流程。
- 訓練模板：設計簡單模板，要求模型先進行推理過程，再給出最終答案，避免對內容的特定限制，使模型在RL過程中自然發展推理能力。
- 性能、自我進化過程和頓悟時刻：DeepSeek - R1 - Zero在AIME 2024基準測試中表現出色，隨著RL訓練推進，pass@1分數大幅提升，甚至超過OpenAI - o1 - 0912。
  - 圖 2 展示了 DeepSeek-R1-Zero 在 AIME 2024 基準測試中，整個強化學習訓練過程中的性能變化軌跡。如圖所示，隨著強化學習訓練的推進，DeepSeek-R1-Zero 的性能穩步提升。值得注意的是，AIME 2024 上的平均單次通過率（pass@1）得分顯著提高，從最初的 15.6% 躍升至令人矚目的 71.0%，達到了與 OpenAI-o1-0912 相當的性能水平。
    - 表 2 對 DeepSeek-R1-Zero 和 OpenAI 的 o1-0912 模型在各種推理相關基準測試中進行了對比分析
    - Figure 3 對應的圖片展示的是 DeepSeek - R1 - Zero 在強化學習（RL）訓練過程中，訓練集上平均響應長度的變化情況。從圖中可以直觀看到隨著訓練步數的推進，其平均響應長度的變化趨勢。該變化趨勢反映出 DeepSeek - R1 - Zero 在訓練過程中，自然地學會了花費更多思考時間來解決推理任務，具體表現為響應長度不斷增加，意味著模型在推理時會生成更多的推理內容，這是其推理能力自我進化的一種體現。

3. Experiment

主要介紹了模型實驗的相關內容，涵蓋實驗設置、DeepSeek - R1評估和蒸餾模型評估，具體如下：

實驗設置
- 基準測試：選用了多個不同領域的基準測試來評估模型性能，包括知識問答相關的MMLU、MMLU - Redux、MMLU - Pro等，編碼相關的LiveCodeBench、Codeforces，數學相關的AIME 2024、MATH - 500等，還有開放式生成任務評估的AlpacaEval 2.0和Arena - Hard等。通過多樣化的基準測試，全面考察模型在不同任務和領域中的表現。
- 評估提示：針對不同基準測試的特點，采用不同的提示設置。如對于MMLU、DROP等標準基準測試，使用simpleevals框架中的提示；MMLU - Redux采用Zero - Eval提示格式進行零樣本設置；MMLU - Pro、C - Eval等原本是少樣本提示的數據集，為適應DeepSeek - R1的特點，將其修改為零樣本設置，避免思維鏈（CoT）在少樣本情況下對模型性能產生負面影響。其他數據集則遵循其原始評估協議和默認提示。
- 基線模型：選擇了多個強大的模型作為基線進行對比，包括DeepSeek - V3、Claude - Sonnet - 3.5 - 1022、GPT - 4o - 0513、OpenAI - o1 - mini和OpenAI - o1 - 1217等。對于蒸餾模型的評估，還加入了開源模型QwQ - 32B - Preview進行對比，以此來清晰地評估DeepSeek - R1及其蒸餾模型的性能水平。
- 評估方法：為避免貪心解碼在評估長輸出推理模型時出現高重復率和結果不穩定的問題，采用pass@k評估方法。以0.6的采樣溫度和0.95的top - P值生成多個響應（k值根據測試集大小在4 - 64之間），計算pass@1指標（pass@1 = 1/k ∑ pi，pi表示第i個響應的正確性）。對于AIME 2024，還額外報告cons@64（64個樣本的多數投票）結果，使評估結果更可靠。
DeepSeek - R1評估：將DeepSeek - R1與多個基線模型在多個基準測試上進行對比。在教育知識類基準測試（如MMLU、MMLU - Pro、GPQA Diamond）中，DeepSeek - R1表現優于DeepSeek - V3，主要得益于在STEM相關問題上通過大規模強化學習提升的準確性。在FRAMES長文本問答任務中，DeepSeek - R1展現出強大的文檔分析能力；在SimpleQA事實性基準測試中，DeepSeek - R1也超過了DeepSeek - V3，但在中文SimpleQA基準測試中，由于安全RL的影響，對某些查詢拒絕回答，導致性能不如DeepSeek - V3。在IF - Eval格式指令遵循評估、AlpacaEval2.0寫作任務和ArenaHard開放域問答任務中，DeepSeek - R1成績優異，生成的總結長度簡潔，避免了長度偏差，體現出良好的多任務適應性。在數學任務上，DeepSeek - R1與OpenAI - o1 - 1217表現相當，大幅超越其他模型；在LiveCodeBench和Codeforces等編程算法任務中表現出色，但在工程導向的編程任務上，因相關強化學習訓練數據有限，與OpenAI - o1 - 1217仍有差距。
蒸餾模型評估：對基于DeepSeek - R1蒸餾得到的小模型進行評估，結果顯示這些蒸餾模型表現出色。例如，DeepSeek - R1 - Distill - Qwen - 7B在AIME 2024上超越GPT - 4o - 0513；DeepSeek - R1 - 14B在各項評估指標上優于QwQ - 32B - Preview；DeepSeek - R1 - 32B和DeepSeek - R1 - 70B在多數基準測試中大幅超越o1 - mini。這充分證明了蒸餾技術能有效提升小模型的推理能力，即使僅進行簡單的監督微調（SFT），也能取得顯著成果。
DeepSeek - R1：冷啟動的強化學習
- 冷啟動：與DeepSeek - R1 - Zero不同，DeepSeek - R1構建并收集少量長思維鏈（CoT）數據對DeepSeek - V3 - Base模型進行微調，作為RL的初始階段。這些冷啟動數據格式更具可讀性，包含推理過程總結，基于人類先驗知識設計模式，相比DeepSeek - R1 - Zero表現更優。
- 推理導向的強化學習：在冷啟動微調后的模型上，采用與DeepSeek - R1 - Zero相同的大規模RL訓練過程。針對語言混合問題，引入語言一致性獎勵，將推理任務準確性和語言一致性獎勵結合，優化模型表現，使其更符合人類偏好。
- 拒絕采樣和監督微調：推理導向的RL收斂后，利用模型檢查點收集監督微調（SFT）數據。推理數據通過拒絕采樣生成，擴大數據集并納入生成式獎勵模型評估的數據，同時過濾掉混亂和不可讀的輸出。非推理數據復用DeepSeek - V3的部分SFT數據集，涵蓋寫作、事實問答等領域。用約800k樣本對模型進行兩個epoch的微調。
- 全場景強化學習：為使模型更符合人類偏好，進行二次RL。推理數據采用基于規則的獎勵，通用數據使用獎勵模型捕捉人類偏好。分別從最終總結和整個響應評估模型的有用性和無害性，確保模型在推理能力提升的同時，更安全、更實用。
蒸餾：賦予小模型推理能力：為讓小型模型具備類似DeepSeek - R1的推理能力，使用DeepSeek - R1生成的800k樣本，對Qwen和Llama等開源模型進行直接微調。實驗表明，這種蒸餾方法顯著提升了小模型的推理能力。研究僅對蒸餾模型進行SFT，未納入RL階段，為后續研究留下探索空間。

4. Discussion

主要對研究過程中的關鍵問題進行了探討，涵蓋蒸餾與強化學習的比較，以及一些未成功嘗試的方法，為研究成果的理解和后續研究方向提供了參考。具體如下：

蒸餾與強化學習對比
- 實驗對比：通過實驗對比蒸餾和強化學習對模型性能的影響。在實驗中，對Qwen - 32B - Base進行大規模強化學習訓練，得到DeepSeek - R1 - Zero - Qwen - 32B。將其與從DeepSeek - R1蒸餾得到的DeepSeek - R1 - Distill - Qwen - 32B，以及開源模型QwQ - 32B - Preview進行對比。
- 結果分析：實驗結果表明，經過大規模強化學習訓練的Qwen - 32B - Base性能與QwQ - 32B - Preview相當，但DeepSeek - R1 - Distill - Qwen - 32B在所有基準測試中表現顯著更優。由此得出兩個結論：一是將強大模型的知識蒸餾到小模型中效果顯著，小模型僅依靠大規模強化學習不僅計算成本巨大，還可能無法達到蒸餾模型的性能；二是蒸餾策略經濟高效，但要進一步提升模型智能，仍需更強大的基礎模型和大規模強化學習的支持。
未成功嘗試的方法
- 過程獎勵模型（PRM）：PRM旨在引導模型找到更好的推理方法，但在實踐中存在局限性。首先，難以在一般推理中明確界定細粒度的推理步驟；其次，判斷當前中間步驟的正確性困難，自動化標注效果不佳，手動標注又不利于大規模應用；最后，引入基于模型的PRM會導致獎勵作弊問題，重新訓練獎勵模型不僅需要額外資源，還會使訓練流程復雜化。雖然PRM在對模型生成的前N個響應進行重排序或輔助引導搜索方面有一定作用，但在大規模強化學習過程中，其優勢不敵引入的額外計算成本。
- 蒙特卡羅樹搜索（MCTS）：受AlphaGo和AlphaZero啟發，嘗試使用MCTS提升測試時計算的可擴展性。該方法將答案分解為小部分，讓模型系統地探索解空間，通過提示模型生成對應推理步驟的標簽來輔助搜索。訓練時，先利用收集的提示和預訓練的值模型通過MCTS找到答案，再用生成的問答對訓練演員模型和值模型。然而，在大規模訓練中遇到挑戰，與國際象棋相比，token生成的搜索空間呈指數級增長，設置節點擴展限制雖能緩解但會導致模型陷入局部最優；同時，值模型對生成質量影響大，訓練精細的值模型難度高，使得模型難以通過自我搜索迭代提升性能。雖然MCTS結合預訓練值模型在推理時能提升性能，但通過自我搜索持續提升模型性能仍面臨較大困難。

5. Conclusion, Limitations, and Future Work

明確指出了當前研究的成果、模型存在的局限，并規劃了未來的研究方向，具體如下：

研究結論：研究通過強化學習成功提升了模型的推理能力。DeepSeek-R1-Zero代表了一種不依賴冷啟動數據的純RL方法，在各種任務中展現出強大的性能。而DeepSeek-R1則借助冷啟動數據和迭代RL微調，性能更加強大，在一系列任務上達到了與OpenAI-o1-1217相當的水平。此外，研究還探索了將推理能力蒸餾到小型密集模型的方法，使用DeepSeek-R1生成的800K訓練樣本對多個小模型進行微調，取得了令人矚目的成果，如DeepSeek-R1-Distill-Qwen-1.5B在數學基準測試中超越了GPT-4o和Claude-3.5-Sonnet等模型。
模型局限性
- 通用能力短板：在功能調用、多輪交互、復雜角色扮演以及JSON輸出等任務方面，DeepSeek-R1的表現不及DeepSeek-V3。這意味著在處理需要復雜交互和特定格式輸出的場景時，DeepSeek-R1還有較大的提升空間。
- 語言混合問題：目前DeepSeek-R1主要針對中文和英文進行了優化，在處理其他語言的查詢時，容易出現語言混合的情況。即使輸入的是其他語言的問題，模型可能仍會使用英語進行推理和回答，這限制了其在多語言環境下的應用。
- 提示工程敏感：模型對提示非常敏感，采用少樣本提示時，其性能會出現明顯下降。這表明在實際應用中，用戶需要謹慎選擇提示方式，以確保模型能夠發揮出最佳性能。
- 軟件工程任務表現欠佳：由于軟件工程任務的評估時間較長，這對強化學習過程的效率產生了較大影響，導致大規模強化學習在該領域的應用受限。因此，DeepSeek-R1在軟件工程基準測試中的表現，相較于DeepSeek-V3并沒有顯著的提升。
未來研究方向
- 通用能力提升：計劃深入探索如何利用長思維鏈（CoT）數據，來增強DeepSeek-R1在功能調用、多輪對話、復雜角色扮演和JSON輸出等任務上的表現，從而提升其通用能力。
- 解決語言混合問題：未來的更新將著重解決語言混合的問題，優化模型對多種語言的處理能力，確保模型在面對不同語言的查詢時，能夠正確地進行推理和回答，提高模型的多語言適應性。
- 優化提示工程：鑒于模型對提示的敏感性，后續研究將聚焦于提示工程，尋找更有效的提示策略，減少提示對模型性能的負面影響，提高模型的穩定性和可靠性。
- 改進軟件工程任務性能：為了提升DeepSeek-R1在軟件工程任務中的表現，未來版本將采取在軟件工程數據上進行拒絕采樣，或在強化學習過程中引入異步評估等方法，以提高強化學習的效率，進而提升模型在相關任務上的性能。