DeepSeek-R1-Zero：基于基礎模型的強化學習

注：此文章內容均節選自充電了么創始人，CEO兼CTO陳敬雷老師的新書《自然語言處理原理與實戰》（人工智能科學與技術叢書）【陳敬雷編著】【清華大學出版社】

文章目錄

DeepSeek大模型技術系列四
- DeepSeek大模型技術系列四》DeepSeek-R1-Zero：基于基礎模型的強化學習
- - 更多技術內容
總結

DeepSeek大模型技術系列四

DeepSeek大模型技術系列四》DeepSeek-R1-Zero：基于基礎模型的強化學習

強化學習在推理任務中已顯示出顯著的有效性，我們之前的工作（Shao 等人，2024; Wang 等人，2023）已證明了這一點。然而，這些工作嚴重依賴監督數據，而收集監督數據非常耗時。在本節中，我們探索大語言模型在不依賴任何監督數據的情況下發展推理能力的潛力，重點關注它們如何通過純強化學習過程實現自我進化。我們首先簡要介紹我們的強化學習算法，然后展示一些令人興奮的結果，希望能為研究社區提供有價值的見解。
2.2.1 強化學習算法：組相對策略優化

為節省強化學習的訓練成本，我們采用組相對策略優化（GRPO）（Shao 等人，2024）。該方法摒棄了通常與策略模型大小相同的價值評估模型，而是從組得分中估計基線。具體來說，對于每個問題 q，GRPO 從舊策略中采樣一組輸出，然后通過最大化以下目標來優化策略模型：
在這里插入圖片描述

其中和是超參數，是優勢值，通過計算每組輸出對應的一組獎勵得到：

———————————————————————————————
用戶與助手進行對話。用戶提出問題，助手進行解答。助手先在腦海中思考推理過程，然后為用戶提供答案。推理過程和答案分別包含在和標簽內，即此處為推理過程此處為答案。用戶：提示。助手：
———————————————————————————————
表 1 DeepSeek-R1-Zero 的模板。訓練期間，提示將被具體的推理問題替換。
2.2.2 獎勵建模

獎勵是訓練信號的來源，決定了強化學習的優化方向。為訓練 DeepSeek-R1-Zero，我們采用基于規則的獎勵系統，主要包含兩種類型的獎勵：
準確率獎勵：準確率獎勵模型用于評估回答是否正確。例如，對于有確定答案的數學問題，模型需要按照指定格式（如在框內）給出最終答案，以便基于規則可靠地驗證正確性。同樣，對于 LeetCode 問題，可以使用編譯器根據預定義的測試用例生成反饋。
格式獎勵：除了準確率獎勵模型，我們還采用格式獎勵模型，要求模型將其思考過程放在‘’和‘’標簽之間。
在開發 DeepSeek-R1-Zero 時，我們沒有應用結果或過程神經獎勵模型，因為我們發現神經獎勵模型在大規模強化學習過程中可能會出現獎勵作弊問題，而且重新訓練獎勵模型需要額外的訓練資源，會使整個訓練流程變得復雜。
2.2.3 訓練模板
為訓練 DeepSeek-R1-Zero，我們首先設計了一個簡單的模板，引導基礎模型遵循我們指定的指令。如表 1 所示，該模板要求 DeepSeek-R1-Zero 首先生成推理過程，然后給出最終答案。我們有意將約束限制在這種結構格式上，避免任何特定內容的偏差，例如強制要求反思性推理或推廣特定的問題解決策略，以確保我們能準確觀察模型在強化學習過程中的自然發展。
2.2.4 DeepSeek-R1-Zero 的性能、自我進化過程和頓悟時刻
?DeepSeek-R1-Zero 的性能：圖 2 展示了 DeepSeek-R1-Zero 在 2024 年 AIME 基準測試中，整個強化學習訓練過程的性能變化軌跡。可以看出，隨著強化學習訓練的推進，DeepSeek-R1-Zero 的性能穩步提升。值得注意的是，2024 年 AIME 上的平均單次通過率（pass@1）顯著提高，從最初的 15.6% 躍升至令人矚目的 71.0%，達到了與 OpenAI-o1-0912 相當的性能水平。這一顯著改進凸顯了我們的強化學習算法在優化模型性能方面的有效性。
在這里插入圖片描述

表 2 對 DeepSeek-R1-Zero 和 OpenAI 的 o1-0912 模型在各種推理相關基準測試中的表現進行了對比分析。結果顯示，強化學習使 DeepSeek-R1-Zero 在無需任何監督微調數據的情況下，獲得了強大的推理能力。這是一項值得關注的成就，它強調了該模型僅通過強化學習就能有效學習和泛化的能力。此外，通過多數投票，DeepSeek-R1-Zero 的性能還能進一步提升。例如，在 AIME 基準測試中采用多數投票時，其性能從 71.0% 提升到 86.7%，超過了 OpenAI-o1-0912 的性能。無論是否采用多數投票，DeepSeek-R1-Zero 都能取得具有競爭力的性能，這突出了其強大的基礎能力以及在推理任務中進一步提升的潛力。
在這里插入圖片描述

圖 2 DeepSeek-R1-Zero 在訓練期間 AIME 準確率。對于每個問題，我們采樣 16 個回答并計算總體平均準確率，以確保評估穩定。

DeepSeek-R1-Zero 的自我進化過程：DeepSeek-R1-Zero 的自我進化過程充分展示了強化學習如何驅動模型自主提升推理能力。通過直接從基礎模型啟動強化學習，我們可以在不受監督微調階段影響的情況下，密切監測模型的發展。這種方法清晰地呈現了模型隨時間的演變，尤其是在處理復雜推理任務的能力方面。如圖 3 所示，DeepSeek-R1-Zero 的思考時間在整個訓練過程中持續改善。這種改善并非外部調整的結果，而是模型內部自然發展的體現。DeepSeek-R1-Zero 通過利用更長的測試時計算，自然而然地獲得了解決日益復雜推理任務的能力。其計算過程能夠生成數百到數千個推理標記，使模型能夠更深入地探索和完善其思維過程。這種自我進化中最顯著的特點之一，是隨著測試時計算量的增加，復雜行為的出現。例如，模型會進行反思 —— 回顧并重新評估之前的步驟，還會自發地探索解決問題的替代方法。這些行為并非預先編程設定，而是模型與強化學習環境交互的結果。這種自發發展顯著提升了 DeepSeek-R1-Zero 的推理能力，使其能夠更高效、準確地處理更具挑戰性的任務。
在這里插入圖片描述

?圖 3 DeepSeek-R1-Zero 在強化學習過程中訓練集上每個回復的平均長度。DeepSeek-R1-Zero 自然學會用更多思考時間來解決推理任務。
?DeepSeek-R1-Zero 的頓悟時刻：在訓練 DeepSeek-R1-Zero 期間，一個特別有趣的現象是 “頓悟時刻” 的出現。如表 3 所示，這個時刻出現在模型的一個中間版本中。在這個階段，DeepSeek-R1-Zero 學會了通過重新評估初始方法，為一個問題分配更多思考時間。這種行為不僅證明了模型推理能力的不斷提升，也是強化學習能夠帶來意外且復雜結果的生動例證。這個時刻對于模型和觀察其行為的研究人員來說都是一個 “頓悟時刻”。它凸顯了強化學習的力量與魅力：我們無需明確教導模型如何解決問題，只需給予正確的激勵，模型就能自主開發出先進的問題解決策略。“頓悟時刻” 有力地提醒我們，強化學習具有在人工系統中解鎖新智能水平的潛力，為未來開發更自主、更具適應性的模型鋪平了道路。
在這里插入圖片描述

表 3 | DeepSeek-R1-Zero 中間版本一個有趣的 “頓悟時刻”。該模型學會了以擬人化的語氣進行反思。這對我們來說也是一個頓悟時刻，讓我們見證了強化學習的力量與美妙之處。
DeepSeek-R1-Zero 的缺點：盡管 DeepSeek-R1-Zero 展現出強大的推理能力，并且自主發展出了意想不到的強大推理行為，但它也面臨一些問題。例如，DeepSeek-R1-Zero 存在可讀性差和語言混雜等挑戰。為了使推理過程更易讀并與開放社區分享，我們探索了 DeepSeek-R1，這是一種利用包含人類友好型冷啟動數據的強化學習方法。

總結

此文章有對應的配套新書教材和視頻：

【配套新書教材】
《自然語言處理原理與實戰》（人工智能科學與技術叢書）【陳敬雷編著】【清華大學出版社】
新書特色：本書從自然語言處理基礎開始，逐步深入各種NLP熱點前沿技術，使用了Java和Python兩門語言精心編排了大量代碼實例，契合公司實際工作場景技能，側重實戰。
全書共分為19章，詳細講解中文分詞、詞性標注、命名實體識別、依存句法分析、語義角色標注、文本相似度算法、語義相似度計算、詞頻-逆文檔頻率(TF-IDF)、條件隨機場、新詞發現與短語提取、搜索引擎Solr Cloud和Elasticsearch、Word2vec詞向量模型、文本分類、文本聚類、關鍵詞提取和文本摘要、自然語言模型（Language Model）、分布式深度學習實戰等內容，同時配套完整實戰項目，例如對話機器人實戰、搜索引擎項目實戰、推薦算法系統實戰。
本書理論聯系實踐，深入淺出，知識點全面，通過閱讀本書，讀者不僅可以理解自然語言處理的知識，還能通過實戰項目案例更好地將理論融入實際工作中。
《分布式機器學習實戰》（人工智能科學與技術叢書）【陳敬雷編著】【清華大學出版社】
新書特色：深入淺出，逐步講解分布式機器學習的框架及應用配套個性化推薦算法系統、人臉識別、對話機器人等實戰項目。

【配套視頻】

推薦系統/智能問答/人臉識別實戰視頻教程【陳敬雷】
視頻特色：把目前互聯網熱門、前沿的項目實戰匯聚一堂，通過真實的項目實戰課程，讓你快速成為算法總監、架構師、技術負責人！包含了推薦系統、智能問答、人臉識別等前沿的精品課程，下面分別介紹各個實戰項目：
1、推薦算法系統實戰
聽完此課，可以實現一個完整的推薦系統！下面我們就從推薦系統的整體架構以及各個子系統的實現給大家深度解密來自一線大型互聯網公司重量級的實戰產品項目！
2、智能問答/對話機器人實戰
由淺入深的給大家詳細講解對話機器人項目的原理以及代碼實現、并在公司服務器上演示如何實際操作和部署的全過程！
3、人臉識別實戰
從人臉識別原理、人臉識別應用場景、人臉檢測與對齊、人臉識別比對、人臉年齡識別、人臉性別識別幾個方向，從理論到源碼實戰、再到服務器操作給大家深度講解！

自然語言處理NLP原理與實戰視頻教程【陳敬雷】
視頻特色：《自然語言處理NLP原理與實戰》包含了互聯網公司前沿的熱門算法的核心原理，以及源碼級別的應用操作實戰，直接講解自然語言處理的核心精髓部分，自然語言處理從業者或者轉行自然語言處理者必聽視頻！

人工智能《分布式機器學習實戰》視頻教程【陳敬雷】
視頻特色：視頻核心內容有互聯網公司大數據和人工智能、大數據算法系統架構、大數據基礎、Python編程、Java編程、Scala編程、Docker容器、Mahout分布式機器學習平臺、Spark分布式機器學習平臺、分布式深度學習框架和神經網絡算法、自然語言處理算法、工業級完整系統實戰（推薦算法系統實戰、人臉識別實戰、對話機器人實戰）。

上一篇：DeepSeek大模型技術系列三》DeepSeek-R1：通過強化學習激發大語言模型的推理能力
下一篇：DeepSeek大模型技術系列五》DeepSeek大模型基礎設施全解析：支撐萬億參數模型的幕后英雄