DeepSeek-R1論文深度解析:純強化學習如何引爆LLM推理革命?

技術突破:從“無監督”到“自主進化”的跨越

paper :https://arxiv.org/pdf/2501.12948

目錄

  • 技術突破:從“無監督”到“自主進化”的跨越
  • 1 DeepSeek-R1-Zero: RL+noSFT
    • 1.1 R1-Zero: GRPO(Group Relative Policy Optimization)
    • 1.2 Prompt
    • 1.3 Reward
    • 1.4 Self-evolution “自我進化”
    • 1.5 Aha Moment “頓悟時刻”
  • 2 DeepSeek-R1 :Reinforcement Learning with Cold Start
  • 3 DeepSeek-Distill
  • 4 Unsuccessful Attempts
  • 5 總結
    • 5.1 純強化學習(RL)革命:首次跳過SFT實現推理能力躍升
    • 5.2 性能吊打GPT-4 O1:數學與代碼任務雙冠王
    • 5.3 開源生態引爆硅谷:從學術圈到大眾的破圈效應
    • 5.4 架構創新降本增效:打破算力封鎖的性價比之王
    • 5.5 AGI新范式曙光:從“人工引導”到“自主進化”?


DeepSeek-R1-Zero: RL+noSFT
DeepSeek-R1: RL+CoT
DeepSeek-Distill: 蒸餾出小模型

1 DeepSeek-R1-Zero: RL+noSFT

??????

1.1 R1-Zero: GRPO(Group Relative Policy Optimization)

  • 采樣動作組:對于每個輸入狀態s,GRPO從當前策略θ中采樣一組動作a1, a2, …, aG。這些動作基于策略模型的概率分布進行采樣,確保了多樣性。

  • 獎勵評估:每個采樣動作都會通過一個獎勵函數進行評估,得到對應的獎勵值r(a)。獎勵函數可以根據具體任務設計,例如在數學推理任務中,獎勵函數可以基于答案的正確性

  • 計算相對優勢:將每個動作的獎勵值進行歸一化處理,得到相對優勢A^i,j。這一步驟可以通過以下公式完成:
    在這里插入圖片描述

  • 策略更新:根據計算得到的相對優勢,更新策略模型的參數θ。更新的目標是增加具有正相對優勢的動作的概率,同時減少具有負相對優勢的動作的概率。GRPO目標函數如下
    在這里插入圖片描述
    ??????目標函數是數學期望
    ??????min確保更新項不會太大和clip限制了概率比在1?? 和1+? 之間
    ??????Ai控制了相對優勢函數
    ??????KL 散度約束控制新舊策略的差異,確保更新穩定(注意此處的Π_ref是參考模型指的是一個不可訓練的模型,而Π_old是舊策略)

  • KL散度約束:為了防止策略更新過于劇烈,GRPO在更新過程中引入了KL散度約束。通過限制新舊策略之間的KL散度,確保策略分布的變化在可控范圍內(用于控制新舊策略之間的差異,確保策略更新的穩定性。)
    在這里插入圖片描述

1.2 Prompt

在這里插入圖片描述

用戶與助手之間的對話。用戶提出一個問題,然后助手解決它。助手首先在心里考慮推理過程,然后給用戶提供答案。
推理過程和答案分別被<think> </think><answer> </answer>標簽包圍,
即<think> 這里的推理過程 </think> 
<answer> 這里的答案 </answer>。
用戶:Prompt。助手:

具體示例如
在這里插入圖片描述

1.3 Reward

Reward策略:R1-Zero的具體訓練reward為純粹的規則:

  • 準確性獎勵:準確性獎勵模型評估響應是否正確。例如,在數學問題中,如果結果是確定性的,模型需要以指定格式(例如,在一個框內)提供最終答案,以便進行可靠的基于規則的正確性驗證。同樣地,在LeetCode問題中,可以使用編譯器根據預定義的測試用例生成反饋。
  • 格式獎勵:除了準確性獎勵模型外,使用一種格式獎勵模型,該模型強制模型將其思考過程放在和標簽之間。

總結R1-Zero 能夠在不需要任何監督微調數據的情況下獲得強大的推理能力。此外,DeepSeek-R1-Zero 的性能可以通過多數投票的方法進一步增強。例如,在使用多數投票應用于 AIME 基準測試時,DeepSeek-R1-Zero 的表現從 71.0% 提升到了 86.7%,從而超過了 OpenAI-o1-0912 的性能。

1.4 Self-evolution “自我進化”

在這里插入圖片描述
Self-evolution “自我進化”:且在R1-Zero在訓練過程中的思考時間和生成長度顯示出持續的改進。這種改進不是外部調整的結果,而是模型內部發展的結果。通過擴展測試時間計算自然獲得了解決越來越復雜的推理任務的能力。

1.5 Aha Moment “頓悟時刻”

在這里插入圖片描述
Aha Moment “頓悟時刻”: 在模型的中間版本中,R1-Zero學會了通過重新評估其初始方法來分配更多的思考時間來解決問題

2 DeepSeek-R1 :Reinforcement Learning with Cold Start

在R1-Zero的成功下激發了兩個自然的問題:
(1) 通過在冷啟動階段加入少量高質量數據能否進一步提高推理性能或加速收斂?
(2) 如何訓練一個不僅能夠生成清晰連貫的思維鏈(CoT),而且具備強大通用能力的用戶友好型模型?

階段1:Cold Start

  • 方法:收集并使用少量高質量的長思維鏈數據對模型進行微調作為初始的RL執行者。
  • 數據收集方式:包括少樣本提示、直接要求模型生成詳細的答案(含反思和驗證)、收集DeepSeek-R1-Zero輸出并進行后處理等。

階段2:Reasoning-oriented RL 面向推理的強化學習

  • 在冷啟動數據上微調DeepSeek-V3-Base之后,應用大規模強化學習訓練過程。
  • 強調提升模型在編碼、數學、科學和邏輯推理等任務中的推理能力。
  • 引入語言一致性獎勵以減少多語言混合問題,并將準確性獎勵和語言一致性獎勵結合形成最終獎勵。

階段3:拒絕采樣和監督微調

  • 使用來自前一階段RL訓練檢查點的數據進行SFT數據收集。
  • 擴展數據集,包括那些可以通過生成獎勵模型評估的數據。
  • 對于非推理任務(如寫作、事實問答等),重用DeepSeek-V3的部分SFT數據集。
  • 最終,使用大約80萬樣本的數據集對DeepSeek-V3-Base進行兩輪微調。

階段4:所有場景下的強化學習

  • 實施第二次強化學習階段,旨在提高模型的幫助性和無害性同時細化其推理能力。
  • 對于推理數據,繼續使用基于規則的獎勵指導學習;對于一般數據,則依賴獎勵模型捕捉人類偏好。
  • 強調總結部分的幫助性評估以及整個響應(包括思維過程和總結)的危害性評估。

3 DeepSeek-Distill

目標:讓較小的開源模型(如Qwen和Llama系列)也能擁有類似DeepSeek-R1的強大推理能力。
方法:

  • 使用在DeepSeek-R1訓練過程中整理出的80萬樣本對這些小型模型進行直接監督微調(SFT)。這里沒有包含強化學習(RL)階段,盡管引入RL可以顯著提高模型性能。
  • 選擇的基礎模型包括不同規模的Qwen和Llama模型,例如Qwen2.5-Math-1.5B, Qwen2.5-Math-7B等,以及Llama-3.3-70B-Instruct,因為其推理能力略優于Llama-3.1版本。

4 Unsuccessful Attempts

在DeepSeek-R1的早期開發階段,使用過 過程獎勵模型(PRM)蒙特卡洛樹搜索(MCTS)

  • PRM: 缺少細粒度數據和評判
    引導模型找到解決推理任務的更好策略。這種方法依賴于對中間步驟的細粒度獎勵來指導模型進行優化。
    局限性:
    • 定義細粒度步驟的困難:在一般的推理過程中,明確界定一個細粒度步驟是具有挑戰性的。
    • 中間步驟正確性的驗證難題:判斷當前的中間步驟是否正確是一個復雜的問題。自動標注可能無法得到滿意的結果,而手動標注又不利于大規模應用。
    • 獎勵黑客問題:一旦引入基于模型的PRM,不可避免地會導致獎勵黑客現象,即模型可能會找到繞過獎勵機制的方法。重新訓練獎勵模型需要額外的資源,并且會使整個訓練流程變得復雜。
  • MCTS: 因文本復雜性無法訓練出一個不斷進度的Value Network
    局限性:
    • 受AlphaGo和AlphaZero啟發,研究團隊探索使用MCTS來增強測試時的計算可擴展性。該方法通過將答案分解為更小的部分,使模型能夠系統地探索解決方案空間。
    • 搜索空間的巨大差異:與象棋等游戲相比,文本生成任務的搜索空間呈指數級增長。為了應對這一問題,團隊設定了每個節點的最大擴展限制,但這可能導致模型陷入局部最優解。
    • 價值模型的重要性與難度:價值模型的質量直接影響到生成的質量,因為它指導著搜索過程的每一步。然而,訓練一個細致的價值模型本身就是一個難點,這使得模型難以逐步改進。雖然AlphaGo的成功在于訓練了一個不斷進步的價值模型,但在DeepSeek-R1的設置中復制這一點非常困難,因為文本生成的復雜性更高。

5 總結

🔥 ?DeepSeek-R1憑什么引爆全球AI圈?五大核心突破解析 🔥

5.1 純強化學習(RL)革命:首次跳過SFT實現推理能力躍升

DeepSeek-R1系列通過純強化學習訓練?(無需監督微調SFT),直接激發模型自主推理能力。其核心算法GRPO(組相對策略優化)?結合規則獎勵(答案準確性+格式規范),讓模型在數學競賽AIME 2024中從15.6%準確率飆升至86.7%。更驚艷的是,R1-Zero(零樣本RL訓練)通過自我迭代涌現出“反思”能力,主動修復推理錯誤,驗證了RL驅動的自主進化潛力。

5.2 性能吊打GPT-4 O1:數學與代碼任務雙冠王

在多項權威測試中,DeepSeek-R1以**97.3%**的Math-500準確率超越OpenAI-O1(96.6%),Codeforces編程任務表現與人類頂尖選手持平。其開源版本(如7B參數模型)在AIME 2024上達55.5%,碾壓同規模競品Qwen-Preview(32B參數僅42.0%)。這種“小模型大智慧”特性,為邊緣計算場景提供低成本解決方案。

5.3 開源生態引爆硅谷:從學術圈到大眾的破圈效應

?技術普惠:開源R1-Zero、R1及6個蒸餾模型(基于Qwen/Llama架構),推動推理技術從實驗室走向工業界。
?社區狂潮:春節期間,連重慶二線城市的老百姓都在討論R1原理,APP內置的“DeepThink”模式雖初期冷門,卻成為后續爆款的伏筆。
?國際認可:Nature雜志稱其為“中國廉價、開放的推理模型標桿”,Meta、英偉達等巨頭爭相接入。

5.4 架構創新降本增效:打破算力封鎖的性價比之王

通過DeepSeek-MoE(混合專家架構)?、MLA(多頭潛在注意力)?等技術,將訓練成本壓縮至OpenAI的1/5(R1訓練成本5.58MvsO1的30M+)。結合FP8混合精度訓練和DualPipe通信優化,在國產GPU上實現671B參數模型的穩定訓練,突破西方技術封鎖。

5.5 AGI新范式曙光:從“人工引導”到“自主進化”?

DeepSeek-R1證明:?強化學習可替代人工標注數據,推動推理能力從“人工設計”轉向“自主涌現”。其多階段訓練框架(冷啟動數據+SFT+RL)為AGI訓練提供新思路,被硅谷視為“OpenAI神秘感失效后”的關鍵競爭點。

?結語
DeepSeek-R1的出名,不僅是技術突破的勝利,更是開源精神與工程化創新的勝利。正如“它重新定義了強推理模型的邊界,讓AGI觸手可及。”

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/74037.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/74037.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/74037.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

表格標題豎直

使用文本方式使表格怎么豎列 思路&#xff1a;表格豎直書寫&#xff0c;里面的內容水平書寫 使用到的是css中的文本效果&#xff1a; writing-mode&#xff1a;書寫方式horizontal-tb&#xff1a;水平vertical-rl&#xff1a;豎直<style>table {writing-mode: vertical…

AI+視頻賦能智慧農業:EasyCVR打造全域可視化農場監管平臺

隨著科技的飛速發展&#xff0c;傳統農業正加速向智慧農業轉型&#xff0c;農場管理也迎來了前所未有的變革機遇。在這一進程中&#xff0c;如何有效整合先進的信息技術&#xff0c;實現農場的精準化、智能化管理&#xff0c;成為了擺在農場主和農業管理者面前的關鍵課題。 基于…

HarmonyOS鴻蒙開發 BuilderParam在父組件的Builder的點擊事件報錯:Error message:is not callable

HarmonyOS鴻蒙開發 BuilderParam在父組件的Builder的點擊事件報錯&#xff1a;Error message:is not callable 最近在鴻蒙開發過程中&#xff0c;UI做好了&#xff0c;根據列表item進行點擊跳轉&#xff0c;報錯了 報錯信息如下 Error message:is not callable Stacktrace:at…

簡化神經元模型6 -- Hindmarsh-Rose Model

Hindmarsh-Rose 模型 目錄 0. 寫在前面 1. Hindmarsh-Rose 模型的定義 2. Hindmarsh-Rose 模型簇發放的動力學機制 3. Hindmarsh-Rose 模型的其他發放模式 4. 分析過程所用到的一系列 BrainPy 代碼 0. 寫在前面 前面介紹了: Hodgkin-Huxley Model 簡化神經元模型1 – LIF M…

第六屆電氣、電子信息與通信工程國際學術會議 (EEICE 2025)

重要信息 官網&#xff1a;www.eeice.net&#xff08;點擊了解參會投稿等&#xff09; 時間&#xff1a;2025年4月18-20日 地點&#xff1a;中國-深圳技術大學 簡介 第六屆電氣、電子信息與通信工程 (EEICE 2025&#xff09;將于2025年4月18-20日在中國深圳召開。 EEICE 20…

計算機操作系統(三) 操作系統的特性、運行環境與核心功能(附帶圖譜更好對比理解))

計算機操作系統&#xff08;三&#xff09; 操作系統的特性、運行環境與核心功能 前言一、操作系統的基本特性1.1 并發1.2 共享1.3 虛擬1.4 異步 二、操作系統的運行環境2.1 硬件支持2.2 操作系統內核2.3 處理機的雙重工作模式2.4 中斷與異常 三、操作系統的主要功能3.1 處理機…

Linux(Ubuntu)系統安裝Docker與Docker Compose完整指南

本文是為需要在Ubuntu系統部署容器服務的開發者準備的詳細教程。我們將分兩個主要部分講解&#xff1a;Docker引擎的標準安裝流程和Docker Compose的配置方法。所有操作均在終端執行&#xff0c;建議使用Ubuntu 18.04及以上版本。 一、Docker引擎安裝全流程 &#xff08;總耗時…

批量將 PPT 轉換為PDF/XPS/JPG圖片等其它格式

PPT 文檔經常有轉換為其它格式的需求&#xff0c;比如將 PPT 轉換為 PDF、將 PPT 轉換為圖片、生成 PPT 預覽圖等&#xff0c;這在某些場景下非常的有用&#xff0c;今天給大家介紹的就是如何批量將 PDF 轉換為 PDF、JPG、Tiff 等多種格式的操作。 在工作中我們經常需要接觸 PP…

c庫、POSIX庫、C++庫、boost庫之間的區別和聯系

文章目錄 一、區別1. 定義和來源2. 功能范圍3. 可移植性4. 語言支持5. 維護和更新 二、聯系1. 相互補充2. 部分功能重疊3. 共同促進編程發展4. 代碼兼容性 三、總結 一、區別 1. 定義和來源 C 庫函數&#xff1a;由 ANSI C 和 ISO C 標準定義&#xff0c;是 C 語言編程的基礎…

響應壓縮導致的接口請求response沒有響應體問題排查

目錄 一、背景二、排查過程三、解決方法四、學習與思考-響應壓縮&#xff08;一&#xff09;可能原因&#xff08;二&#xff09;深入排查&#xff08;三&#xff09;注意 一、背景 接口發布到測試環境&#xff0c;測試同學說沒有數據 二、排查過程 1、本地用相同的參數、相…

JVM中的運行時常量池詳解

運行時常量池&#xff08;Runtime Constant Pool&#xff09;是每一個類或接口的常量池&#xff08;Constant_Pool&#xff09;的運行時表示形式&#xff0c;它包括了若干種不同的常量&#xff1a;從編譯期可知的數值字面量到必須運行期解析后才能獲得的方法或字段引用。運行時…

C# MethodBase 類使用詳解

總目錄 前言 在C#編程中&#xff0c;反射&#xff08;Reflection&#xff09;是一種強大的機制&#xff0c;允許我們在運行時檢查和操作類型的成員。MethodBase 類是.NET框架中 System.Reflection 命名空間下的一個抽象類&#xff0c;它是所有方法( MethodInfo 和 Constructor…

【css酷炫效果】純CSS實現3D翻轉卡片動畫

【css酷炫效果】純CSS實現3D翻轉卡片動畫 緣創作背景html結構css樣式完整代碼效果圖 想直接拿走的老板&#xff0c;鏈接放在這里&#xff1a;https://download.csdn.net/download/u011561335/90490472 緣 創作隨緣&#xff0c;不定時更新。 創作背景 剛看到csdn出活動了&am…

Flask多參數模版使用

需要建立目錄templates&#xff1b; 把建好的html文件放到templates目錄里面&#xff1b; 約定好參數名字&#xff0c;單個名字可以直接使用&#xff1b;多參數使用字典傳遞&#xff1b; 樣例&#xff1a; from flask import render_template # 模板 (Templates) #Flask 使用…

SVN簡明教程——下載安裝使用

SVN教程目錄 一、開發中的實際問題二、簡介2.1 版本控制2.2 Subversion2.3 Subversion的優良特性2.4 工作原理2.5 SVN基本操作 三、Subversion的安裝與配置1. 服務器端程序版本2. 下載源碼包3. 下載二進制安裝包4. 安裝5. 配置版本庫① 為什么要配置版本庫&#xff1f;② 創建目…

OpenCV圖像拼接(1)概述

操作系統&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 編程語言&#xff1a;C11 算法描述 此圖說明了在Stitcher類中實現的拼接模塊流程。使用該類&#xff0c;可以配置/移除某些步驟&#xff0c;即根據特定需求調整拼接流程。流程中的所…

Ubuntu20.04安裝Nvidia顯卡驅動

Ubuntu20.04安裝Nvidia顯卡驅動 安裝環境為Dell R540服務器 官網下載Nvidia顯卡驅動 https://www.nvidia.cn/geforce/drivers/ 安裝顯卡驅動 chmod x NVIDIA-Linux-x86_64-470.63.01.run sudo ./NVIDIA-Linux-x86_64-470.63.01.run 遇到nouveau報錯 lsmod查看nouveau驅動…

互聯網it常用抓包工具說明

一、引言 在互聯網 IT 領域&#xff0c;無論是網絡故障排查、安全檢測&#xff0c;還是開發調試&#xff0c;抓包工具都發揮著舉足輕重的作用。 當網絡出現故障&#xff0c;比如網頁加載緩慢、應用無法連接服務器時&#xff0c;抓包工具可以幫助我們捕獲網絡數據包&#xff0…

Linux 音頻驅動 WM8960 音頻 DAC IC 音樂播放與錄音

這些先引出一個內容&#xff0c;是 Linux 內核的音頻系統&#xff0c;ALSA&#xff0c;提供了對聲卡的低級訪問&#xff0c;支持 PCM&#xff0c;播放/錄音、混音、MIDI 處理等功能。它取代了舊的 OSS&#xff0c;并提供更強大的功能和更好的硬件支持。 ALSA 主要特點&#xf…

k8s中的組件

1.namespace Namespace 用于將集群資源劃分為不同的邏輯組&#xff0c;方便管理和隔離 kubectl get namespace 查看所有邏輯組 kubectl describe namespace <namespace-name> 查看某個邏輯組信息詳情 kubectl create namespace ... 創建邏輯組 kubectl delete names…