DeepSeek-R1深度解讀

deepseek提出了一種通過強化學習(RL)激勵大語言模型(LLMs)推理能力的方法,個人認為最讓人興奮的點是:通過RL發現了一個叫“Aha Moment”的現象,這個時刻發生在模型的中間版本中。在這個階段,DeepSeek學會為問題分配更多的思考時間。性能直接達到國際頂流水平,這不僅實現了了大語言生成模型到推理模型0-1的越階,而且成功打破美國對AI技術和高端芯片的封鎖。

同時發布了 DeepSeek-R1-Zero 和 DeepSeek-R1 模型,通過純 RL 訓練和多階段訓練提升了模型在數學、編碼等任務中的推理能力,并通過模型蒸餾將推理能力遷移到更小的模型。

研究背景與目標

  1. LLM 推理能力的重要性:近年來,大型語言模型(LLMs)在推理能力上取得顯著進展,如 OpenAI 的 o1 系列模型通過增加思維鏈(CoT)長度提升了數學、編碼等任務的表現。然而,如何有效提升測試時的推理能力仍是研究熱點。
  2. 現有方法的局限性:現有方法如過程獎勵模型、搜索算法等雖有一定效果,但未達到與 OpenAI o1 系列模型相當的通用推理性能。
  3. 研究目標:探索純強化學習(RL)在提升 LLM 推理能力中的潛力,無需監督微調(SFT),并通過多階段訓練和模型蒸餾進一步優化性能。

模型架構與方法

  1. DeepSeek-R1-Zero
    • 純 RL 訓練:直接在基礎模型(DeepSeek-V3-Base)上應用 Group Relative Policy Optimization (GRPO) 算法,無需 SFT 數據。GRPO公式看著十分復雜,拆解開來看看并不難懂:其中:\theta:待優化的策略參數;G:每個問題生成的候選答案數量(組大小);\pi _{\theta _{old}}:舊策略(即上一輪迭代的策略);A_{i}:優勢函數(Advantage),反映第i個答案的相對質量,將原始獎勵歸一化;\varepsilon:剪切閾值(通常取0.1-0.3);\beta:KL散度正則化系數。紅框公式最原始的強化學習公式,衡量新策略與舊策略生成答案的概率差異。若概率比>1,表示新策略更傾向于生成該答案。黃框公式:剪切機制,設置獎勵上下閾值clip一下,防止策略更新幅度過大,確保訓練穩定性。藍框公式將原始獎勵和clip后的獎勵取最小值。綠框公式KL散度懲罰,該懲罰項避免模型過度擬合短期獎勵,維持生成文本的多樣性和安全性。黑色公式:對同一問題q生成G個答案,使用組內比較代替傳統Critic模型。

    • 獎勵模型:基于規則的獎勵系統,包括準確性獎勵(驗證答案正確性)和格式獎勵(強制使用特定格式輸出推理過程)。
    • 訓練模板:引導模型生成推理過程和答案,結構化為 “推理過程” 和 “答案” 兩部分。
    • 自進化與表現:在 AIME 2024 基準測試中,pass@1 從 15.6% 提升至 71.0%,多數投票后達 86.7%,接近 OpenAI-o1-0912 的水平。模型還表現出自我驗證、反思等能力。“頓悟時刻”。這個模型學會了用擬人化的語氣重新思考。
  2. DeepSeek-R1
    • 冷啟動數據:收集數千條長 CoT 數據進行微調,解決 DeepSeek-R1-Zero 可讀性差、語言混合等問題。
    • 多階段訓練:包括冷啟動微調、推理導向的 RL(加入語言一致性獎勵)、拒絕采樣生成新 SFT 數據、多場景 RL(結合獎勵信號優化有用性和無害性)。
    • 性能提升:在 AIME 2024 上 pass@1 達 79.8%,超過 OpenAI-o1-1217,MATH-500 達 97.3%,與 o1-1217 持平。
  3. 模型蒸餾
    • 方法:使用 DeepSeek-R1 生成的 800k 數據微調開源模型(如 Qwen、Llama 系列),僅進行 SFT 而不進行 RL。
    • 結果:蒸餾后的模型在多個基準測試中表現優異,如 DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上 pass@1 達 72.6%,超過 o1-mini。

實驗結果

  1. 基準測試表現
    • 數學任務:DeepSeek-R1 在 AIME 2024(79.8%)和 MATH-500(97.3%)上接近或超過 OpenAI-o1-1217。
    • 編碼任務:在 Codeforces 上 Elo 評分為 2029,超過 96.3% 的人類選手;LiveCodeBench pass@1 達 65.9%。
    • 知識問答:MMLU(90.8%)、GPQA Diamond(71.5%)等任務上優于 DeepSeek-V3,稍遜于 o1-1217。
  2. 蒸餾模型對比:蒸餾后的小模型(如 14B、32B)在多個任務上顯著優于同類開源模型,證明了大模型推理模式的可遷移性。

討論與結論

  1. 蒸餾 vs. RL:蒸餾更高效,小模型通過學習大模型的推理模式即可獲得優秀性能;而直接對小模型進行 RL 訓練需大量計算資源且效果有限。
  2. 未成功嘗試:過程獎勵模型(PRM)因難以定義細粒度步驟和獎勵欺詐問題效果不佳;蒙特卡洛樹搜索(MCTS)因搜索空間過大和價值模型訓練困難未能顯著提升性能。
  3. 結論:純 RL 可有效提升 LLM 推理能力,多階段訓練和冷啟動數據進一步優化了模型表現。模型蒸餾為小模型賦予了強大的推理能力,開源模型將推動相關研究。

未來工作方向

  1. 通用能力擴展:提升在函數調用、多輪對話等任務上的表現。
  2. 語言混合問題:優化非中 / 英文查詢的處理能力。
  3. 提示工程優化:減少模型對提示的敏感性,提升零樣本性能。
  4. 軟件工程任務:增加相關 RL 訓練數據,提高在軟件工程項目中的表現。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/73910.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/73910.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/73910.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

從零實現B站視頻下載器:Python自動化實戰教程

一、項目背景與實現原理 1.1 B站視頻分發機制 Bilibili的視頻采用 音視頻分離技術,通過以下方式提升用戶體驗: 動態碼率適配(1080P/4K/HDR) 分段加載技術(基于M4S格式) 內容保護機制(防盜鏈/簽名驗證) 1.2 技術實現路線 graph TDA[模擬瀏覽器請求] --> B[獲取加密…

AJAX的理解和原理還有概念

你想問的可能是 AJAX(Asynchronous JavaScript and XML) ,它并不是一門新的編程語言,而是一種在無需重新加載整個網頁的情況下,能夠與服務器進行異步通信并更新部分網頁的技術。以下從基本概念、原理、優點、使用場景等…

封裝一個分割線組件

最終樣式 Vue2代碼 <template><div class"sep-line"><div class"sep-label"><span class"sep-box-text"><slot>{{ title }}</slot> <!-- 默認插槽內容&#xff0c;如果沒有傳遞內容則使用title -->&…

Redis基本命令手冊——五大類型

目錄 一&#xff1a;基本操作 二&#xff1a;字符串&#xff08;String&#xff09; 三&#xff1a;哈希&#xff08;Hash) 四&#xff1a;列表&#xff08;List&#xff09; 五&#xff1a;集合&#xff08;Set&#xff09; 六&#xff1a;有序集合&#xff08;Zset&…

【C++】動態規劃從入門到精通

一、動態規劃基礎概念詳解 什么是動態規劃 動態規劃&#xff08;Dynamic Programming&#xff0c;DP&#xff09;是一種通過將復雜問題分解為重疊子問題&#xff0c;并存儲子問題解以避免重復計算的優化算法。它適用于具有以下兩個關鍵性質的問題&#xff1a; 最優子結構&…

Qt動態設置樣式,實現樣式實時切換

文章目錄 概要插件實現界面 核心代碼設置樣式 擴展導入樣式導出樣式 概要 最近需要設計界面&#xff0c;但是使用Qt的Designer只能看到每個界面單獨的樣式&#xff0c;程序中有些事需要主界面調用進行組合的界面&#xff0c;因此需要寫一個插件Ui可以直接輸入樣式內容&#xf…

集成學習之隨機森林

目錄 一、集成學習的含義 二、集成學習的代表 三、集成學習的應用 1、分類問題集成。&#xff08;基學習器是分類模型&#xff09; 2、回歸問題集成。&#xff08;基學習器是回歸模型&#xff09; 3、特征選取集成。 四、Bagging之隨機森林 1、隨機森林是有多個決策樹&a…

矩陣期望 E 的含義:概率

矩陣期望 E 的含義:概率 期望的含義 在概率論和統計學中,數學期望(或均值,簡稱期望)是試驗中每次可能結果的概率乘以其結果的總和,是最基本的數學特征之一,它反映隨機變量平均取值的大小。用公式表示,如果離散型隨機變量 X X X 可能取值為 x i x_

Qt Graphics View

Graphics View框架是用來處理大量2D圖形對象的&#xff0c;適合需要高效管理和交互的場景&#xff0c;比如繪圖軟件、地圖編輯或者游戲。它和QPainter的區別在于&#xff0c;Graphics View提供了更高級別的對象管理&#xff0c;而QPainter更偏向于直接繪制。 一、核心組件 ?Q…

卷積神經網絡 - 卷積層(具體例子)

為了更一步學習卷積神經網絡之卷積層&#xff0c;本文我們來通過幾個個例子來加深理解。 一、灰度圖像和彩色圖像的關于特征映射的例子 下面我們通過2個例子來形象說明卷積層中“特征映射”的概念&#xff0c;一個針對灰度圖像&#xff0c;一個針對彩色圖像。 例子 1&#x…

xlsx.utils.json_to_sheet函數詳解

xlsx.utils.json_to_sheet 是 xlsx 庫中的一個實用函數&#xff0c;用于將 JSON 數據轉換為 Excel 工作表對象。這個函數非常有用&#xff0c;尤其是在你需要從數據庫或其他數據源獲取數據并將其導出到 Excel 文件時。 函數簽名 XLSX.utils.json_to_sheet(data, opts)data&am…

2025-03-17 學習記錄--C/C++-PTA 習題4-7 最大公約數和最小公倍數

合抱之木&#xff0c;生于毫末&#xff1b;九層之臺&#xff0c;起于累土&#xff1b;千里之行&#xff0c;始于足下。&#x1f4aa;&#x1f3fb; 一、題目描述 ?? 習題4-7 最大公約數和最小公倍數 本題要求兩個給定正整數的最大公約數和最小公倍數。 輸入格式: 輸入在一…

【源碼閱讀】多個函數抽象為類(實現各種類型文件轉為PDF)

目錄 一、原始函數二、類三、轉換過程 一、原始函數 最開始就是寫了幾個函數&#xff08;包括doc、excel、ppt類型的文件&#xff09;轉換為pdf&#xff0c;需要將這些函數形成一個類。相似的一類函數就可以組成一個實現特定功能的類 import subprocess import pandas as pd i…

VSCode擴展工具Copilot MCP使用教程【MCP】

MCP&#xff08;Model Context Protocol&#xff0c;模型上下文協議&#xff09; &#xff0c;2024年11月底&#xff0c;由 Anthropic 推出的一種開放標準&#xff0c;旨在統一大型語言模型&#xff08;LLM&#xff09;與外部數據源和工具之間的通信協議。本文章教你使用VSCode…

【leetcode100】搜索插入位置

1、題目描述 給定一個排序數組和一個目標值&#xff0c;在數組中找到目標值&#xff0c;并返回其索引。如果目標值不存在于數組中&#xff0c;返回它將會被按順序插入的位置。 請必須使用時間復雜度為 O(log n) 的算法。 示例 1: 輸入: nums [1,3,5,6], target 5 輸出: 2…

【小白向】Word|Word怎么給公式標號、調整公式字體和花括號對齊

【小白向】Word&#xff5c;Word怎么給公式標號、調整公式字體和花括號對齊 我的版本&#xff1a;Word 2021 如需快速查看關鍵步驟&#xff0c;請直接閱讀標紅部分。 如果遇到無法調整的情況&#xff0c;可以直接下載我的示例文檔進行參考&#xff1a;花括號和其他的示例公式.…

【算法day15】最接近的三數之和

最接近的三數之和 給你一個長度為 n 的整數數組 nums 和 一個目標值 target。請你從 nums 中選出三個整數&#xff0c;使它們的和與 target 最接近。 這里是引用 返回這三個數的和。 假定每組輸入只存在恰好一個解。 https://leetcode.cn/problems/3sum-closest/submissions/61…

Blender-MCP服務源碼5-BlenderSocket插件安裝

Blender-MCP服務源碼5-BlenderSocket插件安裝 上一篇講述了Blender是基于Socket進行本地和遠程進行通訊&#xff0c;現在嘗試將BlenderSocket插件安裝到Blender中進行功能調試 1-核心知識點 將開發的BlenderSocket插件安裝到Blender中 2-思路整理 1&#xff09;將SocketServe…

【MySQL數據庫】存儲過程與自定義函數(含: SQL變量、分支語句、循環語句 和 游標、異常處理 等內容)

存儲過程&#xff1a;一組預編譯的SQL語句和流程控制語句&#xff0c;被命名并存儲在數據庫中。存儲過程可以用來封裝復雜的數據庫操作邏輯&#xff0c;并在需要時進行調用。 類似的操作還有&#xff1a;自定義函數、.sql文件導入。 我們先從熟悉的函數開始說起&#xff1a; …

ASP3605抗輻照加固同步降壓調節器——商業航天電源芯片解決方案新選擇

ASP3605企業宇航級型號ASP3605S2U通過SEU≥75 MeVcm/mg與SEL≥75 MeVcm/mg抗輻射測試。其輸入電壓4V至15V&#xff0c;輸出電流5A&#xff0c;支持多相級聯與冗余設計&#xff0c;適用于衛星、航天器電源系統。 面向航天場景的核心功能設計 1. 抗輻射與可靠性保障 單粒子效應…