【論文筆記】DeepSeek-R1 技術報告

在這里插入圖片描述

最強開源LLM,性能和效果都很棒;在數學、代碼這種有標準正確答案的場景,表現尤為突出;一些其他場景的效果,可能不如DeepSeek-V3和Qwen。

在這里插入圖片描述

Deepseek-R1沒有使用傳統的有監督微調sft方法來優化模型,而使用了大規模強化學習RL來實現推理能力的提升。更進一步,通過引入冷啟動解決僅RL遇到的缺陷。

以往的研究工作大多依賴于大量的監督數據來提升模型性能。在本研究中展示了即使不依賴監督微調(SFT)作為預訓練步驟,通過大規模強化學習(RL)也能顯著提升推理能力。此外,我們還展示了通過引入少量冷啟動數據可以進一步提升性能。在接下來的章節中,將按順序介紹:
(1)DeepSeek-R1-Zero,它直接在基礎模型上應用 RL,不依賴任何監督微調數據;介紹了如何直接在基礎模型上進行大規模強化學習,無需監督微調數據。
(2)DeepSeek-R1,它從經過長推理鏈(Chain-of-Thought, CoT)數據微調的檢查點開始應用 RL;介紹了多階段訓練流程如何打造出性能卓越的推理模型。
(3)將 DeepSeek-R1 的推理能力蒸餾到小型dense模型中,介紹了如何將大模型的推理能力有效轉移到小模型中。
在這里插入圖片描述

DeepSeek-R1-Zero

在這里插入圖片描述

RL算子

為了節省 RL 的訓練成本,我們采用了 Group Relative Policy Optimization(GRPO)。GRPO 放棄了通常與策略模型大小相同的批判模型(critic model),而是通過組分數來估計Baseline。
在這里插入圖片描述
在這里插入圖片描述

獎勵模型

在這一步,只使用了基于規則的獎勵模型。
獎勵是訓練信號的來源,決定了 RL 的優化方向。為了訓練 DeepSeek-R1-Zero,我們采用基于規則的獎勵系統,主要包括以下兩種獎勵:
● 準確性獎勵:準確性獎勵模型用于評估回答是否正確。例如,在數學問題中,模型需要以指定格式(例如在方框內)提供最終答案,以便可靠地通過基于規則的驗證來確認正確性。同樣,在 LeetCode 問題中,可以使用編譯器根據預定義的測試用例生成反饋。
● 格式獎勵:除了準確性獎勵模型外,我們還采用格式獎勵模型,強制模型將推理過程放在 和 標簽之間。
沒有在開發 DeepSeek-R1-Zero 時應用結果或過程神經獎勵模型,因為我們發現神經獎勵模型可能在大規模強化學習過程中出現獎勵劫持(reward hacking)的問題,而重新訓練獎勵模型需要額外的訓練資源,并且會使整個訓練流程復雜化。
為了訓練 DeepSeek-R1-Zero,設計了一個簡單的模板,指導基礎模型按照我們的指定指令進行操作。如上表所示,該模板要求 DeepSeek-R1-Zero 首先生成推理過程,然后提供最終答案。我們故意將約束限制在這一結構化格式上,避免任何內容相關的偏見——例如強制要求反思性推理或推廣特定的解決問題策略——以確保我們能夠準確觀察模型在強化學習(RL)過程中的自然發展。

相關發現&總結

  • “頓悟時刻”
    在這個階段,DeepSeek-R1-Zero 學會為問題分配更多的思考時間,通過重新評估其初始方法來實現。這種行為不僅是模型推理能力增長的證明,也是研究人員觀察其行為的一個“頓悟時刻”。
    它突顯了強化學習的力量和美麗:我們不是明確地教模型如何解決問題,而是僅僅提供正確的激勵,模型就會自主發展出高級的問題解決策略。“頓悟時刻” 有力地提醒我們,RL 解鎖人工系統中智力新水平的潛力,為未來更自主、更適應性強的模型鋪平了道路。
  • DeepSeek-R1-Zero 的缺點
    盡管 DeepSeek-R1-Zero 展示了強大的推理能力,并且能夠自主發展出意外且強大的推理行為,但它面臨著一些問題。例如,DeepSeek-R1-Zero 在可讀性方面表現不佳,存在語言混用的問題。

DeepSeek-R1

受到 DeepSeek-R1-Zero 令人鼓舞的結果的啟發,自然會提出兩個問題:
1)通過引入少量高質量數據作為冷啟動,是否可以進一步提升推理性能或加速收斂?
2)如何訓練一個用戶友好的模型,使其不僅能夠產生清晰連貫的推理鏈(CoT),還具備強大的通用能力?
為了解決這些問題,我們重新設計了 DeepSeek-R1 的訓練流程。該流程包括以下四個階段:
● 冷啟動:增加上千條CoT數據,引入人類先驗知識,在DeepSeek-V3的基礎上進行迭代優化,增加整體模型的可讀性。在DeepSeek-V3-Base的基礎上,讓模型具備更好的可讀性、回答模版以及潛力。
● 面向推理的強化學習,引入語言一致性獎勵:計算方法是 CoT 中目標語言單詞的比例。訓練到在歸因任務上收斂。該步驟類似DeepSeek-R1-Zero,但是額外增加了語言一致性獎勵函數。
● 拒絕采樣與監督微調:對于每個提示,采樣多個回答,并僅保留正確的回答,提高數據質量。將標準答案和模型輸出一起輸入給DeepSeek-V3,令其判斷是否采樣該樣本。總共收集了大約 600k 條與推理相關的訓練樣本。
● 面向所有場景的強化學習:旨在提升模型的有用性(泛化性)和無害性,同時優化其推理能力。具體來說,使用組合的獎勵信號和多樣化的提示分布來訓練模型。

在這里插入圖片描述

知識蒸餾

為了使更高效的小模型具備像 DeepSeek-R1 這樣的推理能力,我們直接使用 DeepSeek-R1 生成的 800k 樣本對開源模型(如 Qwen 和 Llama)進行微調,詳細過程如上節所述。我們的研究結果表明,這種簡單的蒸餾方法顯著提升了小型模型的推理能力。
我們使用的基底模型包括 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct。我們選擇 Llama-3.3 是因為其推理能力略優于 Llama-3.1。
需要注意的是:對于蒸餾模型,我們僅應用了 SFT,并沒有 RL 階段,盡管加入 RL 可能會顯著提升模型性能。我們的主要目標是展示蒸餾技術的有效性,將 RL 階段的探索留給更廣泛的學術界。

結合后文的實驗結果,知識蒸餾主要有兩個結論:
● 將更強大的模型的能力蒸餾到小型模型中可以取得出色的結果,而小型模型僅依靠本文提到的大規模 RL 訓練需要巨大的計算資源,且可能無法達到蒸餾的效果。
● 雖然蒸餾策略既經濟又有效,但要突破智能的邊界,可能仍然需要更強大的基礎模型和更大規模的強化學習。

參考資料:

● Github:https://github.com/deepseek-ai/DeepSeek-R1
● CSDN:https://blog.csdn.net/qq_38961840/article/details/145384852
● 論文:
http://arxiv.org/abs/2401.02954
http://arxiv.org/abs/2501.12948

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/75666.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/75666.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/75666.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

YOLO學習筆記 | 基于YOLOv5的車輛行人重識別算法研究(附matlab代碼)

基于YOLOv5的車輛行人重識別算法研究 ???????????????????????????? 摘要 本文提出了一種基于YOLOv5的車輛行人重識別(ReID)算法,結合目標檢測與特征匹配技術,實現高效的多目標跟蹤與識別。通過引入注意力機制、優化損失函數和輕量化網絡結構…

Buildroot與Yocto介紹比對

Buildroot 和 Yocto 是嵌入式 Linux 領域最常用的兩大系統構建工具,它們在功能定位、使用方法和適用場景上有顯著差異。以下從專業角度對兩者進行對比分析: 一、Buildroot 核心功能與特點 1. 功能定位 輕量級系統構建工具:專注于快速生成精…

VUE3初始化項目安裝

本次就是作為實驗使用,包括安裝過程中遇到的問題,供大家提供參考,話不多說,看過程: 第1步:首先分別安裝node.js和npm,這步網上有很多資料,很簡單,過程省略了&#xff0c…

GO語言學習(17)Gorm的數據庫操作

目錄 🏆前言 1.Gorm的簡介 2.GORM連接數據庫 2.1 配置DSN Mysql,TiDB,MariaDB PostgreSQL SQL Server SQLite 2.2 gorm.Open連接數據庫 3.數據庫連接池的配置 4.使用GORM對數據庫進行操作(重點) 4.1 創…

【JavaEE】網絡原理詳解

1.????前言~🥳🎉🎉🎉 Hello, Hello~ 親愛的朋友們👋👋,這里是E綿綿呀????。 如果你喜歡這篇文章,請別吝嗇你的點贊????和收藏📖📖。如果你對我的…

第十五屆藍橋杯單片機省賽程序設計試題

同時也是積分賽——測量NE555輸出脈沖頻率 第十五屆 藍橋杯 單片機設計與開發項目 省賽1 第二部分 程序設計試題(85 分) (大學組) 一 基本要求 1、使用大賽組委會統一提供的四梯單片機競賽實訓平臺,完成本試題程序…

JavaScript智能對話機器人——企業知識庫自動化

引言 內部知識管理常面臨信息分散、查找困難的問題。本文將使用Node.js和虎躍辦公的智能對話API,構建企業級知識問答機器人,支持自然語言查詢和自動學習。 核心技術 自然語言處理(NLP)意圖識別機器學習模型微調REST API集成 代…

元宇宙浪潮下,前端開發如何“乘風破浪”?

一、元宇宙對前端開發的新要求 元宇宙的興起,為前端開發領域帶來了全新的挑戰與機遇。元宇宙作為一個高度集成、多維互動的虛擬世界,要求前端開發不僅具備傳統網頁開發的能力,還需要掌握虛擬現實(VR)、增強現實&#…

Spring Boot 3.4.3 基于 Caffeine 實現本地緩存

在現代企業級應用中,緩存是提升系統性能和響應速度的關鍵技術。通過減少數據庫查詢或復雜計算的頻率,緩存可以顯著優化用戶體驗。Spring Boot 3.4.3 提供了強大的緩存抽象支持,而 Caffeine 作為一款高性能的本地緩存庫,因其優異的吞吐量和靈活的配置,成為許多開發者的首選…

QT Quick(C++)跨平臺應用程序項目實戰教程 6 — 彈出框

目錄 1. Popup組件介紹 2. 使用 上一章內容完成了音樂播放器程序的基本界面框架設計。本小節完成一個簡單的功能。單擊該播放器頂部菜單欄的“關于”按鈕,彈出該程序的相關版本信息。我們將使用Qt Quick的Popup組件來實現。 1. Popup組件介紹 Qt 中的 Popup 組件…

DuckDB系列教程:如何分析Parquet文件

Parquet 是一種強大的、基于列的存儲格式,適用于實現更快捷和更高效的數據分析。您可以使用 DuckDB 這種內存型分析數據庫來處理 Parquet 文件并運行查詢以對其進行分析。 在這篇文章中,我們將逐步介紹如何使用 DuckDB 對存儲在 Parquet 文件中的餐廳訂單…

異步框架使用loguru和contextvars實現日志按Id輸出

需求闡述 工作中使用fastStream模塊消費kafka事件的時候,遇到以下問題。1. 由于main.py模塊要用到許多其他模塊 ,main模塊,和其他模塊都有日志輸出。2. 要實現異步消費事件,但是又不希望日志打印的很亂。3. 想著在每次消費事件的…

【HTTPS協議】

文章目錄 一、HTTPS二、HTTPS協議五種加密方案1.只使用對稱加密2.只使用非對稱加密3.雙方都使用非對稱加密4.對稱加密非對稱加密中間人攻擊理解數字簽名CA機構和證書 5. 對稱加密非對稱加密證書認證中間人篡改證書?中間人調包整個證書? 常見問題總結 一、…

算法設計學習8

實驗目的及要求: 通過深入學習樹(Tree)和二叉樹(Binary Tree)這兩種重要的數據結構,掌握它們的基本概念、性質和操作,提高對樹形結構的理解和應用能力。通過本實驗,學生將深化對樹和…

P17_ResNeXt-50

🍨 本文為🔗365天深度學習訓練營 中的學習記錄博客🍖 原作者:K同學啊 一、模型結構 ResNeXt-50由多個殘差塊(Residual Block)組成,每個殘差塊包含三個卷積層。以下是模型的主要結構&#xff1…

【YOLO系列(V5-V12)通用數據集-剪刀石頭布手勢檢測數據集】

YOLO格式的剪刀石頭布手勢檢測數據集,適用于YOLOv5-v11所有版本,可以用于本科畢設、發paper、做課設等等,有需要的在這里獲取: 【YOLO系列(V5-V12)通用數據集-剪刀石頭布手勢檢測數據集】 數據集專欄地址&a…

基于連接池與重試機制的高效TDengine寫入方案

摘要 在時序數據庫應用場景中,如何構建穩定高效的寫入機制是核心挑戰。本文基于提供的Python代碼實現,解析一種結合連接池管理、智能重試策略和事務控制的TDengine寫入方案,并分析其技術優勢與優化方向。 一、代碼 from dbutils.pooled_db import PooledDB import timede…

抖音熱點視頻識別與分片處理機制解析

抖音作為日活數億的短視頻平臺,其熱點視頻識別和分片處理機制是支撐高并發訪問的核心技術。以下是抖音熱點視頻識別與分片的實現方案: 熱點視頻識別機制 1. 實時行為監控系統 用戶行為聚合:監控點贊、評論、分享、完播率等指標的異常增長曲線內容特征分析:通過AI識別視頻…

基于RDK X3的“校史通“機器人:SLAM導航+智能交互,讓校史館活起來!

視頻標題: 【校史館の新晉頂流】RDK X3機器人:導覽員看了直呼內卷 視頻文案: 跑得賊穩團隊用RDK X3整了個大活——給校史館造了個"社牛"機器人! 基于RDK X3開發板實現智能導航與語音交互SLAM技術讓機器人自主避障不…

Metal學習筆記十三:陰影

在本章中,您將了解陰影。陰影表示表面上沒有光。當另一個表面或對象使對象與光線相遮擋時,您會看到對象上的陰影。在項目中添加陰影可使您的場景看起來更逼真,并提供深度感。 陰影貼圖 陰影貼圖是包含場景陰影信息的紋理。當光線照射到物體…