【推理llm論文精度】DeepSeek-R1:強化學習驅動LLM推理能力飛躍

最近deepseek R1模型大火,正好復習一下他家的技驚四座的論文https://arxiv.org/pdf/2501.12948
在這里插入圖片描述

近年來,大型語言模型(LLM)在推理能力上取得了顯著進展,但如何進一步有效提升仍然是研究熱點。DeepSeek-AI發布了 DeepSeek-R1 論文,探索了**強化學習(RL)**在激發LLM推理潛力方面的新方法,并開源了模型和相關資源。

一、背景:后訓練與推理能力提升(提出問題:如何超越openai的o1模型)

后訓練已成為提升LLM推理能力的關鍵環節。OpenAI的o1系列模型通過推理時縮放思維鏈(CoT),在推理任務上取得突破。然而,如何有效進行推理時縮放仍是開放問題。

此前研究探索了獎勵模型、強化學習、搜索算法等方法,但通用推理性能仍有提升空間。DeepSeek-R1的目標是探索純強化學習提升LLM推理能力的可能性,關注LLM在無監督數據下的自我進化

二、DeepSeek-R1-Zero:從零開始的純RL探索(利器1: RL引導V3模型出現自我進化)

DeepSeek-R1-Zero是DeepSeek-AI的首個純RL推理模型,完全不依賴監督微調(SFT),直接在 DeepSeek-V3-Base 上應用RL。

RL算法:GRPO

DeepSeek-R1-Zero采用Group Relative Policy Optimization (GRPO)算法,節省RL訓練成本。GRPO避免了傳統的評論員模型,通過組得分估計基線,目標函數如下:

J_GRPO(θ) = E[q ~ P(Q), {o_i}_{i=1}^G ~ π_{θold}(O|q)] [ (1/G) * ∑_{i=1}^G (min(clip(π_θ(o_i|q) / π_{θold}(o_i|q)), 1-ε, 1+ε) * A_i - β * D_{KL}(π_θ || π_{ref})) ]

獎勵模型:規則驅動

獎勵模型采用規則驅動方式,包含:

  • 準確率獎勵:評估答案正確性,規則驅動驗證。
  • 格式獎勵:強制模型思考過程置于<think></think>標簽內。

訓練模版:引導思考

訓練模版引導模型先輸出思考過程,再給出答案,結構如下:

A conversation between User and Assistant... <think> reasoning process here </think> <answer> answer here </answer>. User: prompt. Assistant:

性能與自我進化

DeepSeek-R1-Zero展現了自我進化能力,推理能力隨RL訓練穩步提升。在AIME 2024測試中,pass@1分數從15.6%躍升至71.0%,媲美OpenAI-01-0912。訓練中還出現**“頓悟時刻”**,模型學會分配更多思考時間,提升解題能力。

局限性

DeepSeek-R1-Zero存在可讀性差語言混合問題。

三、DeepSeek-R1:冷啟動與多階段RL(利器2:多階段訓練,推理能力起飛,瞬間兼顧通用能力)

DeepSeek-R1在Zero基礎上,引入冷啟動數據多階段訓練,旨在提升性能并解決Zero的局限性。

  1. 冷啟動

DeepSeek-R1收集少量高質量長CoT數據進行微調,作為RL初始actor,提升訓練穩定性。冷啟動數據強調可讀性,采用格式 | special_token | <reasoning_process> | special_token | <summary>

  1. 推理導向RL

在冷啟動微調后,進行與Zero相同的RL訓練,重點增強推理能力。引入語言一致性獎勵,緩解語言混合問題,最終獎勵結合準確率和語言一致性。

  1. 拒絕采樣與SFT

RL收斂后,使用checkpoint收集SFT數據,擴展到寫作、角色扮演等通用任務,提升模型泛化能力。SFT數據包括:

  • 推理數據:拒絕采樣生成,包含生成獎勵模型輔助判斷的數據,過濾低質量CoT。
  • 非推理數據:復用DeepSeek-V3 pipeline和SFT數據,少量CoT用于復雜任務。

使用約80萬SFT數據微調DeepSeek-V3-Base。

  1. 面向所有場景的RL

二次RL階段,提升模型的helpfulnessharmlessness。結合規則驅動(推理數據)和獎勵模型(通用數據),訓練目標兼顧推理能力和安全對齊。

四、蒸餾:賦予小型模型推理能力(不止拉升自己模型推理能力,順便提拉一下同行)

為使小型模型具備推理能力,DeepSeek-AI采用蒸餾技術,使用DeepSeek-R1數據微調Qwen和Llama系列。實驗表明,蒸餾顯著提升小型模型推理能力,例如DeepSeek-R1-Distill-Qwen-7B超越QwQ-32B-Preview。DeepSeek-AI開源了蒸餾模型,僅SFT,未包含RL階段,旨在展示蒸餾有效性。

實驗評估

DeepSeek-R1在知識型、代碼型和數學型基準上進行全面評估,并與主流模型對比。

DeepSeek-R1評估結果

  • 知識型基準:優于DeepSeek-V3,STEM問題提升顯著。
  • 長文本QA (FRAMES):表現出色,文檔分析能力強。
  • 事實性QA (SimpleQA):優于DeepSeek-V3。
  • 指令遵循 (IF-Eval):表現出色,歸功于SFT和RL階段的指令數據。
  • 開放域問答 (AlpacaEval & ArenaHard):卓越性能,寫作能力強,大規模RL提升泛化能力。
  • 數學 & 代碼任務:媲美OpenAI-01-1217,大幅超越其他模型。

蒸餾模型評估

DeepSeek-R1-Distill-Qwen-7B超越GPT-40-0513,DeepSeek-R1-14B超越QwQ-32B-PreviewDeepSeek-R1-32B/70B顯著超越o1-mini,證明蒸餾潛力巨大。
在這里插入圖片描述

討論:蒸餾 vs. 強化學習

實驗對比了蒸餾模型和RL訓練模型。結果表明,蒸餾模型DeepSeek-R1-Distill-Qwen-32B優于RL訓練模型DeepSeek-R1-Zero-Qwen-32B,即使后者經過大規模RL訓練。

結論:

  1. 蒸餾更強大模型到小型模型效果顯著,純RL小型模型計算成本高,性能可能不及蒸餾。
  2. 蒸餾經濟有效,但突破智能邊界可能仍需更強基礎模型和更大規模RL

結論與創新貢獻

DeepSeek-R1研究探索了RL提升LLM推理能力,DeepSeek-R1-Zero驗證了純RL潛力,DeepSeek-R1通過冷啟動和多階段訓練進一步提升性能,并通過蒸餾賦予小型模型推理能力。

文章創新點和貢獻:

  1. 公開純RL如何提升LLM推理能力:首次公開驗證純RL無需SFT即可激勵LLM推理能力,解開o1模型面紗。
  2. 更強的模型,更低的成本,還是開源的:多多少少有點針對openai,不不不,是close ai
  3. 核心點
  • DeepSeek-R1多階段訓練流程:有效提升推理能力、可讀性和通用性。(DeepSeek來告訴世界,推理能力要怎么訓出來)
  • 證明蒸餾技術傳遞推理能力:蒸餾可高效賦予小型模型高性能推理能力。(普遍使用,老少兼宜)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/895200.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/895200.shtml
英文地址,請注明出處:http://en.pswp.cn/news/895200.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

啟明星辰發布MAF大模型應用防火墻產品,提升DeepSeek類企業用戶安全

2月7日&#xff0c;啟明星辰面向DeepSeek等企業級大模型業務服務者提供的安全防護產品——天清MAF&#xff08;Model Application Firewall&#xff09;大模型應用防火墻產品正式發布。 一個新賽道將被開啟…… DeepSeek的低成本引爆賽道規模 隨著DeepSeek成為當前最熱的現象級…

conda將python低版本環境升級到高版本

conda將python低版本環境3.7.16升級到高版本3.8 1. 激活你的Conda環境2. 升級Python版本3. 驗證升級4. 處理依賴問題5. 測試環境注意事項 可以將Conda環境中的Python版本從3.7.16升級到3.8。以下是具體步驟&#xff1a; 1. 激活你的Conda環境 首先&#xff0c;你需要激活你想要…

day10-字符串

目錄 字符串1、API 和 API 幫助文檔2、String概述3、String構造方法代碼實現 和 內存分析3.1 創建String對象的兩種方式3.2 Java的內存模型 4、字符串的比較4.1 號的作用4.2 equals方法的作用 練習5、用戶登錄6、遍歷字符串和統計字符個數7、字符串拼接和翻轉8、較難練習-金額轉…

互聯網協議套件中的服務類型(RFC 1349)技術解析與總結

1. 背景與核心目標 RFC 1349 是對 IP 協議頭部 服務類型&#xff08;Type of Service, TOS&#xff09;字段語義的更新與澄清文檔&#xff0c;發布于 1992 年。其主要目標包括&#xff1a; 重新定義 TOS 字段的用途&#xff1a;明確 TOS 字段的語義&#xff0c;解決歷史標準中的…

使用git commit時‘“node“‘ 不是內部或外部命令,也不是可運行的程序

第一種&#xff1a; 使用git commit -m "xxx"時會報錯&#xff0c;我看網上的方法是在命令行后面添加--no-verify&#xff1a;git commit -m "主題更新" --no-verify&#xff0c;但是不可能每次都添加。 最后解決辦法是&#xff1a;使用git config --lis…

DeepSeek從入門到精通:全面掌握AI大模型的核心能力

文章目錄 一、DeepSeek是什么&#xff1f;性能對齊OpenAI-o1正式版 二、Deepseek可以做什么&#xff1f;能力圖譜文本生成自然語言理解與分析編程與代碼相關常規繪圖 三、如何使用DeepSeek&#xff1f;四、DeepSeek從入門到精通推理模型推理大模型非推理大模型 快思慢想&#x…

洛谷P3397 地毯(二維差分加暴力法)

題目難度&#xff1a;普及一 題目傳送門 地毯 題目描述 在 n n n\times n nn 的格子上有 m m m 個地毯。 給出這些地毯的信息&#xff0c;問每個點被多少個地毯覆蓋。 輸入格式 第一行&#xff0c;兩個正整數 n , m n,m n,m。意義如題所述。 接下來 m m m 行&#…

使用OBS推流,大華攝像頭 srs服務器播放

說明&#xff1a; ffmpeg可以推流&#xff0c;但是是命令行方式不太友好&#xff0c;還可以使用主流的OBS開源推流軟件&#xff0c;可從官網Open Broadcaster Software | OBS 下載最新版本&#xff0c;目前很多網絡主播都是用它做直播。該軟件支持本地視頻文件以及攝像頭推流。…

從大規模惡意攻擊 DeepSeek 事件看 AI 創新隱憂:安全可觀測體系建設刻不容緩

作者&#xff1a;羿莉&#xff08;蕭羿&#xff09; 全球出圈的中國大模型 DeepSeek 作為一款革命性的大型語言模型&#xff0c;以其卓越的自然語言處理能力和創新性成本控制引領行業前沿。該模型不僅在性能上媲美 OpenAI-o1&#xff0c;而且在推理模型的成本優化上實現了突破…

mac下dify+deepseek部署,實現私人知識庫

目前deepseek 十分火爆&#xff0c;本地部署實現私有知識庫&#xff0c;幫助自己日常工作&#xff0c;上一篇使用工具cherry studio可以做到私人知識庫。今天學習了一下&#xff0c;使用Dify鏈接deepseek&#xff0c;實現私人知識庫&#xff0c;也非常不錯&#xff0c;這里分享…

C++性能優化—人工底稿版

C以高性能著稱&#xff0c;性能優化是C程序員繞不過去的一個話題&#xff0c;性能優化是一個復雜、全局而又細節的問題&#xff0c;本文總結C性能分析中常用的知識。 性能優化的時機 大部分關于性能優化的文章都強調&#xff1a;不要過早的進行性能優化。 C編碼層面 數據結…

react概覽webpack基礎

react概覽 課程介紹 webpack 構建依賴圖->bundle 首屏渲染&#xff1a; 減少白屏等待時間 數據、結構、樣式都返回。需要服務器的支持 性能優化 ***webpack干的事情 模塊化開發 優勢&#xff1a; 多人團隊協作開發 可復用 單例&#xff1a;全局沖突 閉包 模塊導入的順序 req…

ASP.NET Core SignalR實踐指南

Hub類的生命周期是瞬態的&#xff0c;每次調用集線器的時候都會創建一個新的Hub類實例&#xff0c;因此不要在Hub類中通過屬性、成員變量等方式保存狀態。如果服務器的壓力比較大&#xff0c;建議把ASP.NET Core程序和SignalR服務器端部署到不同服務器上&#xff0c;以免它們互…

常見的九種二極管

常見的九種二極管 文章目錄 常見的九種二極管1、普通二極管2、光電二極管&#xff08;LED&#xff09;3、變容二級管4、發光二極管5、恒流二極管6、快恢復二極管&#xff08;FRD&#xff09;7、肖特基二極管8、瞬態電壓抑制二極管(TVS)9、齊納二極管&#xff08;穩壓&#xff0…

LabVIEW在呼吸機測試氣體容量計算

在呼吸機測試中&#xff0c;精確測量氣體容量變化是評估設備性能的關鍵步驟。通過監測呼吸機氣道內的壓力變化&#xff0c;并結合流阻和肺順應性等參數&#xff0c;可以計算出單位時間內的氣體容量變化。本案例基于LabVIEW實現該計算過程&#xff0c;以確保測試數據的準確性和一…

本地部署DeepSeek R1 + 界面可視化open-webui

本地部署DeepSeek R1 界面可視化open-webui ollama是物理機本地安裝 open-webui是容器啟動 另外&#xff0c;用docker 部署ollama也很方便ollama docker 安裝部署ollama ollama官網 安裝 Linux上安裝: curl -fsSL https://ollama.com/install.sh | sh使用命令行管理 拉…

第四十九章:橫店之旅:穿越時空的歡樂時光

自黃山之行結束后&#xff0c;小冷一家又回歸到了忙碌而又溫馨的日常生活中。小冷在杭州灣研發總部的工作愈發忙碌&#xff0c;項目一個接著一個&#xff0c;時常需要加班加點&#xff0c;但每當他回到家中&#xff0c;看到小澤澤可愛的笑臉和小一充滿活力的身影&#xff0c;一…

Python3 ImportError: cannot import name ‘XXX‘ from ‘XXX‘

個人博客地址&#xff1a;Python3 ImportError: cannot import name XXX from XXX | 一張假鈔的真實世界 例如如下錯誤&#xff1a; $ python3 git.py Traceback (most recent call last):File "git.py", line 1, in <module>from git import RepoFile &quo…

使用C語言實現MySQL數據庫的增刪改查操作指南

使用C語言與MySQL數據庫進行交互,通常涉及使用MySQL提供的C API庫。這套API允許開發者在C/C++程序中執行SQL查詢,從而實現數據庫的增刪改查操作。下面,我將詳細介紹如何在C語言中實現這些基本操作。 準備工作 安裝MySQL開發庫:確保你的系統上安裝了MySQL服務器以及MySQL開發…

局域網使用Ollama(Linux)

解決局域網無法連接Ollama服務的問題 在搭建和使用Ollama服務的過程中&#xff0c;可能會遇到局域網內無法連接的情況。經過排查發現&#xff0c;若開啟了代理軟件&#xff0c;尤其是Hiddify&#xff0c;會導致此問題。這一發現耗費了我數小時的排查時間&#xff0c;希望能給大…