【DeepSeek系列】01 DeepSeek-V1 快速入門

1、DeepSeek簡介

2024年底,DeepSeek 相繼推出了其第一代推理大模型:DeepSeek-R1-Zero 和 DeepSeek-R1。

DeepSeek-R1-Zero 是一個通過大規模強化學習(RL)訓練的模型,訓練過程中沒有使用監督微調(SFT)作為初步步驟。該模型在推理任務上表現出色,通過強化學習,自然涌現出許多強大且有趣的推理行為。然而,DeepSeek-R1-Zero 也面臨一些挑戰,例如無休止的重復、可讀性差以及語言混雜等問題。

為了解決這些問題并進一步提升推理性能,進一步推出了 DeepSeek-R1,該模型在強化學習之前引入了冷啟動數據。DeepSeek-R1 在數學、代碼和推理任務上的表現與 OpenAI-o1 相當。為了支持研究社區,開源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Llama 和 Qwen 蒸餾出的六個密集模型。其中,DeepSeek-R1-Distill-Qwen-32B 在多個基準測試中超越了 OpenAI-o1-mini,為密集模型創造了新的最佳性能記錄。

2、核心思想

Post-Training:在基礎模型上進行大規模強化學習

DeepSeek - R1 - Zero 直接將強化學習(RL)應用于基礎模型,而無需依賴監督微調(SFT)作為前期步驟。這種方法使模型能夠探索思維鏈(CoT)以解決復雜問題。DeepSeek - R1 - Zero 展現出諸如自我驗證、自我反思以及生成較長思維鏈等能力,這對研究界而言是一個重要的里程碑。值得注意的是,這是首個通過公開研究證實大語言模型(LLMs)的推理能力可純粹通過強化學習激勵實現,而無需監督微調的案例。這一突破為該領域未來的發展鋪平了道路。

強化學習監督微調
性能方面通過與環境交互學習,可以探索出更具創造性和靈活性的策略來解決問題,有可能使模型在一些復雜任務如游戲、機器人控制等領域表現出超越人類的水平。但強化學習的訓練過程往往不穩定,收斂速度較慢,可能需要大量的樣本和計算資源才能取得較好的效果。基于有標注的數據進行訓練,能使模型快速在特定任務上達到較高的準確性,在文本分類、情感分析等有明確標注數據的任務中表現出色。然而,如果標注數據存在偏差或不完整,模型可能會過度擬合這些數據,導致在實際應用中的泛化能力受限。
數據方面更側重于從環境反饋中學習,對大規模有標注數據的依賴較小。高度依賴高質量的標注數據,數據的質量和數量直接影響模型的性能。
訓練成本

訓練過程通常需要大量的計算資源和時間,因為它需要不斷地與環境進行交互和更新策略。同時,由于訓練的不穩定性,可能需要多次調整超參數和重新訓練,進一步增加了訓練成本。

訓練過程相對穩定,計算成本相對較低,尤其是在有預訓練模型的基礎上進行微調時,可以大大減少訓練時間和資源消耗。

?DeepSeek - R1模型是DeepSeek-R1-Zero的升級版,其包含兩個強化學習階段,具體如下:

(1)面向推理的強化學習階段

  • 目的:提升模型在編碼、數學、科學和邏輯推理等推理密集型任務上的能力。
  • 過程:在利用冷啟動數據微調 DeepSeek-V3-Base 后,采用與 DeepSeek-R1 - Zero 相同的強化學習訓練。訓練過程中,針對思維鏈存在的語言混合現象,引入語言一致性獎勵,根據目標語言單詞比例計算,最后將推理任務準確性和語言一致性獎勵相加,形成最終獎勵,直至模型在推理任務上收斂。

(2)全場景強化學習階段

  • 目的:通過整合多源獎勵信號和多樣化數據分布,訓練出能在各種場景下提供有用、無害且具備強大推理能力的模型,使模型進一步符合人類偏好,提升模型的幫助性、無害性及推理能力。
  • 過程:采用組合獎勵信號和多樣提示分布進行訓練。對于推理數據,遵循 DeepSeek-R1 - Zero 的方法論,利用基于規則的獎勵指導學習;對于通用數據,依靠獎勵模型捕捉人類偏好。基于 DeepSeek - V3 管道,采用類似偏好對分布和訓練提示。在幫助性方面,專注于最終摘要的實用性和相關性;在無害性方面,評估整個響應以識別和緩解潛在風險,最終整合獎勵信號和多樣數據分布來訓練模型。

知識蒸餾:小模型也能有強大威力

DeepSeek證明了較大模型的推理模式可以提煉到較小模型中,相較于通過強化學習在小模型上發現的推理模式,這能帶來更好的性能表現。開源的 DeepSeek - R1 及其應用程序編程接口(API)將有助于研究界未來提煉出更優的小模型。

作者利用 DeepSeek - R1 生成的推理數據,對研究界廣泛使用的多個稠密模型進行了微調。評估結果表明,經過提煉的較小稠密模型在各項基準測試中表現極為出色。作者向社區開源了基于 Qwen2.5 和 Llama3 系列提煉得到的 15 億、70 億、80 億、140 億、320 億和 700 億參數的模型文件。

3、模型下載

DeepSeek-R1 Models

Model#Total Params#Activated ParamsContext LengthDownload
DeepSeek-R1-Zero671B37B128K🤗 HuggingFace
DeepSeek-R1671B37B128K🤗 HuggingFace

DeepSeek-R1-Distill Models

DeepSeek - R1 - Distill 模型是基于開源模型進行微調得到的,微調時使用了 DeepSeek - R1 生成的樣本。作者對這些模型的配置和分詞器進行了輕微調整。注意在使用時需使用作者提供的設置來運行這些模型。

ModelBase ModelDownload
DeepSeek-R1-Distill-Qwen-1.5BQwen2.5-Math-1.5B🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-7BQwen2.5-Math-7B🤗 HuggingFace
DeepSeek-R1-Distill-Llama-8BLlama-3.1-8B🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-14BQwen2.5-14B🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-32BQwen2.5-32B🤗 HuggingFace
DeepSeek-R1-Distill-Llama-70BLlama-3.3-70B-Instruct🤗 HuggingFace

4、模型效果

DeepSeek-R1評估

對于所有的模型,最大生成長度設定為 32768 個詞元。對于需要采樣的基準測試,我們使用的溫度參數為 0.6,核采樣概率(top - p)值為 0.95,并且針對每個查詢生成 64 個回復以估算單樣本通過率(pass@1)。

CategoryBenchmark (Metric)Claude-3.5-Sonnet-1022GPT-4o 0513DeepSeek V3OpenAI o1-miniOpenAI o1-1217DeepSeek R1
Architecture--MoE--MoE
# Activated Params--37B--37B
# Total Params--671B--671B
EnglishMMLU (Pass@1)88.387.288.585.291.890.8
MMLU-Redux (EM)88.988.089.186.7-92.9
MMLU-Pro (EM)78.072.675.980.3-84.0
DROP (3-shot F1)88.383.791.683.990.292.2
IF-Eval (Prompt Strict)86.584.386.184.8-83.3
GPQA-Diamond (Pass@1)65.049.959.160.075.771.5
SimpleQA (Correct)28.438.224.97.047.030.1
FRAMES (Acc.)72.580.573.376.9-82.5
AlpacaEval2.0 (LC-winrate)52.051.170.057.8-87.6
ArenaHard (GPT-4-1106)85.280.485.592.0-92.3
CodeLiveCodeBench (Pass@1-COT)33.834.2-53.863.465.9
Codeforces (Percentile)20.323.658.793.496.696.3
Codeforces (Rating)7177591134182020612029
SWE Verified (Resolved)50.838.842.041.648.949.2
Aider-Polyglot (Acc.)45.316.049.632.961.753.3
MathAIME 2024 (Pass@1)16.09.339.263.679.279.8
MATH-500 (Pass@1)78.374.690.290.096.497.3
CNMO 2024 (Pass@1)13.110.843.267.6-78.8
ChineseCLUEWSC (EM)85.487.990.989.9-92.8
C-Eval (EM)76.776.086.568.9-91.8
C-SimpleQA (Correct)55.458.768.040.3-63.7

DeepSeek-R1-Distill 評估

ModelAIME 2024 pass@1AIME 2024 cons@64MATH-500 pass@1GPQA Diamond pass@1LiveCodeBench pass@1CodeForces rating
GPT-4o-05139.313.474.649.932.9759
Claude-3.5-Sonnet-102216.026.778.365.038.9717
o1-mini63.680.090.060.053.81820
QwQ-32B-Preview44.060.090.654.541.91316
DeepSeek-R1-Distill-Qwen-1.5B28.952.783.933.816.9954
DeepSeek-R1-Distill-Qwen-7B55.583.392.849.137.61189
DeepSeek-R1-Distill-Qwen-14B69.780.093.959.153.11481
DeepSeek-R1-Distill-Qwen-32B72.683.394.362.157.21691
DeepSeek-R1-Distill-Llama-8B50.480.089.149.039.61205
DeepSeek-R1-Distill-Llama-70B70.086.794.565.257.51633

5、本地運行

DeepSeek-R1-Distill Models

例如,你可以使用 vLLM 輕松啟動一個服務:

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

?你可以使用 SGLang 輕松啟動一個服務:

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

6、實用推薦

建議在使用 DeepSeek - R1 系列模型(包括進行基準測試)時遵循以下配置,以實現預期性能:

  • 將溫度參數設置在 0.5 - 0.7 的范圍內(建議設置為 0.6),以防止出現無休止的重復或輸出內容前后不連貫的情況。
  • 不要添加系統提示;所有指令都應包含在用戶提示中。
  • 對于數學問題,建議在提示中加入類似這樣的說明:“請逐步推理,并將最終答案放在 \boxed {} 內。”
  • 在評估模型性能時,建議進行多次測試并取結果的平均值。
  • 此外,我們注意到 DeepSeek - R1 系列模型在回答某些查詢時往往會跳過思維模式(即不輸出 “<think>\n\n</think>”),這可能會對模型性能產生不利影響。為確保模型進行全面的推理,我們建議強制模型在每次輸出的開頭以 “<think>\n” 起始。

7、引用說明

@misc{deepseekai2025deepseekr1incentivizingreasoningcapability,title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning}, author={DeepSeek-AI and Daya Guo and Dejian Yang and Haowei Zhang and Junxiao Song and Ruoyu Zhang and Runxin Xu and Qihao Zhu and Shirong Ma and Peiyi Wang and Xiao Bi and Xiaokang Zhang and Xingkai Yu and Yu Wu and Z. F. Wu and Zhibin Gou and Zhihong Shao and Zhuoshu Li and Ziyi Gao and Aixin Liu and Bing Xue and Bingxuan Wang and Bochao Wu and Bei Feng and Chengda Lu and Chenggang Zhao and Chengqi Deng and Chenyu Zhang and Chong Ruan and Damai Dai and Deli Chen and Dongjie Ji and Erhang Li and Fangyun Lin and Fucong Dai and Fuli Luo and Guangbo Hao and Guanting Chen and Guowei Li and H. Zhang and Han Bao and Hanwei Xu and Haocheng Wang and Honghui Ding and Huajian Xin and Huazuo Gao and Hui Qu and Hui Li and Jianzhong Guo and Jiashi Li and Jiawei Wang and Jingchang Chen and Jingyang Yuan and Junjie Qiu and Junlong Li and J. L. Cai and Jiaqi Ni and Jian Liang and Jin Chen and Kai Dong and Kai Hu and Kaige Gao and Kang Guan and Kexin Huang and Kuai Yu and Lean Wang and Lecong Zhang and Liang Zhao and Litong Wang and Liyue Zhang and Lei Xu and Leyi Xia and Mingchuan Zhang and Minghua Zhang and Minghui Tang and Meng Li and Miaojun Wang and Mingming Li and Ning Tian and Panpan Huang and Peng Zhang and Qiancheng Wang and Qinyu Chen and Qiushi Du and Ruiqi Ge and Ruisong Zhang and Ruizhe Pan and Runji Wang and R. J. Chen and R. L. Jin and Ruyi Chen and Shanghao Lu and Shangyan Zhou and Shanhuang Chen and Shengfeng Ye and Shiyu Wang and Shuiping Yu and Shunfeng Zhou and Shuting Pan and S. S. Li and Shuang Zhou and Shaoqing Wu and Shengfeng Ye and Tao Yun and Tian Pei and Tianyu Sun and T. Wang and Wangding Zeng and Wanjia Zhao and Wen Liu and Wenfeng Liang and Wenjun Gao and Wenqin Yu and Wentao Zhang and W. L. Xiao and Wei An and Xiaodong Liu and Xiaohan Wang and Xiaokang Chen and Xiaotao Nie and Xin Cheng and Xin Liu and Xin Xie and Xingchao Liu and Xinyu Yang and Xinyuan Li and Xuecheng Su and Xuheng Lin and X. Q. Li and Xiangyue Jin and Xiaojin Shen and Xiaosha Chen and Xiaowen Sun and Xiaoxiang Wang and Xinnan Song and Xinyi Zhou and Xianzu Wang and Xinxia Shan and Y. K. Li and Y. Q. Wang and Y. X. Wei and Yang Zhang and Yanhong Xu and Yao Li and Yao Zhao and Yaofeng Sun and Yaohui Wang and Yi Yu and Yichao Zhang and Yifan Shi and Yiliang Xiong and Ying He and Yishi Piao and Yisong Wang and Yixuan Tan and Yiyang Ma and Yiyuan Liu and Yongqiang Guo and Yuan Ou and Yuduan Wang and Yue Gong and Yuheng Zou and Yujia He and Yunfan Xiong and Yuxiang Luo and Yuxiang You and Yuxuan Liu and Yuyang Zhou and Y. X. Zhu and Yanhong Xu and Yanping Huang and Yaohui Li and Yi Zheng and Yuchen Zhu and Yunxian Ma and Ying Tang and Yukun Zha and Yuting Yan and Z. Z. Ren and Zehui Ren and Zhangli Sha and Zhe Fu and Zhean Xu and Zhenda Xie and Zhengyan Zhang and Zhewen Hao and Zhicheng Ma and Zhigang Yan and Zhiyu Wu and Zihui Gu and Zijia Zhu and Zijun Liu and Zilin Li and Ziwei Xie and Ziyang Song and Zizheng Pan and Zhen Huang and Zhipeng Xu and Zhongyu Zhang and Zhen Zhang},year={2025},eprint={2501.12948},archivePrefix={arXiv},primaryClass={cs.CL},url={https://arxiv.org/abs/2501.12948}, 
}

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/68015.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/68015.shtml
英文地址,請注明出處:http://en.pswp.cn/web/68015.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

基于LabVIEW的Modbus-RTU設備通信失敗問題分析與解決

在使用 LabVIEW 通過 Modbus-RTU 協議與工業設備進行通信時&#xff0c;可能遇到無法正常發送或接收指令的問題。常見原因包括協議參數配置錯誤、硬件連接問題、數據幀格式不正確等。本文以某 RGBW 控制器調光失敗為例&#xff0c;提出了一種通用的排查思路&#xff0c;幫助開發…

【初/高中生講機器學習】0. 本專欄 “食用” 指南——寫在一周年之際?

創建時間&#xff1a;2025-01-27 首發時間&#xff1a;2025-01-29 最后編輯時間&#xff1a;2025-01-29 作者&#xff1a;Geeker_LStar 你好呀~這里是 Geeker_LStar 的人工智能學習專欄&#xff0c;很高興遇見你~ 我是 Geeker_LStar&#xff0c;一名高一學生&#xff0c;熱愛計…

密云生活的初體驗

【】在《歲末隨筆之碎碎念》里&#xff0c;我通告了自己搬新家的事情。乙巳年開始&#xff0c;我慢慢與大家分享自己買房裝修以及在新家的居住體驗等情況。 跳過買房裝修的內容&#xff0c;今天先說說這三個月的生活體驗。 【白河】 潮白河是海河水系五大河之一&#xff0c;貫穿…

系統通解:超多視角理解

在科學研究和工程應用中&#xff0c;我們常常面臨各種復雜系統&#xff0c;需要精確描述其行為和變化規律。從物理世界的運動現象&#xff0c;到化學反應的進程&#xff0c;再到材料在受力時的響應&#xff0c;這些系統的行為往往由一系列數學方程來刻畫。通解&#xff0c;正是…

Python爬蟲:1藥城店鋪爬蟲(完整代碼)

??????????歡迎來到我的博客?????????? &#x1f434;作者&#xff1a;秋無之地 &#x1f434;簡介&#xff1a;CSDN爬蟲、后端、大數據領域創作者。目前從事python爬蟲、后端和大數據等相關工作&#xff0c;主要擅長領域有&#xff1a;爬蟲、后端、大數據…

openwebui入門

1 簡介 ?Open WebUI?&#xff08;網址是openwebui.com&#xff09;是一個高度可擴展、功能強大且用戶友好的自托管Web用戶界面&#xff0c;專為完全離線操作設計&#xff0c;編程語言是python。它支持對接Ollama和OpenAI兼容的API的大模型。? Open WebUI?在架構上是一種中…

Day36-【13003】短文,數組的行主序方式,矩陣的壓縮存儲,對稱、三角、稀疏矩陣和三元組線性表,廣義表求長度、深度、表頭、表尾等

文章目錄 本次課程內容第四章 數組、廣義表和串第一節 數組及廣義表數組的基本操作數組的順序存儲方式-借用矩陣行列式概念二維數組C語言對應的函數-通常行主序方式 矩陣的壓縮存儲對稱矩陣和三角矩陣壓縮存儲后&#xff0c;采用不同的映射函數稀疏矩陣-可以構成三元組線性表三…

Android原生開發入門

1. 資源地址 Android官方教程Android參考手冊 2. 必看基礎模塊 應用基礎知識View 綁定 &#xff1a;綁定相當于Qt中的ui文件生成界面代碼的機制&#xff0c;Qt中的ucc會自動將ui文件編譯成ui_xxxx.h文件&#xff0c;Android開發中也一樣。 Android中自動生成的代碼在&#x…

3-Not_only_base/2018網鼎杯

3-Not_only_base 打開code MCJIJSGKPZZYXZXRMUW3YZG3ZZG3HQHCUS 分析&#xff1a; 首先看題知道解密過程中肯定有base解密。 知識點1&#xff1a; Base64字符集&#xff1a; 包含大小寫字母&#xff08;A-Z、a-z&#xff09;、數字&#xff08;0-9&#xff09;以及兩個特殊字…

deepseek、qwen等多種模型本地化部署

想要在本地部署deepseek、qwen等模型其實很簡單,快跟著小編一起部署吧 1 環境搭建 1.1下載安裝環境 首先我們需要搭建一個環境ollama,下載地址如下 :Ollama 點擊Download 根據自己電腦的系統選擇對應版本下載即可 1.2 安裝環境(window為例) 可以直接點擊安裝包進行安…

02/06 軟件設計模式

目錄 一.創建型模式 抽象工廠 Abstract Factory 構建器 Builder 工廠方法 Factory Method 原型 Prototype 單例模式 Singleton 二.結構型模式 適配器模式 Adapter 橋接模式 Bridge 組合模式 Composite 裝飾者模式 Decorator 外觀模式 Facade 享元模式 Flyw…

Idea ? Maven 選項

Idea ? Maven 選項 1. 在 Idea 項?上右鍵2. 選中 Maven 選項 如果在創建 Spring/Spring Boot 項?時&#xff0c;Idea 右側沒有 Maven 選項&#xff0c;如下圖所示&#xff1a; 此時可以使?以下?式解決。 1. 在 Idea 項?上右鍵 2. 選中 Maven 選項 選中 Maven 之后&#…

企業百科和品牌百科創建技巧

很多人比較困惑&#xff0c;創建百科詞條需要注意哪些事情&#xff1f;為什么參考提交了權威新聞參考資料還是沒有通過&#xff0c;下面小馬識途營銷顧問就為大家解答疑惑&#xff1a; 1、品牌詞以及企業詞提交 1&#xff09;如果沒有詞條&#xff0c;我們可以通過平臺提供的急…

用Deepseek做EXCLE文件對比

背景是我想對比兩個PO系統里的一個消息映射&#xff0c;EDI接口的mapping有多復雜懂的都懂&#xff0c;它還不支持跨系統版本對比&#xff0c;所以我費半天勁裝NWDS&#xff0c;導出MM到excle&#xff0c;然后問題來了&#xff0c;我需要對比兩個excel文件里的內容&#xff0c;…

Agent開發注意事項

這里寫自定義目錄標題 llm應用開發什么是Agent?Agent1&#xff1a;工作流Agent2:自主AgentLLM如何擁有自主規劃能力&#xff1f; Tool 參考&#xff1a; llm應用開發 llm工程師需要具備以下能力&#xff1a; [] 軟件工程技能&#xff1a;將各個組件組裝在一起 [] 算法能力&am…

OpenCV:圖像輪廓

目錄 簡述 1. 什么是圖像輪廓&#xff1f; 2. 查找圖像輪廓 2.1 接口定義 2.2 參數說明 2.3 代碼示例 2.4 運行結果 3. 繪制圖像輪廓 3.1 接口定義 3.2 參數說明 3.3 代碼示例 3.4 運行結果 4. 計算輪廓周長 5. 計算輪廓面積 6. 示例&#xff1a;計算圖像輪廓的面…

在Mac mini M4上部署DeepSeek R1本地大模型

在Mac mini M4上部署DeepSeek R1本地大模型 安裝ollama 本地部署&#xff0c;我們可以通過Ollama來進行安裝 Ollama 官方版&#xff1a;【點擊前往】 Web UI 控制端【點擊安裝】 如何在MacOS上更換Ollama的模型位置 默認安裝時&#xff0c;OLLAMA_MODELS 位置在"~/.o…

CVPR | CNN融合注意力機制,蕪湖起飛!

**標題&#xff1a;**On the Integration of Self-Attention and Convolution **論文鏈接&#xff1a;**https://arxiv.org/pdf/2111.14556 **代碼鏈接&#xff1a;**https://github.com/LeapLabTHU/ACmix 創新點 1. 揭示卷積和自注意力的內在聯系 文章通過重新分解卷積和自…

module ‘matplotlib.cm‘ has no attribute ‘get_cmap‘

目錄 解決方法1&#xff1a; 解決方法2&#xff0c;新版api改了&#xff1a; module matplotlib.cm has no attribute get_cmap 報錯代碼&#xff1a; cmap matplotlib.cm.get_cmap(Oranges) 解決方法1&#xff1a; pip install matplotlib3.7.3 解決方法2&#xff0c;新版…

使用Nuxt.js實現服務端渲染(SSR):提升SEO與性能的完整指南

使用Nuxt.js實現服務端渲染&#xff08;SSR&#xff09;&#xff1a;提升SEO與性能的完整指南 使用Nuxt.js實現服務端渲染&#xff08;SSR&#xff09;&#xff1a;提升SEO與性能的完整指南1. 服務端渲染&#xff08;SSR&#xff09;核心概念1.1 CSR vs SSR vs SSG1.2 SSR工作原…