1、DeepSeek簡介
2024年底,DeepSeek 相繼推出了其第一代推理大模型:DeepSeek-R1-Zero 和 DeepSeek-R1。
DeepSeek-R1-Zero 是一個通過大規模強化學習(RL)訓練的模型,訓練過程中沒有使用監督微調(SFT)作為初步步驟。該模型在推理任務上表現出色,通過強化學習,自然涌現出許多強大且有趣的推理行為。然而,DeepSeek-R1-Zero 也面臨一些挑戰,例如無休止的重復、可讀性差以及語言混雜等問題。
為了解決這些問題并進一步提升推理性能,進一步推出了 DeepSeek-R1,該模型在強化學習之前引入了冷啟動數據。DeepSeek-R1 在數學、代碼和推理任務上的表現與 OpenAI-o1 相當。為了支持研究社區,開源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Llama 和 Qwen 蒸餾出的六個密集模型。其中,DeepSeek-R1-Distill-Qwen-32B 在多個基準測試中超越了 OpenAI-o1-mini,為密集模型創造了新的最佳性能記錄。
2、核心思想
Post-Training:在基礎模型上進行大規模強化學習
DeepSeek - R1 - Zero 直接將強化學習(RL)應用于基礎模型,而無需依賴監督微調(SFT)作為前期步驟。這種方法使模型能夠探索思維鏈(CoT)以解決復雜問題。DeepSeek - R1 - Zero 展現出諸如自我驗證、自我反思以及生成較長思維鏈等能力,這對研究界而言是一個重要的里程碑。值得注意的是,這是首個通過公開研究證實大語言模型(LLMs)的推理能力可純粹通過強化學習激勵實現,而無需監督微調的案例。這一突破為該領域未來的發展鋪平了道路。
強化學習 | 監督微調 | |
性能方面 | 通過與環境交互學習,可以探索出更具創造性和靈活性的策略來解決問題,有可能使模型在一些復雜任務如游戲、機器人控制等領域表現出超越人類的水平。但強化學習的訓練過程往往不穩定,收斂速度較慢,可能需要大量的樣本和計算資源才能取得較好的效果。 | 基于有標注的數據進行訓練,能使模型快速在特定任務上達到較高的準確性,在文本分類、情感分析等有明確標注數據的任務中表現出色。然而,如果標注數據存在偏差或不完整,模型可能會過度擬合這些數據,導致在實際應用中的泛化能力受限。 |
數據方面 | 更側重于從環境反饋中學習,對大規模有標注數據的依賴較小。 | 高度依賴高質量的標注數據,數據的質量和數量直接影響模型的性能。 |
訓練成本 | 訓練過程通常需要大量的計算資源和時間,因為它需要不斷地與環境進行交互和更新策略。同時,由于訓練的不穩定性,可能需要多次調整超參數和重新訓練,進一步增加了訓練成本。 | 訓練過程相對穩定,計算成本相對較低,尤其是在有預訓練模型的基礎上進行微調時,可以大大減少訓練時間和資源消耗。 |
?DeepSeek - R1模型是DeepSeek-R1-Zero的升級版,其包含兩個強化學習階段,具體如下:
(1)面向推理的強化學習階段
- 目的:提升模型在編碼、數學、科學和邏輯推理等推理密集型任務上的能力。
- 過程:在利用冷啟動數據微調 DeepSeek-V3-Base 后,采用與 DeepSeek-R1 - Zero 相同的強化學習訓練。訓練過程中,針對思維鏈存在的語言混合現象,引入語言一致性獎勵,根據目標語言單詞比例計算,最后將推理任務準確性和語言一致性獎勵相加,形成最終獎勵,直至模型在推理任務上收斂。
(2)全場景強化學習階段
- 目的:通過整合多源獎勵信號和多樣化數據分布,訓練出能在各種場景下提供有用、無害且具備強大推理能力的模型,使模型進一步符合人類偏好,提升模型的幫助性、無害性及推理能力。
- 過程:采用組合獎勵信號和多樣提示分布進行訓練。對于推理數據,遵循 DeepSeek-R1 - Zero 的方法論,利用基于規則的獎勵指導學習;對于通用數據,依靠獎勵模型捕捉人類偏好。基于 DeepSeek - V3 管道,采用類似偏好對分布和訓練提示。在幫助性方面,專注于最終摘要的實用性和相關性;在無害性方面,評估整個響應以識別和緩解潛在風險,最終整合獎勵信號和多樣數據分布來訓練模型。
知識蒸餾:小模型也能有強大威力
DeepSeek證明了較大模型的推理模式可以提煉到較小模型中,相較于通過強化學習在小模型上發現的推理模式,這能帶來更好的性能表現。開源的 DeepSeek - R1 及其應用程序編程接口(API)將有助于研究界未來提煉出更優的小模型。
作者利用 DeepSeek - R1 生成的推理數據,對研究界廣泛使用的多個稠密模型進行了微調。評估結果表明,經過提煉的較小稠密模型在各項基準測試中表現極為出色。作者向社區開源了基于 Qwen2.5 和 Llama3 系列提煉得到的 15 億、70 億、80 億、140 億、320 億和 700 億參數的模型文件。
3、模型下載
DeepSeek-R1 Models
Model | #Total Params | #Activated Params | Context Length | Download |
---|---|---|---|---|
DeepSeek-R1-Zero | 671B | 37B | 128K | 🤗 HuggingFace |
DeepSeek-R1 | 671B | 37B | 128K | 🤗 HuggingFace |
DeepSeek-R1-Distill Models
DeepSeek - R1 - Distill 模型是基于開源模型進行微調得到的,微調時使用了 DeepSeek - R1 生成的樣本。作者對這些模型的配置和分詞器進行了輕微調整。注意在使用時需使用作者提供的設置來運行這些模型。
Model | Base Model | Download |
---|---|---|
DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5-Math-1.5B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Llama-8B | Llama-3.1-8B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Qwen-14B | Qwen2.5-14B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Llama-70B | Llama-3.3-70B-Instruct | 🤗 HuggingFace |
4、模型效果
DeepSeek-R1評估
對于所有的模型,最大生成長度設定為 32768 個詞元。對于需要采樣的基準測試,我們使用的溫度參數為 0.6,核采樣概率(top - p)值為 0.95,并且針對每個查詢生成 64 個回復以估算單樣本通過率(pass@1)。
Category | Benchmark (Metric) | Claude-3.5-Sonnet-1022 | GPT-4o 0513 | DeepSeek V3 | OpenAI o1-mini | OpenAI o1-1217 | DeepSeek R1 |
---|---|---|---|---|---|---|---|
Architecture | - | - | MoE | - | - | MoE | |
# Activated Params | - | - | 37B | - | - | 37B | |
# Total Params | - | - | 671B | - | - | 671B | |
English | MMLU (Pass@1) | 88.3 | 87.2 | 88.5 | 85.2 | 91.8 | 90.8 |
MMLU-Redux (EM) | 88.9 | 88.0 | 89.1 | 86.7 | - | 92.9 | |
MMLU-Pro (EM) | 78.0 | 72.6 | 75.9 | 80.3 | - | 84.0 | |
DROP (3-shot F1) | 88.3 | 83.7 | 91.6 | 83.9 | 90.2 | 92.2 | |
IF-Eval (Prompt Strict) | 86.5 | 84.3 | 86.1 | 84.8 | - | 83.3 | |
GPQA-Diamond (Pass@1) | 65.0 | 49.9 | 59.1 | 60.0 | 75.7 | 71.5 | |
SimpleQA (Correct) | 28.4 | 38.2 | 24.9 | 7.0 | 47.0 | 30.1 | |
FRAMES (Acc.) | 72.5 | 80.5 | 73.3 | 76.9 | - | 82.5 | |
AlpacaEval2.0 (LC-winrate) | 52.0 | 51.1 | 70.0 | 57.8 | - | 87.6 | |
ArenaHard (GPT-4-1106) | 85.2 | 80.4 | 85.5 | 92.0 | - | 92.3 | |
Code | LiveCodeBench (Pass@1-COT) | 33.8 | 34.2 | - | 53.8 | 63.4 | 65.9 |
Codeforces (Percentile) | 20.3 | 23.6 | 58.7 | 93.4 | 96.6 | 96.3 | |
Codeforces (Rating) | 717 | 759 | 1134 | 1820 | 2061 | 2029 | |
SWE Verified (Resolved) | 50.8 | 38.8 | 42.0 | 41.6 | 48.9 | 49.2 | |
Aider-Polyglot (Acc.) | 45.3 | 16.0 | 49.6 | 32.9 | 61.7 | 53.3 | |
Math | AIME 2024 (Pass@1) | 16.0 | 9.3 | 39.2 | 63.6 | 79.2 | 79.8 |
MATH-500 (Pass@1) | 78.3 | 74.6 | 90.2 | 90.0 | 96.4 | 97.3 | |
CNMO 2024 (Pass@1) | 13.1 | 10.8 | 43.2 | 67.6 | - | 78.8 | |
Chinese | CLUEWSC (EM) | 85.4 | 87.9 | 90.9 | 89.9 | - | 92.8 |
C-Eval (EM) | 76.7 | 76.0 | 86.5 | 68.9 | - | 91.8 | |
C-SimpleQA (Correct) | 55.4 | 58.7 | 68.0 | 40.3 | - | 63.7 |
DeepSeek-R1-Distill 評估
Model | AIME 2024 pass@1 | AIME 2024 cons@64 | MATH-500 pass@1 | GPQA Diamond pass@1 | LiveCodeBench pass@1 | CodeForces rating |
---|---|---|---|---|---|---|
GPT-4o-0513 | 9.3 | 13.4 | 74.6 | 49.9 | 32.9 | 759 |
Claude-3.5-Sonnet-1022 | 16.0 | 26.7 | 78.3 | 65.0 | 38.9 | 717 |
o1-mini | 63.6 | 80.0 | 90.0 | 60.0 | 53.8 | 1820 |
QwQ-32B-Preview | 44.0 | 60.0 | 90.6 | 54.5 | 41.9 | 1316 |
DeepSeek-R1-Distill-Qwen-1.5B | 28.9 | 52.7 | 83.9 | 33.8 | 16.9 | 954 |
DeepSeek-R1-Distill-Qwen-7B | 55.5 | 83.3 | 92.8 | 49.1 | 37.6 | 1189 |
DeepSeek-R1-Distill-Qwen-14B | 69.7 | 80.0 | 93.9 | 59.1 | 53.1 | 1481 |
DeepSeek-R1-Distill-Qwen-32B | 72.6 | 83.3 | 94.3 | 62.1 | 57.2 | 1691 |
DeepSeek-R1-Distill-Llama-8B | 50.4 | 80.0 | 89.1 | 49.0 | 39.6 | 1205 |
DeepSeek-R1-Distill-Llama-70B | 70.0 | 86.7 | 94.5 | 65.2 | 57.5 | 1633 |
5、本地運行
DeepSeek-R1-Distill Models
例如,你可以使用 vLLM 輕松啟動一個服務:
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
?你可以使用 SGLang 輕松啟動一個服務:
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2
6、實用推薦
建議在使用 DeepSeek - R1 系列模型(包括進行基準測試)時遵循以下配置,以實現預期性能:
- 將溫度參數設置在 0.5 - 0.7 的范圍內(建議設置為 0.6),以防止出現無休止的重復或輸出內容前后不連貫的情況。
- 不要添加系統提示;所有指令都應包含在用戶提示中。
- 對于數學問題,建議在提示中加入類似這樣的說明:“請逐步推理,并將最終答案放在 \boxed {} 內。”
- 在評估模型性能時,建議進行多次測試并取結果的平均值。
- 此外,我們注意到 DeepSeek - R1 系列模型在回答某些查詢時往往會跳過思維模式(即不輸出 “<think>\n\n</think>”),這可能會對模型性能產生不利影響。為確保模型進行全面的推理,我們建議強制模型在每次輸出的開頭以 “<think>\n” 起始。
7、引用說明
@misc{deepseekai2025deepseekr1incentivizingreasoningcapability,title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning}, author={DeepSeek-AI and Daya Guo and Dejian Yang and Haowei Zhang and Junxiao Song and Ruoyu Zhang and Runxin Xu and Qihao Zhu and Shirong Ma and Peiyi Wang and Xiao Bi and Xiaokang Zhang and Xingkai Yu and Yu Wu and Z. F. Wu and Zhibin Gou and Zhihong Shao and Zhuoshu Li and Ziyi Gao and Aixin Liu and Bing Xue and Bingxuan Wang and Bochao Wu and Bei Feng and Chengda Lu and Chenggang Zhao and Chengqi Deng and Chenyu Zhang and Chong Ruan and Damai Dai and Deli Chen and Dongjie Ji and Erhang Li and Fangyun Lin and Fucong Dai and Fuli Luo and Guangbo Hao and Guanting Chen and Guowei Li and H. Zhang and Han Bao and Hanwei Xu and Haocheng Wang and Honghui Ding and Huajian Xin and Huazuo Gao and Hui Qu and Hui Li and Jianzhong Guo and Jiashi Li and Jiawei Wang and Jingchang Chen and Jingyang Yuan and Junjie Qiu and Junlong Li and J. L. Cai and Jiaqi Ni and Jian Liang and Jin Chen and Kai Dong and Kai Hu and Kaige Gao and Kang Guan and Kexin Huang and Kuai Yu and Lean Wang and Lecong Zhang and Liang Zhao and Litong Wang and Liyue Zhang and Lei Xu and Leyi Xia and Mingchuan Zhang and Minghua Zhang and Minghui Tang and Meng Li and Miaojun Wang and Mingming Li and Ning Tian and Panpan Huang and Peng Zhang and Qiancheng Wang and Qinyu Chen and Qiushi Du and Ruiqi Ge and Ruisong Zhang and Ruizhe Pan and Runji Wang and R. J. Chen and R. L. Jin and Ruyi Chen and Shanghao Lu and Shangyan Zhou and Shanhuang Chen and Shengfeng Ye and Shiyu Wang and Shuiping Yu and Shunfeng Zhou and Shuting Pan and S. S. Li and Shuang Zhou and Shaoqing Wu and Shengfeng Ye and Tao Yun and Tian Pei and Tianyu Sun and T. Wang and Wangding Zeng and Wanjia Zhao and Wen Liu and Wenfeng Liang and Wenjun Gao and Wenqin Yu and Wentao Zhang and W. L. Xiao and Wei An and Xiaodong Liu and Xiaohan Wang and Xiaokang Chen and Xiaotao Nie and Xin Cheng and Xin Liu and Xin Xie and Xingchao Liu and Xinyu Yang and Xinyuan Li and Xuecheng Su and Xuheng Lin and X. Q. Li and Xiangyue Jin and Xiaojin Shen and Xiaosha Chen and Xiaowen Sun and Xiaoxiang Wang and Xinnan Song and Xinyi Zhou and Xianzu Wang and Xinxia Shan and Y. K. Li and Y. Q. Wang and Y. X. Wei and Yang Zhang and Yanhong Xu and Yao Li and Yao Zhao and Yaofeng Sun and Yaohui Wang and Yi Yu and Yichao Zhang and Yifan Shi and Yiliang Xiong and Ying He and Yishi Piao and Yisong Wang and Yixuan Tan and Yiyang Ma and Yiyuan Liu and Yongqiang Guo and Yuan Ou and Yuduan Wang and Yue Gong and Yuheng Zou and Yujia He and Yunfan Xiong and Yuxiang Luo and Yuxiang You and Yuxuan Liu and Yuyang Zhou and Y. X. Zhu and Yanhong Xu and Yanping Huang and Yaohui Li and Yi Zheng and Yuchen Zhu and Yunxian Ma and Ying Tang and Yukun Zha and Yuting Yan and Z. Z. Ren and Zehui Ren and Zhangli Sha and Zhe Fu and Zhean Xu and Zhenda Xie and Zhengyan Zhang and Zhewen Hao and Zhicheng Ma and Zhigang Yan and Zhiyu Wu and Zihui Gu and Zijia Zhu and Zijun Liu and Zilin Li and Ziwei Xie and Ziyang Song and Zizheng Pan and Zhen Huang and Zhipeng Xu and Zhongyu Zhang and Zhen Zhang},year={2025},eprint={2501.12948},archivePrefix={arXiv},primaryClass={cs.CL},url={https://arxiv.org/abs/2501.12948},
}