近年來,DeepSeek 團隊在大語言模型(LLM)領域持續發力,圍繞模型架構、專家路由、推理效率、訓練方法等方面不斷優化,推出了一系列性能強勁的開源模型。本文對 DeepSeek 系列的關鍵論文進行了梳理,幫助大家快速了解其技術演進路徑與核心創新。
1. DeepSeek LLM: Scaling Open-Source Language Models with Longtermism(2024年1月)
作為 DeepSeek 系列的首個基礎模型,DeepSeek LLM 基于 Transformer 架構,并在推理效率和訓練調度上做出優化:
- 引入 分組查詢注意力(GQA),有效降低推理成本;
- 支持 多步學習率調度器,提升訓練效率;
- 在預訓練和對齊階段提出創新方法,為后續模型打下基礎。
2. DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models(2024年1月)
DeepSeekMoE 聚焦于混合專家(MoE)結構的高效利用,提出了兩個關鍵策略:
- 細粒度專家分割(Fine-Grained Expert Segmentation):提高專家模塊的可組合性;
- 共享專家隔離(Shared Expert Isolation):提升專家之間的獨立性,避免干擾;
在不增加計算開銷的前提下,實現了更靈活、高性能的專家調用方式。
3. DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model(2024年5月)
DeepSeek-V2 在 DeepSeekMoE 的基礎上進一步優化性能與成本:
- 創新引入 多頭潛在注意力(MLA),大幅減少推理過程中的 KV 緩存;
- 延續 MoE 架構優勢,在推理效率顯著提升的同時,降低整體訓練成本。
4. DeepSeek-V3 Technical Report(2024年12月)
DeepSeek-V3 是目前該系列中規模最大、性能最強的模型:
- 總參數量達 671B,每個 token 激活 37B 參數;
- 采用 無輔助損失的負載均衡策略 和 多令牌預測(MTP) 訓練目標;
- 支持 FP8 混合精度訓練,在保證性能的同時大幅降低訓練資源消耗。
5. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning(2025年1月)
DeepSeek-R1 旨在進一步提升模型的推理能力,核心策略包括:
- 基于 DeepSeek-V3-Base 進行強化學習優化;
- 引入 冷啟動數據集 和 多階段訓練流程;
- 顯著提升模型在復雜任務中的可讀性與邏輯性。
6. Distilling Reasoning Capabilities from DeepSeek-R1 to Smaller Models(2025年1月)
為降低大模型使用門檻,團隊發布了基于 DeepSeek-R1 的蒸餾模型:
- 推理能力被成功遷移至更小模型,如 Qwen、LLaMA 等;
- 蒸餾后的模型在多個評測任務中超越同類開源模型,在保持輕量的同時具備強大推理性能。
結語
DeepSeek 系列不僅在大模型架構上持續創新,還在高效推理、專家分配、推理能力增強等方面提出了系統性的解決方案。從基礎模型到混合專家,再到強化學習與知識蒸餾,展現了一個完整的大模型演進路徑,為開源社區帶來了極具參考價值的技術成果。
如果你正在研究大語言模型,DeepSeek 系列無疑是值得深入學習與關注的重要項目。