DeepSeek系列模型技術報告的閱讀筆記

之前仔細閱讀了DeepSeek系列模型的主要技術方面內容與發展脈絡，以下是DeepSeek系列模型技術報告的筆記，有錯誤的地方歡迎指正！

文章目錄

DeepSeek系列模型技術報告的閱讀筆記
- GQA
- Deepseek MoE
- - Abstract
  - Introduction
  - Preliminaries: Mixture-of-Experts for Transformers
  - DeepSeekMoE Architecture
  - - Fine-Grained Expert Segementation
    - Shared Expert Isolation
    - Load Balance Consideration
  - Experiments
  - - Experimental Setup
    - Results
- DeepseekMath
- - PPO算法
  - GRPO算法
  - - Outcome Supervision RL with GRPO
    - Process Supervision RL with GRPO
    - Iterative RL with GRPO
- Deepseek V2
- - Abstract
  - Introduction
  - Architecture
  - - Basic Architecture
  - Multi-Head Latent Attention: Boosting Inference Efficiency
  - - Preliminaries: Standard Multi-Head Attention
    - Low-Rank Key-Value Joint Compression
    - Decoupled Rotary Position Embedding
  - Alignment
  - - Supervised Fine-Tuning
    - Reinforcement Learning
- Deepseek V3
- - Astract
  - Introduction
  - Architecture
  - Basic Architecture
  - - Multi-Head Latent Attention
    - DeepSeekMoE with Auxiliary-Loss-Free Load Balancing
    - Multi-Token Prediction
  - Infrastructures
  - - DualPipe and Computation-Communication Overlap
    - FP8 Mixed Precision Framework
- DeepSeek-R1
- - Abstract
  - Introduction
  - Approach
  - - DeepSeek-R1-Zero: Reinforcement Learning on the Base Model
    - DeepSeek-R1: Reinforcement Learning with Cold Start
    - Distillation: Empower Small Models with Reasoning Capability

GQA

論文：GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints

Deepseek LLM中用到的注意力機制

在K部分的尺度變化為：

GQA overview

之后分組注意力：

GQA comparison

Deepseek MoE

論文：DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

單位：DeepSeek-AI

作者：Damai Dai et. al.

Abstract

問題：傳統的 MoE 架構，如GShard，激活N個專家模型中的Top K個，面臨專家模型專業性缺失的問題，例如：無法做到每個專家都獲得了不重疊和集中的知識（換句話說，專家模型太泛化，不夠像不同領域的專家）

方法：DeepSeekMoE，專業化專家模型

兩種主要的策略：

精細地切分專家模型到 $m\cdot N$ 個規模，同時激活 $m\cdot K$ 個模型，以允許更靈活地組合已激活的專家
將 $K_s$ 個專家隔離并作為共享的路由專家模型，以捕獲通用的知識、減少專家模型冗余

結果：

從2B參數的模型規模開始，比GShard 2.9B模型規模、計算開銷更小；
DeepSeekMoE 2B 的性能幾乎接近同類2B全連接層結構的模型性能
當使用DeepSeekMoE 145B模型時，效果遠超GShard，在18.2-28.5%的計算量上表現出同Deepseek 67B相當的效果

Introduction

過去的MoE模型：Gshard, Switch Transformers

傳統的MoE模型結構：傳統的 MoE 架構用 MoE 層替換 Transformer 中的前饋網絡（FFN）;每個 MoE 層由多個專家組成，每個專家在結構上與標準 FFN 相同，每個token都分配給一名或兩名專家

因結構缺陷引發的問題：

知識混淆: 專家數量有限 -> 分配給特定專家的令牌可能會涵蓋不同的知識，造成知識混淆；同時，不同類型的知識混合在一塊也無法進行區分與分別利用
知識冗余: 分配給專家的token可能依賴常識 -> 不同專家收斂到相同的共享知識，導致模型規模與參數上的冗余

方法：DeepSeek-MoE

包括了兩種主要的策略：

細粒度的專家細分 (Fine-Grained Expert Segmentation): 在保持參數不變的前提下通過切割FFN的中間隱含維度進一步細分專家，同時在相同計算開銷時激活更多的細粒度專家以實現靈活且適應性強的已激活專家組合 -> 不同的細粒度專家更精細地分解、學習到多樣化知識，并保持高度的專業性
共享專家隔離 (Share)：分離出某些專家作為共享專家，這些專家始終處于激活狀態，旨在在不同環境中捕獲和整合共同知識，將常識壓縮到這些共享的專家中以令其他路由專家之間的冗余將得到緩解 -> 確保每個路由的 Expert 通過專注于獨特的方面來保持專業化

Preliminaries: Mixture-of-Experts for Transformers

標準的Transformer堆疊L層Transformer塊，T為序列長度，第 $l$ 層Transformer塊的表示為：

$\bold{u}^l_{1:T}=SelfAttn(\bold{h}^{l-1}_{1:T})+\bold{h}^{l-1}_{1:T}$

$\bold{h}^l_t=FFN(\bold{u}^l_t)+\bold{u}^l_t$

經典的MoE結構：用MoE層替換FFN，描述為：

$\bold{h}^l_t=\sum^N_{i=1}(g_{i,t}FFN_i(\bold{u}^l_t))+\bold{u}^l_t$

$g_{i,t}=\begin{cases}s_{i,t}&s_{i,t}\in TopK(\{s_{j,t}|1\leq j\leq N\},K)\\ 0 & otherwise\end{cases}$

$s_{i,t}=Softmax_i(\bold{u}^{l\top}_t \bold{e}^l_i)$

$N$ 為專家數量， $g_{i,t}$ 表示為第 $i$ 個專家的閾值并且是稀疏的， $s_{i,t}$ 表示為token到專家的關聯性， $TopK(\cdot)$ 表示為前 $K$ 個關聯性最高的分數并代表了第 t 個標記和所有 N 個專家計算的分數， $\bold{e}^l_i$ 表示第 $l$ 層第 $i$ 個專家的中心

DeepSeekMoE Architecture

DeepSeekMoE-v1

Fine-Grained Expert Segementation

通過減少FFN的中間隱藏層為原來的 $\frac{1}{m}$ ，切片每個專家FFN到m個更小的專家，因此公式描述為：

$\bold{h}^l_t=\sum^{mN}_{i=1}(g_{i,t}FFN_i(\bold{u}^l_t))+\bold{u}^l_t$

$g_{i,t}=\begin{cases}s_{i,t}&s_{i,t}\in TopK(\{s_{j,t}|1\leq j\leq mN\},mK)\\ 0 & otherwise\end{cases}$

$s_{i,t}=Softmax_i(\bold{u}^{l\top}_t \bold{e}^l_i)$

Shared Expert Isolation

單獨利用 $K_s$ 個專家實現共享專家隔離，公式描述為：

$\bold{h}^l_t=\sum^{K_s}_{i=1}FFN_i(\bold{u}^l_t)+\sum^{mN}_{i=1}(g_{i,t}FFN_i(\bold{u}^l_t))+\bold{u}^l_t$

$g_{i,t}=\begin{cases}s_{i,t}&s_{i,t}\in TopK(\{s_{j,t}|1\leq j\leq mN\},mK - K_s)\\ 0 & otherwise\end{cases}$

$s_{i,t}=Softmax_i(\bold{u}^{l\top}_t \bold{e}^l_i)$

Load Balance Consideration

Expert-Level Balance Loss: 其中 $\alpha_1$ 為專家級平衡超參數, $N^{'}$ 為 $mN-K_s)$ ， $K^{'}$ 為 $mK-K_s)$ ， $\mathbb{1}(\cdot)$ 為指示函數

$L_{ExpBal} = \alpha_1\sum^{N'}_{i=1}f_iP_i$

$f_i=\frac{N'}{K'T}\sum^T_{t=1}\mathbb{1}(\text{Token} \ t \ \text{selects Expert} \ i)$

$P_i=\frac{1}{T}\sum^T_{t=1}s_{i,t}$

Device-Level Balance Loss: 其中 $\alpha_2$ 為設備級平衡超參數,將所有路由到的專家分組為 $D$ 個,表示為 $\{\epsilon_1,\epsilon_2,\cdots,\epsilon_D\}$ ,則每組在一個設備上,則損失函數為:

$L_{DevBal}=\alpha_2\sum^D_{i=1}f'_iP'_i$

$f'_i=\frac{1}{|\epsilon_i|}\sum_{j\in \epsilon_i}f_j$

$P'_i=\sum_{j\in \epsilon_i}P_j$

Experiments

Experimental Setup

采樣自Deepseek AI公司自建的多語言語料庫, 100B個token,訓練BPE

訓練工具:HAI-LLM (幻方自家的訓練平臺),包含了張量并行、ZeRO數據并行、PipeDream管道并行

顯卡：H800、A100集群節點（有NVLink、NVSwitch連接節點）

優化器：AdamW

對齊方式：SFT

下游任務驗證：

語言建模 (Language Modeling)
語言理解與推理 (Language Understanding and Reasoning)
閱讀理解 (Reading Comprehension)
代碼生成 (Code Generation)
閉卷問答 (Close-Book Question Answering)

Results

DeepSeekMoE 與 MoE 模型的上限緊密結合
DeepSeekMoE 在路由專家中表現出較低的冗余
共享專家無法被路由專家取代
DeepSeekMoE 更準確地獲取知識
在 2T 令牌上訓練 DeepSeekMoE 16B，并展示其可與 DeepSeek 7B 和 LLaMA2 7B 相媲美的出色性能，計算量僅為 40% 左右
將 DeepSeekMoE 擴展到 145B 參數時，DeepSeekMoE 145B 仍然保持了與 GShard 架構相比的巨大優勢，并表現出與 DeepSeek 67B 相當的性能

DeepseekMath

論文：DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
作者：Zhihong Shao et. al.
單位：Deep Seek AI et. al.

該論文中講解了GRPO

PPO算法

PPO是一種演員-評論家算法

優化的替代目標：

$J_{PPO}(\theta)=\mathbb{E}[q\sim P(Q), o\sim \pi_{\theta_{old}}(O|q)]\frac{1}{|o|}\sum^{|o|}_{t=1}\min[\frac{\pi_\theta(o_t|q,o_{<t})}{\pi_{\theta_{old}}(o_t|q,o_{<t})}A_t,clip(\frac{\pi_\theta(o_t|q,o_{<t})}{\pi_{\theta_{old}}(o_t|q,o_{<t})},1-\epsilon, 1+\epsilon)A_t]$

其中 $\pi_{\theta}$ 和 $\pi_{\theta_{old}}$ 為當前與舊的策略模型， $q$ 和 $o$ 分別為從問題數據集與舊策略中采樣得到的問題與輸出， $\epsilon$ 為剪枝先骨干的超參數， $A_t$ 為優勢函數

優勢函數由GAE進行計算，基于獎勵 $\{r_{\geq t}\}$ 和可學習的值函數 $V_{\phi}$ ，通過KL散度計算：

$r_t=r_{\phi}(q,o_{\leq t}) - \beta\log\frac{\pi_{\theta}(o_t|q, o_{<t})}{\pi_{ref}(o_t|q,o_{<t})}$

其中 $r_{\phi}$ 為獎勵模型， $\pi_{ref}$ 為參考模型，用于初始化SFT模型， $\beta$ 為KL懲罰系數

問題：由于 PPO 中采用的價值函數通常是另一個與策略模型大小相當的模型，因此它帶來了大量的內存和計算負擔

GRPO算法

與PPO的區別：

GRPO vs PPO

優化目標：

$J_{GRPO}(\theta)=\mathbb{E}[q\sim P(Q), \{o_i\}^G_{i=1}\sim \pi_{\theta_{old}}(O|q)]\frac{1}{G}\sum^G_{i=1}\frac{1}{|o_i|}\sum^{|o_i|}_{t=1}\{\min[\frac{\pi_{\theta}(o_{i,t}|q,o_{i,<t})}{\pi_{\theta_{old}}(o_{i,t}|q,o_{i,<t})}\hat{A}_{i,t},clip(\frac{\pi_{\theta}(o_{i,t}|q,o_{i,<t})}{\pi_{\theta_{old}}(o_{i,t}|q,o_{i,<t})},1-\epsilon, 1+\epsilon)\hat{A}_{i,t}]-\beta\mathbb{D}_{KL}[\pi_{\theta}||\pi_{ref}]\}$

其中 $\epsilon$ 和 $\beta$ 為超參數， $\hat{A}_{i,t}$ 為相關輸出獎勵的優勢， $\mathbb{D}_{KL}[\pi_\theta||\pi_{ref}]=\frac{\pi_{ref}(o_{i,t}|q,o_{i,<t})}{\pi_\theta(o_{i,t}|q,o_{i,<t})}-\log{\frac{\pi_{ref}(o_{i,t}|q,o_{i,<t})}{\pi_\theta(o_{i,t}|q,o_{i,<t})}}-1 > 0$

Outcome Supervision RL with GRPO

形式上，對于每個問題 $q$ ，一組輸出 $\{o_1,o_2,\cdots,o_G\}$ 從舊策略模型 $\pi_{\theta_{old}}$ 中采樣。然后使用獎勵模型對輸出進行評分，相應地產生 $G$ 獎勵 $\bold{r}=\{r_1,r_2,\cdots,r_G\}$ 。隨后，通過減去組平均值并除以組標準差來歸一化這些獎勵。結果監督在每個輸出 $o_i$ 的末尾提供歸一化獎勵，并將輸出中所有token的優勢 $\hat{A}_{i,t}$ 設置為歸一化獎勵，即 $\hat{A}_{i,t}=\widetilde{r}_i=\frac{r_i-mean(\bold{r})}{std(\bold{r})}$ ，然后通過GRPO中定義的目標來優化策略

Process Supervision RL with GRPO

過程監督，在每個推理步驟結束時提供獎勵。形式上，給定問題 $q$ 和 $G$ 采樣輸出 $\{o_1,o_2,\cdots,o_G\}$ ，使用過程獎勵模型對輸出的每一步進行評分，產生相應的獎勵: $\bold{R}=\{\{r^{index(1)}_1,\cdots,r^{index(K_1)}_1\},\cdots,\{r^{index(1)}_G,\cdots,r^{index(K_G)}_G\}\}$ ，其中 $in d e x (j)$ 是第 $j$ 步的結束標記索引， Ki 是第 i 個輸出中的總步數。用平均值和標準差對這些獎勵進行歸一化，即 $\hat{r}^{index(j)}_i=\frac{r^{index(j)}_i-mean(\bold{R})}{std(\bold{R})}$ 。隨后，過程監督將每個token的優勢計算為以下步驟的歸一化獎勵之和，即 $\hat{A}_{i,t}=\sum_{index(j)\geq t}\widetilde{r}^{index(j)}_{i}$ ，然后通過GRPO中定義的目標來優化策略。

Iterative RL with GRPO

隨著強化學習訓練過程的進行，舊的獎勵模型可能不足以監督當前的策略模型。因此，進一步探索了 GRPO 的迭代 RL。如下所示，在迭代 GRPO 中，根據策略模型的采樣結果為獎勵模型生成新的訓練集，并使用包含 10% 歷史數據的重放機制持續訓練舊的獎勵模型。然后，將參考模型設置為策略模型，并使用新的獎勵模型不斷訓練策略模型。

GRPO Algorithm

Deepseek V2

論文：DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

單位：Deepseek AI

Abstract

Deepseek V2，基于MoE架構，總共236B，對于每個token激活21B，支持最大128K的上下文長度

結構的提升：Multi-head Latent Attention (MLA)，Key-Value緩存壓縮

同Deepseek 67B比較：5.76倍生成速度、42.5%的訓練成本節省、93.3%的kv cache節約

預訓練語料量：8.7T個token

微調方式：SFT+RL

Introduction

問題：

過去的LLM改進是以更大的訓練計算資源和推理吞吐量的潛在降低為代價，阻礙 LLM 的廣泛適應與使用
Multi-Head Attention的Key-Value (KV) cache對 LLM 的推理效率構成重大障礙
已有的GQA、MQA都是在嘗試減少 KV 緩存，這些方法通常會犧牲性能

方法：在Transformer架構上優化了attention機制與FFN，提出了Multi-head Latent Attention (MLA)和DeepSeekMoE

MLA是一種利用低秩key-value聯合壓縮 (low rank key-value joint compression) 的注意力機制
Transformer中的FFN替換為DeepseekMoE，包含fine-grained expert segmentation和shared expert isolation

數據集：8.1T個token的多源預訓練語料庫，1.5M個對話場景用于SFT

對齊方式：SFT + GRPO進行模型對齊

Architecture

基于Transformer架構，具體模塊如下：

DeepSeek-V2 MoE & MLA

Basic Architecture

第 $t$ 個token的FFN輸入為 $\bold{u}_t$ ，計算的輸出 $\bold{h}'_t$ 為：

$\bold{h}'_t=\bold{u}_t+\sum^{N_s}_{i=1}FFN^{(s)}_i(\bold{u}_t)+\sum^{N_r}_{i=1}g_{i,t}FFN_i^{(r)}(\bold{u}_t)$

$g_{i,t}=\begin{cases}s_{i,t} & s_{i,t}\in TopK(\{s_{j,t}|1\leq j \leq N_r\},K_r)\\ 0 & otherwise\end{cases}$

$s_{i,t}=Softmax_i(\bold{u}^{\top}_t\bold{e}_i)$

Multi-Head Latent Attention: Boosting Inference Efficiency

Preliminaries: Standard Multi-Head Attention

embedding維度為 $d$ ，頭數為 $n_h$ ，單頭注意力維度為 $d_h$ ，在注意力層中第 $t$ 個token的注意力輸入為 $\bold{h}_t\in \mathbb{R}^d$ ，首先分別乘以三個矩陣得到 $\bold{q}_t$ ， $\bold{k}_t$ ， $\bold{v}_t\in \mathbb{R}^{d_nn_h}$ ，通過三個矩陣 $W^Q$ , $W^K$ , $W^V\in\mathbb{R}^{d_hn_h\times d}$ ，有：

$\bold{q}_t=W^Q\bold{h}_t$

$\bold{k}_t=W^K\bold{h}_t$

$\bold{V}_t=W^V\bold{h}_t$

對于多頭注意力，則為：

$[\bold{q}_{t,1};\bold{q}_{t,2};\cdots;\bold{q}_{t,n_h}]=\bold{q}_t$

$[\bold{k}_{t,1};\bold{k}_{t,2};\cdots;\bold{k}_{t,n_h}]=\bold{k}_t$

$[\bold{v}_{t,1};\bold{v}_{t,2};\cdots;\bold{v}_{t,n_h}]=\bold{v}_t$

$\bold{o}_{t,i}=\sum^t_{j=1}Softmax_j(\frac{\bold{q}^\top_{t,i}\bold{k}_{j,i}}{\sqrt{d_h}})\bold{v}_{j,i}$

$\bold{u}_t=W^O[\bold{o}_{t,1};\bold{o}_{t,2};\cdots;\bold{o}_{t,n_h}]$

其中 $\bold{q}_{t,i},\bold{k}_{t,i},\bold{v}_{t,i}\in \mathbb{R}^{d_n}$ ， $W^O\in \mathbb{R}^{d\times d_hn_h}$

Low-Rank Key-Value Joint Compression

$\bold{c}^{KV}_t=W^{DKV}\bold{h}_t$

$\bold{k}^C_t=W^{UK}\bold{c}^{KV}_t$

$\bold{v}^C_t=W^{UV}\bold{c}^{KV}_t$

$\bold{c}^{KV}_t\in\mathbb{R}^{d_c}$ , $W^{DKV}\in\mathbb{R}^{d_c\times d}$ 是一個向下投影矩陣, $W^{UK},W^{UV}\in \mathbb{R}^{d_hn_h\times d_c}$ 是向上投影K、V的矩陣， $d_c(<<d_hn_h)$ 表示KV壓縮的維度

在推理過程中，MLA僅使用包含 $d_cl$ 個元素的KV Cache $c^{KV}_t$ ， $l$ 為層數。

進一步利用低秩壓縮分解 $q$ ，有：

$\bold{c}^Q_t=W^{DQ}\bold{h}_t$

$\bold{q}^C_t=W^{UQ}\bold{c}^Q_t$

其中， $\bold{c}^Q_t\in\mathbb{R}^{d'_c}$ ， $d'_c (<<d_hn_h)$ 為 $q$ 壓縮的維度， $W^{DQ}\in\mathbb{R}^{d'_c\times d}$ ， $W^{UQ}\in \mathbb{R}^{d_hn_h\times d'_c}$

MLA Comparison

Decoupled Rotary Position Embedding

RoPE緊耦合將導致 $W^{UK}$ 無法被 $W^Q$ 吸收，因為與當前生成的標記相關的 RoPE 矩陣將位于 $W^Q$ 和 $W^{UK}$ 之間，并且矩陣乘法不遵循交換定律

$[\bold{q}^R_{t,1};\bold{q}^R_{t,2};\cdots;\bold{q}^R_{t,n_h}]=\bold{q}^R_t=RoPE(W^{QR}\bold{c}^Q_t)$

$\bold{k}^R_t=RoPE(W^{KR}\bold{h}_t)$

$\bold{q}_{t,i}=[\bold{q}^C_{t,i};\bold{q}^R_{t,i}]$

$\bold{k}_{t,i}=[\bold{k}^C_{t,i};\bold{k}^R_t]$

$\bold{o}_{t,i}=\sum^t_{j=1}Softmax_j(\frac{\bold{q}^\top_{t,i}}{\sqrt{d_h+d^R_h}})\bold{v}^C_{j,i}$

$\bold{u}_t=W^O[\bold{o}_{t,1};\bold{o}_{t,2};\cdots;\bold{o}_{t,n_h}]$

$W^{QR}\in \mathbb{R}^{d^R_hn_h\times d'_c}$ ， $W^{KR}\in\mathbb{R}^{d^R_h}\times d$ ， $RoPE(\cdot)$ 表示應用RoPe矩陣， $[\cdot；\cdot]$ 表示拼接操作

因此，Deepseek-V2只要求 $(d_c+d^R_h)l$ 個元素的KV cache

Alignment

Supervised Fine-Tuning

數據集：共1.5M個樣本作為指令調優數據集，1.2M 個用于有用的實例、0.3M個用于安全目的，并提高了數據質量

訓練細節：2個epoch微調，學習率 $5\times 10^{-6}$

IFEval作為指令遵循評估

Reinforcement Learning

訓練算法：GRPO

訓練策略：

訓練一個推理獎勵模型 $RM_{reasoning}$ 用于代碼與推理任務，優化策略模型： $r_i=RM_{reasoning}(o_i)$
人類偏好對齊：利用多獎勵框架，包有用性獎勵模型 $RM_{helpful}$ 、安全性獎勵模型 $RM_{safety}$ 、規則約束的獎勵模型 $RM_{rule}(O_i)$ ，有： $r_i=c_1 \cdot RM_{helpful(o_i)}+c_2\cdot RM_{safety}(o_i)+c_3\cdot RM_{rule}(o_i)$

Deepseek V3

論文：DeepSeek-V3 Technical Report

單位：DeepSeek AI

Astract

DeepSeek V3，規模671B，激活模型37B

技術點：

MLA
DeepSeek MoE
輔助無損策略：auxiliary-loss-free strategy
多令牌預測訓練目標
DualPipe算法
GRPO + SFT對齊

訓練時間：2.788M H800 GPU小時

Introduction

模型結構：DeepSeek-MoE + MLA

預訓練策略：auxiliary-loss-free策略，FP8混合精度訓練框架

并行算法：DualPipe算法

兩階段上下文預訓練：

第一階段：32K上下文拓展
第二階段：128K上下文拓展
數據量：14.8T 高質量多樣化Token

后訓練：

從DeepSeek-R1系列模型中蒸餾推理能力
基本思想：SFT + RL （GRPO）

Architecture

Basic Architecture

沿用V2架構，MLA + DeepSeek MoE

DeepSeek V3

Multi-Head Latent Attention

基本不變。

$\bold{c}^{KV}_t=W^{DKV}\bold{h}_t$ (需要caching)

$[\bold{k}^C_{t,1};\bold{k}^C_{t,2};\cdots;\bold{k}^C_{t,n_h}]=\bold{k}^C_t=W^{UK}\bold{c}^{KV}_t$

$\bold{k}^R_t=RoPE(W^{KR}\bold{h}_t)$ (需要caching)

$\bold{k}_{t,i}=[\bold{k}^C_{t,i};\bold{k}^R_t]$

$\bold{v}^C_t=W^{UV}\bold{c}^{KV}_t$

對于Attention queries，使用低秩壓縮：

$\bold{c}^Q_t=W^{DQ}\bold{h}_t$

$[\bold{q}^C_{t,1};\bold{q}^C_{t,2};\cdots;\bold{q}^C_{t,n_h}]=\bold{q}^C_t=W^{UQ}\bold{c}^Q_t$

$[\bold{q}^R_{t,1};\bold{q}^R_{t,2};\cdots;\bold{q}^R_{t,n_h}]=\bold{q}^R_t=RoPE(W^{QR}\bold{c}^Q_t)$

$\bold{q}_{t,i}=[\bold{q}^C_{t,i};\bold{q}^R_{t,i}]$

$\bold{o}_{t,i}=\sum^t_{j=1}Softmax_j(\frac{\bold{q}^\top_{t,i}}{\sqrt{d_h+d^R_h}})\bold{v}^C_{j,i}$

$\bold{u}_t=W^O[\bold{o}_{t,1};\bold{o}_{t,2};\cdots;\bold{o}_{t,n_h}]$

DeepSeekMoE with Auxiliary-Loss-Free Load Balancing

基本的DeepSeekMoE：跟v2有點區別，先sigmoid之后算分數

$\bold{h}'_t=\bold{u}_t+\sum^{N_s}_{i=1}FFN^{(s)}_i(\bold{u}_t)+\sum^{N_r}_{i=1}g_{i,t}FFN_i^{(r)}(\bold{u}_t)$

$g_{i,t}=\frac{g'_{i,t}}{\sum^{N_r}_{j=1}g'_{j,t}}$

$g'_{i,t}=\begin{cases}s_{i,t} & s_{i,t}\in TopK(\{s_{j,t}|1\leq j \leq N_r\},K_r)\\ 0 & otherwise\end{cases}$

$s_{i,t}=Sigmoid(\bold{u}^{\top}_t\bold{e}_i)$

輔助無損負載均衡（Auxiliary-Loss-Free Load Balancing）

效果：在負載均衡和模型性能之間實現更好的權衡

為每個專家引入bias $b_i$ ，添加到 $s_{i,t}$ ，以確定前 $K$ 個路由： $g^{'}_{i,t}=\begin{cases}s_{i,t} & s_{i,t} + b_i \in TopK(\{s_{j,t}+b_j|1\leq j\leq N_r\}，K_r)\\ 0 & otherwise\end{cases}$

其中 $b_i$ 僅用于路由，在每個步驟結束后，如果相應的專家超載了，將偏差衰減 $\gamma$ ，若負載不足，則增加 $\gamma$ ，為 $b_i$ 更新速度的超參數

互補序列輔助損失（Complementary Sequence-Wise Auxiliary Loss）

基于DeepSeek MoE的平衡損失推導而出。

$L_{Bal}=\alpha\sum^{N_r}_{i=1}f_iP_i$

$f_i=\frac{N_r}{K_rT}\sum^T_{t=1}\mathbb{1}(s_{i,t}\in TopK(\{s_{j,t}|1\leq j \leq N_r\}, K_r))$

$s^{'}_{i,t}=\frac{s_{i,t}}{\sum^{N_r}_{j=1}s_{j,t}}$ (不同于之前的專家級平衡損失之處，親和力分數做了歸一化)

$P_i=\frac{1}{T}\sum^T_{t=1}s^{'}_{i,t}$

更多的技巧：

節點有限路由：使用受限路由機制來限制訓練期間的通信成本
無token丟失：DeepSeek-V3 在訓練期間不會掉落任何標記

Multi-Token Prediction

設定了多token預測（MTP）目標，將預測范圍擴展到每個位置的多個后續token。

MTP

作用：

提高數據效率，使訓練信號更加稠密
MTP 可能使模型能夠預先規劃其表示形式，以便更好地預測后續的token

與傳統的MTP不同：按順序預測額外的 Token，并在每個預測深度保留完整的因果鏈

MTP模塊：使用 $D$ 個序列模塊預測 $D$ 個額外的token，第 $k$ 個MTP模塊包含了共享的嵌入層 $Emb(\cdot)$ 、共享的輸出頭 $OutHead(\cdot)$ ，一個Transformer塊 $TRM_k(\cdot)$ ，一個拼接矩陣 $M_k\in \mathbb{R}^{d\times 2d}$ 。

對于第 $i$ 個輸入token為 $t_i$ ，在第 $k$ 個預測深度時，首先聯合第 $i$ 個token在第 $(k ? 1)$ 個深度的表示 $h^{k-1}_i\in \mathbb{R}^d$ 以及第 $(i + k)$ 個token的嵌入 $Emb(t_{i+k})\in \mathbb{R}^d$ ，用線性拼接：

$\bold{h}^{'k}_i=M_k[RMSNorm(\bold{h}^{k-1}_i);RMSNorm(Emb(t_{i+k}))]$

當 $k$ 為1時，為main model的表示

聯合的 $\bold{h}^{'k}_i$ 作為第 $k$ 深度的Transofmrer塊輸入，輸出當前深度的 $\bold{h}^k_i$ ： $\bold{h}^k_{1:T-k}=TRM_k(h^{'k}_{1:T-k})$

其中 $T$ 為輸入的序列長度， $i : j$ 表示切片操作。最后將 $\bold{h}^k_i$ 作為輸入，通過共享輸出頭計算第 $k$ 個額外預測的token的概率分布 $p^k_{i+1+k}\in \mathbb{R}^V$ ，其中 $V$ 為詞表長度： $p^k_{i+k+1}=OutHead(h^k_i)$

輸出頭 $OutHead(\cdot)$ 線性地映射輸出并應用 $Softmax(\cdot)$ 計算預測的第 $k$ 個token概率分布

維持預測因果鏈的原理與 EAGLE 相似，但通過MTP改善訓練

MTP訓練目標：交叉熵， $L^k_{MTP}=\text{CrossEntropy}(p^k_{2+k:T+1},t_{2+k:T+1})=-\frac{1}{T}\sum^{T+1}_{i=2+k}\log P^k_i[t_i]$

$T$ 表示為輸入長度， $t_i$ 表示預測的第 $i$ 個位置的token， $p^k_{i}[t_i]$ 為 $t_i$ 對應的概率分布。最后，引入權重因子 $\lambda$ 計算MTP的額外訓練目標： $L_{MTP}=\frac{\lambda}{D}\sum^D_{k=1}L^k_{MTP}$

MTP推理：可直接丟棄MTP模塊，通過主模型推理

Infrastructures

對這塊外行就沒細看了，截了技術示意圖跟示例。

DualPipe and Computation-Communication Overlap

這里涉及的并行計算算法，如圖示所示：

DualPipe

例子：

Example 1

FP8 Mixed Precision Framework

FP8 Mixed Precision

Fine-Grained Quantization:

fine-grained quantization method

DeepSeek-R1

論文：DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

單位：DeepSeek AI

Abstract

R1-Zero：純強化學習訓練的模型，展現了可觀的推理能力

R1：在強化學習之前進行多階段訓練與引入冷啟動數據

Introduction

問題：

有效測試時間擴展的挑戰仍然是研究界的一個懸而未決的問題
已有方法都沒有達到與 OpenAI 的 o1 系列模型相當的一般推理性能。

目標：探索 LLM 在沒有任何監督數據的情況下發展推理能力的潛力，專注于它們通過純 RL 過程的自我進化。

技術路線：DeepSeek-V3-Base作為基礎模型，GRPO作為RL訓練框架

DeepSeek-Zero出現的問題：低可讀性、語言混淆

方法：DeepSeek-R1

數千條冷啟動數據微調DeepSeek-V3-Base模型
應用基于推理的RL (DeepSeek-R1Zero)
在RL過程中接近收斂后，對RL的檢查點進行拒絕采樣創建新的SFT數據，結合來自DeepSeek-V3的監督數據（如寫作、事實QA、自我認知等），重新訓練DeepSeek-V3-Base模型
此后再次進行額外的RL過程，考慮所有場景的提示詞

此后，探索了DeepSeek-R1以蒸餾更小的模型

Approach

DeepSeek-R1-Zero: Reinforcement Learning on the Base Model

強化學習

優化目標：

$J_{GRPO}(\theta)=\mathbb{E}[q\sim P(Q), \{o_i\}^G_{i=1}\sim \pi_{\theta_{old}}(O|q)]\frac{1}{G}\sum^G_{i=1}(\min[\frac{\pi_{\theta}(o_{i}|q)}{\pi_{\theta_{old}}(o_{i}|q)}A_{i},clip(\frac{\pi_{\theta}(o_{i}|q)}{\pi_{\theta_{old}}(o_{i}|q)},1-\epsilon, 1+\epsilon)A_{i}]-\beta\mathbb{D}_{KL}(\pi_{\theta}||\pi_{ref}))$

其中 $\epsilon$ 和 $\beta$ 為超參數， $\hat{A}_{i,t}$ 為相關輸出獎勵的優勢， $\mathbb{D}_{KL}(\pi_\theta||\pi_{ref})=\frac{\pi_{ref}(o_{i}|q)}{\pi_\theta(o_{i}|q)}-\log{\frac{\pi_{ref}(o_{i}|q)}{\pi_\theta(o_{i}|q)}}-1 > 0$

對于每組獎勵 $\{r_1,r_2,\cdots, r_G\}$ ，有： $A_i=\frac{r_i-mean(\{r_1,r_2,\cdots,r_G\})}{std(\{r_1,r_2,\cdots,r_G\})}$

獎勵建模

基于規則的兩種獎勵，沒有應用process neural reward model或outcome neural reward model

準確獎勵：準確率獎勵模型評估響應是否正確
格式獎勵：將它的思考過程放在 <think> 和 </think>標簽之間

訓練模板

A conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think> <answer> answer here </answer>.
User: prompt.
Assistant:

頓悟時刻

aha moment

缺陷：糟糕的可讀性，語言混淆

DeepSeek-R1: Reinforcement Learning with Cold Start

兩個問題：

通過納入少量高質量數據作為冷啟動，是否可以進一步提高推理性能或加速收斂？
我們如何訓練一個用戶友好的模型，該模型不僅產生清晰連貫的思維鏈（CoT），而且還展示了強大的通用能力？

來源：X

冷啟動數據微調：

數據獲取：以長 CoT 的 few-shot prompting 為例，直接提示模型通過反射和驗證生成詳細的答案，以可讀格式收集 DeepSeek-R1-Zero 輸出，并通過人工標注者進行后處理來提煉結果
冷啟動特點：
- 高可讀性：在為 DeepSeek-R1 創建冷啟動數據時，我們設計了一個可讀的模式，在每個響應的末尾包含一個摘要，并過濾掉對讀者不友好的響應。在這里，我們將輸出格式定義為 |special_token|<reasoning_process>|special_token|<summary>，其中推理過程是查詢的 CoT，摘要用于總結推理結果
- 可能性：通過使用人類先驗仔細設計冷啟動數據的模式，我們觀察到與 DeepSeek-R1-Zero 相比性能更好

面向推理的強化學習：

目的：增強在推理密集型任務上的推理能力
CoT中混淆不同語言 -> 引入語言一致性獎勵，計算目標語言詞在 CoT 中的比例 -> 可能損失推理性能，但顯著提升了可讀性

拒絕采樣與有監督微調：

目的：整合來自其他域的數據，以增強模型在編寫、角色扮演和其他通用任務方面的能力
推理數據：600k，通過RL訓練的拒絕采樣獲取，將RL多次生成的答案投喂到DeepSeek-V3進行判斷
非推理數據：200K，Deepseek pipeline，復用Deepseek-v3 SFT部分數據。對于特定的非推理任務，調用DeepSeek-V3在回答問題之前生成CoT。

適用于所有場景的強化學習：