deepseek(2)——deepseek 關鍵技術

1 Multi-Head Latent Attention (MLA)

在這里插入圖片描述

MLA的核心在于通過低秩聯合壓縮來減少注意力鍵（keys）和值（values）在推理過程中的緩存，從而提高推理效率：

$c_t^{KV} = W^{DKV}h_t$

$[k_{t, 1} ^{C}; k_{t, 2} ^{C}; \cdots; k_{t, n_h} ^{C}] = k_t^C = W^{UK}c^{KV}_t$

$k_t^R = RoPE(W^{KR}h_t)$

$h_{t, i} = [k_{t, i} ^C; k_t^R]$

$[v_{t, 1} ^{C}; v_{t, 2} ^{C}; \cdots; v_{t, n_h} ^{C}] = v_t^c = W^{UV}c_t^{KV}$

對于 query，也會做類似的處理：

$c_t^Q = W^{DQ}h_t$

$$
[q_{t, 1} ^C; q_{t, 2} ^C; \cdots; q_{t, n_h} ^C] = q_t^C = W^{UQ}c_tQ

$[q_{t, 1} ^R; q_{t, 2} ^R; \cdots; q_{t, n_h} ^R] = q_t^R = RoPE(W^{QRc_t^Q})$

$q_{t, i} = [q_{t, i}^C; q_{t, i}^R]$

最終的注意力輸出 $u_t$ 是通過將 Query $q_t$ 和 Key $k_t$ 進行 softmax 歸一化之后的點積，在乘以 Value $v_t$ 得到：

$O_t^i = \sum _{j=1} ^{t} Softmax _j\left( \frac{q_{t, i}^T k_{j, i}}{\sqrt{d_h + d_h^R}} \right) v_{j, i^{'}} ^{C}$

$u_t = W^O [O_{t, 1}; O_{t, 2}; \cdots; O_{t, n_h}]$

1.1 無輔助損失負載平衡的 DeepSeekMoE

在混合專家（MoE）模型中，專家負載的不平衡會導致路由崩潰或增加計算開銷。傳統的方法通常采用輔助損失來鼓勵負載平衡，但過大的輔助損失會引入不可忽視的干擾梯度，從而損害模型性能。

為了避免在訓練過程中產生不良梯度，DeepSeek 提出了一種無輔助損失的負載平衡策略（Loss-Free Balancing），通過動態調整每個專家的偏差來控制負載平衡，而不引入干擾梯度。

DeepSeekMoE 的基本流程：

$h_t^{'} = u_t + \sum _{i=1} ^{N_s} {FFN _i ^{(s)}} (u_t) + \sum _{i=1} ^{N_r}g_{i, t} FFN _i ^{(r)} (u_t)$

$g_{i, t} = \frac{g_{i, t}^{'}}{\sum _{j=1} ^{N_r} g_{j, t} ^{'}}$

$g_{j, t} ^{'} = \begin{cases} s_{i, t}, & s_{i, t} \in Topk({s_{j, t} | 1 \leq j \leq N_r}, K_r), \\ 0, & otherwise, \end{cases}$

$s_{i, t} = Sigmoid(u_t^T e_i)$

針對專家負載不均衡的問題，為每個專家引入了一個偏置項 $b_i$ ，并將其加到親和力得分 $s_{i,t}$ ? 上：

$g_{j, t} ^{'} = \begin{cases} s_{i, t} + b_i, & s_{i, t} \in Topk({s_{j, t} + b_i | 1 \leq j \leq N_r}, K_r), \\ 0, & otherwise, \end{cases}$

偏置項僅用于路由。與FFN輸出相乘的門控值仍然來源于原始得分 $s_{i,t}$ 。

在訓練過程中，持續監控每個訓練步驟中整個 batch 的專家負載。在每個步驟的末尾，如果相應的專家過載，將減少偏置項 $b_i$ ；如果相應的專家欠載，將增加偏置項 $b_i$ 。通過動態調整，DeepSeek-V3 在訓練期間保持專家負載平衡，并比通過純輔助損失鼓勵負載平衡的模型實現了更好的性能。

1.2 互補序列級輔助損失

為了防止任何單個序列內的極端不平衡，還采用了互補序列級輔助損失。這種損失鼓勵每個序列中的專家負載保持平衡。

$\mathcal{L} _{Bal} = \alpha \sum _{i=1} ^{N_r}f_i P_i,$

$f_i = \frac{N_r}{K_r T} \sum _{t=1} ^T \mathcal{1} (s_{i, t} \in Topk({s_{j, t} | 1 \leq j \leq N_r}, K_r)),$

$s_{i, t} ^{'} = \frac{s_{i, t}}{\sum _{j=1} ^{N_r} s_{j, t}},$

$P_i = \frac{1}{T} \sum _{t=1} ^T s_{i, t} ^{'}$

其中 $\mathcal{1}(\cdot)$ 標識指標函數。

1.3 節點限制路由

DeepSeek-V3 采用了一種受限的路由機制來限制訓練過程中的通信成本。確保每個 token 最多被發送到 M 個節點，這些節點是根據每個節點上分布的專家的最高 $T_r$ 個親和分數之和來選擇的。

1.4 無 Token 丟棄

由于有效的負載平衡策略，DeepSeek-V3 在完整的訓練過程中保持了良好的負載平衡。因此，在訓練期間，DeepSeek-V3 不會丟棄任何 token。此外，還實施了特定的部署策略以確保推理時的負載平衡，所以 DeepSeek-V3 在推理期間也不會丟棄 token。

2 多 Token 預測（Multi-Token Prediction/MTP）

在這里插入圖片描述

Multi-Token Prediction / MTP 實現使用 K 個順序模塊來預測 K 個額外的 Token。

第 i個 MTP 模塊包括一個共享的特征層 $E mb (?)$ ，一個共享的輸出頭 $O u t He a d (?)$ ，一個 Transformer 塊 $TRM_i(·)$ ，以及一個投影矩陣 $W_i \in R^{d×2d}$ 。對于第 i 個輸入 $Tokent_i$ ，在第 i 個預測深度，首先結合第 (i-1) 深度的第 i 個 Token 的表示 $h_{i-1} \in R^d$ 和第 (i+1) 個 Token 的嵌入 $d(t_{i+1}) \in R^d$ ，通過線性投影：

$h_i ^{'k} = M_k [RMSNorm(h_i ^{k-1}); RMSNorm(Emb(t_{i+k}))]$

對于每個 MTP 模塊，其嵌入層與主模型共享。結合后的 $h_{i} ^{'}$ 作為第 i 深度的 Transformer 塊的輸入，產生當前深度的輸出表示 $h_i$ ：

$h_{1 : T-k} ^ {k} = TRM _k (h_{1 : T-k} ^ {'k})$

其中 T 標識輸入序列的長度，:表示切片操作（包括左右邊界）。

最后，以 $h_i$ 為輸入，共享的輸出頭將計算第 i 個額外預測 Token 的概率分布：

$p _{i+k+1} ^k = OutHead(h_i ^k)$

輸出頭 $O u t He a d (?)$ 將表示線性映射到logits，然后應用 $S o f t ma x (?)$ 函數計算第 i 個額外 Token 的預測概率。同時，對于每個 MTP 模塊，其輸出頭與主模型共享。

2.1 MTP 訓練目標

計算一個交叉熵損失 $\mathcal{L}^k _{MTP}$ ：

$\mathcal{L}^k _{MTP} = CrossEntropy(p_{2+k:T+1}^{k}, t_{2+k:T+1}) = -\frac{1}{T} \sum _{i=2+k} ^{T+1} \log P_{i} ^{k}[t_i]$

其中 T 表示輸入序列長度， $t_i$ 表示第 i 個位置的 ground-truth Token， $P_{i} ^{k}[t_i]$ 表示第 i 個 MTP 模塊給出的 $t_i$ 的相應預測概率。

最后，計算所有深度的 MTP 損失的平均值，并乘以一個權重因子 $\lambda$ ，得到整體 MTP 損失 $\mathcal{L} _{MTP}$ ，它作為 DeepSeek-V3 的訓練目標：

$\mathcal{L} _{MTP} = \frac{\lambda}{D} \sum _{k=1} ^{D} \mathcal{L}^k _{MTP}$

2.2 推理中的 MTP

MTP 策略主要旨在提高主模型的性能，在推理過程中，可以直接丟棄 MTP 模塊，主模型可以獨立且正常地工作。

此外，還可以將這些 MTP 模塊用于推理的 decoding，以進一步改善生成延遲。

3 deepseek 是如何生成思考過程的

3.1 基于規則的檢查

對于數學問題：“2 + 3 * 4 等于多少？”

系統知道正確答案是 14。它將查看 DeepSeek V3（RL 代理）生成的輸出，并專門檢查 <answer>標簽內的內容。如果 <answer>標簽包含14（或數字相同的內容），它會得到正獎勵，比如說 +1。如果它錯了，它會得到 0 獎勵，甚至可能是負獎勵。 --> (正確性檢查)

3.2 格式化獎勵

DeepSeek R1 Zero 還需要學習正確構建其推理，并且可以使用 <think> 和 <answer> 標簽，正確設置格式的獎勵較少。

檢查模型輸出是否正確地將推理過程包含在 <think> …</think> 中，并將最終答案包含在 <answer>… </answer>中。

3.3 獎勵訓練模板

為了使獎勵模型有效，研究人員設計了一個特定的訓練模板。該模板充當藍圖，指導 DeepSeek-V3-Base 如何在強化學習過程中構建其響應。

原始模板:

A conversation between User and Assistant. The user asks a question, and 
the Assistant solves it. The assistant first thinks about the reasoning 
process in the mind and then provides the user with the answer. The reasoning 
process and answer are enclosed within <think> </think> and <answer> </answer>
tags respectively, i.e., <think> reasoning process here </think>
<answer> answer here </answer>. User: {prompt}. Assistant:

這種結構化輸出對于研究人員以后窺視模型的推理步驟非常重要。

訓練 DeepSeek-R1-Zero 時，使用此模板為其提供提示。例如對于這里的數學問題，輸入如下：

A conversation between User and Assistant. The user asks a question, and 
the Assistant solves it. The assistant first thinks about the reasoning 
process in the mind and then provides the user with the answer. The reasoning 
process and answer are enclosed within <think> </think> and <answer> </answer>
tags respectively, i.e., <think> reasoning process here </think>
<answer> answer here </answer>. User: What is 2 + 3 * 4?. Assistant:

期望模型生成符合模板的輸出:

<think>
Order of operations:
multiply before add. 3 * 4 = 12. 2 + 12 = 14
</think>
<answer>
14
</answer>

DeepSeek 團隊有意保持這個模板簡單并專注于結構，而不是告訴模型如何推理。

3.4 DeepSeek R1 Zero 的強化學習訓練過程

第一步是使用舊策略（即強化學習更新之前的 DeepSeek-V3-Base 模型）生成多個可能的輸出。在一次訓練迭代中，假設 GRPO 采樣一組 G = 4 個輸出:

o1: <think>2 + 3 = 5, 5 * 4 = 20</think> <answer> 20</answer> （運算順序不正確
o2： <think>3 * 4 = 12, 2 + 12 = 14</think> <answer>14</answer> （正確）
o3： <answer>14</answer> （正確，但缺少標簽）
o4： <think>...一些胡言亂語的推理...</think> <answer> 7<answer> （不正確且推理不佳）

每個輸出將根據正確性和推理質量進行評估并分配獎勵。

為了引導模型進行更好的推理，基于規則的獎勵系統應運而生。每個輸出都根據以下條件分配獎勵：

準確度獎勵：答案是否正確。
格式獎勵：推理步驟是否使用標簽正確格式化。

獎勵分配如下：

輸出	準確率獎勵	格式獎勵	總獎勵
o1	0	0.1	0.1
o2	1	0.1	1.1
o3	1	0	1
o4	0	0.1	0.1

模型應該學會偏愛獎勵更高的輸出，同時降低生成不正確或不完整輸出的概率。

為了確定每個輸出對模型性能的改善或惡化程度，使用獎勵值計算優勢。優勢有助于通過強化更好的輸出來優化策略。計算平均第一個獎勵:

$\frac{0.1 + 1.1 + 1 + 0.1}{4} = 0.575$

標準差（近似值）= 0.5，現在計算每個輸出的優勢:

$A_i = \frac{r_i - Mean Reward}{Standard Deviation}$

即：

$A_1 = \frac{0.1 - 0.575}{0.5} \approx -0. 95$

$A_2 = \frac{1.1 - 0.575}{0.5} \approx 1.05$

$A_3 = \frac{1 - 0.575}{0.5} \approx 0.85$

$A_4 = \frac{0.1 - 0.575}{0.5} \approx -0. 95$

輸出 o2 和 o3 獲得正優勢，這意味著應該鼓勵它們。輸出 o1 和 o4 獲得負優勢，這意味著應該阻止它們。

然后，GRPO 使用計算出的優勢來更新策略模型 (DeepSeek-V3-Base)，以增加生成具有高優勢的輸出（如 o2 和 o3）的概率，并降低具有低優勢或負優勢的輸出（如 o1 和 o4）的概率。

更新根據以下內容調整模型權重：

策略比率：在新策略與舊策略下生成輸出的概率。
裁剪機制：防止過大的更新，這可能會破壞訓練的穩定性。
KL 發散懲罰：確保更新不會偏離原始模型太遠。

這確保在下一次迭代中，模型更有可能生成正確的推理步驟，同時減少不正確或不完整的響應。

因此，RL 是一個迭代過程。使用不同的推理問題重復上述步驟數千次。每次迭代都會逐漸提高模型的能力：

執行正確的操作順序
提供邏輯推理步驟
始終使用正確的格式

隨著訓練的深入，模??型會從錯誤中吸取教訓，在解決推理問題方面變得更加準確和有效。

4 由 deepseek R1 ZERO 到 deepseek R1

4.1 R1 Zero 的兩個主要問題

標簽內的推理過程難以閱讀，使人類難以理解和分析
語言混合，當被問到多語言問題時，模型有時會在同一個回答中混合使用多種語言，導致輸出不一致和混亂。

為了修復 R1 Zero 問題并真正讓 DeepSeek 推理正確，研究人員進行了冷啟動數據收集和監督微調。

4.1 冷啟動數據

4.1.2 使用長 CoT 進行少量提示

他們為 DeepSeek-V3 Base 提供了一些問題示例以及非常詳細的分步解決方案，稱為思維鏈 (CoT)。這個想法是讓模型通過示例學習并開始模仿這種分步推理風格。

對于示例問題 2 + 3 * 4 等于多少？，他們可能會顯示如下提示：

Problem Examples with Solutions:Problem: What's the square root of 9 plus 5?
Solution: | special_token | First, find the square root of 9, which is 3. 
Then, add 5 to 3.  3 + 5 equals 8. | special_token | Summary: The answer is 8.Problem: Train travels at 60 mph for 2 hours, how far?
Solution: | special_token | Use the formula: Distance = Speed times Time. 
Speed is 60 mph, Time is 2 hours. Distance = 60 * 2 = 120 miles. 
| special_token | Summary: Train travels 120 miles.Problem: What is 2 + 3 * 4?
Solution:

那些 | special_token | 東西只是將推理步驟與摘要分開的標記，使模型可以清楚地學習結構。

看到這些示例后，模型應該學會以類似的格式給出答案，例如 2 + 3 * 4 等于多少？

| special_token |  Following order of operations (PEMDAS/BODMAS), 
do multiplication before addition.  So, first calculate 3 * 4 = 12. 
Then, add 2 to 12. 2 + 12 = 14. | special_token | Summary: The answer is 14.

4.1.2 直接提示

他們收集數據的另一種方法是直接提示模型不僅解決問題，而且還要逐步明確地展示其推理，然后仔細檢查其答案。這是為了促進更仔細和周到的問題解決。

對于 12 + 3 * 4 等于多少？，提示可能是：

Problem: Solve this, show reasoning step-by-step, and verify:
What is 2 + 3 * 4?

4.1.3 后處理細化

他們甚至使用了已經訓練過的 R1 Zero 模型的輸出。盡管 R1 Zero 存在問題，但它可以進行一些推理。因此，他們采用了 R1 Zero 的輸出，并讓人類標注者使其更清晰、更結構化，并糾正其中存在的錯誤。

例如，混亂的 R1 Zero 輸出可能是：

<think>  ummm... multiply 3 and 4... get 12... then add 2...</think>
<answer> 14 </answer>

然后人類會對其進行改進，使其更清晰、格式更好：

| special_token | Reasoning: To solve this, we use order of operations,
doing multiplication before addition.
Step 1: Multiply 3 by 4, which is 12.
Step 2: Add 2 to the result: 2 + 12 = 14.
| special_token | Summary: The answer is 14.

最終獲得了非常好的冷啟動數據：

高質量推理示例：每個示例都展示了良好的逐步推理。
一致、可讀的格式： | special_token | 格式使所有內容統一且易于處理。
人工檢查：他們確保過濾掉任何不好的例子，因此數據干凈可靠。

獲得此冷啟動數據后，他們進行了監督微調 (SFT)。

4.2 監督微調

SFT 第 1 階段的核心思想是使用監督學習來教 DeepSeek-V3-Base 如何產生高質量、結構化的推理輸出。向模型展示了許多良好推理的例子，并要求它學習模仿這種風格。

對于 SFT，需要將冷啟動數據格式化為輸入-目標對。對于數據集中的每個推理問題，都會創建一個這樣的對：

輸入 = 提示或問題描述本身

User: What is 2 + 3 * 4? Assistant:

目標是希望模型學習生成的理想輸出:

| special_token | According to the order of operations (PEMDAS/BODMAS) ... 
Summary: The answer is 14.

微調過程從輸入開始：

提示 + 目標推理，在此提供一個問題和一個結構化的推理示例。這會訓練模型（DeepSeek-V3-Base 模型）以生成結構良好的響應。
在預測下一個標記中，模型會生成推理序列中的下一個單詞。使用損失函數將其與比較目標標記（計算損失）中的實際下一個標記進行比較。損失越大，意味著預測距離正確標記越遠。
在更新模型參數中，反向傳播和優化器會調整模型的權重以改進其預測。這個過程循環往復，重復許多輸入目標對，每次迭代逐漸提高模型結構化推理能力。

4.3 推理導向強化學習

前面說明了基于 deepseek V3 base 的 STF 訓練，為了真正提高其推理能力，研究人員引入了推理導向強化學習。

這一階段，依然使用相同的 GRPO 算法，但是獎勵系統有所改變，添加了語言一致性獎勵，來解決 R1 Zero 的語言混淆的問題。簡單說就是使用英語問問題，期望得到的回答是英語的。

在計算 RL 階段的總獎勵時，會將語言一致性的獎勵得分考慮在內，為語言一致性獎勵分配的權重較小。

4.4 拒絕抽樣

對于推理數據，DeepSeek 團隊希望獲得絕對最佳示例以進一步訓練模型。為此，他們使用了一種稱為拒絕抽樣的技術。

為了改進推理數據，DeepSeek 使用了拒絕抽樣。對于“2 + 3 * 4 等于多少？”，他們會從上一階段模型生成許多輸出。然后他們會評估每個輸出的正確性（答案“14”）和推理的可讀性。只有正確且推理充分的最佳輸出才會被保留，而其他輸出則被拒絕。對于復雜的推理，生成獎勵模型用于判斷推理質量。嚴格的過濾器會刪除混合語言、漫無邊際的推理或不相關的代碼。此過程會產生約 600k 個高質量推理樣本。

除了精煉推理數據外，他們還添加了非推理數據（約 20 萬個樣本），用于一般技能：寫作、問答、翻譯等，有時還會使用思維鏈來完成復雜任務。

最后，SFT 第 2 階段使用下一個標記預測在組合數據集（精煉推理 + 非推理）上訓練前一個模型檢查點。此階段使用來自拒絕采樣的頂級示例進一步改進推理，并將模型推廣到更廣泛的任務，同時保持用戶友好性。