DeepSeek V3 深度解析：MoE、MLA 與 GRPO 的架構革新

簡介

DeepSeek（深度求索）是一家源自中國的人工智能公司，成立于2023年，總部位于中國杭州。前身是國內量化投資巨頭幻方量化的子公司。公司專注于開發低成本、高性能的AI模型，致力于通過技術創新推動人工智能技術的普惠化。DeepSeek由幻方量化提供研發資金。獨特的經營模式使DeepSeek能夠在沒有外部壓力的情況下持續開展大模型研發，優先考慮大模型的長期研發價值。DeepSeek在深度學習、強化學習等領域取得多項突破，特別是在MoE（混合專家）架構和多頭潛在注意力機制（MLA）方面進行深入研究和創新。此外，DeepSeek堅持開源，公開模型權重和訓練細節，吸引全球開發者和研究者的廣泛參與。

DeepSeek于2025年1月重磅發布的DeepSeek-R1引發全球廣泛關注。與傳統模型不同，DeepSeek-R1模型通過采用蒸餾、強化學習、拒絕采樣與監督微調等多種優化策略，實現在保持高性能的同時顯著降低推理成本。DeepSeek-R1的突出表現與其基礎模型DeepSeek-V3密不可分，DeepSeek-V3作為DeepSeek發布的基礎模型，擁有6710億參數，該模型主要采用創新的混合專家（MoE）模型和多頭潛在注意力（MLA）機制，實現在保持高性能的同時進一步降低訓練成本。

從模型表現來看，基礎模型DeepSeek-V3在MATH 500（500道數學問題數據集）、AIME 2024（美國數學邀請賽）、Codeforces（在線編程競賽平臺）三項測試表現突出，準確率分別達到90.2%、39.2%和51.6%，超過Llama-3.1-405B-Inst、GPT-4o-0513和Claude-3.5-Sonnet-1022。推理模型DeepSeek-R1在AIME 2024、MATH-500、SWE-bench Verified（軟件工程基準測試數據集）三項測試準確率分別達到79.8%、97.3%和49.2%，超過OpenAI-o1-1217、OpenAI-o1-mini。

至頂智庫將深入解讀DeepSeek-V3基礎模型和DeepSeek-R1推理模型的技術細節。與其他文章的不同之處在于，我們力爭用通俗的語言和清晰的圖示為各位讀者更好了解相關模型和技術特征提供學習參考。

DeepSeek-V3基礎模型架構

2024年12月，DeepSeek-V3基礎模型發布，DeepSeek-V3使用14.8萬億高質量Token進行預訓練，并在后續階段結合監督微調（SFT）和強化學習（RL）進行優化，在各項任務中表現出色。DeepSeek-V3模型參數量達到671B（6710億），在實際推理和訓練中，每個Token僅激活37B（370億）參數。DeepSeek-V3共包含61層Transformer架構，并將前饋神經網絡中除前三層外全部替換為MoE架構。每個MoE架構包括1個共享專家和256個路由專家，每個token會激活8個路由專家。

DeepSeek-V3在經典Transformer架構上進行改進：

1）前饋神經網絡（Feed-Forward Network）引入DeepSeekMoE架構，采用細粒度專家以及劃分共享專家策略。
2）在注意力層（Attention）中引入MLA機制，能夠在模型運行中減少KV（鍵值）緩存大小，提高模型性能，較好解決傳統多頭注意力中KV緩存機制對計算效率的阻礙。

混合專家模型(Mixture of Experts, MoE)

DeepSeek-V3模型基于經典Transformer架構，在前饋神經網絡（Feed-Forward Network）引入混合專家模型（Mixture of Experts, MoE）。MoE核心思想在于將任務分解為多個子任務，由不同細分領域的專家進行處理，從而提高模型的靈活性和性能。通過動態分配計算資源，MoE能夠高效利用硬件，同時保持高精度和泛化能力。

下面就MoE基本概念進行具體介紹。混合專家（Mixture of Experts，MoE）是一種利用多個不同子模型（或“專家”）來提升大語言模型質量的技術。MoE架構主要由混合專家層和路由機制構成，如圖（MoE架構與解碼器示意圖）所示：

專家模塊

每個前饋神經網絡包含一組子模型，每次從中選擇一個子集。專家擅長處理特定數據或任務。MoE架構允許多個專家同時存在，但在每次計算過程中，僅激活其中部分專家。專家的選擇通常基于輸入數據特征，使每個專家能專注于處理特定模式或語義上下文，提升模型的效率和泛化能力。如圖（MoE架構專家模塊示意圖）所示，MoE架構由四個獨立的前饋神經網絡（專家）組成，每個專家專注不同的任務，當輸入序列與對應模塊相關時，模型通過動態路由機制選擇性地激活相應專家。

路由機制

決定將token分配給相應專家。常見的路由機制包括基于Softmax函數門控機制，該機制計算輸入token與各個專家的相關性，并基于概率選擇最匹配的專家。一般而言，MoE僅激活少數幾個專家，以減少計算成本，同時保持模型的高效性和任務適應能力。如圖（MoE架構示意圖）所示，路由機制將輸入數據分配給合適的專家。輸入通過前饋神經網絡（FFNN）處理后的特征數據，并使用Softmax激活函數計算每個專家激活概率。概率值表示每個專家在當前任務中被激活的可能性。根據概率大小，模型選擇（概率值高）最適合處理當前輸入的專家，并激活該專家進行計算。

DeepSeek-V3模型采用DeepSeekMoE架構，與傳統MoE架構不同，DeepSeekMoE架構采用細粒度專家以及劃分共享專家策略。

傳統MoE架構下每個路由專家（DeepSeek-V3 MoE架構圖中藍色部分）學習知識，通常導致模型在處理陌生任務時表現不佳，面臨知識交叉和知識冗余等問題。

DeepSeekMoE采用細粒度專家劃分，對專家網絡進行差異化設計，允許不同參數規模或架構，并將部分專家劃分為共享專家（DeepSeek-V3 MoE架構圖中綠色部分），共享專家數量較少且相對固定，其始終處于被激活狀態，可以被多個任務共同使用，負責整合不同數據源的共同知識。

簡單而言，集中的共享專家掌握共享知識，就像公司擁有的共享資料庫，員工需要通用資料直接去共享資料庫里找，不用每個員工分別去收集，節省大量時間和精力。共享專家模式減少對特定專家的依賴，緩解專家利用不均衡的問題，有效提升專家的利用效率。

在MoE架構的訓練過程中，由于路由策略的影響，不同專家接收到的訓練數據分布往往不均衡，導致負載不平衡問題加劇，形成計算瓶頸。與傳統引入輔助損失的解決方法不同，DeepSeek-V3采用無輔助損失負載均衡（Auxiliary-Loss-Free Load Balancing），通過動態調整專家間的負載分配，確保訓練過程中各專家的負載均衡。此外，為防止單個序列出現極端負載不平衡的情況，DeepSeek-V3還采用序列級輔助補充損失策略（Complementary Sequence-Wise Auxiliary Loss），促使每個序列上的專家負載實現均衡。

多頭潛在注意力(Multi-Head Latent Attention, MLA )

注意力機制（Attention Mechanism）是Transformer架構中的重要組成部分。。注意力機制不僅關注剛生成的詞，并綜合考慮上下文和之前生成的所有詞。模型為相關詞分配不同權重，差異化關注對生成詞的影響。動態、差異化的關注機制使得模型能夠捕捉上下文中的關鍵信息，生成更加自然、連貫且語義豐富的文本，這就是注意力機制的直觀體現。

為實現注意力機制，Transformer架構引入查詢（query）Q、鍵（key）K和值（value）V計算注意力。Q、K和V均為高維矩陣。語句生成過程中，通常將Q和K相乘，算出前面句子中的不同部分與下一個生成詞的關聯度，再乘以表示前面句子內容的值V，算出注意力，決定下一個詞。多頭注意力機制（Multi-Head Attention，MHA）作為Transformer架構的核心構成，模型訓練中為實現注意力機制，將輸入向量分割成多個注意力頭（好比在閱讀一本小說，單一注意力就像只有一雙眼睛，只能關注一個方面，而多頭注意力就像擁有多雙眼睛，每雙眼睛專注小說的不同方面），多個注意力頭還可以并行計算，提高模型的處理速度，同時減少過擬合風險，增強模型的泛化能力。

DeepSeek-V3運用多頭潛在注意力（Multi-Head Latent Attention, MLA），MLA主要解決大語言模型在訓練和推理過程中的瓶頸問題，特別是降低占用大量內存的KV緩存。該技術首次在DeepSeek-V2中引入，與分組查詢和多查詢注意力等方法相比，MLA是目前開源模型中顯著減小KV緩存大小的最佳方法。

關于緩存問題需要進一步說明。當前大語言模型主要采用自回歸方法，自回歸就是根據前面的詞來預測和生成后面的詞。在生成每一個新詞的過程中，需要把前面已經生成的部分根據注意力重算一遍。如果生成的文章較長就會產生很多重復計算，因而會浪費大量計算資源。為節省計算資源，通常會把前面計算過的部分存儲在緩沖區，但這會占用大量存儲空間。上述提到的多頭潛在注意力（MLA）可以解決相關問題。

多頭潛在注意力（MLA）的創新之處在于采用低秩鍵值聯合壓縮技術（Low-Rank Key-Value Joint Compression），其可以將多頭注意力機制中需要緩存的鍵（Key）和值（Value）矩陣壓縮為一個低維潛在向量（即將原矩陣表示為兩個較小矩陣的乘積，在推理過程中僅緩存潛向量而不緩存完整的鍵值）。如此不僅顯著減少內存的占用，還能夠保留關鍵信息，實現高效的注意力計算。

群體相對策略優化（Group Relative Policy Optimization, GRPO）

群體相對策略優化(Group Relative Policy Optimization, GRPO)是一種強化學習算法，核心思想是通過組內相對獎勵來優化策略模型。該算法旨在提升大語言模型的推理能力，尤其在數學和編程等復雜任務中表現突出。GRPO的主要特點在于其不依賴于獨立的價值函數模型，而是通過多個輸出的平均獎勵進行優化，簡化訓練過程，減少內存消耗，在某些任務上取得顯著的性能提升。GRPO并非全新的算法，而是在近端策略優化（Proximal Policy Optimization ,PPO）算法的基礎上改進得到的。PPO是當前強化學習領域廣泛使用的一種策略梯度算法，通過限制策略更新幅度來提高訓練的穩定性和效率。與GRPO相比，PPO的主要特征是基于Actor-Critic架構，需要訓練一個與策略模型大小相當的價值網絡。為更好理解GRPO算法，我們首先回顧一下PPO的基本原理和其在策略優化中的作用。

近端策略優化（Proximal Policy Optimization ,PPO）算法核心步驟可以概括為以下幾個階段：

首先，初始化策略網絡、價值網絡和初參數，讓智能體根據策略網絡給出的動作概率分布來選擇動作并與環境進行交互，收集數據信息。之后利用價值網絡估計每個狀態的價值函數。通過廣義優勢估計（GAE）計算優勢函數，即計算每個動作的優勢值，衡量該動作相對于平均動作的好壞程度。如果當前動作比平均水平好，應該增加其概率；

反之則降低其概率。PPO的關鍵在于使用裁剪策略優化目標，防止策略更新幅度過大，造成訓練不穩定的問題。PPO計算新的策略概率比與舊策略概率比之間的比值，如果這個比值超過預設范圍，則通過裁剪的方式來限制更新幅度，確保策略不會發生過大變化。重復上述數據收集、優勢估計和策略更新的步驟，不斷優化策略網絡，直到達到預設的停止條件。相比傳統策略梯度方法，PPO通過裁剪策略更新幅度、多次策略更新，提高訓練的穩定性和效率。

不過，PPO算法存在參數調整復雜，計算資源不足等缺陷。為解決這些問題，DeepSeek在其推出的DeepSeek-V3和DeepSeek-R1中均采用群體相對策略優化算法（GRPO），放棄通常與策略模型(policy model)大小相同的評價模型(critic model)，通過群體得分來估計基線。我們以GRPO在DeepSeek-R1中的應用為例，闡述其具體算法原理。

DeepSeek-R1在監督微調(SFT)的基礎上，引入GRPO進行強化學習(RL)微調。

首先，對于每個輸入提示，模型根據當前策略生成多個可能輸出，為后續獎勵計算提供豐富信息。獎勵模型依據特定任務需求對每個輸出打分。

隨后對獎勵值進行歸一化處理，使不同樣本之間的獎勵具有可比性，并計算相對優勢對比同一輸入下的多個輸出，減少方差提高學習效率。根據相對優勢調整策略模型，使其生成高獎勵輸出的概率增加，低獎勵輸出概率減少。

同時，為防止策略在更新過程中發生劇烈變化，引入KL散度約束確保模型穩定性。循環執行上述步驟，逐步優化策略，使模型在特定任務上的表現不斷提升。當模型性能達到穩定狀態時，停止訓練或調整策略。

在強化學習訓練完成后，DeepSeek-R1進一步采用拒絕采樣技術(Rejection Sampling, RS)。之后DeepSeek-R1進入最終的強化學習階段。在模型具備較強的通用性后，再次應用GRPO算法，使其符合安全性要求，強化模型適應性。

DeepSeek開發群體相對策略優化算法是算法變革的關鍵轉折點。GRPO在價值網絡應用、獎勵計算方式、策略更新機制、計算效率等許多方面優于PPO。

在價值網絡使用方面，PPO算法中，策略網絡(actor)和價值網絡(critic)通常是并行訓練的。PPO依賴于一個與策略模型大小相當的價值網絡，來估計優勢函數，調整策略網絡的參數。

每次更新時，PPO需要對每個時間步的狀態進行評估，計算復雜度高。GRPO不再需要顯式的價值網絡，而是在分組范圍內對多個采樣輸出進行對比，隨后依據對比結果選取更優策略。在每次更新過程中，不再依靠價值函數來實施評估，而是通過比較同一狀態下多個輸出的獎勵情況，直接判斷哪些動作更為優良，這極大降低計算與存儲方面的需求。

在獎勵計算方式方面，PPO采用廣義優勢估計(GAE)來計算優勢函數。GAE需要對每個動作的即時獎勵和未來獎勵的折扣總和進行估計，并且要結合多個時間步的獎勵信息，計算過程較為復雜。GRPO通過采樣一組動作，并直接計算這些動作的獎勵值，進行歸一化處理，得到相對優勢。這種方法避免復雜的GAE計算，直接依賴當前的獎勵信號，計算更加簡潔高效，靈活性更強。

策略更新機制方面，PPO通過裁剪概率比（clip operation）來限制策略更新的幅度，確保策略分布的變化在可控范圍內。由于每次更新都需要裁剪，計算效率受到一定影響。GRPO采用KL散度約束來控制策略更新的幅度。KL散度度量的是兩個概率分布之間的差異，用于對比新舊策略分布，從而限制更新的幅度。引入KL散度項，GRPO可以精確控制每次策略更新的幅度，確保策略不會發生過大的變化。

計算效率方面，PPO需要反復維護和更新價值網絡，并依賴于廣義優勢估計（GAE）來估計每個動作的優勢，在每輪訓練中需要大量計算和存儲數據，計算效率更低。GRPO通過避免價值網絡的使用，顯著減少計算量并提高計算效率，降低內存占用。

計算效率高使GRPO能夠提高訓練效率，減少模型訓練時間，更適合大規模語言模型的微調。DeepSeek團隊開發的GRPO算法，創新性地摒棄耗時且計算成本高昂的人類反饋強化學習和傳統監督微調過程，使訓練過程高效低耗，模型性能在某些任務上取得顯著提升，模型進一步與人類偏好對齊，提高訓練效率。研究人員在訓練DeepSeek-R1-Zero時，發現模型出現“頓悟時刻”，即在完全沒有人工標注數據的情況下，模型展現出持續的自我進化能力。“頓悟時刻”為推進AI系統的自主性和智能化提供寶貴的啟示。

強化學習（Reinforcement Learning, RL）

強化學習（Reinforcement Learning, RL）是一種機器學習方法，指大模型通過與環境交互，根據環境反饋的獎勵信號來學習最優策略，進而最大化累積獎勵。

在大模型后訓練中，人類反饋強化學習（RLHF）更為常用，該訓練方法需要大量人類反饋數據，數據收集成本、人力資源投入、多階段訓練和計算資源需求等約束導致其成本較高。

在此背景下，DeepSeek團隊提出“純強化學習”這一訓練方法，探索大語言模型（LLM）在沒有任何監督數據的情況下開發推理能力的潛力。

純強化學習（Pure Reinforcement Learning, RL）是指直接通過強化學習訓練模型，而不依賴于傳統的監督微調（SFT）與其他監督數據，該方法使模型能夠通過鏈式推理 (CoT) 探索復雜問題的解決方案，進而擁有自主進化推理能力。作為DeepSeek-R1的無監督微調（SFT）版本，DeepSeek-R1-Zero直接在DeepSeek-V3基礎模型模型的基礎上使用強化學習進行訓練并實現自我演化。

純強化學習的訓練過程具有重要意義：

1）傳統的大模型訓練領域中，監督微調（SFT）需要高質量的人工標注數據，此標注過程周期長、成本高，且可能因標記者的偏好而引入潛在偏差，而純強化學習則擺脫監督數據帶來的成本與偏差；

2）復雜的推理任務超出人類的普遍能力，純強化學習可能使模型能夠涌現出超越傳統人類思維上限的超級推理能力；

3）純強化學習不依賴于顯式標注，允許模型使用非自然語言表征方法進行“思考”，從而具有超越自然語言進行邏輯推理的潛力。

純強化學習的基本流程：

1）強化學習通過采用群相對策略優化(GRPO)來降低模型訓練成本，避免成本較高的人類反饋強化學習（RLHF）和傳統的監督微調（SFT）過程，并放棄與策略模型(policy model)大小相同的評價模型(critic model)，使用群體得分來估計基線；

2）獎勵建模決定強化學習的效果與優化方向，用于評估解決方案。如正確的解決方案會被標記為“好”，錯誤的解決方案會被標記為“壞”。DeepSeek-R1-Zero采用基于規則的獎勵系統，該系統主要包括準確性獎勵 (Accuracy rewards)與格式獎勵 (Format rewards)。其中，準確性獎勵用于評估響應是否正確，格式獎勵則將模型的思考過程置于“<think>”和“</think>”標簽之間；

3）訓練模板通過設計簡單的模板引導基礎模型遵循指定指令，達到DeepSeek-R1-Zero訓練目的。該模板要求模型通過生成推理過程進而輸出最終答案，能夠將相關內容限制在某一特定結構化格式內，避免內容上的特定偏向。

純強化學習帶來的自我演化（self-evolution）過程：

純強化學習能夠推動DeepSeek-R1-Zero自主提升推理能力，主要體現為自我演化過程。該模型內部能力的自然發展使其自主獲得處理復雜推理任務的能力，且隨著測試計算時間的延長，該能力會隨之進一步提高。此外，隨著計算量的增加，DeepSeek-R1-Zero通過強化學習獲得“反思”這一復雜行為，能夠重新審視并評估其先前的回答，進而自發探索不同的解決方案。

純強化學習引發的“頓悟時刻”（Aha Moment）：“頓悟時刻”是在DeepSeek-R1-Zero訓練的過程中產生的現象，指模型能夠通過重新評估其初始方法為問題分配更多的思考時間，即“更長的推理”。這一現象說明無需顯式地教導模型如何解決問題，只需為其提供適當的激勵，其便能自主發展出高級的解決策略，為未來更自主、更具適應性的模型鋪平道路。

監督微調（Supervised Fine-Tuning,SFT）

監督微調（Supervised Fine-Tuning, SFT）基本思想是利用標注數據對預訓練模型進行進一步訓練，使其適應特定任務需求。

監督微調一般流程為：

1）預訓練?：首先在一個大規模數據集上訓練一個深度學習模型，通常使用自監督學習或無監督學習算法進行預訓練。

2）?微調?：使用目標任務的訓練集對預訓練模型進行微調。通常只有預訓練模型的一部分層被微調，例如只微調模型的最后幾層或某些中間層。在微調過程中，通過反向傳播算法對模型進行優化，使其在目標任務上表現更好。

3）評估?：使用目標任務的測試集對微調后的模型進行評估，得到模型在目標任務上的性能指標?。

DeepSeek-V3在傳統監督微調基礎上對監督微調進行創新：

如梳理指令精調（instruction-tuning）數據集。該數據集包括1.5M個實例，跨多個域，每個域都量身定制不同數據合成方法; 建立高質量提示（Prompt）體系，引導模型形成自身的反饋與驗證機制。

與傳統監督微調相比，DeepSeek-V3監督微調架構通過多領域數據集構建、推理數據優化生成、非推理數據高質量標注，系統性解決傳統SFT方法在數據依賴性、過擬合風險和多任務適應性等方面局限性。該架構不僅為DeepSeek-V3高性能提供技術保障，也為大規模預訓練模型在下游任務中高效微調提供方法論指導。

冷啟動（Cold Start）

冷啟動（Cold start）是指模型初始運行階段，由于缺乏足夠的歷史數據或用戶行為信息，模型通常難以做出有效決策為用戶提供個性化方案，因此需要在冷啟動階段引入冷啟動數據（Cold start data）對模型進行微調。相關數據雖然與目標任務具體內容無直接關聯，但能為模型提供基本語言理解能力、背景知識和領域知識，從而幫助模型在缺乏任務特定數據情況下，啟動訓練并具備一定處理能力，避免模型從零開始的訓練難題。

為避免模型在訓練初期可能出現的不穩定性問題，DeepSeek-R1在冷啟動階段引入長思維鏈（long CoT）數據進行微調。相關數據收集方法主要包括直接用模型生成經過反思和驗證的提示內容；結合人類標注對DeepSeek-R1-Zero輸出的結果進行優化等為模型提供更清晰的學習方向。

此外，針對DeepSeek-R1-Zero運行中輸出可讀性差等問題，DeepSeek-R1采用結構化、易于理解的冷啟動數據格式，并在數據末尾加入總結信息，使模型能夠快速理解和處理這些數據。這一設計不僅提高冷啟動數據可讀性，還增強模型在初期階段性能。通過這樣的冷啟動數據，DeepSeek-R1在訓練初期比DeepSeek-R1-Zero更加高效、準確理解任務，尤其在強化學習適應能力和任務處理效率方面表現出顯著優勢。因此，通過精心設計的冷啟動數據，DeepSeek-R1在啟動階段能迅速積累任務處理能力，表現出遠超DeepSeek-R1-Zero的性能，特別是在強化學習初期階段，能夠更好處理復雜任務，提升模型整體表現和發展潛力。

模型蒸餾（Model Distillation）

模型蒸餾(Model Distillation)是指將大型復雜模型（教師模型）的知識遷移到小型高效模型（學生模型）的技術，其核心目標是在保持模型性能的同時，顯著降低模型的計算復雜度和存儲需求，使模型更適合在資源受限的環境中部署。教師模型訓練良好、性能較高，但其規模龐大，在計算和存儲資源上存在較大壓力。學生模型是一個結構較為簡單的小模型，通過模仿教師模型的行為，學習其強大的知識和表示能力。與傳統的學習方式不同，教師模型輸出軟標簽（概率分布）而不是硬標簽（真實類別標簽），軟標簽包含類別間相似性和內在關系的更多信息，幫助學生模型捕捉更多潛在特征，提升泛化能力。

模型蒸餾過程通常包括以下步驟：

1)教師模型訓練：訓練一個高性能的教師模型。該模型往往較大且復雜，包含大量參數；

2)數據準備：從教師模型中提取樣本；

3)學生模型訓練：通過最小化學生模型與教師模型輸出之間的差異來訓練學生模型；

4)優化與調整：調整學生模型的結構和參數，使其在保持較高準確率的同時，達到接近教師模型的性能水平。

蒸餾有助于彌補MoE架構的缺陷。MoE的架構特點使得其不適用于專業應用場景（例如單一專家場景）和資源限制場景（例如端側推理）。

DeepSeek選擇Llama和Qwen系列開源大模型進行蒸餾，將推理能力遷移到MoE架構不適合的場景。結果顯示，蒸餾得到的模型推理能力明顯好于原開源模型。

相較于傳統的蒸餾技術，DeepSeek-R1模型在蒸餾技術、知識遷移、模型架構以及訓練過程等多個方面進行創新。DeepSeek將數據蒸餾和模型蒸餾相結合，提升模型性能并降低計算成本。

DeepSeek通過教師模型進行數據增強、偽標簽生成和優化數據分布，生成高質量的推理數據樣本，實現數據蒸餾；通過監督微調(SFT)將教師模型的知識遷移到學生模型中，實現模型蒸餾。

模型蒸餾過程并未引入強化學習(RL)階段，以準確驗證蒸餾技術的有效性。具體而言，DeepSeek用教師模型生成80萬個樣本，對開源模型Qwen和Llama進行直接微調。

知識遷移的創新方面，DeepSeek采用多種知識遷移策略，包括基于特征的蒸餾和基于特定任務的蒸餾。基于特征的蒸餾方法旨在提取教師模型中間層的特征信息并傳遞給學生模型，幫助學生模型更好學習數據的本質特征。

其核心是讓學生模型在模仿教師模型內部學習過程中產生的特征，而非只關注最終輸出結果。基于特定任務的蒸餾方法側重于根據不同具體任務的特點和需求，對蒸餾過程進行針對性優化，使學生模型在該任務上達到盡可能高的性能。這些策略的優化使得DeepSeek的蒸餾模型在多個基準測試中表現優異。

訓練過程的創新方面，DeepSeek的蒸餾訓練數據主要來自教師模型生成的推理數據樣本。其利用教師模型進行數據處理，為學生模型提供豐富、準確的學習樣本。同時采用數據增強技術，對原始數據進行變換和處理，以增加數據集的多樣性。

在訓練過程中，DeepSeek采用監督微調(SFT)的方式，學生模型在微調過程中，以教師模型的輸出作為監督信號，學習教師模型的輸出概率分布，并調整自身參數，使輸出盡可能接近教師模型，從實現知識從教師模型到學生模型的遷移。

在蒸餾過程中，溫度參數調整是一個關鍵因素。溫度是指蒸餾時用來調節教師模型輸出概率分布平滑度的參數。較高的溫度參數使分布更加平滑，類別之間的概率差異更小。

教師模型中的軟標簽可以包含更多信息，學生模型在這種模糊情況下能夠學到各個類別的可能性，而不僅是單一的預測結果。隨著訓練的進行，溫度會逐漸降低，學生模型會專注于更準確的分類結果。動態學習率調整也是重要的優化技術。學習率可以理解為模型學習的速度。動態學習率策略根據訓練進度和模型性能動態調整學習率，如果模型訓練較好，就減小學習率讓模型參數更新的步伐變小，準確收斂到最優解；反之，則加大學習率，讓模型快速朝著最優解的方向逼近。

思維鏈（Chain of Thought,CoT）

通過讓大模型逐步參與將一個復雜問題分解為多個子問題并依次進行求解的過程可以顯著提升大模型的性能，而這一系列推理的中間步驟就被稱為思維鏈（Chain of Thought，CoT）。其核心理念在于讓模型像人類一樣，將問題分解為多個步驟，逐步推導出答案。

一個完整包含思維鏈的Prompt通常由指令、邏輯依據、示例三部分組成。其中，指令用于描述問題并告知大模型的輸出格式；邏輯依據即思維鏈的中間推理過程，也是思維鏈的核心部分；示例則指以少樣本的方式為大模型提供輸入輸出對的基本格式。思維鏈與推理能力密切相關，其為模型提供一種結構化的思考方式，使模型能夠逐步分析問題、探索多種解決路徑，從而提高推理的準確性和效率。例如，在解答數學問題的過程中，模型并不只給出計算結果，而是逐步分析問題，展示解題思路和計算過程，如圖（思維鏈示意圖）所示：

DeepSeek-R1-Zero模型訓練過程最大的特點就是其僅使用強化學習（Reinforcement Learning）進行訓練，這種不依賴于監督數據的訓練方式使模型能夠通過鏈式推理 ( CoT) 探索復雜問題的解決方案，利用各種思維數據特別是長思維鏈數據來激活模型的推理能力，主要表現為模型在<think>標簽內生成的推理過程。此外，這種涌現長思維鏈的能力是基于模型純強化學習的特點自發產生的。

為避免強化學習在基礎模型上的早期不穩定階段，DeepSeek-R1使用少量長推理鏈數據進行微調，作為初始強化學習模型的基礎。

長推理鏈數據主要通過三種方式進行收集：

1）使用帶有長推理鏈示例的少樣本提示 (few-shot prompting)；

2）直接提示模型生成帶有反思和驗證步驟的詳細答案；

3）以可讀格式收集 DeepSeek-R1-Zero輸出的內容，并通過人工標注進行后期處理。

利用所收集到的長推理鏈數據對DeepSeek-V3-Base模型進行微調，DeepSeek-R1從經過數千條長推理鏈樣本微調的檢查點開始進行強化學習，并且在其訓練過程中，隨著訓練步驟的增加，將進一步涌現出長思維鏈能力，模型的推理路徑得以延長。DeepSeek-R1模型在推理過程中能夠自然地形成思維鏈，并按照人類期望的方式進行推理。

思維鏈推理機制具有以下優勢：

1）提升模型的常識推理能力，采用思維鏈提示的大語言模型在多組任務中的表現都優于人類基線；

2）提高模型的數學邏輯推理能力。語言模型一般在算術推理任務上的表現較差，而應用思維鏈后大語言模型的邏輯推理能力顯著提高，能夠解決部分需要精確、分步驟計算的復雜數學問題；

3）增強模型的可信度和可解釋性，思維鏈推理模式使得模型生成的結果有更加清晰的邏輯鏈條，更便于被接受。

DeepSeek-R1-Zero、DeepSeek-R1通過引入思維鏈推理機制，顯著提高模型在復雜推理任務上的表現，降低模型訓練對標注數據的依賴，進而實現降低訓練成本和算力消耗的目的。

DeepSeek-V3訓練流程

如圖（DeepSeek-V3訓練流程）所示，DeepSeek-V3訓練流程主要分為四階段。在基礎預訓練階段，以構建通用語言表征能力為目標，V3模型使用14.8T高質量預訓練數據集，采用PSM框架構建FIM訓練數據，增強模型對上下文中斷續文本的生成能力，并使用AdamW 優化器避免模型出現過度擬合問題；

在長文擴展訓練階段，V3模型運用YARN技術通過兩階段訓練將上下文長度擴展至128K；在SFT訓練階段，V3模型梳理包括多個領域共1.5M個實例的指令精調數據集，在某些特定領域構建量身定制的專家模型數據合成器，并利用DeepSeek-R1模型合成與推理相關的SFT數據集，對于非推理數據利用人工注釋驗證后DeepSeek-V2.5生成數據，保證數據準確性；

在強化學習階段，V3模型采用2種獎勵模型，基于規則的獎勵模型和基于模型的獎勵模型，提高生成內容的可靠性，并采用GRPO策略在一個分組內進行多個采樣輸出比較，根據比較結果選擇較優策略。

DeepSeek-R1訓練流程

如圖（DeepSeek-R1訓練流程）所示，DeepSeek-R1訓練流程主要分為四階段。在冷啟動階段，R1模型采用包括長思維鏈等數據基于V3基礎模型進行有監督精調（SFT），克服強化學習初期不穩定問題；在面向推理的強化學習階段，R1模型基于GRPO進行強化學習，根據模型輸出準確度、格式和語言一致性進行訓練獎勵，顯著提升模型的推理性能；在拒絕采樣與SFT階段，通過結合其他領域的數據，運用600K推理數據與200K非推理數據，極大增強R1模型在寫作、角色扮演和其他通用任務中的能力；在全場景強化學習與對齊階段，為提高模型有用性和無害性，增強推理能力，該階段進行面向全場景的強化學習和人類偏好對齊，并結合來自不同渠道的數據，將獎勵信號與不同提示分布相結合。