DeepSeek基礎：PPO、DPO、GRPO概念詳解

DeepSeek-R1 的強化學習方案中，其亮點之一在于通過 GRPO 算法取代RLHF 常用的 PPO，通過盡可能減少人類標注數據，設計純 RL 的環境，用精心設計的獎勵機制來訓練模型自己學會推理。那么什么是PPO、GRPO，其產生的背景、核心思想和應用場景又有哪些？本文將從以下方面介紹：

\1. 強化學習基礎

\2. PPO、DPO、GRPO深度解析

\3. 總結與應用建議

*一、強化學習基礎*

1. 什么是強化學習？

定義：強化學習（Reinforcement Learning, RL）是機器學習的一個分支，其核心是通過與環境（Environment）的交互學習最優決策策略。通過試錯獲得反饋（獎勵或懲罰），最終目標是最大化累積獎勵。

類比：類似于訓練小狗完成動作——做對了給零食（正獎勵），做錯了不鼓勵（負獎勵），最終小狗學會“坐下”或“握手”。

最近兩年，大家都可以看到AI的發展有多快，我國超10億參數的大模型，在短短一年之內，已經超過了100個，現在還在不斷的發掘中，時代在瞬息萬變，我們又為何不給自己多一個選擇，多一個出路，多一個可能呢？

與其在傳統行業里停滯不前，不如嘗試一下新興行業，而AI大模型恰恰是這兩年的大風口，整體AI領域2025年預計缺口1000萬人，其中算法、工程應用類人才需求最為緊迫！

學習AI大模型是一項系統工程，需要時間和持續的努力。但隨著技術的發展和在線資源的豐富，零基礎的小白也有很好的機會逐步學習和掌握。【點擊藍字獲取】

【2025最新】AI大模型全套學習籽料（可白嫖）：LLM面試題+AI大模型學習路線+大模型PDF書籍+640套AI大模型報告等等，從入門到進階再到精通，超全面存下吧！

2. 強化學習的產生背景

起源：1950年代控制論與心理學研究的結合，早期應用于機器人路徑規劃、游戲AI等。

核心需求：解決序列決策問題（Sequential Decision Making），即在多步決策中平衡短期與長期收益。

爆發點：2016年AlphaGo擊敗李世石，強化學習成為AI領域的熱點技術。

3. 強化學習核心要素

在這里插入圖片描述

5. RLHF（基于人類反饋的強化學習）

類比：AI的“家教輔導班”

想象你在教一個孩子學畫畫，但無法直接用分數評價每幅畫的好壞（傳統獎勵函數設計困難）。于是你請了一位美術老師（人類），對孩子的畫作進行點評（反饋），告訴TA哪些線條更優美、哪些配色需要改進。

RLHF的核心思想**：**通過人類的主觀反饋替代或修正環境獎勵，讓AI更符合人類價值觀。
在這里插入圖片描述

通過RLHF，AI不僅能完成目標任務，還能理解人類的主觀意圖和價值觀。這是DPO、PPO、GRPO等技術的重要應用場景之一。

二、PPO、DPO、GRPO深度解析

1. PPO（近端策略優化）

類比：健身教練的“安全訓練計劃”

想象你是一名健身教練，學員要通過不斷調整訓練動作來增強肌肉（最大化獎勵）。但直接讓學員每天大幅增加訓練量（策略突變），可能會導致受傷（訓練崩潰）。

PPO的核心思想**：**制定一個“安全范圍”，讓學員每次訓練量只能小幅調整，確保穩定進步。

核心原理詳解

(1) 策略梯度（Policy Gradient）：

基礎思想：根據動作的“好壞”（優勢函數）調整策略。比如，某個動作讓學員舉得更重（高獎勵），就多鼓勵這個動作。

問題：如果學員突然嘗試過重的動作（策略突變），可能導致肌肉拉傷（訓練崩潰）。

(2) *PPO的改進——Clip機制**：*

“安全閾值”：規定每次訓練量變化不超過±20%（類比Clip閾值ε=0.2）。

(3) 價值網絡（Critic）的作用：

類似于“體能評估師”，預測某個訓練動作的長期效果（狀態價值）。

幫助計算優勢函數At：當前動作比平均動作好多少（例如舉12kg比舉10kg多帶來20%的效果增益）。

優缺點總結

優點：穩定可控，適合復雜任務（如機器人學走路、游戲AI打Boss）。

缺點：需依賴“體能評估師”（Critic網絡）和大量訓練數據，計算成本高。

實際應用

ChatGPT的微調：用PPO結合人類反饋的獎勵模型，讓模型生成更自然的回答。

2. DPO（直接偏好優化）

類比：學生通過“老師批改”直接改進答案

假設學生寫作文，老師不會直接給分數（獎勵模型），而是標注“這段寫得好，那段需要刪掉”（偏好數據對）。學生通過對比好答案和差答案，直接改進寫作策略。

DPO的核心思想**：**跳過“評分標準”（獎勵模型），直接用老師的批注優化作文。

核心原理詳解

(1) 傳統RLHF的缺陷：

傳統方法：先讓老師制定評分標準（訓練獎勵模型），再讓學生按標準優化（PPO）。流程復雜，容易出錯。

DPO的簡化：直接告訴學生“答案A比答案B好”，無需解釋為什么。

(2) 損失函數解析：

LDPO=?logσ(β(logπ**θ(*y**w*∣x)?logπ**θ(*y**l*∣x)))

σ：Sigmoid函數，將差值轉化為概率（例如好答案比差答案的概率高80%）。
β：控制優化強度（類似老師批改的嚴格程度）。

(3) 工作原理：

輸入數據：標注的偏好對（如“答案A邏輯清晰，答案B跑題”）。

優化目標：讓模型對好答案*y**w的概率顯著高于差答案y**l*。

優缺點總結

優點：無需訓練獎勵模型，顯存占用低，適合快速微調（如讓ChatGPT生成更友善的回答）。

缺點：依賴高質量偏好數據（若老師批改不準確，學生可能學偏）。

實際應用

對話模型對齊：讓AI拒絕回答有害問題（如“如何制造炸彈？”）。

文本摘要優化：根據用戶點擊數據（偏好信號），生成更吸引人的摘要。

3. GRPO（組相對策略優化）

類比：“選秀比賽”中的組內PK

假設綜藝節目選拔歌手，導演讓同一組選手唱同一首歌（生成多候選），根據組內表現（獎勵）決定晉級和淘汰。

GRPO的核心思想**：**通過組內比較（而非絕對評分）優化策略，節省評委（Critic網絡）的成本。

核心原理詳解

(1) 組內相對獎勵：

多候選生成：同一問題生成多個答案（如5種解題思路）。

獎勵歸一化：將組內答案的獎勵轉換為標準分（例如：某答案比組內平均分高1個標準差，則優勢顯著）。

公式示例：

μ組：組內平均獎勵（如5個答案的平均得分）。
σ組：組內獎勵標準差（反映答案質量的波動）。

(2) 省略Critic網絡：

傳統PPO需要評委（Critic）預測每個答案的得分，GRPO直接通過組內PK動態計算優勢，節省顯存。

(3) 穩定性控制：

KL散度懲罰**：**防止新策略與舊策略差異過大（如選手突然改變唱法，導致觀眾不適應）。

剪切機制**：**限制策略更新幅度（類似PPO的Clip）。

優缺點總結

優點：顯存占用降低50%，適合資源受限場景（如手機端模型訓練）；多候選生成增強多樣性（如探索不同解題思路）。

缺點：推理時需生成多個候選答案，耗時增加。

實際應用

數學推理：DeepSeek-R1模型在GSM8K數學題上，通過多答案PK提升準確率至51.7%。

代碼生成：生成多種代碼實現，選擇最簡潔高效的版本。

三、總結與應用建議

1. 核心對比
在這里插入圖片描述

2. 應用建議

PPO：需與環境交互或依賴獎勵模型的復雜任務（如機器人控制）。

DPO：擁有高質量偏好數據且需快速微調語言模型的任務（如對話生成）。

GRPO：顯存受限或需增強多樣性的任務（如數學推理、代碼生成）。