DeepSeek-R1 的強化學習方案中,其亮點之一在于通過 GRPO 算法取代RLHF 常用的 PPO,通過盡可能減少人類標注數據,設計純 RL 的環境,用精心設計的獎勵機制來訓練模型自己學會推理。那么什么是PPO、GRPO,其產生的背景、核心思想和應用場景又有哪些?本文將從以下方面介紹:
\1. 強化學習基礎
\2. PPO、DPO、GRPO深度解析
\3. 總結與應用建議
*一、強化學習基礎*
1. 什么是強化學習?
定義:強化學習(Reinforcement Learning, RL)是機器學習的一個分支,其核心是通過與環境(Environment)的交互學習最優決策策略。通過試錯獲得反饋(獎勵或懲罰),最終目標是最大化累積獎勵。
類比:類似于訓練小狗完成動作——做對了給零食(正獎勵),做錯了不鼓勵(負獎勵),最終小狗學會“坐下”或“握手”。
最近兩年,大家都可以看到AI的發展有多快,我國超10億參數的大模型,在短短一年之內,已經超過了100個,現在還在不斷的發掘中,時代在瞬息萬變,我們又為何不給自己多一個選擇,多一個出路,多一個可能呢?
與其在傳統行業里停滯不前,不如嘗試一下新興行業,而AI大模型恰恰是這兩年的大風口,整體AI領域2025年預計缺口1000萬人,其中算法、工程應用類人才需求最為緊迫!
學習AI大模型是一項系統工程,需要時間和持續的努力。但隨著技術的發展和在線資源的豐富,零基礎的小白也有很好的機會逐步學習和掌握。【點擊藍字獲取】
【2025最新】AI大模型全套學習籽料(可白嫖):LLM面試題+AI大模型學習路線+大模型PDF書籍+640套AI大模型報告等等,從入門到進階再到精通,超全面存下吧!
2. 強化學習的產生背景
起源:1950年代控制論與心理學研究的結合,早期應用于機器人路徑規劃、游戲AI等。
核心需求:解決序列決策問題(Sequential Decision Making),即在多步決策中平衡短期與長期收益。
爆發點:2016年AlphaGo擊敗李世石,強化學習成為AI領域的熱點技術。
3. 強化學習核心要素
5. RLHF(基于人類反饋的強化學習)
類比:AI的“家教輔導班”
想象你在教一個孩子學畫畫,但無法直接用分數評價每幅畫的好壞(傳統獎勵函數設計困難)。于是你請了一位美術老師(人類),對孩子的畫作進行點評(反饋),告訴TA哪些線條更優美、哪些配色需要改進。
RLHF的核心思想**:**通過人類的主觀反饋替代或修正環境獎勵,讓AI更符合人類價值觀。
通過RLHF,AI不僅能完成目標任務,還能理解人類的主觀意圖和價值觀。這是DPO、PPO、GRPO等技術的重要應用場景之一。
*二、PPO、DPO、GRPO深度解析*
1. PPO(近端策略優化)
類比:健身教練的“安全訓練計劃”
想象你是一名健身教練,學員要通過不斷調整訓練動作來增強肌肉(最大化獎勵)。但直接讓學員每天大幅增加訓練量(策略突變),可能會導致受傷(訓練崩潰)。
PPO的核心思想**:**制定一個“安全范圍”,讓學員每次訓練量只能小幅調整,確保穩定進步。
核心原理詳解
*(1)* 策略梯度(Policy Gradient):
**基礎思想:**根據動作的“好壞”(優勢函數)調整策略。比如,某個動作讓學員舉得更重(高獎勵),就多鼓勵這個動作。
問題:如果學員突然嘗試過重的動作(策略突變),可能導致肌肉拉傷(訓練崩潰)。
*(2)* *PPO的改進——Clip機制**:*
“安全閾值”:規定每次訓練量變化不超過±20%(類比Clip閾值ε=0.2)。
(3) 價值網絡(Critic)的作用:
類似于“體能評估師”,預測某個訓練動作的長期效果(狀態價值)。
幫助計算優勢函數At:當前動作比平均動作好多少(例如舉12kg比舉10kg多帶來20%的效果增益)。
優缺點總結
優點**:**穩定可控,適合復雜任務(如機器人學走路、游戲AI打Boss)。
缺點**:**需依賴“體能評估師”(Critic網絡)和大量訓練數據,計算成本高。
實際應用
ChatGPT的微調:用PPO結合人類反饋的獎勵模型,讓模型生成更自然的回答。
2. DPO(直接偏好優化)
類比:學生通過“老師批改”直接改進答案
假設學生寫作文,老師不會直接給分數(獎勵模型),而是標注“這段寫得好,那段需要刪掉”(偏好數據對)。學生通過對比好答案和差答案,直接改進寫作策略。
DPO的核心思想**:**跳過“評分標準”(獎勵模型),直接用老師的批注優化作文。
核心原理詳解
(1) 傳統RLHF的缺陷:
傳統方法:先讓老師制定評分標準(訓練獎勵模型),再讓學生按標準優化(PPO)。流程復雜,容易出錯。
DPO的簡化:直接告訴學生“答案A比答案B好”,無需解釋為什么。
(2) 損失函數解析:
LDPO=?logσ(β(logπ**θ(y**w∣x)?logπ**θ(y**l∣x)))
-
σ:Sigmoid函數,將差值轉化為概率(例如好答案比差答案的概率高80%)。
-
β:控制優化強度(類似老師批改的嚴格程度)。
(3) 工作原理:
輸入數據:標注的偏好對(如“答案A邏輯清晰,答案B跑題”)。
優化目標:讓模型對好答案y**w的概率顯著高于差答案y**l。
優缺點總結
優點**:**無需訓練獎勵模型,顯存占用低,適合快速微調(如讓ChatGPT生成更友善的回答)。
缺點**:**依賴高質量偏好數據(若老師批改不準確,學生可能學偏)。
實際應用
對話模型對齊**:讓AI拒絕回答有害問題(如“如何制造炸彈?”)。 **
*文本摘要優化***:**根據用戶點擊數據(偏好信號),生成更吸引人的摘要。
?
3. GRPO(組相對策略優化)
類比:“選秀比賽”中的組內PK
假設綜藝節目選拔歌手,導演讓同一組選手唱同一首歌(生成多候選),根據組內表現(獎勵)決定晉級和淘汰。
GRPO的核心思想**:**通過組內比較(而非絕對評分)優化策略,節省評委(Critic網絡)的成本。
核心原理詳解
(1) 組內相對獎勵:
多候選生成:同一問題生成多個答案(如5種解題思路)。
獎勵歸一化:將組內答案的獎勵轉換為標準分(例如:某答案比組內平均分高1個標準差,則優勢顯著)。
公式示例:
-
μ組:組內平均獎勵(如5個答案的平均得分)。
-
σ組:組內獎勵標準差(反映答案質量的波動)。
(2) 省略Critic網絡:
傳統PPO需要評委(Critic)預測每個答案的得分,GRPO直接通過組內PK動態計算優勢,節省顯存。
(3) 穩定性控制:
KL散度懲罰**:**防止新策略與舊策略差異過大(如選手突然改變唱法,導致觀眾不適應)。
剪切機制**:**限制策略更新幅度(類似PPO的Clip)。
優缺點總結
優點**:**顯存占用降低50%,適合資源受限場景(如手機端模型訓練);多候選生成增強多樣性(如探索不同解題思路)。
缺點**:**推理時需生成多個候選答案,耗時增加。
實際應用
數學推理**:**DeepSeek-R1模型在GSM8K數學題上,通過多答案PK提升準確率至51.7%。
代碼生成**:**生成多種代碼實現,選擇最簡潔高效的版本。
三、總結與應用建議
1. 核心對比
2. 應用建議
PPO:需與環境交互或依賴獎勵模型的復雜任務(如機器人控制)。
DPO:擁有高質量偏好數據且需快速微調語言模型的任務(如對話生成)。
GRPO:顯存受限或需增強多樣性的任務(如數學推理、代碼生成)。
最近兩年,大家都可以看到AI的發展有多快,我國超10億參數的大模型,在短短一年之內,已經超過了100個,現在還在不斷的發掘中,時代在瞬息萬變,我們又為何不給自己多一個選擇,多一個出路,多一個可能呢?
與其在傳統行業里停滯不前,不如嘗試一下新興行業,而AI大模型恰恰是這兩年的大風口,整體AI領域2025年預計缺口1000萬人,其中算法、工程應用類人才需求最為緊迫!
學習AI大模型是一項系統工程,需要時間和持續的努力。但隨著技術的發展和在線資源的豐富,零基礎的小白也有很好的機會逐步學習和掌握。【點擊藍字獲取】
【2025最新】AI大模型全套學習籽料(可白嫖):LLM面試題+AI大模型學習路線+大模型PDF書籍+640套AI大模型報告等等,從入門到進階再到精通,超全面存下吧!