DeepSeek基礎:PPO、DPO、GRPO概念詳解

DeepSeek-R1 的強化學習方案中,其亮點之一在于通過 GRPO 算法取代RLHF 常用的 PPO,通過盡可能減少人類標注數據,設計純 RL 的環境,用精心設計的獎勵機制來訓練模型自己學會推理。那么什么是PPO、GRPO,其產生的背景、核心思想和應用場景又有哪些?本文將從以下方面介紹:

\1. 強化學習基礎

\2. PPO、DPO、GRPO深度解析

\3. 總結與應用建議

*一、強化學習基礎*

1. 什么是強化學習?

定義:強化學習(Reinforcement Learning, RL)是機器學習的一個分支,其核心是通過與環境(Environment)的交互學習最優決策策略。通過試錯獲得反饋(獎勵或懲罰),最終目標是最大化累積獎勵。

類比:類似于訓練小狗完成動作——做對了給零食(正獎勵),做錯了不鼓勵(負獎勵),最終小狗學會“坐下”或“握手”。

最近兩年,大家都可以看到AI的發展有多快,我國超10億參數的大模型,在短短一年之內,已經超過了100個,現在還在不斷的發掘中,時代在瞬息萬變,我們又為何不給自己多一個選擇,多一個出路,多一個可能呢?

與其在傳統行業里停滯不前,不如嘗試一下新興行業,而AI大模型恰恰是這兩年的大風口,整體AI領域2025年預計缺口1000萬人,其中算法、工程應用類人才需求最為緊迫!

學習AI大模型是一項系統工程,需要時間和持續的努力。但隨著技術的發展和在線資源的豐富,零基礎的小白也有很好的機會逐步學習和掌握。【點擊藍字獲取】

【2025最新】AI大模型全套學習籽料(可白嫖):LLM面試題+AI大模型學習路線+大模型PDF書籍+640套AI大模型報告等等,從入門到進階再到精通,超全面存下吧!

2. 強化學習的產生背景

起源:1950年代控制論與心理學研究的結合,早期應用于機器人路徑規劃、游戲AI等。

核心需求解決序列決策問題(Sequential Decision Making),即在多步決策中平衡短期與長期收益。

爆發點:2016年AlphaGo擊敗李世石,強化學習成為AI領域的熱點技術。

3. 強化學習核心要素

在這里插入圖片描述

5. RLHF(基于人類反饋的強化學習)

類比:AI的“家教輔導班”

想象你在教一個孩子學畫畫,但無法直接用分數評價每幅畫的好壞(傳統獎勵函數設計困難)。于是你請了一位美術老師(人類),對孩子的畫作進行點評(反饋),告訴TA哪些線條更優美、哪些配色需要改進。

RLHF的核心思想**:**通過人類的主觀反饋替代或修正環境獎勵,讓AI更符合人類價值觀。
在這里插入圖片描述

通過RLHF,AI不僅能完成目標任務,還能理解人類的主觀意圖和價值觀。這是DPO、PPO、GRPO等技術的重要應用場景之一。

*二、PPO、DPO、GRPO深度解析*

1. PPO(近端策略優化)

類比:健身教練的“安全訓練計劃”

想象你是一名健身教練,學員要通過不斷調整訓練動作來增強肌肉(最大化獎勵)。但直接讓學員每天大幅增加訓練量(策略突變),可能會導致受傷(訓練崩潰)。

PPO的核心思想**:**制定一個“安全范圍”,讓學員每次訓練量只能小幅調整,確保穩定進步。

核心原理詳解
*(1)* 策略梯度(Policy Gradient)
**基礎思想:**根據動作的“好壞”(優勢函數)調整策略。比如,某個動作讓學員舉得更重(高獎勵),就多鼓勵這個動作。
問題:如果學員突然嘗試過重的動作(策略突變),可能導致肌肉拉傷(訓練崩潰)。
*(2)* *PPO的改進——Clip機制**:*
“安全閾值”:規定每次訓練量變化不超過±20%(類比Clip閾值ε=0.2)。
(3) 價值網絡(Critic)的作用
類似于“體能評估師”,預測某個訓練動作的長期效果(狀態價值)。
幫助計算優勢函數At:當前動作比平均動作好多少(例如舉12kg比舉10kg多帶來20%的效果增益)。
優缺點總結
優點**:**穩定可控,適合復雜任務(如機器人學走路、游戲AI打Boss)。
缺點**:**需依賴“體能評估師”(Critic網絡)和大量訓練數據,計算成本高。
實際應用
ChatGPT的微調:用PPO結合人類反饋的獎勵模型,讓模型生成更自然的回答。

2. DPO(直接偏好優化)

類比:學生通過“老師批改”直接改進答案

假設學生寫作文,老師不會直接給分數(獎勵模型),而是標注“這段寫得好,那段需要刪掉”(偏好數據對)。學生通過對比好答案和差答案,直接改進寫作策略。

DPO的核心思想**:**跳過“評分標準”(獎勵模型),直接用老師的批注優化作文。

核心原理詳解
(1) 傳統RLHF的缺陷
傳統方法:先讓老師制定評分標準(訓練獎勵模型),再讓學生按標準優化(PPO)。流程復雜,容易出錯。
DPO的簡化:直接告訴學生“答案A比答案B好”,無需解釋為什么。
(2) 損失函數解析
LDPO=?logσ(β(logπ**θ(y**wx)?logπ**θ(y**lx)))
(3) 工作原理
輸入數據:標注的偏好對(如“答案A邏輯清晰,答案B跑題”)。
優化目標:讓模型對好答案y**w的概率顯著高于差答案y**l
優缺點總結
優點**:**無需訓練獎勵模型,顯存占用低,適合快速微調(如讓ChatGPT生成更友善的回答)。
缺點**:**依賴高質量偏好數據(若老師批改不準確,學生可能學偏)。
實際應用
對話模型對齊**:讓AI拒絕回答有害問題(如“如何制造炸彈?”)。 **
*文本摘要優化***:**根據用戶點擊數據(偏好信號),生成更吸引人的摘要。

?

3. GRPO(組相對策略優化)

類比:“選秀比賽”中的組內PK

假設綜藝節目選拔歌手,導演讓同一組選手唱同一首歌(生成多候選),根據組內表現(獎勵)決定晉級和淘汰。

GRPO的核心思想**:**通過組內比較(而非絕對評分)優化策略,節省評委(Critic網絡)的成本。

核心原理詳解
(1) 組內相對獎勵
多候選生成:同一問題生成多個答案(如5種解題思路)。
獎勵歸一化:將組內答案的獎勵轉換為標準分(例如:某答案比組內平均分高1個標準差,則優勢顯著)。
公式示例:
img

(2) 省略Critic網絡

傳統PPO需要評委(Critic)預測每個答案的得分,GRPO直接通過組內PK動態計算優勢,節省顯存。

(3) 穩定性控制

KL散度懲罰**:**防止新策略與舊策略差異過大(如選手突然改變唱法,導致觀眾不適應)。

剪切機制**:**限制策略更新幅度(類似PPO的Clip)。

優缺點總結
優點**:**顯存占用降低50%,適合資源受限場景(如手機端模型訓練);多候選生成增強多樣性(如探索不同解題思路)。
缺點**:**推理時需生成多個候選答案,耗時增加。
實際應用
數學推理**:**DeepSeek-R1模型在GSM8K數學題上,通過多答案PK提升準確率至51.7%。
代碼生成**:**生成多種代碼實現,選擇最簡潔高效的版本。

三、總結與應用建議

1. 核心對比
在這里插入圖片描述

2. 應用建議

PPO:需與環境交互或依賴獎勵模型的復雜任務(如機器人控制)。

DPO:擁有高質量偏好數據且需快速微調語言模型的任務(如對話生成)。

GRPO:顯存受限或需增強多樣性的任務(如數學推理、代碼生成)。

最近兩年,大家都可以看到AI的發展有多快,我國超10億參數的大模型,在短短一年之內,已經超過了100個,現在還在不斷的發掘中,時代在瞬息萬變,我們又為何不給自己多一個選擇,多一個出路,多一個可能呢?

與其在傳統行業里停滯不前,不如嘗試一下新興行業,而AI大模型恰恰是這兩年的大風口,整體AI領域2025年預計缺口1000萬人,其中算法、工程應用類人才需求最為緊迫!

學習AI大模型是一項系統工程,需要時間和持續的努力。但隨著技術的發展和在線資源的豐富,零基礎的小白也有很好的機會逐步學習和掌握。【點擊藍字獲取】

【2025最新】AI大模型全套學習籽料(可白嫖):LLM面試題+AI大模型學習路線+大模型PDF書籍+640套AI大模型報告等等,從入門到進階再到精通,超全面存下吧!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/905848.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/905848.shtml
英文地址,請注明出處:http://en.pswp.cn/news/905848.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

一分鐘了解機器學習

一分鐘了解機器學習 A Minute to Know About Machine Learning By JacksonML 1. 什么是機器學習? 機器學習(Machine Learning,ML) 是人工智能的分支,通過從數據中自動學習規律,使計算機無需顯式編程即可完成任務。…

mvc-service引入

什么是業務層 1)Model1(JSP)和Model2(模糊的mvc): MVC:Model(模型),View(視圖),Controller(控制器) 視圖層:用于數據展示以及用戶交互的界…

第一次做逆向

題目來源:ctf.show 1、下載附件,發現一個exe和一個txt文件 看看病毒加沒加殼,發現沒加那就直接放IDA 放到IDA找到main主函數,按F5反編譯工具就把他還原成類似C語言的代碼 然后我們看邏輯,將flag.txt文件的內容進行加…

docker(四)使用篇二:docker 鏡像

在上一章中,我們介紹了 docker 鏡像倉庫,本文就來介紹 docker 鏡像。 一、什么是鏡像 docker 鏡像本質上是一個 read-only 只讀文件, 這個文件包含了文件系統、源碼、庫文件、依賴、工具等一些運行 application 所必須的文件。 我們可以把…

k8s 1.10.26 一次containerd失敗引發kubectl不可用問題

k8s 1.10.26 一次containerd失敗引發kubectl不可用問題 開機k8s 1.10.26時,報以下錯誤 [rootmaster ~]# kubectl get no E0515 08:03:00.914894 7993 memcache.go:265] couldnt get current server API group list: Get "https://192.168.80.50:6443/api?…

今日積累:若依框架配置QQ郵箱,來發郵件,注冊賬號使用

QQ郵箱SMTP服務器設置 首先,我們需要了解QQ郵箱的SMTP服務器地址。對于QQ郵箱,SMTP服務器地址通常是smtp.qq.com。這個地址適用于所有使用QQ郵箱發送郵件的客戶端。 QQ郵箱SMTP端口設置 QQ郵箱提供了兩種加密方式:SSL和STARTTLS。根據您選…

無縫部署您的應用程序:將 Jenkins Pipelines 與 ArgoCD 集成

在 DevOps 領域,自動化是主要目標之一。這包括自動化軟件部署方式。與其依賴某人在部署軟件的機器上進行 rsync/FTP/編寫軟件,不如使用 CI/CD 的概念。 CI,即持續集成,是通過代碼提交創建工件的步驟。這可以是 Docker 鏡像&#…

4.2.3 Thymeleaf標準表達式 - 5. 片段表達式

在本次實戰中,我們通過 Thymeleaf 的片段表達式實現了模板的模塊化和復用。首先,我們定義了一個導航欄片段 navbar,并通過參數 activeTab 動態高亮當前激活的標簽。然后,我們在多個頁面(如主頁、關于頁和聯系頁&#x…

網安面試經(1)

1.說說IPsec VPN 答:IPsec VPN是利用IPsec協議構建的安全虛擬網絡。它通過加密技術,在公共網絡中創建加密隧道,確保數據傳輸的保密性、完整性和真實性。常用于企業分支互聯和遠程辦公,能有效防范數據泄露與篡改,但部署…

【C++/Qt shared_ptr 與 線程池】合作使用案例

以下是一個結合 std::shared_ptr 和 Qt 線程池(QThreadPool)的完整案例,展示了如何在多線程任務中安全管理資源,避免內存泄漏。 案例場景 任務目標:在后臺線程中處理一個耗時的圖像檢測任務,任務對象通過 …

【Unity】 HTFramework框架(六十五)ScrollList滾動數據列表

更新日期:2025年5月16日。 Github 倉庫:https://github.com/SaiTingHu/HTFramework Gitee 倉庫:https://gitee.com/SaiTingHu/HTFramework 索引 一、ScrollList滾動數據列表二、使用ScrollList1.快捷創建ScrollList2.ScrollList的屬性3.自定義…

經典案例 | 筑基與躍升:解碼制造企業產供銷協同難題

引言 制造企業如何在投產初期突破管理瓶頸,實現高效運營?G公司作為某大型集團的新建子公司,面對產供銷流程缺失、跨部門協同低效等難題,選擇與AMT企源合作開展流程優化。 項目通過端到端流程體系搭建、標準化操作規范制定及長效管…

【Python 操作 MySQL 數據庫】

在 Python 中操作 MySQL 數據庫主要通過 pymysql 或 mysql-connector-python 庫實現。以下是完整的技術指南,包含連接管理、CRUD 操作和最佳實踐: 一、環境準備 1. 安裝驅動庫 pip install pymysql # 推薦(純Python實現&#xff0…

記錄vsCode連接gitee并實現項目拉取和上傳

標題 在 VSCode 中上傳代碼到 Gitee 倉庫 要在 VSCode 中將代碼上傳到 Gitee (碼云) 倉庫,你可以按照以下步驟操作: 準備工作 確保已安裝 Git確保已安裝 VSCode擁有 Gitee 賬號并創建了倉庫 可以參考該文章的部分:idea實現與gitee連接 操…

【信息系統項目管理師】第6章:項目管理概論 - 31個經典題目及詳解

更多內容請見: 備考信息系統項目管理師-專欄介紹和目錄 文章目錄 第一節 PMBOK的發展【第1題】【第2題】【第3題】【第4題】【第5題】【第6題】第二節 項目基本要素【第1題】【第2題】【第3題】【第4題】【第5題】【第6題】【第7題】【第8題】【第9題】【第10題】第三節 項目經…

簡單介紹C++中線性代數運算庫Eigen

Eigen 是一個高性能的 C 模板庫,專注于線性代數、矩陣和向量運算,廣泛應用于科學計算、機器學習和計算機視覺等領域。以下是對 Eigen 庫的詳細介紹: 1. 概述 核心功能:支持矩陣、向量運算,包括基本算術、矩陣分解&…

生產級編排AI工作流套件:Flyte全面使用指南 — Core concepts Launch plans

生產級編排AI工作流套件:Flyte全面使用指南 — Core concepts Launch plans Flyte 是一個開源編排器,用于構建生產級數據和機器學習流水線。它以 Kubernetes 作為底層平臺,注重可擴展性和可重復性。借助 Flyte,用戶團隊可以使用 P…

Python 之類型注解

類型注解允許開發者顯式地聲明變量、函數參數和返回值的類型。但是加不加注解對于程序的運行沒任何影響(是非強制的,且類型注解不影響運行時行為),屬于 有了挺好,沒有也行。但是大型項目按照規范添加注解的話&#xff…

rocketmq并發消費

netty的handler 在netty的網絡模型中,在想bootstrap設置handler時, 都是在等待 事件 的到來,才會被調用的方法,都是被動的, 服務端等待 request 的到來,進行read, 然后主動調用writeAndFlush寫出去。 客戶…

React 播客專欄 Vol.9|React + TypeScript 項目該怎么起步?從 CRA 到配置全流程

👋 歡迎回到《前端達人 React 播客書單》第 9 期(正文內容為學習筆記摘要,音頻內容是詳細的解讀,方便你理解),請點擊下方收聽 你是不是常在網上看到 .tsx 項目、Babel、Webpack、tsconfig、Vite、CRA、ESL…