DPO vs PPO,偏好優化的兩條技術路徑

1. 背景

在大模型對齊(alignment)里,常見的兩類方法是:

  • PPO:強化學習經典算法,OpenAI 在 RLHF 里用它來“用獎勵模型更新策略”。

  • DPO:2023 年提出的新方法(參考論文《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》),繞過了獎勵模型,直接用偏好對 (chosen/rejected) 來優化。


2. PPO(Proximal Policy Optimization)

2.1 核心思想

  • 來自強化學習領域,是一種 on-policy 策略梯度方法

  • 用獎勵模型(Reward Model)給生成的文本打分。

  • 目標是最大化期望獎勵,同時用 KL 懲罰 約束策略不要偏離初始模型太遠。

2.2 損失函數(簡化)

LPPO(θ)=Et[min?(rt(θ)A^t,??clip(rt(θ),1??,1+?)A^t)]L^{PPO}(\theta) = \mathbb{E}_t \Big[ \min( r_t(\theta) \hat{A}_t, \; \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t ) \Big]

其中:

  • rt(θ)=πθ(at∣st)πθold(at∣st)r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_\text{old}}(a_t|s_t)}(策略比值)

  • A^t\hat{A}_t:優勢函數(由獎勵模型給出)

  • clip:限制更新幅度,避免策略崩潰。

2.3 特點

  • 優點:穩定性較好;能處理連續更新。

  • 缺點:需要訓練一個獨立的獎勵模型,流程復雜;計算成本大。


3. DPO(Direct Preference Optimization)

3.1 核心思想

  • 用人類/自我博弈生成的偏好對:

    • chosen = 更好的回答

    • rejected = 更差的回答

  • 不需要顯式訓練獎勵模型,而是把“獎勵隱含在概率分布里”。

  • 直接優化策略模型,使得它更偏向 chosen

3.2 損失函數(簡化)

LDPO(θ)=?E(x,y+,y?)[log?σ(β?(log?πθ(y+∣x)?log?πθ(y?∣x)?log?πref(y+∣x)+log?πref(y?∣x)))]L^{DPO}(\theta) = - \mathbb{E}_{(x, y^+, y^-)} \Big[ \log \sigma\big(\beta \cdot (\log \pi_\theta(y^+|x) - \log \pi_\theta(y^-|x) - \log \pi_{\text{ref}}(y^+|x) + \log \pi_{\text{ref}}(y^-|x)) \big) \Big]

其中:

  • y+y^+:chosen

  • y?y^-:rejected

  • πref\pi_{\text{ref}}:參考模型(通常是初始 SFT 模型)

  • β\beta:溫度參數,調節強度

  • 本質上是一個 對比學習(contrastive learning) 的形式。

3.3 特點

  • 優點

    • 不需要獎勵模型,流程更簡單。

    • 樣本利用率高,對訓練穩定。

  • 缺點

    • 需要偏好對 (chosen/rejected),不能直接用單個答案 + 分數。

    • 不適合在線優化,更適合離線批量訓練。


4. 對比總結

特點PPODPO
提出時間2017(RL 算法)→ RLHF2023(斯坦福團隊)
是否需要獎勵模型? 需要? 不需要
輸入形式答案 + 獎勵分數偏好對 (chosen, rejected)
優化方式強化學習(on-policy)直接偏好對比(對比學習)
訓練穩定性相對復雜,易發散更穩定,收斂快
適合場景在線訓練,獎勵函數明確(數學/代碼/對話安全性)離線批量微調,數據是偏好對(人類標注/自我博弈)
代表案例OpenAI GPT-4 RLHFDeepSeek R1(自博弈 + DPO)

5. 與 RLHF、自我博弈的關系

  • RLHF + PPO = 經典路線(GPT-4、Claude):人類標注 → 獎勵模型 → PPO 優化。

  • 自我博弈 + DPO = 新興路線(DeepSeek R1):模型自己對弈 → 偏好對 → DPO 微調。

  • 混合范式

    • 有人類數據時用 PPO 強化價值觀對齊;

    • 有大規模自生成數據時用 DPO 提升推理/邏輯能力。


6. 一句話理解

  • PPO:模型像在健身,獎勵模型是教練,不斷糾正姿勢。

  • DPO:模型像在辯論,直接看“好答案 vs 壞答案”,學會站在勝方。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/96582.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/96582.shtml
英文地址,請注明出處:http://en.pswp.cn/web/96582.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

BLE6.0信道探測,如何重構物聯網設備的距離感知邏輯?

在物聯網(IoT)無線通信技術快速滲透的當下,實現人與物、物與物之間對物理距離的感知響應能力已成為提升設備智能高度與人們交互體驗的關鍵所在。當智能冰箱感知用戶靠近而主動亮屏顯示內部果蔬時、當門禁系統感知到授權人士靠近而主動開門時、…

【計算機 UTF-8 轉換為本地編碼的含義】

UTF-8 轉換為本地編碼的含義 詳細解釋一下"UTF-8轉換為本地編碼"的含義以及為什么在處理中文時這很重要。 基本概念 UTF-8 編碼 國際標準:UTF-8 是一種能夠表示世界上幾乎所有字符的 Unicode 編碼方式跨平臺兼容:無論在哪里,UTF-8 …

4.6 變體

1.變體簡介 2.為什么需要變體 3.變體是如何產生的 4.變體帶來的麻煩 5.multi_compile和shader_feature1.變體簡介 比如我們開了一家餐廳, 你有一本萬能的菜單(Shader源代碼), 上面包含了所有可能的菜式; 但是顧客每次來點餐時, 不可能將整本菜單都做一遍, 他們會根據今天有沒有…

猿輔導Android開發面試題及參考答案(下)

為什么開發中要使用線程池,而不是直接創建線程(如控制線程數量、復用線程、降低開銷)? 開發中優先使用線程池而非直接創建線程,核心原因是線程池能優化線程管理、降低資源消耗、提高系統穩定性,而直接創建線程存在難以解決的缺陷,具體如下: 控制線程數量,避免資源耗盡…

【網絡通信】IP 地址深度解析:從技術原理到企業級應用?

IP 地址深度解析:從技術原理到企業級應用? 文章目錄IP 地址深度解析:從技術原理到企業級應用?前言一、基礎認知:IP 地址的技術定位與核心特性?1.1 定義與網絡層角色1.2 核心屬性與表示法深化二、地址分類:從類別劃分到無類別路…

grafana實踐

一、如何找到grafana的插件目錄 whereis grafana grafana: /etc/grafana /usr/share/grafana插件安裝目錄、默認安裝目錄: 把vertamedia-clickhouse-datasource-3.4.4.zip解壓到下面目錄,然后重啟就可以了 /var/lib/grafana/plugins# 6. 設置權限 sudo …

uniapp 文件查找失敗:main.js

重裝HbuilderX vue.config.js 的 配置 有問題main.js 框架能自動識別 到,不用多余的配置

KEIL燒錄時提示“SWD/JTAG communication failure”的解決方法

最新在使用JTAG仿真器串口下載調試程序時,老是下載不成功,識別不到芯片,我嘗試重啟keil5或者重新插拔仿真器連接線、甚至重啟電腦也都不行,每次下載程序都提示如下信息:在確定硬件連接沒有問題之后,就開始分…

紅日靶場(三)——個人筆記

環境搭建 添加一張網卡(僅主機模式),192.168.93.0/24 網段 開啟centos,第一次運行,重啟網絡服務 service network restart192.168.43.57/24(外網ip) 192.168.93.100/24(內網ip&am…

車載網關框架 --- 車內網關IP轉CAN鏈路解析 done

我是穿拖鞋的漢子,魔都中堅持長期主義的汽車電子工程師。 老規矩,分享一段喜歡的文字,避免自己成為高知識低文化的工程師: 做到欲望極簡,了解自己的真實欲望,不受外在潮流的影響,不盲從,不跟風。把自己的精力全部用在自己。一是去掉多余,凡事找規律,基礎是誠信;二是…

lvgl修改輸入設備驅動使其支持鼠標右鍵、雙擊、滑輪...

我在前幾章移植 lvgl 到linux上時講過注冊鼠標驅動部分,那時候使用的時默認提供的驅動,支持的鼠標功能很少,只有左鍵點擊,那時候我提過我們可以修改驅動使其支持,下面是具體的實現。看上面代碼,我們當時是直…

SpringBoot 中單獨一個類中運行main方法報錯:找不到或無法加載主類

1. 報錯SpringBoot項目,在隨機某個類使用main方法,點擊運行/調試報錯錯誤: 找不到或無法加載主類 com.central.workorder.config.PropertyEncrypt 原因: java.lang.ClassNotFoundException: com.central.workorder.config.PropertyEncrypt2. 原因縮短命令…

React 核心 Hook 與冷門技巧:useReducer、useEffect、useRef 及 is 屬性全解析

📚 前言React 的函數組件 Hooks 模式已經成為現代前端開發的主流。相比類組件,Hooks 讓狀態管理和副作用處理更加簡潔和可復用。但在實際開發中,除了常用的 useState 和 useEffect,還有很多“進階武器”值得我們掌握。本文將深入…

通義靈碼產品演示: 數據庫設計與數據分析

作者:了哥 演示主題:AI 進行數據庫設計以及做數據分析 演示目的 演示通義靈碼對于數據庫的設計能力以及數據分析能力。 演示準備 準備數據庫,這里為了簡單實用 sqlite3 brew install sqlite3使用 vscode,同時安裝好通義靈碼的插件…

MySQL主從同步參數調優案例

#作者:stackofumbrella 文章目錄一、前言二、故障概述2.1 基礎信息2.2 故障現象描述三、故障診斷分析3.1 排查過程3.2 問題根因四、故障解決方案 📊4.1 解決方案 🛠?五、總結附件一、前言 在磐基系統中大量使用MySQL作為后端的數據存儲&…

【代碼隨想錄算法訓練營——Day10】棧與隊列——232.用棧實現隊列、225.用隊列實現棧、20.有效的括號、1047.刪除字符串中的所有相鄰重復項

LeetCode題目鏈接 https://leetcode.cn/problems/implement-queue-using-stacks/ https://leetcode.cn/problems/implement-stack-using-queues/description/ https://leetcode.cn/problems/valid-parentheses/description/ https://leetcode.cn/problems/remove-all-adjacent-…

Asp .Net Core 系列:Asp .Net Core 集成 Hangfire+MySQL

在 .NET 或 .NET Core 應用中,若需在不依賴 Windows 服務、獨立進程的前提下實現后臺處理,Hangfire 是最成熟、簡單的方案之一 —— 它可直接嵌入現有應用(如 ASP.NET Core Web 應用),無需額外部署,同時提供…

網站漏洞掃描要怎么處理?

在網絡安全領域,網站漏洞是黑客攻擊的重要突破口,而網站漏洞掃描能及時發現這些隱患。但很多小白在完成漏洞掃描后,不清楚后續該如何處理,導致漏洞一直存在,給網站安全埋下風險。下面從準備工作、處理步驟、驗證維護等…

淘寶RecGPT:通過LLM增強推薦

導論背景 (Background)??推薦系統的核心挑戰??:怎么 準確推斷 用戶行為背后快速變化的真實意圖,以實現用戶、商戶和平臺的三贏。??現有方法的局限性??:傳統的基于歷史日志共現模式(“從點擊學習點擊”)的模型&…

【Go系統編程】07 網絡化IPC:Go的王牌——Socket編程

大家好,我是Tony Bai。歡迎來到我們《Go 系統編程》專欄的最后一講。在過去的旅程中,我們探索了管道、消息隊列、共享內存等一系列強大的 IPC 機制。它們各有所長,但都有一個共同的、致命的局限性:它們都只能在同一臺物理機上工作…