DPO訓練中的logit scale 與 reward shift 偏置問題以及可能的解決方案

Logit Scale Bias(Logit 放縮偏置)

  1. 定義:
    Logit scale 偏置指的是,不同模型(如 Actor 與 Reference)之間輸出的 logit 的數量級(scale)不一致,導致 log-prob 或 log-ratio 計算偏差。
  2. 舉例說明
    • 當前策略模型(Actor)輸出:logits ≈ [3.2, 1.1, 0.4, …] → 比較 confident
    • Reference 模型輸出: logits ≈ [0.6, 0.5, 0.2, …] → 比較均勻
    • 則兩者的 log prob 差異會很大,但實際上可能只是 softmax 溫度不同或 batch norm 不一致
  3. 結果
    • log(πactor)/πref=log?ratio被人為的放大log(\pi_{actor})/\pi_{ref}=log-ratio 被人為的放大log(πactor?)/πref?=log?ratio被人為的放大
    • DPO loss 變得過于激進或震蕩
    • 導致訓練不穩定或”熵崩潰“ (Entropy collapse)

Reward Shift Bias(獎勵偏移問題)

  1. 定義
    指的是由于數據分布、模型參數或 batch 樣本差異,導致 每批次樣本的 log-ratio 平均值有顯著偏移
  2. 舉例說明:
    • 某個 batch 的 log(π_actor / π_ref) 偏向全為正值,表示 actor 極度偏向 chosen,損失變得極低或無梯度。
    • 另一個 batch 偏向負值,DPO loss 會變得極高
  3. 后果
  • 模型更新過快或者過慢(learning rate mismatch)
  • loss variance 大,收斂變慢甚至崩潰
  • learning signal 不穩定,影響模型泛化能力

在DPO中如何出現的

在這里插入圖片描述
DPO中,bias 來源的關鍵點

來源說明
模型初始化差異Actor 初始化可能是微調過的,Reference 是 SFT,logits 分布不同。
Softmax 溫度不一致不同模型輸出概率分布 sharpness 不一樣。
訓練 batch 之間樣本分布不均某 batch 里 response 長、另一個短,影響 reward sum。
過擬合或獎勵驅動過強Actor 學得太快,偏好 chosen 太多。

應對策略

項目含義在 DPO 中表現應對方法
Logit scale bias不同模型 logits 范圍差異大log prob ratio 被放大或縮小,訓練過激或鈍化限制溫度、使用 delta、對抗訓練
Reward shift bias不同 batch 中平均 reward 偏移訓練波動大,容易過擬合某些 batch使用移動平均 delta,或 normalized loss

解決方案

  • BCO-Pair(Bias-Corrected Optimization)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/87391.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/87391.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/87391.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

再見 RAG?Gemini 2.0 Flash 剛剛 “殺死” 了它!

最近谷歌發布了 Gemini 2.0 Flash,說實話,它可能是目前市面上性價比最高的 AI 模型了。 許多人寫過關于 RAG 可能不再需要的文章,也可以看到人們在討論它。有些人理解,有些人不理解,還有些人非常擔心。 所以讓我們解…

PDF的圖片文字識別工具

PDF的圖片文字識別工具是一款完全免費的PDF OCR識別軟件,軟件支持“單文件選擇、多文件批量選擇、文字預處理、結果后處理、Word導出”等功能。 選擇你想要識別的PDF,軟件就自動的開始識別PDF內容,識別后的文字在軟件的下方有內容預覽。 注意…

SQLite不夠用?視頻匯聚系統EasyCVR切換MySQL數據庫的關鍵參數怎么調?

一、為什么需要將EasyCVR從SQLite切換到MySQL? EasyCVR默認使用的SQLite數據庫屬于輕量級嵌入式數據庫,適合小型項目或設備量較少的場景(通常建議設備通道數≤200)。當設備通道數超過200或需要支持高并發訪問、海量數據存儲時&am…

【AI成長會】ubuntu 安裝運行rust

在Ubuntu上用Rust編寫第一個程序 從你的輸出可以看出,Rust已經成功安裝在你的Ubuntu系統上了。現在我們來編寫并運行第一個Rust程序,整個過程需要幾個簡單的步驟: 一、配置Shell環境(如果需要) 雖然安裝提示可能需要…

兩個手機都用同個wifi,IP地址會一樣嗎?如何更改ip地址

會的。兩個手機連接同一個 WiFi 路由器,它們的 IP 地址通常一樣的。 一、原因如下: 你看到的 IP 地址有兩種: 內網 IP 地址(局域網 IP): 這是路由器分配給你手機在家庭或辦公室內部網絡使用的地址。通常格…

十六、windows系統安全-----賬號克隆和隱藏

環境 windows server 2012 步驟 1.查看當前用戶賬號cmd 命令net user,或在計算機管理界面查看 2.查看具體用戶信息 net user 用戶名 3.新建隱藏用戶 net user shiyan$ qwe123 /add **4.添加用戶組 net localgroup administrators shiyan$ /add**將剛才創建的隱藏…

【安全有效新方案】WSL 默認路徑遷移實戰:通過 PowerShell 符號鏈接實現自動重定向

WSL 默認路徑遷移實戰&#xff1a;通過 PowerShell 符號鏈接實現自動重定向 在使用 WSL&#xff08;Windows Subsystem for Linux&#xff09;的過程中&#xff0c;許多用戶會遇到 C 盤空間被 WSL 發行版不斷占用的問題。這是因為 WSL 默認將發行版存儲在C:\Users\<用戶名&…

使用DDR4控制器實現多通道數據讀寫(十八)

一、 概述 在之前已經使用interconnect IP 實現了DDR4的多通道讀寫功能&#xff0c;接下來為了更能接近實用性和更直觀的展現多通道讀寫的功能&#xff0c;使用DDS IP 核生成兩組正弦波信號&#xff0c;將兩組正弦波信號通過其中兩個通道存儲到DDR4中&#xff0c;再使用另外兩個…

基于Vue.js + Node.js + MySQL實現的圖書銷售管理系統

圖書銷售管理系統 項目概述 圖書銷售管理系統是一個基于Vue.js Node.js MySQL的全棧Web應用程序&#xff0c;專為數據庫課程設計而開發。該系統實現了完整的圖書銷售業務流程管理&#xff0c;包括圖書信息管理、庫存管理、采購管理、銷售管理和統計分析等功能模塊。 項目背…

工業路由器賦能智慧電力儲能柜實時通訊,構建電力智能化新生態

在電力行業邁向智能化的進程中&#xff0c;智慧電力儲能柜作為實現電力靈活調配與高效存儲的關鍵設施&#xff0c;其重要性日益凸顯。然而復雜多變的應用環境、多樣的設備接入需求、嚴苛的數據傳輸要求以及嚴峻的網絡安全威脅&#xff0c;給儲能柜的實時通訊帶來諸多挑戰。工業…

命令模式 - Flutter中的操作封裝大師,把“動作“變成可管理的對象!

痛點場景&#xff1a;繪圖應用的操作管理 假設你在開發一個繪圖App&#xff0c;需要支持&#xff1a; 添加/刪除圖形修改圖形屬性撤銷/重做操作批量執行命令 傳統實現方式&#xff1a; void _handleAddShape(ShapeType type) {final shape _createShape(type);setState(()…

AI大模型應用開發完整學習體系

&#x1f3af; AI大模型應用開發完整學習體系 第一部分&#xff1a;課程核心內容 本課程系統化構建AI大模型應用開發能力體系&#xff0c;涵蓋五大核心模塊&#xff1a; 1?? AI大模型開發基礎 深入理解大模型架構&#xff08;如DeepSeek&#xff09;、Prompt工程優化、Cu…

UG NX二次開發(C#)-讀取PMI對象的名稱

提示:文章寫完后,目錄可以自動生成,如何生成可參考右邊的幫助文檔 文章目錄 1、前言2、在UG NX中設置PMI對象名稱3、采用NXOpen獲取PMI對象名稱1、前言 PMI對象是UG NX的一個很重要的對象,其獲取主要是通過NXOpen來實現,在QQ群有群友問下如何獲取PMI的對象名稱,我們這篇…

大數據時代UI前端的智能決策支持:基于數據驅動的產品優化

hello寶子們...我們是艾斯視覺擅長ui設計、前端開發、數字孿生、大數據、三維建模、三維動畫10年經驗!希望我的分享能幫助到您!如需幫助可以評論關注私信我們一起探討!致敬感謝感恩! 一、引言&#xff1a;數據驅動決策的前端智能化變革 在數字化轉型的浪潮中&#xff0c;UI 前…

服務器性能調優實戰:如何在高負載下維持系統穩定性?

更多云服務器知識&#xff0c;盡在hostol.com 當服務器遭遇高負載時&#xff0c;它就像一個拼命運轉的發動機&#xff0c;任何小小的波動都可能導致系統崩潰。你也許會看到 CPU 突然飆升、內存緊張、響應延遲增加&#xff0c;甚至進程掛掉。而這一切往往發生得悄無聲息&#x…

CSS `@scope` 實戰指南:開啟局部樣式隔離新時代

&#x1f9ec; CSS scope 實戰指南&#xff1a;開啟局部樣式隔離新時代 你是否曾擔心組件樣式被全局覆蓋&#xff1f;是否為命名空間沖突而頭痛&#xff1f;CSS scope 是原生支持的作用域樣式機制&#xff0c;讓你不再依賴 BEM、CSS Modules、Scoped CSS 等方案&#xff0c;也能…

spring-ai-alibaba 1.0.0.2 學習(六)——DocumentReader與DocumentParser

spring-ai-alibaba提供了許多讀取外部文檔的包&#xff0c;例如語雀、飛書、notion筆記等 這些包以spring-ai-alibaba-starter-document-reader開頭&#xff0c;實現了spring-ai的DocumentReader接口 最簡單樣例 我們一起來看一個最簡單的例子&#xff0c;以spring-ai-aliba…

在銀河麒麟V10 SP1上手動安裝與配置高版本Docker的完整指南

原文鏈接&#xff1a;在銀河麒麟V10 SP1上手動安裝與配置高版本Docker的完整指南 Hello&#xff0c;大家好啊&#xff0c;今天給大家帶來一篇銀河麒麟桌面操作系統&#xff08;Kylin V10 SP1&#xff09;上安裝與配置Docker的文章&#xff0c;詳細介紹從下載安裝到運行容器的每…

如何在電腦上完全抹去歷史記錄

要在電腦上?完全抹去歷史記錄?&#xff08;包括瀏覽記錄、文件痕跡、系統日志等&#xff09;&#xff0c;需根據需求選擇不同級別的清理方案。以下是分步驟的徹底清理指南&#xff1a; ?一、基礎清理&#xff1a;刪除常見痕跡? ?1. 瀏覽器記錄清除? ?Chrome/Firefox/E…

大數據環境搭建指南:基于 Docker 構建 Hadoop、Hive、HBase 等服務

大數據環境搭建指南&#xff1a;基于 Docker 構建 Hadoop、Hive、HBase 等服務 說明大數據環境搭建指南&#xff1a;基于 Docker 構建 Hadoop、Hive、HBase 等服務一、引言二、項目概述三、搭建步驟3.1 下載文件3.2 構建鏡像3.2.1 構建基礎層鏡像3.2.2 并行構建 HBase/Hive/Spa…