強化學習PPO算法學習記錄

在這里插入圖片描述

1. 四個模型:

  • Policy Model:我們想要訓練的目標語言模型。我們一般用SFT階段產出的SFT模型來對它做初始化。
  • Reference Model:一般也用SFT階段得到的SFT模型做初始化,在訓練過程中,它的參數是凍結的。Ref模型的主要作用是防止Actor”訓歪”。(我們希望訓練出來的Actor模型的輸出分布和Ref模型的輸出分布盡量相似,使用KL散度衡量兩個輸出分布的相似度,這個KL散度會用于后續loss的計算)
  • Reward Model:用于計算生成token At的即時收益,在RLHF過程中,它的參數是凍結的。
  • Value Model:用于預測期望總收益 Vt,和Actor模型一樣,它需要參數更新。因為在t時刻,我們給不出客觀存在的總收益,只能訓練一個模型去預測它。

2. r,GAE,A

圖中的r或者說rt的獲得:訓練模型的輸出分布和ref模型的輸出分布的KL散度*超參數 + reward 模型的輸出。
在這里插入圖片描述
在這里插入圖片描述

GAE整合獎勵(r)與價值(v),計算優勢函數 A,指導策略優化:
在這里插入圖片描述

3. 重要性權重(新舊策略概率比)

在PPO算法中,?約束重要性權重 有兩種主要的約束方式?:Clip機制和KL散度懲罰。
在這里插入圖片描述

3.1 Clip機制

在這里插入圖片描述

3.2 KL散度懲罰

在這里插入圖片描述
將這個公式展開也就是:
在這里插入圖片描述

4. actor loss 和 critic loss

這兩個loss 分別用于優化 policy model 和 value model

  1. 如果用clip限制策略更新的幅度下的actor loss:

在這里插入圖片描述

  1. critic loss:

在這里插入圖片描述

PPO 和 GRPO :

主要區別:提出一個不需要訓練狀態價值網絡,就可以估算出每個token 優勢值的方法,并且這個方法更適合訓練大模型生成強化學習這個場景。
在這里插入圖片描述

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/82490.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/82490.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/82490.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

邊緣計算從專家到小白

“云-邊-端”架構 “云” :傳統云計算的中心節點,是邊緣計算的管控端。匯集所有邊緣的感知數據、業務數據以及互聯網數據,完成對行業以及跨行業的態勢感知和分析。 “邊” :云計算的邊緣側,分為基礎設施邊緣和設備邊緣…

Windows:Powershell的使用

文章目錄 零、格式化輸出命令1、Format-List(別名:fl) 一、服務管理SC命令二、軟件管理命令三、權限管理命令1、Get-Acl2、Set-Acl 總結 零、格式化輸出命令 1、Format-List(別名:fl) 可通過管道符傳遞對象…

實現在h5中添加日歷提醒:safari喚起系統日歷,其它瀏覽器跳轉google日歷

需求:點擊按鈕后,將設定的一些信息插入到系統日歷的日程安排中。 調研過程 先google了一段時間,了解該需求大概的實現方式。可以創建日歷文件,在點擊的時候下載該日歷文件,看起來還比較復雜,并且由于不具…

【Bluedroid】藍牙 HID 設備服務注冊流程源碼解析:從初始化到 SDP 記錄構建

本文圍繞藍牙 HID(人機接口設備)服務注冊流程,詳細解析從 HID 服務啟用、設備初始化、L2CAP 通道注冊到 SDP(服務發現協議)記錄構建的全流程。通過分析關鍵函數如btif_hd_service_registration、BTA_HdEnable、HID_Dev…

Win10無法上網:Windows 無法訪問指定設備、路徑或文件。你可能沒有適當的權限訪問該項目找不到域 TEST 的域控制器DNS 解析存在問題

目錄 一.先看問題 二.解決問題 三.補充備用 一.先看問題 Win08有網且已經加入域 Win10無網并且找不到域(說明:Win10我之前已經加入過域的,并且能夠上網,但每次在宿舍和教室切換校園網,就會導致只有Win10無網&#…

M0基礎篇之ADC

本節課使用到的例程 一、Single模式例程基本配置的解釋 在例程中我們只使用到了PA25這一個通道,因此我們使用的是Single這個模式,也就是我們在配置模式的時候使用的是單一轉換。 進行多個通道的測量我們可以使用Sequence這個模式。 二、Single模式例程基…

淺談裝飾模式

一、前言 hello大家好,本次打算簡單聊一下裝飾者模式,其實寫有關設計模式的內容還是蠻有挑戰性的,首先呢就是小永哥實力有限擔心說不明白,其次設計模式是為了解決某些問題場景,在當前技術生態圈如此完善的情況下&#…

04 mysql 修改端口和重置root密碼

當我們過了一段時間,忘了自己當初創建的數據庫密碼和端口,或者端口被占用了,要怎么處理呢 首先,我們先停止mysql。 一、修改端口 打開my.ini文件,搜索port,默認是3306,根據你的需要修改為其他…

【基于 LangChain 的異步天氣查詢1】異步調用 Open-Meteo API 查詢該城市當前氣溫

目錄 一、功能概述 二、文件結構 三、城市天氣實時查詢(運行代碼) weather_runnable.py main.py 運行結果 四、技術亮點 五、使用場景 一、功能概述 它實現了以下主要功能: 用戶輸入地點(城市名) 構造提示詞…

Spark的三種部署模式及其特點與區別

Spark支持多種集群部署模式,主要分為以下三類: 部署模式特點適用場景資源管理依賴Local模式單機運行,所有進程(Driver、Executor)在同一個JVM中開發調試、小規模數據測試無集群資源管理,僅本地線程模擬無需…

再度深入理解PLC的輸入輸出接線

本文再次重新梳理: 兩線式/三線式傳感器的原理及接線、PLC的輸入和輸出接線,深入其內部原理,按照自己熟悉的方式去理解該知識 在此之前,需要先統一幾個基礎知識點: 在看任何電路的時候,需要有高低電壓差&…

dockerfile編寫入門

dockerfile 入門 前提已經知道常用的docker和linux命令 如容器的創建,運行, linux的文件命令,會上傳文件到linux等等 dockerfile簡介 之前我們所使用的鏡像都是別人構建好的,但是別人構建好的鏡像不一定能滿足我們的需求。為了滿足我們自己的某一些需求&#xff…

jenkins 啟動報錯

java.lang.UnsatisfiedLinkError: /opt/application/jdk-17.0.11/lib/libfontmanager.so: libfreetype.so.6: cannot open shared object file: No such file or directory。 解決方案: yum install freetype-devel 安裝完成之后重啟jenkins。

Harness: 全流程 DevOps 解決方案,讓持續集成如吃飯般簡單

引言 在當今快速發展的軟件開發世界中,高效的 DevOps 工具變得越來越重要。Harness 作為一個開源的運維平臺,為開發和運維團隊提供了從代碼托管到 CI/CD 的全流程解決方案,同時實現自動化的開發環境和制品管理。這種集中化的工具可以顯著減少運維難度,提高團隊效率,真正解…

Kubernetes生產實戰(十七):負載均衡流量分發管理實戰指南

在Kubernetes集群中,負載均衡是保障應用高可用、高性能的核心機制。本文將從生產環境視角,深入解析Kubernetes負載均衡的實現方式、最佳實踐及常見問題解決方案。 一、Kubernetes負載均衡的三大核心組件 1)Service資源:集群內流…

單脈沖前視成像多目標分辨算法——論文閱讀

單脈沖前視成像多目標分辨算法 1. 論文的研究目標及實際意義1.1 研究目標1.2 實際問題與產業意義2. 論文的創新方法及公式解析2.1 核心思路2.2 關鍵公式與模型2.2.1 單脈沖雷達信號模型2.2.2 匹配濾波輸出模型2.2.3 多目標聯合觀測模型2.2.4 對數似然函數與優化2.2.5 MDL準則目…

Java后端程序員學習前端之JavaScript

1.什么是JavaScript 1.1.概述 JavaScript是一門世界上最流行的腳本語言javaScript 一個合格的后端人員&#xff0c;必須要精通JavaScript 1.2.歷史 JavaScript的起源故事-CSDN博客 2.快速入門 2.1.引入JavaScript 1.內部標簽 <script>//.......</script> --…

AI編程: 使用Trae1小時做成的音視頻工具,提取音頻并識別文本

背景 在上個月&#xff0c;有網頁咨詢我怎么才能獲取視頻中的音頻并識別成文本&#xff0c;我當時給他的回答是去問一下AI&#xff0c;讓AI來給你答案。 他覺得我在敷衍他&#xff0c;大罵了我一頓&#xff0c;大家覺得我的回答對嗎&#xff1f; 小編心里委屈&#xff0c;我…

AI日報 · 2025年5月10日|OpenAI“Stargate”超級數據中心項目掀起美國各州爭奪戰

1、OpenAI“Stargate”超級數據中心項目掀起美國各州爭奪戰 《華盛頓郵報》披露&#xff0c;OpenAI 與 Oracle、SoftBank 合作推進的“Stargate”項目&#xff08;首期投資 1000?億美元&#xff0c;四年內總投資 5000?億美元&#xff09;已收到超過 250 份選址提案&#xff…

Windows系統Jenkins企業級實戰

目標 在Windows操作系統上使用Jenkins完成代碼的自動拉取、編譯、打包、發布工作。 實施 1.安裝Java開發工具包&#xff08;JDK&#xff09; Jenkins是基于Java的應用程序&#xff0c;因此需要先安裝JDK。可以從Oracle官網或OpenJDK下載適合的JDK版本。推薦java17版本&#x…