強化學習PPO算法學習記錄

強化學習PPO算法學習記錄

diannao/2025/9/18 0:39:06/文章來源:https://blog.csdn.net/weixin_47505105/article/details/147832989

在這里插入圖片描述

1. 四個模型：

Policy Model：我們想要訓練的目標語言模型。我們一般用SFT階段產出的SFT模型來對它做初始化。
Reference Model：一般也用SFT階段得到的SFT模型做初始化，在訓練過程中，它的參數是凍結的。Ref模型的主要作用是防止Actor”訓歪”。（我們希望訓練出來的Actor模型的輸出分布和Ref模型的輸出分布盡量相似，使用KL散度衡量兩個輸出分布的相似度，這個KL散度會用于后續loss的計算）
Reward Model：用于計算生成token At的即時收益，在RLHF過程中，它的參數是凍結的。
Value Model：用于預測期望總收益 Vt，和Actor模型一樣，它需要參數更新。因為在t時刻，我們給不出客觀存在的總收益，只能訓練一個模型去預測它。

2. r，GAE，A

圖中的r或者說rt的獲得：訓練模型的輸出分布和ref模型的輸出分布的KL散度*超參數 + reward 模型的輸出。
在這里插入圖片描述

GAE整合獎勵（r）與價值（v），計算優勢函數 A，指導策略優化：
在這里插入圖片描述

3. 重要性權重（新舊策略概率比）

在PPO算法中，?約束重要性權重有兩種主要的約束方式?：Clip機制和KL散度懲罰。
在這里插入圖片描述

3.1 Clip機制

在這里插入圖片描述

3.2 KL散度懲罰

在這里插入圖片描述
將這個公式展開也就是：

4. actor loss 和 critic loss

這兩個loss 分別用于優化 policy model 和 value model

如果用clip限制策略更新的幅度下的actor loss：

在這里插入圖片描述

critic loss：

在這里插入圖片描述

PPO 和 GRPO ：

主要區別：提出一個不需要訓練狀態價值網絡，就可以估算出每個token 優勢值的方法，并且這個方法更適合訓練大模型生成強化學習這個場景。
在這里插入圖片描述

在這里插入圖片描述

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/82490.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/82490.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/82490.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

邊緣計算從專家到小白

邊緣計算從專家到小白

“云-邊-端”架構 “云” ：傳統云計算的中心節點，是邊緣計算的管控端。匯集所有邊緣的感知數據、業務數據以及互聯網數據，完成對行業以及跨行業的態勢感知和分析。 “邊” ：云計算的邊緣側，分為基礎設施邊緣和設備邊緣…

閱讀更多...

Windows：Powershell的使用

Windows：Powershell的使用

文章目錄零、格式化輸出命令1、Format-List（別名：fl） 一、服務管理SC命令二、軟件管理命令三、權限管理命令1、Get-Acl2、Set-Acl 總結零、格式化輸出命令 1、Format-List（別名：fl） 可通過管道符傳遞對象…

閱讀更多...

實現在h5中添加日歷提醒：safari喚起系統日歷，其它瀏覽器跳轉google日歷

實現在h5中添加日歷提醒：safari喚起系統日歷，其它瀏覽器跳轉google日歷

需求：點擊按鈕后，將設定的一些信息插入到系統日歷的日程安排中。調研過程先google了一段時間，了解該需求大概的實現方式。可以創建日歷文件，在點擊的時候下載該日歷文件，看起來還比較復雜，并且由于不具…

閱讀更多...

【Bluedroid】藍牙 HID 設備服務注冊流程源碼解析：從初始化到 SDP 記錄構建

【Bluedroid】藍牙 HID 設備服務注冊流程源碼解析：從初始化到 SDP 記錄構建

本文圍繞藍牙 HID（人機接口設備）服務注冊流程，詳細解析從 HID 服務啟用、設備初始化、L2CAP 通道注冊到 SDP（服務發現協議）記錄構建的全流程。通過分析關鍵函數如btif_hd_service_registration、BTA_HdEnable、HID_Dev…

閱讀更多...

Win10無法上網：Windows 無法訪問指定設備、路徑或文件。你可能沒有適當的權限訪問該項目找不到域 TEST 的域控制器DNS 解析存在問題

Win10無法上網：Windows 無法訪問指定設備、路徑或文件。你可能沒有適當的權限訪問該項目找不到域 TEST 的域控制器DNS 解析存在問題

目錄一.先看問題二.解決問題三.補充備用一.先看問題 Win08有網且已經加入域 Win10無網并且找不到域（說明：Win10我之前已經加入過域的，并且能夠上網，但每次在宿舍和教室切換校園網，就會導致只有Win10無網&#…

閱讀更多...

M0基礎篇之ADC

M0基礎篇之ADC

本節課使用到的例程一、Single模式例程基本配置的解釋在例程中我們只使用到了PA25這一個通道，因此我們使用的是Single這個模式，也就是我們在配置模式的時候使用的是單一轉換。進行多個通道的測量我們可以使用Sequence這個模式。二、Single模式例程基…

閱讀更多...

淺談裝飾模式

淺談裝飾模式

一、前言 hello大家好，本次打算簡單聊一下裝飾者模式，其實寫有關設計模式的內容還是蠻有挑戰性的，首先呢就是小永哥實力有限擔心說不明白，其次設計模式是為了解決某些問題場景，在當前技術生態圈如此完善的情況下&#…

閱讀更多...

04 mysql 修改端口和重置root密碼

04 mysql 修改端口和重置root密碼

當我們過了一段時間，忘了自己當初創建的數據庫密碼和端口，或者端口被占用了，要怎么處理呢首先，我們先停止mysql。一、修改端口打開my.ini文件，搜索port，默認是3306，根據你的需要修改為其他…

閱讀更多...

【基于 LangChain 的異步天氣查詢1】異步調用 Open-Meteo API 查詢該城市當前氣溫

【基于 LangChain 的異步天氣查詢1】異步調用 Open-Meteo API 查詢該城市當前氣溫

目錄一、功能概述二、文件結構三、城市天氣實時查詢（運行代碼） weather_runnable.py main.py 運行結果四、技術亮點五、使用場景一、功能概述它實現了以下主要功能： 用戶輸入地點（城市名） 構造提示詞…

閱讀更多...

Spark的三種部署模式及其特點與區別

Spark的三種部署模式及其特點與區別

Spark支持多種集群部署模式，主要分為以下三類： 部署模式特點適用場景資源管理依賴Local模式單機運行，所有進程（Driver、Executor）在同一個JVM中開發調試、小規模數據測試無集群資源管理，僅本地線程模擬無需…

閱讀更多...

再度深入理解PLC的輸入輸出接線

再度深入理解PLC的輸入輸出接線

本文再次重新梳理： 兩線式/三線式傳感器的原理及接線、PLC的輸入和輸出接線，深入其內部原理，按照自己熟悉的方式去理解該知識在此之前，需要先統一幾個基礎知識點： 在看任何電路的時候，需要有高低電壓差&…

閱讀更多...

dockerfile編寫入門

dockerfile編寫入門

dockerfile 入門前提已經知道常用的docker和linux命令如容器的創建,運行, linux的文件命令,會上傳文件到linux等等 dockerfile簡介之前我們所使用的鏡像都是別人構建好的，但是別人構建好的鏡像不一定能滿足我們的需求。為了滿足我們自己的某一些需求&#xff…

閱讀更多...

jenkins 啟動報錯

jenkins 啟動報錯

java.lang.UnsatisfiedLinkError: /opt/application/jdk-17.0.11/lib/libfontmanager.so: libfreetype.so.6: cannot open shared object file: No such file or directory。解決方案： yum install freetype-devel 安裝完成之后重啟jenkins。

閱讀更多...

Harness: 全流程 DevOps 解決方案，讓持續集成如吃飯般簡單

Harness: 全流程 DevOps 解決方案，讓持續集成如吃飯般簡單

引言在當今快速發展的軟件開發世界中，高效的 DevOps 工具變得越來越重要。Harness 作為一個開源的運維平臺，為開發和運維團隊提供了從代碼托管到 CI/CD 的全流程解決方案，同時實現自動化的開發環境和制品管理。這種集中化的工具可以顯著減少運維難度，提高團隊效率，真正解…

閱讀更多...

Kubernetes生產實戰(十七)：負載均衡流量分發管理實戰指南

Kubernetes生產實戰(十七)：負載均衡流量分發管理實戰指南

在Kubernetes集群中，負載均衡是保障應用高可用、高性能的核心機制。本文將從生產環境視角，深入解析Kubernetes負載均衡的實現方式、最佳實踐及常見問題解決方案。一、Kubernetes負載均衡的三大核心組件 1）Service資源：集群內流…

閱讀更多...

單脈沖前視成像多目標分辨算法——論文閱讀

單脈沖前視成像多目標分辨算法——論文閱讀

單脈沖前視成像多目標分辨算法 1. 論文的研究目標及實際意義1.1 研究目標1.2 實際問題與產業意義2. 論文的創新方法及公式解析2.1 核心思路2.2 關鍵公式與模型2.2.1 單脈沖雷達信號模型2.2.2 匹配濾波輸出模型2.2.3 多目標聯合觀測模型2.2.4 對數似然函數與優化2.2.5 MDL準則目…

閱讀更多...

Java后端程序員學習前端之JavaScript

Java后端程序員學習前端之JavaScript

1.什么是JavaScript 1.1.概述 JavaScript是一門世界上最流行的腳本語言javaScript 一個合格的后端人員，必須要精通JavaScript 1.2.歷史 JavaScript的起源故事-CSDN博客 2.快速入門 2.1.引入JavaScript 1.內部標簽 <script>//.......</script> --…

閱讀更多...

AI編程：使用Trae1小時做成的音視頻工具，提取音頻并識別文本

AI編程：使用Trae1小時做成的音視頻工具，提取音頻并識別文本

背景在上個月，有網頁咨詢我怎么才能獲取視頻中的音頻并識別成文本，我當時給他的回答是去問一下AI，讓AI來給你答案。他覺得我在敷衍他，大罵了我一頓，大家覺得我的回答對嗎？ 小編心里委屈，我…

閱讀更多...

AI日報 · 2025年5月10日｜OpenAI“Stargate”超級數據中心項目掀起美國各州爭奪戰

AI日報 · 2025年5月10日｜OpenAI“Stargate”超級數據中心項目掀起美國各州爭奪戰

1、OpenAI“Stargate”超級數據中心項目掀起美國各州爭奪戰《華盛頓郵報》披露，OpenAI 與 Oracle、SoftBank 合作推進的“Stargate”項目（首期投資 1000?億美元，四年內總投資 5000?億美元）已收到超過 250 份選址提案&#xff…

閱讀更多...

Windows系統Jenkins企業級實戰

Windows系統Jenkins企業級實戰

目標在Windows操作系統上使用Jenkins完成代碼的自動拉取、編譯、打包、發布工作。實施 1.安裝Java開發工具包（JDK） Jenkins是基于Java的應用程序，因此需要先安裝JDK。可以從Oracle官網或OpenJDK下載適合的JDK版本。推薦java17版本&#x…

閱讀更多...

最新文章