強化學習 - 基于策略的Reinforce算法

🎯 REINFORCE 策略梯度算法推導(完整)

1. 目標函數定義

我們希望最大化策略的期望回報:

J ( θ ) = E τ ~ π θ [ R ( τ ) ] J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ R(\tau) \right] J(θ)=Eτπθ??[R(τ)]

其中:

  • τ = ( s 0 , a 0 , s 1 , a 1 , . . . , s T , a T ) \tau = (s_0, a_0, s_1, a_1, ..., s_T, a_T) τ=(s0?,a0?,s1?,a1?,...,sT?,aT?):軌跡
  • R ( τ ) = ∑ t = 0 T r t R(\tau) = \sum_{t=0}^T r_t R(τ)=t=0T?rt?:軌跡總回報
  • π θ ( a t ∣ s t ) \pi_\theta(a_t | s_t) πθ?(at?st?):策略函數,如果是連續動作空間則是(概率密度函數值),離散動作空間則是是一個概率值(如 softmax 輸出)。

2. 軌跡的概率

軌跡的概率分布為:

P ( τ ) = ρ ( s 0 ) ? ∏ t = 0 T π θ ( a t ∣ s t ) ? P ( s t + 1 ∣ s t , a t ) P(\tau) = \rho(s_0) \cdot \prod_{t=0}^T \pi_\theta(a_t | s_t) \cdot P(s_{t+1} | s_t, a_t) P(τ)=ρ(s0?)?t=0T?πθ?(at?st?)?P(st+1?st?,at?)

其中:

  • ρ ( s 0 ) \rho(s_0) ρ(s0?):初始狀態分布
  • P ( s t + 1 ∣ s t , a t ) P(s_{t+1} | s_t, a_t) P(st+1?st?,at?):狀態轉移概率(與 θ \theta θ 無關), 就是選什么動作需要概率來描述,選了這個動作跳到什么狀態,也是不確定的,也需要概率來描述。

3. 對目標函數求導

我們希望通過梯度上升更新策略參數 θ \theta θ

? θ J ( θ ) = ? θ E τ ~ π θ [ R ( τ ) ] \nabla_\theta J(\theta) = \nabla_\theta \mathbb{E}_{\tau \sim \pi_\theta} \left[ R(\tau) \right] ?θ?J(θ)=?θ?Eτπθ??[R(τ)]

問題:如何求這個梯度?由于 π θ \pi_\theta πθ? 依賴于 θ \theta θ,期望不能直接求導。

似然比技巧(likelihood ratio trick),推導如下:

? θ E x ~ p θ ( x ) [ f ( x ) ] = ? θ ∫ f ( x ) p θ ( x ) d x = ∫ f ( x ) ? θ p θ ( x ) d x \nabla_\theta \mathbb{E}_{x \sim p_\theta(x)}[f(x)] = \nabla_\theta \int f(x) p_\theta(x) dx = \int f(x) \nabla_\theta p_\theta(x) dx ?θ?Expθ?(x)?[f(x)]=?θ?f(x)pθ?(x)dx=f(x)?θ?pθ?(x)dx
這里之所以不對 f ( x ) f(x) f(x)求導,是因為在強化學習中這里的 f ( x ) f(x) f(x)是reward,是一個標量,與環境交互得到的。

利用鏈式法則:

? θ p θ ( x ) = p θ ( x ) ? θ log ? p θ ( x ) \nabla_\theta p_\theta(x) = p_\theta(x) \nabla_\theta \log p_\theta(x) ?θ?pθ?(x)=pθ?(x)?θ?logpθ?(x)

代入得:

= ∫ f ( x ) p θ ( x ) ? θ log ? p θ ( x ) d x = E x ~ p θ ( x ) [ f ( x ) ? θ log ? p θ ( x ) ] = \int f(x) p_\theta(x) \nabla_\theta \log p_\theta(x) dx = \mathbb{E}_{x \sim p_\theta(x)}[f(x) \nabla_\theta \log p_\theta(x)] =f(x)pθ?(x)?θ?logpθ?(x)dx=Expθ?(x)?[f(x)?θ?logpθ?(x)]


4. 推導 log 概率項

注意:

log ? P ( τ ) = log ? ρ ( s 0 ) + ∑ t = 0 T [ log ? π θ ( a t ∣ s t ) + log ? P ( s t + 1 ∣ s t , a t ) ] \log P(\tau) = \log \rho(s_0) + \sum_{t=0}^{T} \left[ \log \pi_\theta(a_t | s_t) + \log P(s_{t+1} | s_t, a_t) \right] logP(τ)=logρ(s0?)+t=0T?[logπθ?(at?st?)+logP(st+1?st?,at?)]

由于 ρ ( s 0 ) \rho(s_0) ρ(s0?) P ( s t + 1 ∣ s t , a t ) P(s_{t+1} | s_t, a_t) P(st+1?st?,at?) θ \theta θ 無關:

? θ log ? P ( τ ) = ∑ t = 0 T ? θ log ? π θ ( a t ∣ s t ) \nabla_\theta \log P(\tau) = \sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t | s_t) ?θ?logP(τ)=t=0T??θ?logπθ?(at?st?)


5. 得到策略梯度表達式

代入得到最終梯度表達式:

? θ J ( θ ) = E τ ~ π θ [ ∑ t = 0 T ? θ log ? π θ ( a t ∣ s t ) ? R ( τ ) ] \nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^T \nabla_\theta \log \pi_\theta(a_t | s_t) \cdot R(\tau) \right] ?θ?J(θ)=Eτπθ??[t=0T??θ?logπθ?(at?st?)?R(τ)]


6. 替換為每步折扣回報 ( G_t )

為了更準確地歸因每步動作的影響,引入:

G t = ∑ k = t T γ k ? t r k G_t = \sum_{k=t}^{T} \gamma^{k-t} r_k Gt?=k=tT?γk?trk?

改寫為:

? θ J ( θ ) = E τ [ ∑ t = 0 T ? θ log ? π θ ( a t ∣ s t ) ? G t ] \nabla_\theta J(\theta) = \mathbb{E}_{\tau} \left[ \sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t | s_t) \cdot G_t \right] ?θ?J(θ)=Eτ?[t=0T??θ?logπθ?(at?st?)?Gt?]


7. 引入 baseline 減少方差

減去一個與動作無關的 baseline b ( s t ) b(s_t) b(st?)

? θ J ( θ ) = E τ [ ∑ t = 0 T ? θ log ? π θ ( a t ∣ s t ) ? ( G t ? b ( s t ) ) ] \nabla_\theta J(\theta) = \mathbb{E}_{\tau} \left[ \sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t | s_t) \cdot (G_t - b(s_t)) \right] ?θ?J(θ)=Eτ?[t=0T??θ?logπθ?(at?st?)?(Gt??b(st?))]

常用 baseline:

b ( s t ) = V π ( s t ) ? A t = G t ? V ( s t ) b(s_t) = V^\pi(s_t) \quad \Rightarrow \quad A_t = G_t - V(s_t) b(st?)=Vπ(st?)?At?=Gt??V(st?)

最終得到優勢形式:

? θ J ( θ ) = E [ ∑ t = 0 T ? θ log ? π θ ( a t ∣ s t ) ? A t ] \nabla_\theta J(\theta) = \mathbb{E} \left[ \sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t | s_t) \cdot A_t \right] ?θ?J(θ)=E[t=0T??θ?logπθ?(at?st?)?At?]


? 常見策略梯度形式總結

名稱表達式
REINFORCE ? θ J ( θ ) = E [ ∑ t ? θ log ? π θ ( a t ∣ s t ) ? G t ] \nabla_\theta J(\theta) = \mathbb{E} \left[ \sum_t \nabla_\theta \log \pi_\theta(a_t | s_t) \cdot G_t \right] ?θ?J(θ)=E[t??θ?logπθ?(at?st?)?Gt?]
baseline形式 ? θ J ( θ ) = E [ ∑ t ? θ log ? π θ ( a t ∣ s t ) ? ( G t ? b ( s t ) ) ] \nabla_\theta J(\theta) = \mathbb{E} \left[ \sum_t \nabla_\theta \log \pi_\theta(a_t | s_t) \cdot (G_t - b(s_t)) \right] ?θ?J(θ)=E[t??θ?logπθ?(at?st?)?(Gt??b(st?))]
Advantage形式 ? θ J ( θ ) = E [ ∑ t ? θ log ? π θ ( a t ∣ s t ) ? A t ] \nabla_\theta J(\theta) = \mathbb{E} \left[ \sum_t \nabla_\theta \log \pi_\theta(a_t | s_t) \cdot A_t \right] ?θ?J(θ)=E[t??θ?logπθ?(at?st?)?At?]

📌 附:連續動作高斯策略的梯度

假設策略為:

π θ ( a ∣ s ) = N ( μ θ ( s ) , σ 2 ) \pi_\theta(a|s) = \mathcal{N}(\mu_\theta(s), \sigma^2) πθ?(as)=N(μθ?(s),σ2)
則:
log ? π θ ( a ∣ s ) = ? ( a ? μ θ ( s ) ) 2 2 σ 2 + const \log \pi_\theta(a|s) = -\frac{(a - \mu_\theta(s))^2}{2\sigma^2} + \text{const} logπθ?(as)=?2σ2(a?μθ?(s))2?+const
對策略參數的梯度為:
? θ log ? π θ ( a ∣ s ) = ( a ? μ θ ( s ) ) σ 2 ? ? θ μ θ ( s ) \nabla_\theta \log \pi_\theta(a|s) = \frac{(a - \mu_\theta(s))}{\sigma^2} \cdot \nabla_\theta \mu_\theta(s) ?θ?logπθ?(as)=σ2(a?μθ?(s))???θ?μθ?(s)


本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/910580.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/910580.shtml
英文地址,請注明出處:http://en.pswp.cn/news/910580.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Windows Sever Core安裝及常用命令

一、Windows Sever Core 在安裝 Windows Server 的過程中,可以選擇“Server Core”(核心安裝)這種沒有圖形用戶界面(GUI)的安裝方式。這種模式下,Windows Server 主要通過命令行或遠程管理進行配置和維護&…

Java 單元測試實戰:以“兩數之和”為例,講透測試思維

🌟Java 單元測試實戰:以“兩數之和”為例,講透測試思維 在 Java 開發中,單元測試不僅是驗證功能正確的手段,更是衡量開發者是否具備“測試思維”的標志。今天我們通過一個最簡單的功能——“兩數之和”來系統講解如何…

Bootstrap 5學習教程,從入門到精通,Bootstrap 5 提示框(Tooltips) 語法知識點及案例(21)

Bootstrap 5 提示框(Tooltips) 語法知識點及案例 一、提示框語法知識點 1. 基本概念 提示框(Tooltips)是當用戶懸停在元素上時顯示的小浮動標簽,用于提供額外信息。 2. 核心屬性 data-bs-toggle"tooltip" - 標識元素為提示框觸發器title - 提示框顯示…

設計模式實戰指南:從源碼解析到Java后端架構的藝術

🎯 設計模式實戰指南:從源碼解析到Java后端架構的藝術 概述 本文檔基于設計模式分類,詳細介紹Java后端開發中各種設計模式的實際應用場景,結合Spring、MyBatis、Redis等主流框架的源碼分析,幫助開發者深入理解設計模…

Python Arrow 庫詳解:更智能的日期時間處理

1. 安裝與基本用法 安裝 Arrow pip install arrow基本使用示例 import arrow# 獲取當前時間 now arrow.now() print(now) # 輸出: 2023-07-15T14:30:45.12345608:00# 創建特定時間 dt arrow.get(2023-07-15 14:30:00, YYYY-MM-DD HH:mm:ss) print(dt) # 輸出: 2023-07-15T…

大家電破渠道困局,小家電攻用戶體驗,云徙有何解法?

中國家電行業正經歷深刻轉型。 自2018年市場規模觸及8400億頂峰后,行業從增量競爭轉向存量博弈。與此同時,線上渠道在2023年首次以58%的占比超越線下,其中掃地機器人等小家電品類線上滲透率突破90%。消費需求也在同步重構——從家庭場景向個…

DMDPC多副本數據分布測試

需求:測試建表和插入數據是否會根據分布列進行自動分發。 驗證方法:1)準備基礎環境:創建用戶和表空間。2)創建數據分布測試表,并插入數據。3)查詢指定分區數據,驗證數據分布情況。 …

Qt/C++開發監控GB28181系統/rtp解包/jrtplib庫的使用/同時支持udp和tcp被動和主動三種方式解包

一、前言說明 通過sip協議僅僅是交互,音視頻數據的收發最終并不是通過sip傳輸的,而是通過將數據打包成rtp的格式再通過udp或者tcp通信的,sip協議僅僅是告知對方待會要往哪里發數據,是udp還是tcp。由于數據都是rtp包格式&#xff…

集群聊天服務器---muduo庫的使用

使用 C 和 muduo 網絡庫來實現一個簡單的聊天服務器和客戶端。 服務器端: class chatServer { public:// 初始化TcpServerchatServer(muduo::net::EventLoop *loop,const muduo::net::InetAddress &listenAddr): _server(loop, listenAddr, "chatServer&…

關于Net Core Web API 項目測試 數據庫模擬的兩種不同方法 DC_week 6

1.關系型數據庫 插件:Microsoft.EntityFrameworkCore.InMemory Microsoft.EntityFrameworkCore.InMemory 是一個用于測試的“臨時內存數據庫”,讓你在不連接真實數據庫的情況下,測試 EF Core 的功能。 使用時就是用具體這個框架里面已經…

如何獲取 vscode 的 vsix 離線插件安裝包

1、搜索所需要的插件 Extensions for Visual Studio family of products | Visual Studio Marketplace網址 2、點擊 Repository 跳轉到對應的 git 倉庫 3、在 git 倉庫依次選擇 main , Tags, View all tags 4、選擇你想下載的版本,并點擊 downloads 5、往下滑動&…

ULS23 挑戰:用于計算機斷層掃描中 3D 通用病變分割的基準模型及基準數據集|文獻速遞-深度學習醫療AI最新文獻

Title 題目 The ULS23 challenge: A baseline model and benchmark dataset for 3D universal lesion segmentation in computed tomography ULS23 挑戰:用于計算機斷層掃描中 3D 通用病變分割的基準模型及基準數據集 01 文獻速遞介紹 每年進行的CT檢查數量持續…

WebSocket 端點 vs Spring Bean

在websocket端點中注入業務service時,不能像普通的springbean一樣通過Autowired或Resource注解進行注入。主要原因是websocket端點與spring容器中的bean的生命周期管理容器不同。 WebSocket 端點(ServerEndpoint)和 Spring Bean 的生命周期存…

MySQL8:jdbc插入數據后獲取自增ID

pom文件&#xff1a; <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation"http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/maven-4.0.0.xsd"&…

MyBatis(Web后端開發第二期)

p.s.這是萌新自己自學總結的筆記&#xff0c;如果想學習得更透徹的話還是請去看大佬的講解 目錄 JDBC、數據庫連接池、lombok日志輸出SQL注入數據封裝XML映射文件動態SQL<if><where><set><foreach><sql><include> 配置文件 Mybatis是是一…

Angular1--Hello

最近有個小錯誤&#xff0c;因為最近還是在看thingsboard&#xff0c;最近終于看到前端的代碼&#xff0c;突然發現怎么全是ts的文件&#xff0c;仔細一看原來并不是之前認為的AngularJS&#xff0c;而是Angular。。。我tm真的無語了&#xff0c;又要去重新學。。。 Angular的…

什么是redission看門狗機制

Redisson 的看門狗機制(Watchdog Mechanism)是其實現可重入分布式鎖時的一個核心特性,主要用于解決業務邏輯執行時間超過鎖的過期時間(leaseTime)而導致鎖提前釋放,進而引發數據不一致的問題。它是一個自動的鎖續期機制。 ?? 核心問題:為什么需要看門狗? 分布式鎖的…

黑馬程序員蒼穹外賣DAY1

1. 前端頁面能正常顯示但無法登錄&#xff08;一直轉圈圈&#xff09; 找到下面路徑的dev.yml port一定要跟自己本機的保持一致&#xff0c;&#xff0c;username和password也一定是自己主機的用戶名和密碼&#xff0c;不然連不上。 登錄界面的密碼為數據庫表的密碼&#xff0…

Frida Hook Android App 點擊事件實戰指南:從進程識別到成功注入

一、背景與目標 在逆向分析和自動化測試中&#xff0c;Hook Android 的點擊事件是調試 UI 交互邏輯的重要手段之一。本文將以實際案例講解如何通過 Frida Hook public void onClick(View view) 方法&#xff0c;并解決常見的 Hook 失敗問題&#xff0c;最終實現對登錄按鈕的監…

Arduino Nano 33 BLE Sense Rev 2開發板使用指南之【環境搭建 / 點燈】

一、硬件介紹 1、產品特點 Arduino Nano 33 BLE Rev2&#xff0c;利用了nRF52840微控制器的先進功能。這款32位Arm Cortex-M4 CPU 64 MHz與MicroPython的兼容性增強了板子的靈活性&#xff0c;使其更容易被更廣泛的開發者社區所接受。 該開發板的突出特點是其藍牙低功耗&…