【深度強化學習 DRL 快速實踐】策略梯度算法 (PG)

在這里插入圖片描述

PG（1984，Sutton）核心改進點

策略梯度算法 (PG): 直接對策略函數進行建模，可以適用于連續的動作空間

model-free, on-policy, PG, stochastic 策略

核心改進點	說明
策略梯度優化	通過Actor網絡直接優化策略，適應連續動作問題: $\theta_{new} = \theta_{old} + \alpha \nabla_\theta J(\theta)$

PG 網絡更新 – 基于蒙特卡洛估計的 `REINFORCE`

$\nabla_\theta J(\theta) \approx \sum_{t=0}^{T-1} \nabla_\theta \log \pi_\theta(a_t | s_t) G_t，\text{where } G_t = \sum_{t'=t}^{T} \gamma^{t' - t} r_{t'}$

詳細網絡更新公式推導

策略更新目標：使得 $\theta$ 策略下得到的所有軌跡 $\tau$ 的回報期望 $\bar{R}_\theta$ 最大化: 可以用 N 條軌跡的均值近似

$\tau = \{s_1, a_1, r_1, s_2, a_2, r_2, \dots, s_\tau, a_\tau, r_\tau\}$
$\bar{R}_\theta =\textcolor{red}{\sum_\tau} R(\tau) \textcolor{red}{P(\tau | \theta)} \approx \textcolor{blue}{\frac{1}{N} \sum_n^N}R(\tau^n)$

計算梯度 (近似)

$\nabla \bar{R}_\theta = \sum_{\tau} R(\tau) \nabla P(\tau | \theta) = \sum_\tau R(\tau) P(\tau | \theta) \frac{\nabla P(\tau | \theta)}{P(\tau | \theta)}=\textcolor{red}{\sum_\tau} R(\tau) \textcolor{red}{P(\tau | \theta)} \nabla_\theta \log P(\tau | \theta)\\ \approx \textcolor{blue}{\frac{1}{N} \sum_{n=1}^N} R(\tau^n) \nabla_\theta \log P(\tau^n | \theta)$

注：轉為 log 時利用了公式 $\frac{d \log(f(x))}{dx} = \frac{1}{f(x)} \cdot \frac{d f(x)}{dx}$

其中， $\nabla_\theta\log P(\tau^n | \theta)$ 可以做進一步表示

$P(\tau|\theta) = p(s_1) \prod_{t=1}^{T} p(a_t|s_t, \theta) p(r_t, s_{t+1}|s_t, a_t) \\ \log P(\tau|\theta) = \log p(s_1) + \sum_{t=1}^{T} \log p(a_t|s_t, \theta) + \log p(r_t, s_{t+1}|s_t, a_t)\\ \nabla_\theta\log P(\tau | \theta) = \sum_{t=1}^{T} \nabla_\theta \log p(a_t | s_t, \theta)$

所以梯度 (近似)的表示更新為

$\nabla \bar{R}_\theta \approx {\frac{1}{N} \sum_{n=1}^N} \sum_{t=1}^{T^n} R(\tau^n) \nabla_\theta \log p(a_t^n | s_t^n, \theta)$

注：梯度用的是總的回報 $R(\tau^n)$ 而不是 $a_t^n$ 對應的即時獎勵，也就是說，總的回報會增強/減弱軌跡上所有有利/有害的動作輸出；進一步，由于對于第 t 個step，所選擇的動作只會影響未來的 $U^n_t = \sum_t^{T^n} r^n_t$ 所以 $R(\tau^n)$ 可以被優化為 $U^n_t$ ，對應本文一開始所給出的梯度公式

關于如何理解這個梯度，李宏毅老師類比分類學習的講法也很有啟發，強烈推薦學習下【PG 李宏毅 B 站】

進一步的還可以通過添加 baseline 等方法進一步優化表現

解決全正數值的獎勵導致的 – 沒有被 sample 到的 action 輸出概率會下降 (因為其他被 sample 到了的 actions，獲得了正數值的獎勵導致其被視為 有利的動作，進而被增強了其的輸出) 的問題

基于 stable_baselines3 的快速代碼示例

見后續 PPO 算法章節

參考資料：策略梯度算法(PG)詳解

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/80508.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/80508.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/80508.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！