策略梯度方法

數學背景

給定一個標量函數 $J\left(\theta\right)$ ，利用梯度上升法，使其最大化，此時的 $\pi_\theta$ 就是最優策略。
$\theta_{t+1}=\theta_t+\alpha \nabla_\theta J(\theta_t)$

標量函數 $J(\theta)$

就是上面提到的最優指標 $J$ ，一般有以下幾種定義：

平均狀態價值
$\bar v_\pi =\sum_{s\in\mathcal{S}}d_\pi(s)v_\pi(s) =\mathbb{E}\left[ v_\pi(S) \right]$
如果 $d$ 與 $\pi$ 無關，那么記 $d_\pi=d_0$ ，就Grid World問題，由于狀態價值 $v$ 是回報的期望，考慮兩種具體情況：
- 起始在隨機位置，均勻考慮每個狀態價值： $d_0=1/|\mathcal{S}|$
- 起始在固定位置，只考慮 $s_0$ 狀態價值即可： $d_0(s_0)=1,\ d_0(s\neq s_0)$
如果 $d$ 與 $\pi$ 有關，求解 $d_\pi^TP_\pi=d_\pi^T$ 得到 $d_\pi$ ，其中 $P_\pi$ 是在策略 $\pi$ 下的狀態轉移矩陣。此時，如果一個狀態經常出現，對應的 $d (s)$ 就會變大。
平均瞬時獎勵
$\bar r_\pi=\sum_{s\in \mathcal{S}}d_\pi(s)r_\pi(s)=\mathbb{E}\left[r_\pi(S)\right]$

其中 $r_\pi(s)$ 是agent在某狀態按策略 $\pi$ 在動作空間中采取動作的瞬時獎勵
$r_\pi(s)=\sum_{a\in \mathcal{A}}\pi(s\mid a)r(s,a)$

此定義與episode reward等價，即當episode長度無限大時， $s$ 按 $d_\pi$ 分布，即
$\lim_{n\to\infty}\frac{1}{n}\mathbb{E}[\sum_{k=1}^{n}R_{t+k}] \iff \bar r_\pi$

$J(\theta)$ 的梯度

上面兩類指標函數的梯度都可以寫成：
$\begin{aligned} \nabla_\theta J(\theta) &=\sum_{s\in \mathcal{S}}\eta(s)\sum_{a\in \mathcal{A}} \nabla_\theta \pi(a|s,\theta)q_\pi(s,a)\\ &=\sum_{s\in \mathcal{S}}\eta(s)\sum_{a\in \mathcal{A}} \pi(a|s,\theta)\nabla_\theta \log\pi(a|s,\theta)q_\pi(s,a)\\ &=\mathbb{E}[\nabla_\theta \log\pi(A|S,\theta)q_\pi(S,A)] \end{aligned}$
其中， $S\sim \eta$ ， $A\sim \pi(a|s,\theta)$

訓練時，使用隨機近似的梯度：
$\nabla_\theta J\approx\nabla_\theta \log\pi(a|s,\theta)q_\pi(s,a)$

REINFORCE偽代碼

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/42527.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/42527.shtml
英文地址，請注明出處：http://en.pswp.cn/news/42527.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！