Policy Gradient【強化學習的數學原理】

policy 與表格方式的區別：

metric to define optimal policies

1.?weighted averge

2. the average reward

問題：

梯度計算

如何理解policy-gradient？

policy gradient與表格方式(value based)的區別：

policy 通過參數化的函數來表示： $\pi (a|s, \theta)$

函數近似與表格方式的區別：

1. 在狀態空間很大時，相比表格形式會更高效

1. 對最優策略的定義：

? ? ? ? - 表格形式：能夠最大化每個狀態值的策略 $\pi$ 是最優策略；

? ? ? ? - 函數形式：最大化certain scalar metrics的是最優策略；

2. access action的概率：

? ? ? ?- 查表

? ? ? ?- 計算給定參數和函數結構下 $\pi (a|s, \theta)$ 的值

3. 更新policy：

? ? ? ?- 直接更改表中的值

? ? ? ?- 通過改變參數 $\theta$ 來更改

metric to define optimal policies

1.?weighted averge

$\overline{v_{\pi}} = \sum_{s \in S}^{}d(s)v_{\pi}(s)$ .?? $\sum_{s \in S}^{}d(s) = 1$

d(s)是一個概率分布。

$\overline{v_{\pi}} = \Xi [v_{\pi}(S)]$ .? where? $S \sim d$

如何選擇分布d？

1. d獨立與policy? $\pi$ : 梯度更容易計算。這種情況下d ->? $d_0$ ,?? $\overline{v_{\pi}}$ ?as? $\overline{v}_{\pi}^0$

如何選擇 $d_0$ ？

- 將所有狀態看作同等重要的， $d_0(s) = 1/|S|$

- 只對特殊狀態 $s_0$ 感興趣。一些任務總是從相同的狀態 $s_0$ 開始，所有我們只關心從 $s_0$ ?開始的長期：

$d_0(s_0) = 1, d_0(s \neq s_0) = 0$

2. d 依賴于policy? $\pi$

$d_{\pi}^TP_{\pi} = d_{\pi}^T$ ?, 其中P是狀態轉移矩陣。

如果一個狀態經常被訪問，那么它會產生更多的權重。相反，則是更少的權重

2. the average reward

weighted average one-step reward 或者average reward：

$\overline{r}_{\pi} = \sum_{s \in S}^{}d_{\pi}(s)r_{\pi}(s) = \Xi [r_{\pi}(s) ]$

$r_{\pi}(s) = \sum_{a \in A}^{}\pi(a|s)r(s,a)$ . 從狀態s開始的one-step immediate reward

$r(s,a) =\Xi [R|s,a] = \sum_{r}^{}rp(r|s,a)$

- 從某個狀態出發，跑無窮多步，reward的平均是：

$lim_{n\rightarrow \infty}\frac{1}{n}\Xi [R_{t+1} + R_{t+2} + ... + R_{t+n}| S_t=s_0]$

$=lim_{n\rightarrow \infty}\frac{1}{n}\Xi [\sum_{k=1}^{n}R_{t+k}| S_t=s_0]$

$=lim_{n\rightarrow \infty}\frac{1}{n}\Xi [\sum_{k=1}^{n}R_{t+k}]$

$= \sum_{s \in S}^{}d_{\pi}(s)r_{\pi}(s) =\overline{r}_{\pi}$

1. basic idea of policy gradient methods:

- 這些metrics都是 $\pi$ 的函數， $\pi$ 是由 $\theta$ 參數化的，這些metrics是 $\theta$ 的函數。

- 通過最大化metrics來尋找最優的 $\theta$ 值；

2.?

- 直覺上， $\overline{r}_{\pi}$ ?是短視的（只考慮即時reward）， $\overline{v}_{\pi}$ 考慮了所有step的總共reward；

- 但是，這兩個metrics是彼此相等的（在discounted case中）： $\overline{r}_{\pi} = (1-\lambda)\overline{v}_{\pi}$

問題：

-? $J(\theta) = \Xi [\sum_{t=0}^{\infty}{\lambda}^tR_{t+1}]$ ?這個metric與之前的關系？

clarify and understand this metric：

$A_t \sim \pi(s_t)$ ?and? $R_{t+1}, S_{t+1} \sim p(R_{t+1}|s_t, A_t) p(S_{t+1}|s_t, A_t)$

$J(\theta) = \Xi [\sum_{t=0}^{\infty}{\lambda}^tR_{t+1}] = \sum_{s \in S}^{}d(s)\Xi[\sum_{t=0}^{\infty}\gamma^tR_{t+1}|S_0=s] = \sum_{s \in S}d(s)v_{\pi}(s) = \bar{v}_{\pi}$

梯度計算

$\bigtriangledown_{\theta} J(\theta) =\sum_{s \in S}^{} \eta (s)\sum_{a \in A}^{}\bigtriangledown_{\theta}\pi(a|s, \theta)q_{\pi}(s,a)$

將其轉換為期望的形式，就可以通過采樣的方式來求解梯度：

$=\Xi [\bigtriangledown_{\theta}In\pi(A|S, \theta)q_{\pi}(S,A)]$

如何轉換得到的？

$\bigtriangledown_{\theta}In\pi(a|s, \theta)=\frac{\bigtriangledown_{\theta}\pi(a|s, \theta)}{\pi(a|s, \theta)}$

$\bigtriangledown_{\theta}\pi(a|s, \theta)=\pi(a|s, \theta)\bigtriangledown_{\theta}In\pi(a|s, \theta)$

$\bigtriangledown_{\theta} J(\theta) =\sum_{s}^{} d (s)\sum_{a \in A}^{}\bigtriangledown_{\theta}\pi(a|s, \theta)q_{\pi}(s,a)$

$=\sum_{s}^{} d (s)\sum_{a \in A}^{}\pi(a|s, \theta)\bigtriangledown_{\theta}In\pi(a|s, \theta)q_{\pi}(s,a)$

$=\Xi _{S \sim d}[\sum_{a \in A}^{}\pi(a|s, \theta)\bigtriangledown_{\theta}In\pi(a|s, \theta)q_{\pi}(s,a)]$

$=\Xi _{S \sim d, A \sim \pi}[\bigtriangledown_{\theta}In\pi(A|S, \theta)q_{\pi}(S,A)]$

$=\Xi [\bigtriangledown_{\theta}In\pi(A|S, \theta)q_{\pi}(S,A)]$

其中 $\pi$ ?要求是>0的，所以 $\pi$ ?采用softmax函數的形式， $\sum_a \pi(a|s) =1$ （對應網絡中的激活層）；策略是stochastic的且探索性的。

那么如果action是無窮多個怎么辦？

gradient-ascent algorithm（REINFORCE）

$\theta_{t+1}=\theta_t +\alpha\Xi [\bigtriangledown_{\theta}In\pi(A|S, \theta)q_{\pi}(S,A)]$

采樣：

$\theta_{t+1}=\theta_t +\alpha \bigtriangledown_{\theta}In\pi(a_t|s_t, \theta)q_{\pi}(s_t,a_t)$

$q_{\pi}(s_t,a_t)$ ?也是未知的，可以通過 $q_{t}(s_t,a_t)$ 采樣來近似（MonteCarlo等）

$\theta_{t+1}=\theta_t +\alpha \bigtriangledown_{\theta}In\pi(a_t|s_t, \theta)q_{t}(s_t,a_t)$

如何來采樣？

$\Xi _{S \sim d, A \sim \pi}[\bigtriangledown_{\theta}In\pi(A|S, \theta)q_{\pi}(S,A)] \rightarrow \bigtriangledown_{\theta}In\pi(a|s, \theta)q_{\pi}(s,s)$

- how to sample S?? $S \sim d$ , distribution d is a long-run hehavior under? $\pi$

- how to sample A ?? $A \sim \pi(A|S, \theta)$ ,? $a_t$ ? should be sampled following? $\pi(\theta_t)$ ?at? $s_t$

so , policy gradient is on-policy.

REINFORCE是online還是offline的？

如何理解policy-gradient？

$\bigtriangledown_{\theta}In\pi(a|s, \theta)=\frac{\bigtriangledown_{\theta}\pi(a|s, \theta)}{\pi(a|s, \theta)}$

$\theta_{t+1}=\theta_t +\alpha \bigtriangledown_{\theta}In\pi(a_t|s_t, \theta)q_{\pi}(s_t,a_t)$

$=\theta_t +\alpha (\frac{q_{\pi}(s_t,a_t)}{\pi(a_t|s_t, \theta_t)})\bigtriangledown_{\theta}\pi (a_t|s_t, \theta)$

其中 $\beta_t =\frac{q_{\pi}(s_t,a_t)}{\pi(a_t|s_t, \theta_t)}$

- 當 $\beta_t >0$ , 選擇 $(s_t, a_t)$ 的概率被加強

$\pi (a_t|s_t, \theta_{t+1}) > \pi (a_t|s_t, \theta_{t})$

- 當 $\beta_t <0$

$\pi (a_t|s_t, \theta_{t+1}) < \pi (a_t|s_t, \theta_{t})$

$\beta_t$ ?可以很好的平衡exploration and exploitation

正比于分子，算法會傾向于加強有更大值的action

反比于分母，會探索有更小概率被選擇的action

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/87588.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/87588.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/87588.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！