強化學習 - 基于策略的Reinforce算法

🎯 REINFORCE 策略梯度算法推導（完整）

1. 目標函數定義

我們希望最大化策略的期望回報：

$J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ R(\tau) \right]$

其中：

$\tau = (s_0, a_0, s_1, a_1, ..., s_T, a_T)$ ：軌跡
$R(\tau) = \sum_{t=0}^T r_t$ ：軌跡總回報
$\pi_\theta(a_t | s_t)$ ：策略函數，如果是連續動作空間則是（概率密度函數值），離散動作空間則是是一個概率值（如 softmax 輸出）。

2. 軌跡的概率

軌跡的概率分布為：

$P(\tau) = \rho(s_0) \cdot \prod_{t=0}^T \pi_\theta(a_t | s_t) \cdot P(s_{t+1} | s_t, a_t)$

其中：

$\rho(s_0)$ ：初始狀態分布
$P(s_{t+1} | s_t, a_t)$ ：狀態轉移概率（與 $\theta$ 無關）, 就是選什么動作需要概率來描述，選了這個動作跳到什么狀態，也是不確定的，也需要概率來描述。

3. 對目標函數求導

我們希望通過梯度上升更新策略參數 $\theta$ ：

$\nabla_\theta J(\theta) = \nabla_\theta \mathbb{E}_{\tau \sim \pi_\theta} \left[ R(\tau) \right]$

問題：如何求這個梯度？由于 $\pi_\theta$ 依賴于 $\theta$ ，期望不能直接求導。

似然比技巧（likelihood ratio trick），推導如下：

$\nabla_\theta \mathbb{E}_{x \sim p_\theta(x)}[f(x)] = \nabla_\theta \int f(x) p_\theta(x) dx = \int f(x) \nabla_\theta p_\theta(x) dx$
這里之所以不對 $f (x)$ 求導，是因為在強化學習中這里的 $f (x)$ 是reward，是一個標量，與環境交互得到的。

利用鏈式法則：

$\nabla_\theta p_\theta(x) = p_\theta(x) \nabla_\theta \log p_\theta(x)$

代入得：

$\int f(x) p_\theta(x) \nabla_\theta \log p_\theta(x) dx = \mathbb{E}_{x \sim p_\theta(x)}[f(x) \nabla_\theta \log p_\theta(x)]$

4. 推導 log 概率項

注意：

$\log P(\tau) = \log \rho(s_0) + \sum_{t=0}^{T} \left[ \log \pi_\theta(a_t | s_t) + \log P(s_{t+1} | s_t, a_t) \right]$

由于 $\rho(s_0)$ 和 $P(s_{t+1} | s_t, a_t)$ 與 $\theta$ 無關：

$\nabla_\theta \log P(\tau) = \sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t | s_t)$

5. 得到策略梯度表達式

代入得到最終梯度表達式：

$\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^T \nabla_\theta \log \pi_\theta(a_t | s_t) \cdot R(\tau) \right]$

6. 替換為每步折扣回報 ( G_t )

為了更準確地歸因每步動作的影響，引入：

$G_t = \sum_{k=t}^{T} \gamma^{k-t} r_k$

改寫為：

$\nabla_\theta J(\theta) = \mathbb{E}_{\tau} \left[ \sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t | s_t) \cdot G_t \right]$

7. 引入 baseline 減少方差

減去一個與動作無關的 baseline $b(s_t)$ ：

$\nabla_\theta J(\theta) = \mathbb{E}_{\tau} \left[ \sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t | s_t) \cdot (G_t - b(s_t)) \right]$

常用 baseline：

$b(s_t) = V^\pi(s_t) \quad \Rightarrow \quad A_t = G_t - V(s_t)$

最終得到優勢形式：

$\nabla_\theta J(\theta) = \mathbb{E} \left[ \sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t | s_t) \cdot A_t \right]$

? 常見策略梯度形式總結

名稱	表達式
REINFORCE	$\nabla_\theta J(\theta) = \mathbb{E} \left[ \sum_t \nabla_\theta \log \pi_\theta(a_t \| s_t) \cdot G_t \right]$
baseline形式	$\nabla_\theta J(\theta) = \mathbb{E} \left[ \sum_t \nabla_\theta \log \pi_\theta(a_t \| s_t) \cdot (G_t - b(s_t)) \right]$
Advantage形式	$\nabla_\theta J(\theta) = \mathbb{E} \left[ \sum_t \nabla_\theta \log \pi_\theta(a_t \| s_t) \cdot A_t \right]$

📌 附：連續動作高斯策略的梯度

假設策略為：

$\pi_\theta(a|s) = \mathcal{N}(\mu_\theta(s), \sigma^2)$
則：
$\log \pi_\theta(a|s) = -\frac{(a - \mu_\theta(s))^2}{2\sigma^2} + \text{const}$
對策略參數的梯度為：
$\nabla_\theta \log \pi_\theta(a|s) = \frac{(a - \mu_\theta(s))}{\sigma^2} \cdot \nabla_\theta \mu_\theta(s)$

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/910580.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/910580.shtml
英文地址，請注明出處：http://en.pswp.cn/news/910580.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！