【Introduction to Reinforcement Learning】翻譯解讀2

2.2 馬爾可夫決策過程（MDPs）

馬爾可夫決策過程（MDP）為順序決策提供了框架，其中動作不僅影響即時獎勵，還會影響未來結果。與多臂老虎機問題不同，MDP中的即時獎勵與延遲獎勵相平衡。在多臂老虎機問題中，目標是確定在狀態 $s$ 下執行動作 $a$ 的價值，或者在MDP中，目標是衡量在假定采取最佳動作的情況下，采取動作 $a$ 在狀態 $s$ 下的價值。正確評估干預的長期效應需要估計這些狀態特定的值。MDPs由狀態、動作和獎勵 $(S, A, R)$ 組成。離散概率分布被分配給基于前一個狀態和動作的隨機變量 $R_t$ 和 $S_t$ ，并推導出這些變量的方程。一個系統被認為是馬爾可夫的，當一個動作的結果不依賴于過去的動作和狀態，僅依賴于當前狀態時。馬爾可夫性質要求狀態包含過去交互的所有重要細節，這些交互影響未來結果。這一點是MDPs在RL中使用的基礎。為了描述MDP的動態，我們使用狀態轉移概率函數 $p (s^{'}, r ∣ s, a)$ ，其定義如下：

$\equiv \Pr\{S_t = s', R_t = r | S_{t-1} = s, A_{t-1} = a\} \tag{9}$

其中，函數 $p$ 定義了MDP的動態。以下狀態轉移概率、狀態-動作-下一個狀態三元組的期望獎勵可以通過四參數動態函數 $p$ 推導出來。我們可以推導出狀態轉移概率，狀態-動作對的期望獎勵，以及狀態-動作-下一個狀態三元組的期望獎勵，具體公式如下：

$\equiv \Pr\{S_t = s' | S_{t-1} = s, A_{t-1} = a\} = \sum_r p(s', r | s, a) \tag{10}$

$\equiv \mathbb{E}\{R_t | S_{t-1} = s, A_{t-1} = a\} = \sum_r r \cdot p(s', r | s, a) \tag{11}$

$\equiv \mathbb{E}\{R_t | S_{t-1} = s, A_{t-1} = a, S_t = s'\} = \sum_{r \in R} r \cdot p(s', r | s, a) \tag{12}$

動作的概念包括所有與學習相關的決策，狀態的概念則涵蓋了所有為做出這些決策而可用的信息。作為MDP框架的一部分，目標導向行為通過交互被抽象化。任何學習問題都可以簡化為三個信號：智能體與環境之間的動作、狀態和獎勵。許多應用已經證明了該框架的有效性。我們現在能夠正式定義和解決RL問題。我們已經定義了獎勵、目標、概率分布、環境和智能體等概念。然而，這些概念在定義時并不完全是形式化的。根據我們的論述，智能體的目標是最大化未來的獎勵，但這一點該如何在數學上表達呢？回報（return），記作 $G_t$ ，是從時間步 $t$ 開始所收到的獎勵的累積和。在階段性任務或事件驅動任務中，回報定義為：

$G_t \equiv R_{t+1} + R_{t+2} + \dots + R_T \tag{13}$

在這里， $G_t$ 是獎勵序列的一個特定函數。階段性任務是指智能體與環境之間的交互自然地按順序發生，稱為一個回合（episode），而任務則稱為階段性任務。一個很好的例子是經典的“吊死鬼”游戲（hangman）。在每個標準回合結束時，都將恢復初始狀態。術語“new games”是指從終結狀態之后到達的下一個狀態，即結束回合后進入的狀態。對于持續任務（如使用具有長期使用壽命的機器人）來說，任務通常會涉及持續的交互，且沒有終結狀態（ $\infty$ ）。因此，對于持續任務的回報應當有不同的定義。若智能體始終能獲得獎勵，則回報可能是無限的。對于持續任務，當沒有終結狀態時，回報 $G_t$ 被定義為未來獎勵的折扣總和：

$G_t \equiv R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} \tag{14}$

其中， $\gamma$ 是折扣因子（ $\leq \gamma \leq 1$ ）。折扣因子影響未來獎勵的當前價值。當 $\gamma < 1$ 時，無限和會收斂到有限值。當 $\gamma = 0$ 時，智能體最大化即時獎勵；當 $\gamma \to 1$ 時，未來獎勵的影響變得更大。我們還可以遞歸地表示回報 $G_t$ ：

$G_t \equiv R_{t+1} + \gamma G_{t+1} \tag{15}$

如果獎勵是非零且常數的，且 $\gamma < 1$ ，則回報是有限的。對于階段性任務和持續任務，當 $\infty$ 或 $\gamma = 1$ 時，方程（16）適用：

$G_t \equiv \sum_{k=t+1}^{T} \gamma^{k-t-1} R_k \tag{16}$

2.3 策略與價值函數

價值函數估計智能體處于某一狀態（或執行某一動作時）的期望回報。根據選擇的動作，這些因素會有所不同。價值函數和策略之間存在聯系，策略決定了根據狀態選擇動作的概率。價值函數可以分為兩大類：狀態價值函數和動作價值函數。一個狀態 $s$ 在策略 $\pi$ 下的價值函數 $v_{\pi}(s)$ 是從狀態 $s$ 開始，按照策略 $\pi$ 執行后的期望回報。

$v_{\pi}(s) \equiv \mathbb{E}_{\pi} \left[ \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s \right] \tag{17}$

另一方面，在狀態 $s$ 下，采取動作 $a$ 并隨后遵循策略 $\pi$ 的動作價值函數 $q_{\pi}(s, a)$ 是從狀態 $s$ 開始，執行動作 $a$ 后，按照策略 $\pi$ 繼續執行的期望回報：

$q_{\pi}(s, a) \equiv \mathbb{E}_{\pi} \left[ \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s, A_t = a \right] \tag{18}$

需要注意的是， $v$ 和 $q$ 之間的區別，即 $q$ 依賴于在每個狀態下采取的動作。對于10個狀態和每個狀態8個動作的情況， $q$ 需要80個函數，而 $v$ 只需要10個函數。根據策略 $\pi$ ，如果智能體從每個狀態獲取回報并取平均值，則該平均值會收斂到 $v_{\pi}(s)$ 。通過對每個狀態的回報取平均，最終收斂到 $q_{\pi}(s, a)$ 。因此， $v_{\pi}(s)$ 可以遞歸地表示為：

$v_{\pi}(s) \equiv \mathbb{E}_{\pi}[G_t | S_t = s] = \mathbb{E}_{\pi}[R_{t+1} + \gamma G_{t+1} | S_t = s] = \sum_a \pi(a|s) \sum_{s'} \sum_r p(s', r | s, a)[r + \gamma v_{\pi}(s')] \tag{19}$

方程19是 $v_{\pi}$ 的貝爾曼方程。貝爾曼方程將一個狀態的價值與其潛在后繼狀態的價值聯系起來。該圖示例說明了從一個狀態到它的后繼狀態的預期。初始狀態的價值等于預期下一個狀態的折扣價值加上預期的獎勵。

$v_{\pi}(s)$ 和 $q_{\pi}(s, a)$ 在強化學習（RL）中具有不同的用途。在評估確定性策略或需要理解智能體處于某一特定狀態時的表現時，使用狀態價值函數（state-value functions）。在策略評估和策略迭代方法中，策略已被明確地定義，并且評估在該策略下處于特定狀態的表現是必要的，這些方法非常有用。使用狀態價值函數的優勢在于，當存在許多動作時，只需評估狀態的值即可，而不需要評估每個動作的值。

另一方面，動作價值函數（action-value functions）用于評估和比較在同一狀態下采取不同動作的潛力。它們對于選擇動作至關重要，目的是確定每種情境下最合適的動作。由于動作價值函數考慮了從不同動作中獲得的期望回報，因此它們在具有隨機策略的環境中尤其有用。此外，當處理連續動作空間時，動作價值函數能夠提供更為詳細的關于動作影響的理解，有助于策略實施的微調。

示例: 考慮一個賭博場景，其中玩家有10美元并面臨決定賭多少錢的選擇。這個游戲說明了RL中的狀態和動作價值函數。狀態價值函數（ $v_{\pi}(s)$ ）量化了某狀態 $s$ 的期望累積未來獎勵，給定策略 $\pi$ 。假設玩家有5美元：

對于固定的1美元賭注， $v_{\pi}(5) = 0.5$ 表示期望獲利0.5美元。
對于固定的2美元賭注， $v_{\pi}(5) = -1$ 表示期望損失1美元。

動作價值函數（ $q_{\pi}(s, a)$ ）評估在狀態 $s$ 下采取動作 $a$ 的期望累積未來獎勵。例如：

$q_{\pi}(5, 1) = 1$ 表示1美元賭注從5美元中獲得1美元的累積獎勵。
$q_{\pi}(5, 2) = -0.5$ 表示從5美元中下注2美元的期望損失為0.5美元。

這個賭博游戲場景突顯了狀態和動作價值函數在RL中的作用，指導在動態環境中的最優決策。

2.4 最優策略與最優價值函數

解決RL任務涉及確定一個能夠最大化長期獎勵的策略。價值函數在策略之間創建了部分排序，允許根據期望的累積獎勵進行比較和排名。一個策略 $\pi$ 優于或等于 $\pi_0$ ，當且僅當對于所有狀態 $s$ ， $v_{\pi}(s) \geq v_{\pi_0}(s)$ 。最優策略優于或等于所有其他策略，記作 $\pi^*$ ，共享相同的最優狀態價值函數 $v_{\pi^*}$ ，該函數被定義為所有可能策略的最大價值函數。

$v_{\pi^*}(s) \equiv \max_{\pi} v_{\pi}(s) \quad \forall s \in S \tag{20}$

最優策略還共享所有可能策略的最優動作價值函數 $q_{\pi^*}$ ，該函數被定義為所有可能策略的最大動作價值函數。

$q_{\pi^*}(s, a) \equiv \max_{\pi} q_{\pi}(s, a) \quad \forall s \in S \tag{21}$

最優動作價值函數 $q_{\pi^*}(s, a)$ 與最優狀態價值函數 $v_{\pi^*}(s)$ 之間的關系通過以下方程給出：通過擁有最優動作價值函數 $q_{\pi^*}(s, a)$ ，我們可以找到最優狀態價值函數 $v_{\pi^*}(s)$ ，如方程22所示。

$q_{\pi^*}(s, a) = \mathbb{E}[R_{t+1} + \gamma v_{\pi^*}(S_{t+1}) | S_t = s, A_t = a] \tag{22}$

最優價值函數和策略表示RL中的理想狀態。然而，由于實際挑戰，真正的最優策略在計算密集的任務中很難找到，RL智能體通常通過近似最優策略來應對這些挑戰。動態規劃（DP）有助于識別最優值，假設環境的精確模型，這是在現實世界中很難獲得的挑戰。雖然從理論上講DP方法是合理的，但它們在實際應用中并不總是采樣高效的。DP和RL的基本思想是使用價值函數來組織搜索最優策略。

對于有限MDP，環境的動態由給定的概率 $p (s^{'}, r ∣ s, a)$ 描述。最優狀態價值函數 $v_{\pi^*}(s)$ 和最優動作價值函數 $q_{\pi^*}(s, a)$ 的貝爾曼最優性方程分別為方程23和方程24：

$v_{\pi^*}(s) = \max_a \mathbb{E}[R_{t+1} + \gamma v_{\pi^*}(S_{t+1}) | S_t = s, A_t = a] = \max_a \sum_{s', r} p(s', r | s, a)[r + \gamma v_{\pi^*}(s')] \tag{23}$

$q_{\pi^*}(s, a) = \mathbb{E}[R_{t+1} + \max_{a'} q_{\pi^*}(S_{t+1}, a') | S_t = s, A_t = a] = \sum_{s', r} p(s', r | s, a)[r + \gamma \max_{a'} q_{\pi^*}(s', a')] \tag{24}$

DP算法通過將貝爾曼方程轉化為更新規則來推導。

2.5 策略評估（預測）

策略評估（也稱為預測）是指針對給定的策略 $\pi$ ，計算狀態價值函數 $v_{\pi}$ 的過程。它用于評估在任何狀態下遵循策略 $\pi$ 時的期望回報。狀態價值函數 $v_{\pi}(s)$ 定義為從狀態 $s$ 開始并隨后遵循策略 $\pi$ 所得到的期望回報：

$v_{\pi}(s) = \mathbb{E}_{\pi} \left[ \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} \,\middle|\, S_t = s \right]$

可以將其遞歸表示為：

$v_{\pi}(s) = \mathbb{E}_{\pi} \left[ R_{t+1} + \gamma v_{\pi}(S_{t+1}) \,\middle|\, S_t = s \right] = \sum_{a} \pi(a \mid s) \sum_{s', r} p(s', r \mid s, a)\,\bigl[r + \gamma\,v_{\pi}(s')\bigr]$

在上述方程中， $\pi(a \mid s)$ 表示在策略 $\pi$ 下，在狀態 $s$ 時選擇動作 $a$ 的概率。只要 $\gamma < 1$ ，或者在策略 $\pi$ 下所有回合都能夠最終結束， $v_{\pi}$ 就能被保證存在且唯一。動態規劃（DP）算法的更新通常被稱為“期望更新”，因為它們會考慮所有可能的后續狀態，而不僅僅是基于單個采樣進行更新。