2.2 馬爾可夫決策過程(MDPs)
馬爾可夫決策過程(MDP)為順序決策提供了框架,其中動作不僅影響即時獎勵,還會影響未來結果。與多臂老虎機問題不同,MDP中的即時獎勵與延遲獎勵相平衡。在多臂老虎機問題中,目標是確定在狀態 s s s下執行動作 a a a的價值,或者在MDP中,目標是衡量在假定采取最佳動作的情況下,采取動作 a a a在狀態 s s s下的價值。正確評估干預的長期效應需要估計這些狀態特定的值。MDPs由狀態、動作和獎勵 ( S , A , R ) (S, A, R) (S,A,R)組成。離散概率分布被分配給基于前一個狀態和動作的隨機變量 R t R_t Rt?和 S t S_t St?,并推導出這些變量的方程。一個系統被認為是馬爾可夫的,當一個動作的結果不依賴于過去的動作和狀態,僅依賴于當前狀態時。馬爾可夫性質要求狀態包含過去交互的所有重要細節,這些交互影響未來結果。這一點是MDPs在RL中使用的基礎。為了描述MDP的動態,我們使用狀態轉移概率函數 p ( s ′ , r ∣ s , a ) p(s' , r | s, a) p(s′,r∣s,a),其定義如下:
p ( s ′ , r ∣ s , a ) ≡ Pr ? { S t = s ′ , R t = r ∣ S t ? 1 = s , A t ? 1 = a } (9) p(s', r | s, a) \equiv \Pr\{S_t = s', R_t = r | S_{t-1} = s, A_{t-1} = a\} \tag{9} p(s′,r∣s,a)≡Pr{St?=s′,Rt?=r∣St?1?=s,At?1?=a}(9)
其中,函數 p p p定義了MDP的動態。以下狀態轉移概率、狀態-動作-下一個狀態三元組的期望獎勵可以通過四參數動態函數 p p p推導出來。我們可以推導出狀態轉移概率,狀態-動作對的期望獎勵,以及狀態-動作-下一個狀態三元組的期望獎勵,具體公式如下:
p ( s ′ ∣ s , a ) ≡ Pr ? { S t = s ′ ∣ S t ? 1 = s , A t ? 1 = a } = ∑ r p ( s ′ , r ∣ s , a ) (10) p(s' | s, a) \equiv \Pr\{S_t = s' | S_{t-1} = s, A_{t-1} = a\} = \sum_r p(s', r | s, a) \tag{10} p(s′∣s,a)≡Pr{St?=s′∣St?1?=s,At?1?=a}=r∑?p(s′,r∣s,a)(10)
r ( s , a ) ≡ E { R t ∣ S t ? 1 = s , A t ? 1 = a } = ∑ r r ? p ( s ′ , r ∣ s , a ) (11) r(s, a) \equiv \mathbb{E}\{R_t | S_{t-1} = s, A_{t-1} = a\} = \sum_r r \cdot p(s', r | s, a) \tag{11} r(s,a)≡E{Rt?∣St?1?=s,At?1?=a}=r∑?r?p(s′,r∣s,a)(11)
r ( s , a , s ′ ) ≡ E { R t ∣ S t ? 1 = s , A t ? 1 = a , S t = s ′ } = ∑ r ∈ R r ? p ( s ′ , r ∣ s , a ) (12) r(s, a, s') \equiv \mathbb{E}\{R_t | S_{t-1} = s, A_{t-1} = a, S_t = s'\} = \sum_{r \in R} r \cdot p(s', r | s, a) \tag{12} r(s,a,s′)≡E{Rt?∣St?1?=s,At?1?=a,St?=s′}=r∈R∑?r?p(s′,r∣s,a)(12)
動作的概念包括所有與學習相關的決策,狀態的概念則涵蓋了所有為做出這些決策而可用的信息。作為MDP框架的一部分,目標導向行為通過交互被抽象化。任何學習問題都可以簡化為三個信號:智能體與環境之間的動作、狀態和獎勵。許多應用已經證明了該框架的有效性。我們現在能夠正式定義和解決RL問題。我們已經定義了獎勵、目標、概率分布、環境和智能體等概念。然而,這些概念在定義時并不完全是形式化的。根據我們的論述,智能體的目標是最大化未來的獎勵,但這一點該如何在數學上表達呢?回報(return),記作 G t G_t Gt?,是從時間步 t t t開始所收到的獎勵的累積和。在階段性任務或事件驅動任務中,回報定義為:
G t ≡ R t + 1 + R t + 2 + ? + R T (13) G_t \equiv R_{t+1} + R_{t+2} + \dots + R_T \tag{13} Gt?≡Rt+1?+Rt+2?+?+RT?(13)
在這里, G t G_t Gt?是獎勵序列的一個特定函數。階段性任務是指智能體與環境之間的交互自然地按順序發生,稱為一個回合(episode),而任務則稱為階段性任務。一個很好的例子是經典的“吊死鬼”游戲(hangman)。在每個標準回合結束時,都將恢復初始狀態。術語“new games”是指從終結狀態之后到達的下一個狀態,即結束回合后進入的狀態。對于持續任務(如使用具有長期使用壽命的機器人)來說,任務通常會涉及持續的交互,且沒有終結狀態( T = ∞ T = \infty T=∞)。因此,對于持續任務的回報應當有不同的定義。若智能體始終能獲得獎勵,則回報可能是無限的。對于持續任務,當沒有終結狀態時,回報 G t G_t Gt?被定義為未來獎勵的折扣總和:
G t ≡ R t + 1 + γ R t + 2 + γ 2 R t + 3 + ? = ∑ k = 0 ∞ γ k R t + k + 1 (14) G_t \equiv R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} \tag{14} Gt?≡Rt+1?+γRt+2?+γ2Rt+3?+?=k=0∑∞?γkRt+k+1?(14)
其中, γ \gamma γ是折扣因子( 0 ≤ γ ≤ 1 0 \leq \gamma \leq 1 0≤γ≤1)。折扣因子影響未來獎勵的當前價值。當 γ < 1 \gamma < 1 γ<1時,無限和會收斂到有限值。當 γ = 0 \gamma = 0 γ=0時,智能體最大化即時獎勵;當 γ → 1 \gamma \to 1 γ→1時,未來獎勵的影響變得更大。我們還可以遞歸地表示回報 G t G_t Gt?:
G t ≡ R t + 1 + γ G t + 1 (15) G_t \equiv R_{t+1} + \gamma G_{t+1} \tag{15} Gt?≡Rt+1?+γGt+1?(15)
如果獎勵是非零且常數的,且 γ < 1 \gamma < 1 γ<1,則回報是有限的。對于階段性任務和持續任務,當 T = ∞ T = \infty T=∞或 γ = 1 \gamma = 1 γ=1時,方程(16)適用:
G t ≡ ∑ k = t + 1 T γ k ? t ? 1 R k (16) G_t \equiv \sum_{k=t+1}^{T} \gamma^{k-t-1} R_k \tag{16} Gt?≡k=t+1∑T?γk?t?1Rk?(16)
2.3 策略與價值函數
價值函數
估計智能體處于某一狀態(或執行某一動作時)的期望回報。根據選擇的動作,這些因素會有所不同。價值函數和策略之間存在聯系,策略決定了根據狀態選擇動作的概率。價值函數可以分為兩大類:狀態價值函數
和動作價值函數
。一個狀態 s s s在策略 π \pi π下的價值函數 v π ( s ) v_{\pi}(s) vπ?(s)是從狀態 s s s開始,按照策略 π \pi π執行后的期望回報。
v π ( s ) ≡ E π [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s ] (17) v_{\pi}(s) \equiv \mathbb{E}_{\pi} \left[ \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s \right] \tag{17} vπ?(s)≡Eπ?[k=0∑∞?γkRt+k+1?∣St?=s](17)
另一方面,在狀態 s s s下,采取動作 a a a并隨后遵循策略 π \pi π的動作價值函數 q π ( s , a ) q_{\pi}(s, a) qπ?(s,a)是從狀態 s s s開始,執行動作 a a a后,按照策略 π \pi π繼續執行的期望回報:
q π ( s , a ) ≡ E π [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s , A t = a ] (18) q_{\pi}(s, a) \equiv \mathbb{E}_{\pi} \left[ \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s, A_t = a \right] \tag{18} qπ?(s,a)≡Eπ?[k=0∑∞?γkRt+k+1?∣St?=s,At?=a](18)
需要注意的是, v v v和 q q q之間的區別,即 q q q依賴于在每個狀態下采取的動作。對于10個狀態和每個狀態8個動作的情況, q q q需要80個函數,而 v v v只需要10個函數。根據策略 π \pi π,如果智能體從每個狀態獲取回報并取平均值,則該平均值會收斂到 v π ( s ) v_{\pi}(s) vπ?(s)。通過對每個狀態的回報取平均,最終收斂到 q π ( s , a ) q_{\pi}(s, a) qπ?(s,a)。因此, v π ( s ) v_{\pi}(s) vπ?(s)可以遞歸地表示為:
v π ( s ) ≡ E π [ G t ∣ S t = s ] = E π [ R t + 1 + γ G t + 1 ∣ S t = s ] = ∑ a π ( a ∣ s ) ∑ s ′ ∑ r p ( s ′ , r ∣ s , a ) [ r + γ v π ( s ′ ) ] (19) v_{\pi}(s) \equiv \mathbb{E}_{\pi}[G_t | S_t = s] = \mathbb{E}_{\pi}[R_{t+1} + \gamma G_{t+1} | S_t = s] = \sum_a \pi(a|s) \sum_{s'} \sum_r p(s', r | s, a)[r + \gamma v_{\pi}(s')] \tag{19} vπ?(s)≡Eπ?[Gt?∣St?=s]=Eπ?[Rt+1?+γGt+1?∣St?=s]=a∑?π(a∣s)s′∑?r∑?p(s′,r∣s,a)[r+γvπ?(s′)](19)
方程19是 v π v_{\pi} vπ?的貝爾曼方程。貝爾曼方程將一個狀態的價值與其潛在后繼狀態的價值聯系起來。該圖示例說明了從一個狀態到它的后繼狀態的預期。初始狀態的價值等于預期下一個狀態的折扣價值加上預期的獎勵。
v π ( s ) v_{\pi}(s) vπ?(s) 和 q π ( s , a ) q_{\pi}(s, a) qπ?(s,a) 在強化學習(RL)中具有不同的用途。在評估確定性策略或需要理解智能體處于某一特定狀態時的表現時,使用狀態價值函數(state-value functions)。在策略評估和策略迭代方法中,策略已被明確地定義,并且評估在該策略下處于特定狀態的表現是必要的,這些方法非常有用。使用狀態價值函數的優勢在于,當存在許多動作時,只需評估狀態的值即可,而不需要評估每個動作的值。
另一方面,動作價值函數(action-value functions)用于評估和比較在同一狀態下采取不同動作的潛力。它們對于選擇動作至關重要,目的是確定每種情境下最合適的動作。由于動作價值函數考慮了從不同動作中獲得的期望回報,因此它們在具有隨機策略的環境中尤其有用。此外,當處理連續動作空間時,動作價值函數能夠提供更為詳細的關于動作影響的理解,有助于策略實施的微調。
示例: 考慮一個賭博場景,其中玩家有10美元并面臨決定賭多少錢的選擇。這個游戲說明了RL中的狀態和動作價值函數。狀態價值函數( v π ( s ) v_{\pi}(s) vπ?(s))量化了某狀態 s s s的期望累積未來獎勵,給定策略 π \pi π。假設玩家有5美元:
- 對于固定的1美元賭注, v π ( 5 ) = 0.5 v_{\pi}(5) = 0.5 vπ?(5)=0.5 表示期望獲利0.5美元。
- 對于固定的2美元賭注, v π ( 5 ) = ? 1 v_{\pi}(5) = -1 vπ?(5)=?1 表示期望損失1美元。
動作價值函數( q π ( s , a ) q_{\pi}(s, a) qπ?(s,a))評估在狀態 s s s下采取動作 a a a的期望累積未來獎勵。例如:
- q π ( 5 , 1 ) = 1 q_{\pi}(5, 1) = 1 qπ?(5,1)=1 表示1美元賭注從5美元中獲得1美元的累積獎勵。
- q π ( 5 , 2 ) = ? 0.5 q_{\pi}(5, 2) = -0.5 qπ?(5,2)=?0.5 表示從5美元中下注2美元的期望損失為0.5美元。
這個賭博游戲場景突顯了狀態和動作價值函數在RL中的作用,指導在動態環境中的最優決策。
2.4 最優策略與最優價值函數
解決RL任務涉及確定一個能夠最大化長期獎勵的策略。價值函數在策略之間創建了部分排序,允許根據期望的累積獎勵進行比較和排名。一個策略 π \pi π優于或等于 π 0 \pi_0 π0?,當且僅當對于所有狀態 s s s, v π ( s ) ≥ v π 0 ( s ) v_{\pi}(s) \geq v_{\pi_0}(s) vπ?(s)≥vπ0??(s)。最優策略優于或等于所有其他策略,記作 π ? \pi^* π?,共享相同的最優狀態價值函數 v π ? v_{\pi^*} vπ??,該函數被定義為所有可能策略的最大價值函數。
v π ? ( s ) ≡ max ? π v π ( s ) ? s ∈ S (20) v_{\pi^*}(s) \equiv \max_{\pi} v_{\pi}(s) \quad \forall s \in S \tag{20} vπ??(s)≡πmax?vπ?(s)?s∈S(20)
最優策略還共享所有可能策略的最優動作價值函數 q π ? q_{\pi^*} qπ??,該函數被定義為所有可能策略的最大動作價值函數。
q π ? ( s , a ) ≡ max ? π q π ( s , a ) ? s ∈ S (21) q_{\pi^*}(s, a) \equiv \max_{\pi} q_{\pi}(s, a) \quad \forall s \in S \tag{21} qπ??(s,a)≡πmax?qπ?(s,a)?s∈S(21)
最優動作價值函數 q π ? ( s , a ) q_{\pi^*}(s, a) qπ??(s,a)與最優狀態價值函數 v π ? ( s ) v_{\pi^*}(s) vπ??(s)之間的關系通過以下方程給出:通過擁有最優動作價值函數 q π ? ( s , a ) q_{\pi^*}(s, a) qπ??(s,a),我們可以找到最優狀態價值函數 v π ? ( s ) v_{\pi^*}(s) vπ??(s),如方程22所示。
q π ? ( s , a ) = E [ R t + 1 + γ v π ? ( S t + 1 ) ∣ S t = s , A t = a ] (22) q_{\pi^*}(s, a) = \mathbb{E}[R_{t+1} + \gamma v_{\pi^*}(S_{t+1}) | S_t = s, A_t = a] \tag{22} qπ??(s,a)=E[Rt+1?+γvπ??(St+1?)∣St?=s,At?=a](22)
最優價值函數和策略表示RL中的理想狀態。然而,由于實際挑戰,真正的最優策略在計算密集的任務中很難找到,RL智能體通常通過近似最優策略來應對這些挑戰。動態規劃(DP)有助于識別最優值,假設環境的精確模型,這是在現實世界中很難獲得的挑戰。雖然從理論上講DP方法是合理的,但它們在實際應用中并不總是采樣高效的。DP和RL的基本思想是使用價值函數來組織搜索最優策略。
對于有限MDP,環境的動態由給定的概率 p ( s ′ , r ∣ s , a ) p(s', r | s, a) p(s′,r∣s,a)描述。最優狀態價值函數 v π ? ( s ) v_{\pi^*}(s) vπ??(s)和最優動作價值函數 q π ? ( s , a ) q_{\pi^*}(s, a) qπ??(s,a)的貝爾曼最優性方程分別為方程23和方程24:
v π ? ( s ) = max ? a E [ R t + 1 + γ v π ? ( S t + 1 ) ∣ S t = s , A t = a ] = max ? a ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ v π ? ( s ′ ) ] (23) v_{\pi^*}(s) = \max_a \mathbb{E}[R_{t+1} + \gamma v_{\pi^*}(S_{t+1}) | S_t = s, A_t = a] = \max_a \sum_{s', r} p(s', r | s, a)[r + \gamma v_{\pi^*}(s')] \tag{23} vπ??(s)=amax?E[Rt+1?+γvπ??(St+1?)∣St?=s,At?=a]=amax?s′,r∑?p(s′,r∣s,a)[r+γvπ??(s′)](23)
q π ? ( s , a ) = E [ R t + 1 + max ? a ′ q π ? ( S t + 1 , a ′ ) ∣ S t = s , A t = a ] = ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ max ? a ′ q π ? ( s ′ , a ′ ) ] (24) q_{\pi^*}(s, a) = \mathbb{E}[R_{t+1} + \max_{a'} q_{\pi^*}(S_{t+1}, a') | S_t = s, A_t = a] = \sum_{s', r} p(s', r | s, a)[r + \gamma \max_{a'} q_{\pi^*}(s', a')] \tag{24} qπ??(s,a)=E[Rt+1?+a′max?qπ??(St+1?,a′)∣St?=s,At?=a]=s′,r∑?p(s′,r∣s,a)[r+γa′max?qπ??(s′,a′)](24)
DP算法通過將貝爾曼方程轉化為更新規則來推導。
2.5 策略評估(預測)
策略評估(也稱為預測)是指針對給定的策略 π \pi π,計算狀態價值函數 v π v_{\pi} vπ?的過程。它用于評估在任何狀態下遵循策略 π \pi π時的期望回報。狀態價值函數 v π ( s ) v_{\pi}(s) vπ?(s)定義為從狀態 s s s開始并隨后遵循策略 π \pi π所得到的期望回報:
v π ( s ) = E π [ ∑ k = 0 ∞ γ k R t + k + 1 | S t = s ] v_{\pi}(s) = \mathbb{E}_{\pi} \left[ \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} \,\middle|\, S_t = s \right] vπ?(s)=Eπ?[k=0∑∞?γkRt+k+1? ?St?=s]
可以將其遞歸表示為:
v π ( s ) = E π [ R t + 1 + γ v π ( S t + 1 ) | S t = s ] = ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ v π ( s ′ ) ] v_{\pi}(s) = \mathbb{E}_{\pi} \left[ R_{t+1} + \gamma v_{\pi}(S_{t+1}) \,\middle|\, S_t = s \right] = \sum_{a} \pi(a \mid s) \sum_{s', r} p(s', r \mid s, a)\,\bigl[r + \gamma\,v_{\pi}(s')\bigr] vπ?(s)=Eπ?[Rt+1?+γvπ?(St+1?)∣St?=s]=a∑?π(a∣s)s′,r∑?p(s′,r∣s,a)[r+γvπ?(s′)]
在上述方程中, π ( a ∣ s ) \pi(a \mid s) π(a∣s)表示在策略 π \pi π下,在狀態 s s s時選擇動作 a a a的概率。只要 γ < 1 \gamma < 1 γ<1,或者在策略 π \pi π下所有回合都能夠最終結束, v π v_{\pi} vπ?就能被保證存在且唯一。動態規劃(DP)算法的更新通常被稱為“期望更新”,因為它們會考慮所有可能的后續狀態,而不僅僅是基于單個采樣進行更新。
參考文獻:https://arxiv.org/pdf/2408.07712
僅供學習使用,如有侵權,聯系刪除