分類目錄:《深入理解強化學習》總目錄
不同于馬爾可夫獎勵過程,在馬爾可夫決策過程中,由于動作的存在,我們額外定義一個動作價值函數(Action-value Function)。我們用 Q π ( s , a ) Q^\pi(s, a) Qπ(s,a)表示在馬爾可夫決策過程遵循策略 π \pi π時,對當前狀態 s s s執行動作 a a a得到的期望回報:
Q π ( s , a ) = E π [ G t ∣ S t = s , A t = a ] Q_\pi(s, a)=E_\pi[G_t|S_t=s, A_t=a] Qπ?(s,a)=Eπ?[Gt?∣St?=s,At?=a]
在使用策略 π \pi π中,狀態 s s s的價值等于在該狀態下基于策略 π \pi π采取所有動作的概率與相應的價值相乘再求和的結果:
V π ( s ) = ∑ a ∈ A π ( a ∣ s ) Q π ( s , a ) V_\pi(s)=\sum_{a\in A}\pi(a|s)Q_\pi(s, a) Vπ?(s)=a∈A∑?π(a∣s)Qπ?(s,a)
使用策略 π \pi π時,狀態 s s s下采取動作的價值等于即時獎勵加上經過衰減后的所有可能的下一個狀態的狀態轉移概率與相應的價值的乘積:
Q π ( s , a ) = r ( s , a ) + γ ∑ s ′ ∈ S P ( s ′ ∣ s , a ) V π ( s ′ ) Q_\pi(s, a)=r(s, a)+\gamma\sum_{s'\in S}P(s'|s, a)V_\pi(s') Qπ?(s,a)=r(s,a)+γs′∈S∑?P(s′∣s,a)Vπ?(s′)
參考文獻:
[1] 張偉楠, 沈鍵, 俞勇. 動手學強化學習[M]. 人民郵電出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 強化學習(第2版)[M]. 電子工業出版社, 2019
[3] Maxim Lapan. 深度強化學習實踐(原書第2版)[M]. 北京華章圖文信息有限公司, 2021
[4] 王琦, 楊毅遠, 江季. Easy RL:強化學習教程 [M]. 人民郵電出版社, 2022