深入理解強化學習——馬爾可夫決策過程：動作價值函數

不同于馬爾可夫獎勵過程，在馬爾可夫決策過程中，由于動作的存在，我們額外定義一個動作價值函數（Action-value Function）。我們用 $Q^\pi(s, a)$ 表示在馬爾可夫決策過程遵循策略 $\pi$ 時，對當前狀態 $s$ 執行動作 $a$ 得到的期望回報：
$Q_\pi(s, a)=E_\pi[G_t|S_t=s, A_t=a]$

在使用策略 $\pi$ 中，狀態 $s$ 的價值等于在該狀態下基于策略 $\pi$ 采取所有動作的概率與相應的價值相乘再求和的結果：
$V_\pi(s)=\sum_{a\in A}\pi(a|s)Q_\pi(s, a)$

使用策略 $\pi$ 時，狀態 $s$ 下采取動作的價值等于即時獎勵加上經過衰減后的所有可能的下一個狀態的狀態轉移概率與相應的價值的乘積：
$Q_\pi(s, a)=r(s, a)+\gamma\sum_{s'\in S}P(s'|s, a)V_\pi(s')$

參考文獻：
[1] 張偉楠, 沈鍵, 俞勇. 動手學強化學習[M]. 人民郵電出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 強化學習（第2版）[M]. 電子工業出版社, 2019
[3] Maxim Lapan. 深度強化學習實踐（原書第2版）[M]. 北京華章圖文信息有限公司, 2021
[4] 王琦, 楊毅遠, 江季. Easy RL：強化學習教程 [M]. 人民郵電出版社, 2022

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/164207.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/164207.shtml
英文地址，請注明出處：http://en.pswp.cn/news/164207.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！