強化學習入門：價值、回報、策略概念詳解

前言

?最近想開一個關于強化學習專欄，因為DeepSeek-R1很火，但本人對于LLM連門都沒入。因此，只是記錄一些類似的讀書筆記，內容不深，大多數只是一些概念的東西，數學公式也不會太多，還望讀者多多指教。本次閱讀書籍為：馬克西姆的《深度強化學習實踐》。
?限于篇幅原因，請讀者首先看下歷史文章：
?馬爾科夫過程
?馬爾科夫獎勵過程
?馬爾科夫獎勵過程二
?RL框架Gym簡介
?Gym實現CartPole隨機智能體
?交叉熵方法數學推導
?強化學習入門：交叉熵方法實現CartPole智能體

1、出發點

?原定本篇博客該介紹bellman方程的，但發現自己對于一些基礎概念的計算和理解有點兒模糊，于是本篇先惡補一下目前RL所出現的一些基礎概念，并搭配詳細的計算公式。

2、示例

在這里插入圖片描述
?這里以書中一個例子來說明一些概念，在上圖中，每個灰色節點表示狀態，每條邊上實線圓表示狀態轉移概率，每個虛線圓則表示狀態轉移所獲得的獎勵。
?下面將舉個視為片段的例子，在RL中也被稱為“狀態鏈”。
?片段：家–> 咖啡 --> 計算機 --> 家。
?在引入了片段后，就能解釋何為“回報”定義了：
?這里先貼下回報公式，對于一個片段來說，在 $t$ 時刻的回報定義為：
$G_t = R_{t+1} + \gamma R_{t+2} +... = \sum_{k=0}^{\infty}\gamma^kR_{t+k+1}$
其中 $\gamma$ 是超參數， $R_t$ 表示 $t$ 時刻獎勵。
?這里有個問題，對于一個智能體來說，可執行的狀態鏈太多了，實際上回報應用的不太多，因此，這里引入了一個狀態的期望回報(對大量狀態鏈求回報的期望)，即狀態的價值：
$E[\sum_{k=0}^{\infty}\gamma^kR_{t+k+1}]$
?okay，現在拿到公式了，現在計算狀態“家”的價值：

	家–>家	家–>咖啡
概率	0.6	0.4
獎勵	1	1

?則根據價值的定義：總共有兩個狀態鏈：則家的價值為
$V (家) = 0.6 ? 1 + 0.4 ? 1 = 1.0$
?按照同樣的道理：能得到其余狀態的價值：

$\\ V(computer) = 2×0.7 + 1×0.1 + 3×0.2 = 2.8$

?在上述例子中，你其實就是智能體，你可以自由選擇3個狀態，并執行某一個狀態鏈，進而獲得最大的獎勵：則從眾多的狀態鏈中選擇出一個回報最大的狀態鏈，就是策略的選擇，即 $\pi(s)$ 。

?而智能體優化目標常常是：選擇何種策略，通常會伴隨選擇執行什么樣動作，使得 $\pi(a|s)$ 最優。

總結

?本文只是介紹了一部分概念，后續會逐步添加新的概念，從感性上認識下RL的一些基礎概念。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/84897.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/84897.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/84897.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！