強化學習入門：馬爾科夫獎勵過程

文章目錄

前言
1、組成部分
2、應用例子
3、馬爾科夫獎勵過程
總結

前言

?最近想開一個關于強化學習專欄，因為DeepSeek-R1很火，但本人對于LLM連門都沒入。因此，只是記錄一些類似的讀書筆記，內容不深，大多數只是一些概念的東西，數學公式也不會太多，還望讀者多多指教。本次閱讀書籍為：馬克西姆的《深度強化學習實踐》。

1、組成部分

? 強化學習其實主要包含下面五個部分：我將通過一個訓練狗護食的例子來說明各部分含義。
在這里插入圖片描述
?智能體是狗，環境就是周圍一切，狗當然能夠觀察環境，而且還能采取吃與不吃的動作。而我作為訓狗師會給予其獎勵揍他或者給肉。
?1）當我去拿狗飯盆時，狗觀察到我的手，采取了齜牙咧嘴的動作，結果獎勵就是一巴掌；
?2）當我去拿狗飯盆時，狗觀察到我的手，采取了眼睜睜看著我拿走飯盆的動作，結果獎勵它繼續吃；

2、應用例子

?其實上述范式在生活中到處都有應用，如下圖所示：強化學習基本是很多學科的交集。
在這里插入圖片描述
?實際應用領域：國際象棋ALphaGo，DeepSeek-R1，學習成績，大腦多巴胺系統，等等，不一而足。

3、馬爾科夫獎勵過程

?在上一篇介紹了馬爾科夫過程，核心包括有限狀態空間和概率轉移矩陣。而馬爾科夫獎勵過程則是在狀態轉移之間，引入了一個獎勵矩陣，形狀也是N*N：比如第i行第j列就表示從狀態i到狀態j所得到的獎勵。
?在引入獎勵矩陣后，引入一個核心概念：回報！其數學定義為：
$G_t = R_{t+1} + {\gamma}R_{t+2} + ... = \sum_{i=1}^{\infty}R_{t+k+1}$

?表達的意思是：在t時刻狀態下，在接下來所有時刻所取得的回報和。其中 $\gamma$ 就是折扣因子，取值范圍[0~1]，越接近1，則考慮越多的未來。
?由于采取的可能性很多，因此， $G_t$ 的變化范圍很大，很難優化。但回報的期望卻是能拿到的，即狀態的價值
$V(s) = E[G|S_t=s]$
?表達含義是：在t時刻，對于每一個狀態s條件下，所得到回報G的平均值。

總結

?本篇只是介紹下強化學習的回報和狀態價值定義，讓讀者能從感性角度對其有個理解，下篇介紹在馬爾科夫獎勵過程中引入動作和策略。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/81144.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/81144.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/81144.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！