文章目錄
- 前言
- 1、組成部分
- 2、應用例子
- 3、馬爾科夫獎勵過程
- 總結
前言
?最近想開一個關于強化學習專欄,因為DeepSeek-R1很火,但本人對于LLM連門都沒入。因此,只是記錄一些類似的讀書筆記,內容不深,大多數只是一些概念的東西,數學公式也不會太多,還望讀者多多指教。本次閱讀書籍為:馬克西姆的《深度強化學習實踐》。
1、組成部分
? 強化學習其實主要包含下面五個部分:我將通過一個訓練狗護食的例子來說明各部分含義。
?智能體是狗,環境就是周圍一切,狗當然能夠觀察環境,而且還能采取吃與不吃的動作。而我作為訓狗師會給予其獎勵揍他或者給肉。
?1)當我去拿狗飯盆時,狗觀察到我的手,采取了齜牙咧嘴的動作,結果獎勵就是一巴掌;
?2)當我去拿狗飯盆時,狗觀察到我的手,采取了眼睜睜看著我拿走飯盆的動作,結果獎勵它繼續吃;
2、應用例子
?其實上述范式在生活中到處都有應用,如下圖所示:強化學習基本是很多學科的交集。
?實際應用領域:國際象棋ALphaGo,DeepSeek-R1,學習成績,大腦多巴胺系統,等等,不一而足。
3、馬爾科夫獎勵過程
?在上一篇介紹了馬爾科夫過程,核心包括有限狀態空間和概率轉移矩陣。而馬爾科夫獎勵過程則是在狀態轉移之間,引入了一個獎勵矩陣,形狀也是N*N:比如第i行第j列就表示從狀態i到狀態j所得到的獎勵。
?在引入獎勵矩陣后,引入一個核心概念:回報!其數學定義為:
G t = R t + 1 + γ R t + 2 + . . . = ∑ i = 1 ∞ R t + k + 1 G_t = R_{t+1} + {\gamma}R_{t+2} + ... = \sum_{i=1}^{\infty}R_{t+k+1} Gt?=Rt+1?+γRt+2?+...=i=1∑∞?Rt+k+1?
?表達的意思是:在t時刻狀態下,在接下來所有時刻所取得的回報和。其中 γ \gamma γ就是折扣因子,取值范圍[0~1],越接近1,則考慮越多的未來。
?由于采取的可能性很多,因此, G t G_t Gt?的變化范圍很大,很難優化。但回報的期望卻是能拿到的,即狀態的價值
V ( s ) = E [ G ∣ S t = s ] V(s) = E[G|S_t=s] V(s)=E[G∣St?=s]
?表達含義是:在t時刻,對于每一個狀態s條件下,所得到回報G的平均值。
總結
?本篇只是介紹下強化學習的回報和狀態價值定義,讓讀者能從感性角度對其有個理解,下篇介紹在馬爾科夫獎勵過程中引入動作和策略。