文章目錄
- 前言
- 1、動作
- 2、策略
- 總結
前言
?最近想開一個關于強化學習專欄,因為DeepSeek-R1很火,但本人對于LLM連門都沒入。因此,只是記錄一些類似的讀書筆記,內容不深,大多數只是一些概念的東西,數學公式也不會太多,還望讀者多多指教。本次閱讀書籍為:馬克西姆的《深度強化學習實踐》。
?限于篇幅原因,請讀者首先看下歷史文章:馬爾科夫獎勵過程
1、動作
? 在上篇博客中,介紹了強化學習中的價值和回報概念。其中,回報就是當前t時刻,在將來所獲得所有獎勵和;而狀態的價值則是回報的期望。
?但我們希望智能體能夠自主的選擇動作,從而決定怎樣得到最大的獎勵和回報。因此,需要在馬爾科夫獎勵過程中,新引入一個N*N的動作矩陣,其中第i行第j列表示智能體選擇從狀態i到狀態j所采取的動作。
?如上圖所示:此時MDP可以用一個三維矩陣表示:其中每個元素表示在給定動作k情況下,i->j的轉移概率。
2、策略
?現在你的馬爾科夫獎勵已經包含了:轉移概率、獎勵、動作。但要想得到一個聰明的智能體,需要找到一個模型,讓其能夠聰明的選擇什么樣的動作,進而得到最大回報。比如:訓狗,最終希望狗子能夠聽話不護食。
?其實抽象出來就是一個優化問題,交給智能體一種什么樣策略,才能夠訓練好這個智能體。因為策略好多,如何才能教給智能體選擇合適策略才是至關重要的。
?策略定義就是每個可能狀態下的動作概率分布:
π ( a ∣ s ) = P ( A t = a ∣ S t = s ) \pi(a|s) = P(A_t=a|S_t=s) π(a∣s)=P(At?=a∣St?=s)
?解釋下上述公式含義:左邊表示狀態s條件下,采取動作a的概率分布。注意這里是概率分布,因此公式右邊用的大寫的P。之所以是概率分布,而不是具體動作,是希望給智能體行為引入隨機性。
總結
?總結下強化學習用到的術語:首先有狀態空間S、狀態概率轉移矩陣、獎勵、回報是獎勵的期望,動作矩陣,策略則是動作的概率分布。最終希望得到一個聰明的智能體,讓其能夠學會選擇好的策略,進而得到最大的回報。