強化學習基本概念
grid-world example
這個指的是一個小機器人(agent)在一個網格區域(存在邊界),網格中存在需要躲避的格子和目標格子,我們的目的就是找到到達目標格子的最短路徑
state
表示智能體相對于環境的狀態,在上面的例子中,state就代表位置
state space 如果把所有的狀態放在一起,就構成了狀態空間
action
在每一個狀態可以采取的行動
action space 所有動作放在一起,構成動作空間
state transition
當采取一個action的時候,agent 從一個state到達另一個state
在狀態轉換時,通常會出現各種特殊情況,導致我們進行一個動作時,狀態轉換的結果并不唯一,我們引入條件概率的概念,使用條件概率去描述state transition
forbidden area
需要躲避的區域,包含兩種情況
- 可以進入,但進入該區域會被懲罰
- 不可以進入
policy(策略)
作用是告訴agent在該state下應該做什么動作
策略使用Π表示,在某一狀態下執行某一動作表示為Π(a|s),使用條件概率的形式
reward(回報)
是一個數,一個標量
如果是一個正數,那么代表我們希望這個行為發生
如果是一個負數,那么代表我們不希望這個行為發生
但是我們可以自定義這件事情,如果將正數定義為懲罰,那么agent就希望得到更多的負數
其作為我們與機器交互的一種手段存在
我們通過設計reward來實現我們的目標
比如對于上面的grid-world example,我們可以設計出邊界懲罰為-1,到達forbidden area懲罰為-1,到達target area獎勵為1,其余動作為0
這種可以代表確定的reword,對于很多行為,其reward是不確定的,還是和之前一樣,使用條件概率。
我們的reward并不是根據結果給出,而是根據當前狀態和要采取的動作給出
Trajectory and return
trajectory代表著一系列的狀態-動作-回報(可以稱其為軌跡),那么一個軌跡的return就是這一系列動作得到的回報加和,不同策略得到的軌跡是不同的,通過比較不同策略的得到軌跡的return,從而判斷策略的好壞
discounted return
到達target后,實際上還在不停的運行,比如上面的例子,就會在target保持不動,一直加1
為了解決其不收斂的問題,引入discounted return,在每項前加上折扣
γ是一個(0,1)之間的數
可以看到如果γ趨近于0,那么結果更依賴于開始得到的return,使實驗更加的近視
episode
這個其實描述的就是不持續的任務,但是不持續的任務和coutinue task之間可以進行轉化
比如上述例子,我們可以將在target狀態下的動作的結果都為原地不動,那么就會由原來的episode變為coutinue task
或者將最終的狀態視為一個一般的狀態,如果策略好的話,它就停在哪里不動,如果策略不好的話,他就會有可能跳出來
使用策略二會使其更具一般化