強化學習入門--基本概念

強化學習基本概念

這個指的是一個小機器人（agent）在一個網格區域（存在邊界），網格中存在需要躲避的格子和目標格子，我們的目的就是找到到達目標格子的最短路徑

表示智能體相對于環境的狀態，在上面的例子中，state就代表位置

state space 如果把所有的狀態放在一起，就構成了狀態空間

在每一個狀態可以采取的行動

action space 所有動作放在一起，構成動作空間

當采取一個action的時候，agent 從一個state到達另一個state

在狀態轉換時，通常會出現各種特殊情況，導致我們進行一個動作時，狀態轉換的結果并不唯一，我們引入條件概率的概念，使用條件概率去描述state transition

需要躲避的區域，包含兩種情況

作用是告訴agent在該state下應該做什么動作

策略使用Π表示，在某一狀態下執行某一動作表示為Π(a|s)，使用條件概率的形式

是一個數，一個標量

如果是一個正數，那么代表我們希望這個行為發生

如果是一個負數，那么代表我們不希望這個行為發生

但是我們可以自定義這件事情，如果將正數定義為懲罰，那么agent就希望得到更多的負數

其作為我們與機器交互的一種手段存在

我們通過設計reward來實現我們的目標

比如對于上面的grid-world example，我們可以設計出邊界懲罰為-1，到達forbidden area懲罰為-1，到達target area獎勵為1，其余動作為0

這種可以代表確定的reword，對于很多行為，其reward是不確定的，還是和之前一樣，使用條件概率。

我們的reward并不是根據結果給出，而是根據當前狀態和要采取的動作給出

trajectory代表著一系列的狀態-動作-回報（可以稱其為軌跡），那么一個軌跡的return就是這一系列動作得到的回報加和，不同策略得到的軌跡是不同的，通過比較不同策略的得到軌跡的return，從而判斷策略的好壞

到達target后，實際上還在不停的運行，比如上面的例子，就會在target保持不動，一直加1

為了解決其不收斂的問題，引入discounted return，在每項前加上折扣

γ是一個(0，1)之間的數

可以看到如果γ趨近于0，那么結果更依賴于開始得到的return，使實驗更加的近視

這個其實描述的就是不持續的任務，但是不持續的任務和coutinue task之間可以進行轉化

比如上述例子，我們可以將在target狀態下的動作的結果都為原地不動，那么就會由原來的episode變為coutinue task

或者將最終的狀態視為一個一般的狀態，如果策略好的話，它就停在哪里不動，如果策略不好的話，他就會有可能跳出來

使用策略二會使其更具一般化

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/66645.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/66645.shtml
英文地址，請注明出處：http://en.pswp.cn/web/66645.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！