強化學習（1）基本概念

grid-world example

一個由多個格子組成的二維網格

三種格子：accessible可通行的； forbidden禁止通行的； target目標

?state狀態

state是智能體相對于環境的狀態（情況）

在grid-world example里，state指的就是智能體所在的位置，每個格子代表一個state， $s_1,s_2,\dots,s_9$ 。所有的state組成的集合（空間）為state place狀態空間， $S=\left \{ s_1,s_2,\dots,s_9 \right \}$

action行動

向上移動（Up）向右移動（Right）向下移動（Down）向左移動（Left）原地不動（Stay unchanged）

一個state的所有可能行動組成的集合為action space of a state狀態的行動空間

state transition

在狀態 $s_4$ ，選擇行動 $a_2$ ，則有 $s_4 \xrightarrow{a_2} s_5$

state transition實際上定義了一種智能體和環境交互的行為

forbidden area

本課程中，對于forbidden area，我們認為是可以進去的，但是進入要受到懲罰（accessible but with penalty）

tabular representation

缺點是只能表示確定性

state transition probability

$P(s' \mid s, a)$ ?為在狀態?s?執行動作?a?后轉移到狀態?s′?的概率

條件概率可以描述 deterministic確定性和 stochastic隨機性的例子

policy策略

策略是智能體在某個狀態下選擇動作的規則（策略告訴智能體在狀態下要選擇什么行動）

基于policy可以得到一些path或者trajectory（軌跡）

當然也有stochastic policy（不確定性策略），例如：

policy也可以用tabular representation

實際情況下，用代碼進行隨機采樣，來執行隨機性的policy

參考文章

S. Zhao. Mathematical Foundations of Reinforcement Learning. Springer
Nature Press, 2025.

【【強化學習的數學原理】課程：從零開始到透徹理解（完結）】 https://www.bilibili.com/video/BV1sd4y167NS/?p=2&share_source=copy_web&vd_source=52164f68a5f27ac2e86f0e7963ea966c

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/89021.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/89021.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/89021.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！