grid-world example
一個由多個格子組成的二維網格
三種格子:accessible可通行的; forbidden禁止通行的; target目標
?state狀態
state是智能體相對于環境的狀態(情況)
在grid-world example里,state指的就是智能體所在的位置,每個格子代表一個state,。所有的state組成的集合(空間)為state place狀態空間,
action行動
向上移動(Up) 向右移動(Right) 向下移動(Down) 向左移動(Left) 原地不動(Stay unchanged)
一個state的所有可能行動組成的集合為action space of a state狀態的行動空間
state transition
在狀態,選擇行動
,則有
state transition實際上定義了一種智能體和環境交互的行為
forbidden area
本課程中,對于forbidden area,我們認為是可以進去的,但是進入要受到懲罰(accessible but with penalty)
tabular representation
缺點是只能表示確定性
state transition probability
?為在狀態?s?執行動作?a?后轉移到狀態?s′?的概率
條件概率可以描述 deterministic確定性 和 stochastic隨機性 的例子
policy策略
策略是智能體在某個狀態下選擇動作的規則(策略告訴智能體在狀態下要選擇什么行動)
基于policy可以得到一些path或者trajectory(軌跡)
強化學習里指的是策略(條件概率),例如針對狀態
,
這是一個deterministic policy(確定性策略)
當然也有stochastic policy(不確定性策略),例如:
policy也可以用tabular representation
實際情況下,用代碼進行隨機采樣,來執行隨機性的policy
參考文章
S. Zhao. Mathematical Foundations of Reinforcement Learning. Springer
Nature Press, 2025.
【【強化學習的數學原理】課程:從零開始到透徹理解(完結)】 https://www.bilibili.com/video/BV1sd4y167NS/?p=2&share_source=copy_web&vd_source=52164f68a5f27ac2e86f0e7963ea966c