目錄
policy 與表格方式的區別:
metric to define optimal policies
1.?weighted averge
2. the average reward
問題:
梯度計算
如何理解policy-gradient?
policy gradient與表格方式(value based)的區別:
policy 通過參數化的函數來表示:
函數近似與表格方式的區別:
1. 在狀態空間很大時,相比表格形式會更高效
1. 對最優策略的定義:
? ? ? ? - 表格形式:能夠最大化每個狀態值的策略是最優策略;
? ? ? ? - 函數形式:最大化certain scalar metrics的是最優策略;
2. access action的概率:
? ? ? ?- 查表
? ? ? ?- 計算給定參數和函數結構下的值
3. 更新policy:
? ? ? ?- 直接更改表中的值
? ? ? ?- 通過改變參數來更改
metric to define optimal policies
1.?weighted averge
.??
d(s)是一個概率分布。
.? where?
如何選擇分布d?
1. d獨立與policy?: 梯度更容易計算。這種情況下d ->?
,??
?as?
如何選擇?
- 將所有狀態看作同等重要的,
- 只對特殊狀態感興趣。一些任務總是從相同的狀態
開始,所有我們只關心從
?開始的長期:
2. d 依賴于policy?
?, 其中P是狀態轉移矩陣。
如果一個狀態經常被訪問,那么它會產生更多的權重。相反,則是更少的權重
2. the average reward
weighted average one-step reward 或者average reward:
. 從狀態s開始的one-step immediate reward
- 從某個狀態出發,跑無窮多步,reward的平均是:
1. basic idea of policy gradient methods:
- 這些metrics都是的函數,
是由
參數化的,這些metrics是
的函數。
- 通過最大化metrics來尋找最優的值;
2.?
- 直覺上,?是短視的(只考慮即時reward),
考慮了所有step的總共reward;
- 但是,這兩個metrics是彼此相等的(在discounted case中):
問題:
-??這個metric與之前的關系?
clarify and understand this metric:
?and?
梯度計算
將其轉換為期望的形式,就可以通過采樣的方式來求解梯度:
如何轉換得到的?
其中?要求是>0的,所以
?采用softmax函數的形式,
(對應網絡中的激活層);策略是stochastic的且探索性的。
那么如果action是無窮多個怎么辦?
gradient-ascent algorithm(REINFORCE)
采樣:
?也是未知的,可以通過
采樣來近似(MonteCarlo等)
如何來采樣?
- how to sample S??, distribution d is a long-run hehavior under?
- how to sample A ??,?
? should be sampled following?
?at?
so , policy gradient is on-policy.
REINFORCE是online還是offline的?
如何理解policy-gradient?
其中
- 當, 選擇
的概率被加強
- 當
?可以很好的平衡exploration and exploitation
正比于分子,算法會傾向于加強有更大值的action
反比于分母,會探索有更小概率被選擇的action