Temporal Difference (TD) Learning
上節已經提到了如果我們有DQN,那么agent就知道每一步動作如何做了,那么DQN如何訓練那?這里面使用TD算法。
簡略分析:
是
的估計
是
的估計
所以:
Deep Reinforcement Learning :??
Prediction? :?
TD Target :?
Loss :?
Gradient Desent :?,做梯度下降是為了讓loss減少
Temporal Difference (TD) Learning
上節已經提到了如果我們有DQN,那么agent就知道每一步動作如何做了,那么DQN如何訓練那?這里面使用TD算法。
簡略分析:
是
的估計
是
的估計
所以:
Deep Reinforcement Learning :??
Prediction? :?
TD Target :?
Loss :?
Gradient Desent :?,做梯度下降是為了讓loss減少
本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。 如若轉載,請注明出處:http://www.pswp.cn/web/16165.shtml 繁體地址,請注明出處:http://hk.pswp.cn/web/16165.shtml 英文地址,請注明出處:http://en.pswp.cn/web/16165.shtml
如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!