引言:
一直想做點強化學習相關的內容,但是對于其原理一直不是太明了,相比于編程實現,懂得算法部分的機理與理論也是至關重要的。網上找的一些資料都在強調貝爾曼方程和馬爾可夫決策過程在強化學習中的作用,但是介紹都不夠充分。 另外,在知乎【1】上看到一個說法,說 強化學習 屬于 運籌學或者 動態規劃這一范疇。當然,更加基礎一些的內容包括:概率論,隨機過程等。這個博客基于網上的一些資料,對強化學習的關鍵概念進行了總結。
引言:
一直想做點強化學習相關的內容,但是對于其原理一直不是太明了,相比于編程實現,懂得算法部分的機理與理論也是至關重要的。網上找的一些資料都在強調貝爾曼方程和馬爾可夫決策過程在強化學習中的作用,但是介紹都不夠充分。 另外,在知乎【1】上看到一個說法,說 強化學習 屬于 運籌學或者 動態規劃這一范疇。當然,更加基礎一些的內容包括:概率論,隨機過程等。這個博客基于網上的一些資料,對強化學習的關鍵概念進行了總結。
本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。 如若轉載,請注明出處:http://www.pswp.cn/news/719447.shtml 繁體地址,請注明出處:http://hk.pswp.cn/news/719447.shtml 英文地址,請注明出處:http://en.pswp.cn/news/719447.shtml
如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!