強化學習小筆記 —— 如何選擇合適的更新步長

在強化學習中，動作價值函數的更新可以使用增量法，如下所示：
$\begin{align*} Q_k &= \frac{1}{k}\sum_{i=1}^k r_i \\ &= \frac{1}{k}(r_k + \sum_{i=1}^{k-1}r_i) \\ &= \frac{1}{k}(r_k + (k-1)Q_{k-1}) \\ &= \frac{1}{k}(r_k + kQ_{k-1} - Q_{k-1}) \\ &= Q_{k-1} + \frac{1}{k}[r_k - Q_{k-1}] \end{align*}$
因此，根據最新觀測到的獎勵 $r_k$ ，使用增量計算方法根據誤差 $r_k - Q_{k-1}$ 調整當前的估計值 $Q_k$ ，步長為 $\frac{1}{k}$ ，繼而獲得新的估計值 $Q_{k}$ 。這意味著，如果最近觀測到的獎勵大于當前的估計值，我們會向上修改行動值的估計值。

請注意，由于存在 $\frac{1}{k}$ 項，隨著我們進行更多的觀測，我們調整估計的比率將變小（公式中的 $k$ 隨著訪問次數的增加而不斷增加，導致 $\frac{1}{k}$ 越來越小）。因此，我們對最新的觀測不太重視，對特定動作的動作值的估計會隨著時間的推移而逐漸穩定下來。這意味著學習過程會逐漸變得保守，因為我們更加相信之前的經驗。

但是，如果環境不是靜止而是隨時間變化的，這可能是不利的。在某些情況下，我們希望使用不會隨時間減小的固定不長，例如，固定的步長 $\alpha \in (0,1)$ 。當環境隨時間變化時，我們希望智能體能夠適應環境的變化，而不是過分依賴過去的經驗。如果我們使用固定步長，智能體將更好地適應這些變化，因為它會持續地從新的經驗中學習，而不是逐漸降低學習速率。

綜上，在一個平穩問題（環境）中，我們通常設置步長不斷遞減，這將有助于模型更快收斂。在一個隨時間變化的環境中，我們通常設置固定的步長，避免模型過分依賴過去的經驗。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/164325.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/164325.shtml
英文地址，請注明出處：http://en.pswp.cn/news/164325.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！