Prioritized Generative Replay

ICLR 2025 Oral
code
具有樣本效率的 online reinforcement learning (RL) 通常使用 replay buffer 存儲經驗，以便在更新價值函數時重復使用。然而，uniform replay 效率低下，因為某些類型的 transition 可能與學習更相關。
雖然對更有用的樣本進行優先級排序是有幫助的，但這種策略也可能導致 overfitting，因為有用的樣本可能更少見。在這項工作中，我們提出了一種 prioritized、參數化的 agent 記憶版本，使用 generative model 來捕獲 online 經驗。這種范式能夠實現：（1）過去經驗的 densification，新的生成受益于 generative model （條件diffusion）的泛化能力；（2）通過一系列“relevance functions”的 guidance，將這些生成推向 agent 獲取歷史中更有用的部分。文章指出基于intrinsic curiosity（內在好奇心）有利于生成近似分布。
在這里插入圖片描述

一種衡量好奇心的函數是TD-error，但是賴于高質量的Q函數。因此，估計誤差可能導致F提供較差的調節信號。此外，在線RL智能體傾向于將Q函數過度擬合到早期經驗，這將導致在這兩種選擇下F的快速過度擬合。那么很自然地，可以考慮使用一些能夠提高生成多樣性的相關性函數來減少過擬合。為了實現這種多樣性，我們將 (F) 建模為探索目標，鼓勵參與那些“新穎性更高”且更少見的 transitions (Strehl & Littman, 2008)。此外，通過完全學習一個單獨的函數，我們將相關性函數與 Q 函數解耦，從而降低過擬合的可能性。因此，方法轉向先前關于內在動機的研究，以實現這些見解。具體來說，我們從內在好奇心模塊 (Pathak et al., 2017) 中獲得靈感來參數化 (F)。給定一個特征編碼器 (h)，我們學習一個前向動力學模型 (g)，該模型在 (h) 的潛在空間中對環境轉換函數 (P(s' \mid s, a)) 進行建模。然后，(F) 由這個前向動力學模型的誤差給出：
在這里插入圖片描述
F將作為條件與diffusion model結合實現多樣化的數據合成。

實驗結果：

采樣效率上優勢明顯
在這里插入圖片描述
對比PER以及基于好奇心的獎勵在采樣效率上的提升。同時，在基于像素與基于向量的任務中采樣效率均有提高

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/86153.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/86153.shtml
英文地址，請注明出處：http://en.pswp.cn/web/86153.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！