ICLR 2025 Oral
code
具有樣本效率的 online reinforcement learning (RL) 通常使用 replay buffer 存儲經驗,以便在更新價值函數時重復使用。然而,uniform replay 效率低下,因為某些類型的 transition 可能與學習更相關。
雖然對更有用的樣本進行優先級排序是有幫助的,但這種策略也可能導致 overfitting,因為有用的樣本可能更少見。在這項工作中,我們提出了一種 prioritized、參數化的 agent 記憶版本,使用 generative model 來捕獲 online 經驗。這種范式能夠實現:(1)過去經驗的 densification,新的生成受益于 generative model (條件diffusion)的泛化能力;(2)通過一系列“relevance functions”的 guidance,將這些生成推向 agent 獲取歷史中更有用的部分。文章指出基于intrinsic curiosity(內在好奇心)有利于生成近似分布。
一種衡量好奇心的函數是TD-error,但是賴于高質量的Q函數。因此,估計誤差可能導致F提供較差的調節信號。此外,在線RL智能體傾向于將Q函數過度擬合到早期經驗,這將導致在這兩種選擇下F的快速過度擬合。那么很自然地,可以考慮使用一些能夠提高生成多樣性的相關性函數來減少過擬合。為了實現這種多樣性,我們將 (F) 建模為探索目標,鼓勵參與那些“新穎性更高”且更少見的 transitions (Strehl & Littman, 2008)。此外,通過完全學習一個單獨的函數,我們將相關性函數與 Q 函數解耦,從而降低過擬合的可能性。因此,方法轉向先前關于內在動機的研究,以實現這些見解。具體來說,我們從內在好奇心模塊 (Pathak et al., 2017) 中獲得靈感來參數化 (F)。給定一個特征編碼器 (h),我們學習一個前向動力學模型 (g),該模型在 (h) 的潛在空間中對環境轉換函數 (P(s' \mid s, a)) 進行建模。然后,(F) 由這個前向動力學模型的誤差給出:
F將作為條件與diffusion model結合實現多樣化的數據合成。
實驗結果:
采樣效率上優勢明顯
對比PER以及基于好奇心的獎勵在采樣效率上的提升。同時,在基于像素與基于向量的任務中采樣效率均有提高