Prioritized Generative Replay

ICLR 2025 Oral
code
具有樣本效率的 online reinforcement learning (RL) 通常使用 replay buffer 存儲經驗,以便在更新價值函數時重復使用。然而,uniform replay 效率低下,因為某些類型的 transition 可能與學習更相關。
雖然對更有用的樣本進行優先級排序是有幫助的,但這種策略也可能導致 overfitting,因為有用的樣本可能更少見。在這項工作中,我們提出了一種 prioritized、參數化的 agent 記憶版本,使用 generative model 來捕獲 online 經驗。這種范式能夠實現:(1)過去經驗的 densification,新的生成受益于 generative model (條件diffusion)的泛化能力;(2)通過一系列“relevance functions”的 guidance,將這些生成推向 agent 獲取歷史中更有用的部分。文章指出基于intrinsic curiosity(內在好奇心)有利于生成近似分布。
在這里插入圖片描述

一種衡量好奇心的函數是TD-error,但是賴于高質量的Q函數。因此,估計誤差可能導致F提供較差的調節信號。此外,在線RL智能體傾向于將Q函數過度擬合到早期經驗,這將導致在這兩種選擇下F的快速過度擬合。那么很自然地,可以考慮使用一些能夠提高生成多樣性的相關性函數來減少過擬合。為了實現這種多樣性,我們將 (F) 建模為探索目標,鼓勵參與那些“新穎性更高”且更少見的 transitions (Strehl & Littman, 2008)。此外,通過完全學習一個單獨的函數,我們將相關性函數與 Q 函數解耦,從而降低過擬合的可能性。因此,方法轉向先前關于內在動機的研究,以實現這些見解。具體來說,我們從內在好奇心模塊 (Pathak et al., 2017) 中獲得靈感來參數化 (F)。給定一個特征編碼器 (h),我們學習一個前向動力學模型 (g),該模型在 (h) 的潛在空間中對環境轉換函數 (P(s' \mid s, a)) 進行建模。然后,(F) 由這個前向動力學模型的誤差給出:
在這里插入圖片描述
F將作為條件與diffusion model結合實現多樣化的數據合成。

實驗結果:

采樣效率上優勢明顯
在這里插入圖片描述
對比PER以及基于好奇心的獎勵在采樣效率上的提升。同時,在基于像素與基于向量的任務中采樣效率均有提高
在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/86153.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/86153.shtml
英文地址,請注明出處:http://en.pswp.cn/web/86153.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Linux -- 線程、鎖

1、 Linux線程概念 1.1、什么是線程 在一個程序里的一個執行路線就叫做線程(thread)更準確的定義是:線程是“一個進程內部的控制序列”一切進程至少都有一個執行線程線程在進程內部運行,本質是在進程地址空間內運行在Linux系統中…

海外服務器的定義和作用都有哪些?

海外服務器可以說是一個統稱,其中包含了全球各地除了中國大陸以外其他國家的服務器,在如今的數字化時代中,海外服務器的應用已經成為跨國企業業務拓展、科研與學術交流等多個領域中不可或缺的一部分,能夠為各個行業提供更加穩定且…

數據結構之優先級隊列

系列文章目錄 數據結構之ArrayList_arraylist o(1) o(n)-CSDN博客 數據結構之LinkedList-CSDN博客 數據結構之棧-CSDN博客 數據結構之隊列-CSDN博客 數據結構之二叉樹-CSDN博客 目錄 系列文章目錄 前言 一、優先級隊列和堆 二、堆的模擬實現 1. 堆的創建 2. 計算建堆…

【版本控制教程】如何使用Unreal Engine 5 + UE源代碼控制(Perforce P4)

本文來源perforce.com,由Perforce中國授權合作伙伴——龍智翻譯整理,旨在為國內用戶提供一份實用、易懂的Unreal Engine 5Perforce P4的中文使用指南。希望能為UE開發者、設計師和美術小伙伴們的版本控制實踐提供有力支持~ Unreal Engine 5 是一款尖端的…

opensingleComDialog方法解析優化

下面是對 opensingleComDialog 方法的詳細解析,并給出優化建議和優化后的代碼。 方法解析 作用 opensingleComDialog(index) 方法用于在輸入框失去焦點時(blur 事件)自動根據輸入內容進行唯一性查詢,如果查到唯一結果則自動填充…

css 實現1個像素在不同分辨率屏幕上畫網格線

實現網格線繪制,要考慮畫布style尺寸和畫布像素大小的縮放關系 單像素繪制主要出現的問題是會模糊,從像素角度看就是出現繪制兩個像素,實際就是要做偏移 核心就是:按物理像素繪制,首先要對齊物理像素,計算…

深度圖聚類DGC—Paper Notes

目錄 Unsupervised Deep Embedding for Clustering Analysis (DEC 2016)Attributed Graph Clustering: A Deep Attentional Embedding Approach (DAEGC 2019)Structural Deep Clustering Network (SDCN 2020)Contrastive Multi-View Representation Learning on Graphs (MVG…

獲取YARN application 應用列表的幾種方法

目錄 1. 使用YARN命令行工具 2. 通過REST API獲取 YARN 提供了獲取YARN集群上運行的應用列表,以下是幾種常見方法: 1. 使用YARN命令行工具 最直接的方式是使用YARN提供的命令行工具: yarn application -list 上述命令會顯示所有正在運行的應用。 如果要查看所有應用(…

前端如何下載 ‘Content-Type‘: ‘application/octet-stream‘ 的文件

前言 在前端開發中,經常會遇到需要從后端接口下載文件的需求。當后端返回的響應頭中 Content-Type 為 application/octet-stream 時,表示這是一個二進制流文件,瀏覽器無法直接展示,需要前端處理后下載到本地。本文將詳細介紹前端…

咨詢顧問進階——顧問公司戰略咨詢分析模板【附全文閱讀】

該戰略咨詢分析模板圍繞企業戰略分析展開,先從總體思考戰略分析的目的與方法,接著探討企業及戰略定義、戰略地位等。外部環境分析通過 PEST、五種競爭力等模型,分析環境、行業、市場等情況以發現機會與威脅;內部環境分析從資源、核…

寶塔服務器調優工具 1.1(Opcache優化)

第一步:寶塔服務器調優工具 1.1(按照下面的參數填寫) 第二步:路徑/www/server/php/80/etc/php.ini 搜索jit jit1235 其中1235根據服務器情況修改 第三步:路徑/www/server/php/80/etc/php-cli.ini 搜索 jit1235 其中…

React Native【詳解】動畫

基礎動畫的實現流程 使用支持動畫的組件 <Animated.Viewstyle{[{opacity: fadeAnim, // 綁定透明度動畫值},]}><Text>動畫元素</Text></Animated.View>Animated.View&#xff1a;用于創建動畫容器&#xff0c;支持所有 View 的屬性。Animated.Te…

如何輕松地將照片從 iPhone 傳輸到計算機

如果您的照片占據了 iPhone 上最多的存儲空間&#xff0c;為什么不將照片從 iPhone 傳輸到電腦呢&#xff1f;您可能想要這樣做&#xff0c;但不知道如何開始&#xff1f;如果是這樣&#xff0c;那么本指南就是您所需要的。我們分享了 6 種方法以及步驟詳細信息。您可以按照一種…

操作系統之內存管理(王道)

本篇博客依據王道、與我的筆記而寫&#xff0c;講解了內存的基礎知識、內存管理的概念、進程的映像、連續分配管理方式、動態分區分配算法、基本分頁存儲管理、基本地址變換機構、TLB快表、兩級頁表、基本分段存儲管理方式、段頁式存儲管理方式、虛擬內存、請求分頁管理方式、頁…

C++11 std::thread 多線程編程詳解

C++11 標準首次將多線程支持引入語言標準庫,其中最核心的部分就是 <thread> 頭文件中的 std::thread 類。 ?? 一、基本概念 什么是線程? 線程是操作系統調度 CPU 時間的基本單位。一個進程中可以有多個線程,它們共享進程的資源(如內存、堆棧),但擁有各自獨立的…

設置vscode使用eslint

在 Visual Studio Code (VSCode) 中設置 ESLint 是一個很好的方式來確保代碼質量和一致性。以下是詳細的步驟&#xff1a; 1. 安裝 ESLint 擴展 打開 VSCode。點擊左側的擴展圖標&#xff08;四邊形圖標&#xff09;。在搜索框中輸入 ESLint。找到由 dbaeumer 提供的 ESLint …

.NET 生態中主流的前后端生產級框架

文章目錄 **1. 后端框架&#xff08;Backend Frameworks&#xff09;****(1) ASP.NET Core**&#xff08;微軟官方&#xff0c;主流選擇&#xff09;**(2) ABP Framework**&#xff08;企業級應用開發框架&#xff09; **2. 前端框架&#xff08;Frontend Frameworks&#xff0…

Spring Cloud Alibaba整合Sentinel指南

目錄 一、Sentinel核心功能概述 1. 控制臺安裝 2. 項目依賴配置 三、詳細整合步驟 1. 基礎配置 2. 資源定義與保護 3. 與OpenFeign整合 四、常見問題解決方案 五、最佳實踐案例 1. 流量控制場景 2. 熔斷降級場景 3. 熱點參數限流 六、高級功能 Spring Cloud Aliba…

Win10+PHPStudy 8.1完美運行CRMEB開源商城(附性能優化配置)

環境配置 下載phpstudy https://www.xp.cn/ 安裝完成之后打開&#xff0c;在軟件管理中安裝 nginx mysql 5.7 php 7.4 創建站點 填寫域名&#xff0c;根目錄選擇到public文件夾下 創建完成之后&#xff0c;點擊右側管理&#xff0c;選擇偽靜態 location / { if (!-e $request…

康謀方案 | ARXML 規則下 ECU 總線通訊與 ADTF 測試方案

目錄 一、引言 二、汽車電子控制系統 三、ECU開發流程中總線通訊&#xff1a;ARXML 規則下的標準化協作 四、ADTF&#xff1a;汽車數據與時間觸發框架&#xff08;Automotive Data and Time-Triggered Framework&#xff09; 五、應用案例 六、結語 一、引言 隨著汽車新…