Offline RL : Context-Former: Stitching via Latent Conditioned Sequence Modeling

paper

基于HIM的離線RL算法,解決基于序列模型的離線強化學習算法缺乏對序列拼接能力。

Intro

文章提出了ContextFormer,旨在解決決策變換器(Decision Transformer, DT)在軌跡拼接(stitching)能力上的不足。軌跡拼接是離線RL中一個重要的能力,它允許算法通過組合次優的軌跡片段來獲得更優的策略。ContextFormer通過集成基于上下文信息的模仿學習(Imitation Learning, IL)和序列建模,模仿有限數量專家軌跡的表示,來實現次優軌跡片段的拼接。實驗結果表明,ContextFormer在多模仿學習設置下具有競爭力,并且在與其他DT變體的比較中表現出色。

兩個定義

在這里插入圖片描述
在這里插入圖片描述上述兩個定義分別給出基于隱變量的條件序列模型建模方式,以及使用專家序列,通過度量經過embedding后的變量距離,使得待優化策略應滿足靠近專家策略,遠離次優軌跡策略。對于定義二有如下形式化的目標來優化上下文隱變量表征
J z ? = min ? z ? , I ? E τ ? ~ π ? ( τ ) [ ∥ z ? ? I ? ( τ ? ) ∥ ] ? E τ ^ ~ π ^ [ ∥ z ? ? I ? ( τ ^ ) ∥ ] , \mathcal{J}_{\mathbf{z}^{*}}=\operatorname*{min}_{\mathbf{z}^{*},I_{\phi}}\mathbb{E}_{\tau^{*}\sim\pi^{*}(\tau)}[\|\mathbf{z}^{*}-I_{\phi}(\tau^{*})\|]\\-\mathbb{E}_{\hat{\tau}\sim\hat{\pi}}[\|\mathbf{z}^{*}-I_{\phi}(\hat{\tau})\|], Jz??=z?,I??min?Eτ?π?(τ)?[z??I??(τ?)]?Eτ^π^?[z??I??(τ^)],

Method

在這里插入圖片描述

ContextFormer的訓練過程包括兩個關鍵模型:Hindsight Information Extractor I ? I_{\phi} I??和Contextual Policy。Hindsight Information Extractor使用BERT作為編碼器,并采用VQ-VAE(Vector Quantization Variational Autoencoder)損失來訓練。Contextual Policy則是一個基于潛在條件的序列模型(DT),通過上下文信息作為目標來優化策略接近專家策略。

根據定義4.1建模序列模型以及 I ? I_{\phi} I??,通過監督學習方式優化上下文策略 π z \pi_z πz?以及HI extractor。
J π z , I ? = E τ ~ ( π ? , π ^ ) [ ∥ π z ( ? ∣ I ? ( τ ) , s 0 , a 0 , ? , I ? ( τ ) , s t ) ? a t ∥ ] , ( 4 ) \mathcal{J}_{\pi_{\mathbf{z}},I_{\phi}}=\mathbb{E}_{\tau\sim(\pi^{*},\hat{\pi})}[\|\pi_{\mathbf{z}}(\cdot|I_{\phi}(\tau),\mathbf{s}_{0},\mathbf{a}_{0},\cdots,I_{\phi}(\tau),\mathbf{s}_{t})-\mathbf{a}_{t}\|], (4) Jπz?,I???=Eτ(π?,π^)?[πz?(?I??(τ),s0?,a0?,?,I??(τ),st?)?at?],(4)
其中 π ^ a n d π ? \hat{\pi}\mathrm{~and~}\pi^{*} π^?and?π?分別表示次優策略以及專家策略。同時,基于定義4.2對 I ? I_\phi I??以及上下文embedding z ? z^* z?進行優化。
J z ? , I ? = min ? z ? , I ? E τ ^ ~ π ^ ( τ ) , τ ? ~ π ? ( τ ) [ ∥ z ? ? I ? ( τ ? ) ∥ ? ∣ ∣ z ? ? I ? ( τ ^ ) ∣ ∣ ] ( 5 ) \mathcal{J}_{\mathbf{z}^{*},I_{\phi}}=\min_{\mathbf{z}^{*},I_{\phi}}\mathbb{E}_{\hat{\tau}\sim\hat{\pi}(\tau),\tau^{*}\sim\pi^{*}(\tau)}[\|\mathbf{z}^{*}-I_{\phi}(\tau^{*})\|-||\mathbf{z}^{*}-I_{\phi}(\hat{\tau})||] (5) Jz?,I???=z?,I??min?Eτ^π^(τ),τ?π?(τ)?[z??I??(τ?)?∣∣z??I??(τ^)∣∣]5

除此外,對于 I ? I_\phi I??還需VQ-loss進行優化,三者聯合構成了VQ-VAE的訓練損失函數。
在這里插入圖片描述

偽代碼

在這里插入圖片描述
(偽代碼Training部分的第二步,VQ-loss應對應公式20)

結果

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/15157.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/15157.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/15157.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

新定義單片機的說明

新定義的官網是https://www.rdsmcu.com/shop/#/,主要經營的是1T系列的51單片機,之前從他們官網上申請了評估板,自己頁玩了一段時間,不過玩的不多,特開此專欄記錄學習過程,并幫助剛入門的道友快速上手。 我申請的是評估…

DQL(數據查詢)

目錄 1. DQL概念 2. DQL - 編寫順序 3. 基礎查詢 3.1 查詢多個字段 3.2 字段設置別名 3.3 去除重復記錄 3.4 案例 4. 條件查詢 4.1 語法 4.2 條件 4.3 案例: 5. 聚合函數 5.1 常見的聚合函數: 5.2 語法 5.3 案例: 6. 分組查…

VScode SSH連接遠程服務器報錯

一、報錯 通過VScode SSH插件遠程連接服務器,輸入密碼后沒有連接成功,一直跳出輸入密碼界面,在輸出界面里,一直是Waiting for server log或者是顯示Cannot not find minimist 二、處理 🐱: 這個時候應該…

力扣每日一題 5/25

題目: 給你一個下標從 0 開始、長度為 n 的整數數組 nums ,以及整數 indexDifference 和整數 valueDifference 。 你的任務是從范圍 [0, n - 1] 內找出 2 個滿足下述所有條件的下標 i 和 j : abs(i - j) > indexDifference 且abs(nums…

CTF網絡安全大賽web題目:字符?正則?

題目來源于&#xff1a;bugku 題目難度&#xff1a;難 題目描  述: 字符&#xff1f;正則&#xff1f; 題目htmnl源代碼&#xff1a; <code><span style"color: #000000"> <span style"color: #0000BB"><?php <br />highl…

C-數據結構-鏈式存儲棧(二次封裝)

/* 二次封裝 借用已經實現雙向鏈表結構來實現 棧 出棧入棧操作類似于 從頭節點開始的插入和刪除 */ llist.h #ifndef LLIST_H__ #define LLSIT_H__ #define LLIST_FORWARD 1 #definr LLIST_BACKWARD 2 typedef void llist_op(const void *);//回調函數 typedef int llist_cmp…

分組排序取最大sql理解

分組排序取最大sql理解 --用戶過濾&#xff08;只能看到當前用戶對應部門用戶權限表中的部門&#xff09; select h.pk_tbdept from jygyl_bmyhqxb h left join jygyl_bmyhqxb_b b on h.pk_bmyhqx b.pk_bmyhqx where isnull(h.dr,0) 0 and isnull(b.dr,0) 0 and b.pk…

類圖的六大關系

類圖中的六大關系包括&#xff1a;繼承關系、實現關系、關聯關系、聚合關系、組合關系和依賴關系。 1. 繼承關系 繼承是一種類與類之間的關系&#xff0c;表示一種泛化和特化的關系。子類繼承父類的特性和行為。 class Animal {void eat() {System.out.println("This an…

TensorFlow.js

什么是 TensorFlow.js&#xff1f; TensorFlow.js 是一個基于 JavaScript 的機器學習庫&#xff0c;它是 Google 開發的 TensorFlow 的 JavaScript 版本。它使得開發者能夠在瀏覽器中直接運行機器學習模型&#xff0c;而不需要依賴于后端服務器或云服務。TensorFlow.js 的主要…

【JavaEE 初階(十)】JVM

?博主主頁: 33的博客? ??文章專欄分類:JavaEE?? &#x1f69a;我的代碼倉庫: 33的代碼倉庫&#x1f69a; &#x1faf5;&#x1faf5;&#x1faf5;關注我帶你了解更多進階知識 目錄 1.前言2.JVM內存區域劃分3.類加載3.1雙親委派模型 4.垃圾回收&#xff08;GC&#xff0…

【智能優化算法】粒子群優化算法(PSO)【附python實現代碼】

寫在前面&#xff1a; 首先感謝兄弟們的訂閱&#xff0c;讓我有創作的動力&#xff0c;在創作過程我會盡最大能力&#xff0c;保證作品的質量&#xff0c;如果有問題&#xff0c;可以私信我&#xff0c;讓我們攜手共進&#xff0c;共創輝煌。 路雖遠&#xff0c;行則將至&#…

【軟件設計師】下午題總結-數據流圖、數據庫、統一建模語言

下午題總結 1 試題一1.1 結構化語言 2 試題二弱實體增加權限增加實體間聯系和聯系的類型 3 試題三3.1 UML關系例子 3.2 例子&#xff08;2016上半年&#xff09;3.3 設計類分類3.3.1 接口類3.3.2 控制類3.3.3 實體類 3.4 簡答題3.4.1 簡要說明選擇候選類的原則3.4.2 某個類必須…

Kafka SSL認證

證書生成 在kafka安裝目錄下/certificates生成keystore和trust文件&#xff0c;在其中一臺機器聲生成證書&#xff0c;然后將 生成的server.keystore.jks和server.truststore.jks文件拷貝其他broker節點上去即可 1.生成keystore [rootm1 certificates]# keytool -keystore se…

Mantine UI:簡潔、靈活的 React UI 庫

介紹 Mantine UI Mantine UI 是一個由 React 驅動的現代 UI 庫&#xff0c;旨在簡化開發人員構建用戶界面的過程。它提供了一系列經過優化和可訪問的組件&#xff0c;適用于各種項目&#xff0c;從簡單的網站到復雜的應用程序。Mantine UI 的特點包括&#xff1a; 可定制性&a…

Android-okhttp調接口傳參簡單舉例

步驟1&#xff1a;在主線程中創建thread調接口 new Thread(new Runnable() {Overridepublic void run() {getServiceList();}}).start();步驟2&#xff1a;okhttp調接口 private void getServiceList(){Message msg new Message();try{OkHttpClient okHttpClient new OkHttp…

【網絡安全】網絡安全協議的重要性

一.網絡安全 1.什么是網絡安全 網絡安全&#xff08;Cyber Security&#xff09;是指網絡系統的硬件、軟件及其系統中的數據受到保護&#xff0c;不因偶然的或者惡意的原因而遭受到破壞、更改、泄露&#xff0c;系統連續可靠正常地運行&#xff0c;網絡服務不中斷。 2.網絡安…

WPF密碼輸入框明文掩碼切換

1&#xff0c;效果 2&#xff0c;代碼&#xff1a; WPF的PasswordBox不能像Winform中的PasswordBox那樣&#xff0c;通過PasswordBox.PasswordChar(char)0顯示明文。所以這里使用無外觀控件構筑掩碼明文切換。 無外觀控件遵守Themes/Generic.xaml文件配置. <ResourceDicti…

視覺檢測實戰項目——九點標定

本文介紹九點標定方法 已知 9 個點的圖像坐標和對應的機械坐標,直接計算轉換矩陣,核心原理即最小二乘擬合 {??′=????+????+????′=??′??+??′??+??′ [??1??11??2??21?????9??91][????′????′????′]=[??1′??…

[Linux]磁盤管理

一.Linux磁盤管理的原理 磁盤分區與Linux的目錄是借助"掛載機制"鏈接的&#xff0c;將一個分區與一個目錄連接起來。訪問目錄&#xff0c;相當于訪問某塊分區 lsblk命令: lsblk命令可以查看磁盤分區&#xff0c;以及每個分區所掛載的目錄 lsblk -f 可以查看更細節的…

山東大學軟件學院項目實訓-創新實訓-基于大模型的旅游平臺(十九)- JUC(5)

synchronized優化原理 輕量級鎖 如果一個對象有多個線程訪問&#xff0c;但多線程訪問的時間是錯開的&#xff08;沒有競爭&#xff09;&#xff0c;可以用輕量級鎖優化 Slf4j(topic "c.ExerciseTransfer")public class Test {?static final Object obj new Obj…