Offline RL : Context-Former: Stitching via Latent Conditioned Sequence Modeling

paper

基于HIM的離線RL算法，解決基于序列模型的離線強化學習算法缺乏對序列拼接能力。

Intro

文章提出了ContextFormer，旨在解決決策變換器（Decision Transformer, DT）在軌跡拼接（stitching）能力上的不足。軌跡拼接是離線RL中一個重要的能力，它允許算法通過組合次優的軌跡片段來獲得更優的策略。ContextFormer通過集成基于上下文信息的模仿學習（Imitation Learning, IL）和序列建模，模仿有限數量專家軌跡的表示，來實現次優軌跡片段的拼接。實驗結果表明，ContextFormer在多模仿學習設置下具有競爭力，并且在與其他DT變體的比較中表現出色。

兩個定義

在這里插入圖片描述
上述兩個定義分別給出基于隱變量的條件序列模型建模方式，以及使用專家序列，通過度量經過embedding后的變量距離，使得待優化策略應滿足靠近專家策略，遠離次優軌跡策略。對于定義二有如下形式化的目標來優化上下文隱變量表征
$\mathcal{J}_{\mathbf{z}^{*}}=\operatorname*{min}_{\mathbf{z}^{*},I_{\phi}}\mathbb{E}_{\tau^{*}\sim\pi^{*}(\tau)}[\|\mathbf{z}^{*}-I_{\phi}(\tau^{*})\|]\\-\mathbb{E}_{\hat{\tau}\sim\hat{\pi}}[\|\mathbf{z}^{*}-I_{\phi}(\hat{\tau})\|],$

Method

在這里插入圖片描述

ContextFormer的訓練過程包括兩個關鍵模型：Hindsight Information Extractor $I_{\phi}$ 和Contextual Policy。Hindsight Information Extractor使用BERT作為編碼器，并采用VQ-VAE（Vector Quantization Variational Autoencoder）損失來訓練。Contextual Policy則是一個基于潛在條件的序列模型（DT），通過上下文信息作為目標來優化策略接近專家策略。

根據定義4.1建模序列模型以及 $I_{\phi}$ ，通過監督學習方式優化上下文策略 $\pi_z$ 以及HI extractor。
$\mathcal{J}_{\pi_{\mathbf{z}},I_{\phi}}=\mathbb{E}_{\tau\sim(\pi^{*},\hat{\pi})}[\|\pi_{\mathbf{z}}(\cdot|I_{\phi}(\tau),\mathbf{s}_{0},\mathbf{a}_{0},\cdots,I_{\phi}(\tau),\mathbf{s}_{t})-\mathbf{a}_{t}\|], (4)$
其中 $\hat{\pi}\mathrm{~and~}\pi^{*}$ 分別表示次優策略以及專家策略。同時，基于定義4.2對 $I_\phi$ 以及上下文embedding $z^*$ 進行優化。
$\mathcal{J}_{\mathbf{z}^{*},I_{\phi}}=\min_{\mathbf{z}^{*},I_{\phi}}\mathbb{E}_{\hat{\tau}\sim\hat{\pi}(\tau),\tau^{*}\sim\pi^{*}(\tau)}[\|\mathbf{z}^{*}-I_{\phi}(\tau^{*})\|-||\mathbf{z}^{*}-I_{\phi}(\hat{\tau})||] （5）$

除此外，對于 $I_\phi$ 還需VQ-loss進行優化，三者聯合構成了VQ-VAE的訓練損失函數。
在這里插入圖片描述

偽代碼

在這里插入圖片描述
（偽代碼Training部分的第二步，VQ-loss應對應公式20）

結果

在這里插入圖片描述

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/15157.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/15157.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/15157.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！