paper
基于HIM的離線RL算法,解決基于序列模型的離線強化學習算法缺乏對序列拼接能力。
Intro
文章提出了ContextFormer,旨在解決決策變換器(Decision Transformer, DT)在軌跡拼接(stitching)能力上的不足。軌跡拼接是離線RL中一個重要的能力,它允許算法通過組合次優的軌跡片段來獲得更優的策略。ContextFormer通過集成基于上下文信息的模仿學習(Imitation Learning, IL)和序列建模,模仿有限數量專家軌跡的表示,來實現次優軌跡片段的拼接。實驗結果表明,ContextFormer在多模仿學習設置下具有競爭力,并且在與其他DT變體的比較中表現出色。
兩個定義
上述兩個定義分別給出基于隱變量的條件序列模型建模方式,以及使用專家序列,通過度量經過embedding后的變量距離,使得待優化策略應滿足靠近專家策略,遠離次優軌跡策略。對于定義二有如下形式化的目標來優化上下文隱變量表征
J z ? = min ? z ? , I ? E τ ? ~ π ? ( τ ) [ ∥ z ? ? I ? ( τ ? ) ∥ ] ? E τ ^ ~ π ^ [ ∥ z ? ? I ? ( τ ^ ) ∥ ] , \mathcal{J}_{\mathbf{z}^{*}}=\operatorname*{min}_{\mathbf{z}^{*},I_{\phi}}\mathbb{E}_{\tau^{*}\sim\pi^{*}(\tau)}[\|\mathbf{z}^{*}-I_{\phi}(\tau^{*})\|]\\-\mathbb{E}_{\hat{\tau}\sim\hat{\pi}}[\|\mathbf{z}^{*}-I_{\phi}(\hat{\tau})\|], Jz??=z?,I??min?Eτ?~π?(τ)?[∥z??I??(τ?)∥]?Eτ^~π^?[∥z??I??(τ^)∥],
Method
ContextFormer的訓練過程包括兩個關鍵模型:Hindsight Information Extractor I ? I_{\phi} I??和Contextual Policy。Hindsight Information Extractor使用BERT作為編碼器,并采用VQ-VAE(Vector Quantization Variational Autoencoder)損失來訓練。Contextual Policy則是一個基于潛在條件的序列模型(DT),通過上下文信息作為目標來優化策略接近專家策略。
根據定義4.1建模序列模型以及 I ? I_{\phi} I??,通過監督學習方式優化上下文策略 π z \pi_z πz?以及HI extractor。
J π z , I ? = E τ ~ ( π ? , π ^ ) [ ∥ π z ( ? ∣ I ? ( τ ) , s 0 , a 0 , ? , I ? ( τ ) , s t ) ? a t ∥ ] , ( 4 ) \mathcal{J}_{\pi_{\mathbf{z}},I_{\phi}}=\mathbb{E}_{\tau\sim(\pi^{*},\hat{\pi})}[\|\pi_{\mathbf{z}}(\cdot|I_{\phi}(\tau),\mathbf{s}_{0},\mathbf{a}_{0},\cdots,I_{\phi}(\tau),\mathbf{s}_{t})-\mathbf{a}_{t}\|], (4) Jπz?,I???=Eτ~(π?,π^)?[∥πz?(?∣I??(τ),s0?,a0?,?,I??(τ),st?)?at?∥],(4)
其中 π ^ a n d π ? \hat{\pi}\mathrm{~and~}\pi^{*} π^?and?π?分別表示次優策略以及專家策略。同時,基于定義4.2對 I ? I_\phi I??以及上下文embedding z ? z^* z?進行優化。
J z ? , I ? = min ? z ? , I ? E τ ^ ~ π ^ ( τ ) , τ ? ~ π ? ( τ ) [ ∥ z ? ? I ? ( τ ? ) ∥ ? ∣ ∣ z ? ? I ? ( τ ^ ) ∣ ∣ ] ( 5 ) \mathcal{J}_{\mathbf{z}^{*},I_{\phi}}=\min_{\mathbf{z}^{*},I_{\phi}}\mathbb{E}_{\hat{\tau}\sim\hat{\pi}(\tau),\tau^{*}\sim\pi^{*}(\tau)}[\|\mathbf{z}^{*}-I_{\phi}(\tau^{*})\|-||\mathbf{z}^{*}-I_{\phi}(\hat{\tau})||] (5) Jz?,I???=z?,I??min?Eτ^~π^(τ),τ?~π?(τ)?[∥z??I??(τ?)∥?∣∣z??I??(τ^)∣∣](5)
除此外,對于 I ? I_\phi I??還需VQ-loss進行優化,三者聯合構成了VQ-VAE的訓練損失函數。
偽代碼
(偽代碼Training部分的第二步,VQ-loss應對應公式20)