01Introduction

文本主題

關于協作式多智能體強化學習的簡介

文章目錄

文本主題
一、MARL主要框架
- 集中式訓練與執行 (CTE)
- 集中式訓練分布式執行（CTDE）
- 分布式訓練與執行（DTE）
二、Dec-POMDP
- joint policy V and Q

一、MARL主要框架

MARL當前主流的框架分為三種：
centralized training and execution (CTE), centralized training for decentralized execution (CTDE),and decentralized training and execution (DTE)

集中式訓練與執行 (CTE)

CTE在訓練與執行過程假設能夠獲取全局的信息，即每個智能體的動作是基于所有智能體的信息得來的，因此可以通過單智能體的算法簡單實現（維護一個聯合的動作狀態空間）。其優勢在于協作能力相比于其他的框架效果更優，然而其聯合狀態空間會隨著智能體的增加呈指數型上升造成學習困難，維度爆炸。

CTE僅僅用于合作性質的MARL

集中式訓練分布式執行（CTDE）

CTDE是最常用的框架，在訓練過程利用全局信息，執行過程每個智能體基于自身觀測輸出策略，相較于CTE具有良好的拓展性。

經常用于合作場景，也適用于競爭或混合場景

分布式訓練與執行（DTE）

DTE在訓練與執行過程不需要考慮全局的信息，基于每個智能體自身的信息做出決策，將其他智能體作為環境的一部分，因此任何人RL算法都能夠實現DTE框架，然而會帶來信用分配以及環境非穩定的問題。

能夠用于合作、競爭以及混合場景

后續文章會詳細展開每個框架的實現以及優缺點

二、Dec-POMDP

協作式MARL能夠被表示為decentralized partially observable Markov decision process (Dec-POMDP)，其被定義為多元組 $\{I,S,[A_i],T,R,[O_i],O,H,\gamma\}$
其中含義如下：
在這里插入圖片描述

由于全局狀態不能直接被觀測，因此每個智能體remember自身的history obs以及actions是必要的，局部的歷史觀測對可以表示為： $h_i=\{a_{i,0},o_{i,0},....,a_{t,0},o_{t,0}\}$

joint policy V and Q

在這里插入圖片描述

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/80012.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/80012.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/80012.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！