文本主題
關于協作式多智能體強化學習的簡介
文章目錄
- 文本主題
- 一、MARL主要框架
- 集中式訓練與執行 (CTE)
- 集中式訓練分布式執行(CTDE)
- 分布式訓練與執行(DTE)
- 二、Dec-POMDP
- joint policy V and Q
一、MARL主要框架
MARL當前主流的框架分為三種:
centralized training and execution (CTE), centralized training for decentralized execution (CTDE),and decentralized training and execution (DTE)
集中式訓練與執行 (CTE)
CTE在訓練與執行過程假設能夠獲取全局的信息,即每個智能體的動作是基于所有智能體的信息得來的,因此可以通過單智能體的算法簡單實現(維護一個聯合的動作狀態空間)。其優勢在于協作能力相比于其他的框架效果更優,然而其聯合狀態空間會隨著智能體的增加呈指數型上升造成學習困難,維度爆炸。
CTE僅僅用于合作性質的MARL
集中式訓練分布式執行(CTDE)
CTDE是最常用的框架,在訓練過程利用全局信息,執行過程每個智能體基于自身觀測輸出策略,相較于CTE具有良好的拓展性。
經常用于合作場景,也適用于競爭或混合場景
分布式訓練與執行(DTE)
DTE在訓練與執行過程不需要考慮全局的信息,基于每個智能體自身的信息做出決策,將其他智能體作為環境的一部分,因此任何人RL算法都能夠實現DTE框架,然而會帶來信用分配以及環境非穩定的問題。
能夠用于合作、競爭以及混合場景
后續文章會詳細展開每個框架的實現以及優缺點
二、Dec-POMDP
協作式MARL能夠被表示為decentralized partially observable Markov decision process (Dec-POMDP),其被定義為多元組 { I , S , [ A i ] , T , R , [ O i ] , O , H , γ } \{I,S,[A_i],T,R,[O_i],O,H,\gamma\} {I,S,[Ai?],T,R,[Oi?],O,H,γ}
其中含義如下:
由于全局狀態不能直接被觀測,因此每個智能體remember自身的history obs以及actions是必要的,局部的歷史觀測對可以表示為: h i = { a i , 0 , o i , 0 , . . . . , a t , 0 , o t , 0 } h_i=\{a_{i,0},o_{i,0},....,a_{t,0},o_{t,0}\} hi?={ai,0?,oi,0?,....,at,0?,ot,0?}