01Introduction

文本主題

關于協作式多智能體強化學習的簡介


文章目錄

  • 文本主題
  • 一、MARL主要框架
    • 集中式訓練與執行 (CTE)
    • 集中式訓練分布式執行(CTDE)
    • 分布式訓練與執行(DTE)
  • 二、Dec-POMDP
    • joint policy V and Q


一、MARL主要框架

MARL當前主流的框架分為三種:
centralized training and execution (CTE), centralized training for decentralized execution (CTDE),and decentralized training and execution (DTE)

集中式訓練與執行 (CTE)

CTE在訓練與執行過程假設能夠獲取全局的信息,即每個智能體的動作是基于所有智能體的信息得來的,因此可以通過單智能體的算法簡單實現(維護一個聯合的動作狀態空間)。其優勢在于協作能力相比于其他的框架效果更優,然而其聯合狀態空間會隨著智能體的增加呈指數型上升造成學習困難,維度爆炸。

CTE僅僅用于合作性質的MARL

集中式訓練分布式執行(CTDE)

CTDE是最常用的框架,在訓練過程利用全局信息,執行過程每個智能體基于自身觀測輸出策略,相較于CTE具有良好的拓展性。

經常用于合作場景,也適用于競爭或混合場景

分布式訓練與執行(DTE)

DTE在訓練與執行過程不需要考慮全局的信息,基于每個智能體自身的信息做出決策,將其他智能體作為環境的一部分,因此任何人RL算法都能夠實現DTE框架,然而會帶來信用分配以及環境非穩定的問題。

能夠用于合作、競爭以及混合場景

后續文章會詳細展開每個框架的實現以及優缺點

二、Dec-POMDP

協作式MARL能夠被表示為decentralized partially observable Markov decision process (Dec-POMDP),其被定義為多元組 { I , S , [ A i ] , T , R , [ O i ] , O , H , γ } \{I,S,[A_i],T,R,[O_i],O,H,\gamma\} {I,S,[Ai?],T,R,[Oi?],O,H,γ}
其中含義如下:
在這里插入圖片描述

由于全局狀態不能直接被觀測,因此每個智能體remember自身的history obs以及actions是必要的,局部的歷史觀測對可以表示為: h i = { a i , 0 , o i , 0 , . . . . , a t , 0 , o t , 0 } h_i=\{a_{i,0},o_{i,0},....,a_{t,0},o_{t,0}\} hi?={ai,0?,oi,0?,....,at,0?,ot,0?}

joint policy V and Q

在這里插入圖片描述

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/80012.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/80012.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/80012.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

小程序問題(記錄版)

1、樣式不生效 在h5上生效 但是 小程序上沒反應 解決辦法:解除組件樣式隔離 1、isolated 表示啟用樣式隔離,在自定義組件內外,使用 class 指定的樣式將不會相互影響(一般情況下的默認值) 2、apply-shared 表示頁面 wxs…

排列組合算法:解鎖數據世界的魔法鑰匙

在 C 算法的奇幻世界里,排列和組合算法就像是兩把神奇的魔法鑰匙,能夠幫我們解鎖數據世界中各種復雜問題的大門。今天,作為 C 算法小白的我,就帶大家一起走進排列和組合算法的奇妙天地。 排列算法:創造所有可能的順序…

深入探討 UDP 協議與多線程 HTTP 服務器

深入探討 UDP 協議與多線程 HTTP 服務器 一、UDP 協議:高效但“不羈”的傳輸使者 UDP 協議以其獨特的特性在網絡傳輸中占據一席之地,適用于對實時性要求高、能容忍少量數據丟失的場景。 1. UDP 的特點解析 無連接:無需提前建立連接&…

引用第三方自定義組件——微信小程序學習筆記

1. 使用 npm 安裝第三方包 1.1 下載安裝Node.js 工具 下載地址:Node.js — Download Node.js 1.2 安裝 npm 包 在項目空白處右鍵彈出菜單,選擇“在外部終端窗口打開”,打開命令行工具,輸入以下指令: 1> 初始化:…

數字化轉型是往哪轉?怎么轉?

寫在前面 當下數字化轉型的風還在吹,企業數字化轉型過程中以數字化項目滿足業務化需求,已有相關數字化平臺的話,就搞大平臺、大系統,解決數據孤島。政府數字化轉型亦是如此,某些省市發了系統優化整合的文,旨…

嵌入式學習--江協51單片機day2

今天學的不多,內容為:靜態、動態數碼管的控制,模塊化編程和lcd1602調試工具 數碼管的控制 由于內部電路的設計,數碼管每次只能顯示一個位置的一個數字,動態的實現是基于不同位置的閃爍頻率高。 P2_4,P2_3,P2_2控制位…

《數據結構:二叉搜索樹(Binary Search Tree)》

文章目錄 :red_circle:一、二叉搜索樹的概念:red_circle:二、二叉搜索樹的性能分析:red_circle:三、二叉搜索樹的操作(一)插入(二)查找(三)刪除 :red_circle:四、二叉搜索樹的實現代碼(一&#…

【Linux相關】實時查看Nvidia-smi使用情況

【Linux相關】 實時查看Nvidia-smi使用情況 文章目錄 實時查看Nvidia-smi使用情況 實時查看Nvidia-smi使用情況 在本地終端執行下述語句 watch -n 1 nvidia-smi每一秒都會更新,將 1 改為其他數字可以滿足不同需求

Kotlin密封類優化Android狀態管理

Kotlin 的密封類(Sealed Class)確實是 Android 開發中管理復雜 UI 狀態的利器。它通過類型安全的層次結構,讓狀態管理代碼更加清晰簡潔。讓我們從實際開發場景出發,深入探討其應用: 一、密封類核心優勢 受限的類繼承…

JavaWeb:SpringBootWeb快速入門

介紹 Spring SpringBoot 入門程序 需求 步驟 修改端口 1.新建application.yml #設置端口 server:port: 8081入門程序-分析 為什么main方法能啟動web應用-內嵌tomcat 為什么tomcat能定位HelloController程序 請求先到DisPatcherServlet,根據路徑轉發 小結 1.…

Unity學習筆記二

文章目錄 3D數學公共計算結構體Mathf常用成員三角函數 向量Vector3基本成員點乘叉乘插值運算 四元數引出基本概念Quaternion結構體成員四元數運算 更多的Mono延遲函數協同程序多線程相關協程概念辨析協程本體協程調度器 Resources資源動態加載特殊文件夾Resources同步加載Resou…

為什么Transformer推理需要做KV緩存

一、我們先來回憶一下在transformer中KV在哪里出現過,都有什么作用? α的計算過程: 這里引入三個向量: 圖中的q為Query,用來匹配key值 圖中的k為key,用來被Query匹配 圖中的Value,是用來被進行加權平均的 由…

【大模型面試】大模型(LLMs)高頻面題全面整理(★2025年5月最新版★)

【大模型面試】大模型(LLMs)高頻面題全面整理(★2025年5月最新版★) 🌟 嗨,你好,我是 青松 ! 🌈 自小刺頭深草里,而今漸覺出蓬蒿。 本筆記適合大模型初學者和…

JAVA:使用 iTextPDF 處理 PDF 的技術詳解

1、簡述 iTextPDF 是一個功能強大的 Java PDF 庫,可以用來創建、修改和處理 PDF 文檔。通過它,我們可以完成如生成 PDF、讀取 PDF 內容、添加水印、合并 PDF 等多種操作。本篇博客將詳細介紹 iTextPDF 的使用方法,并提供一些實踐樣例,幫助開發者快速上手。 樣例代碼: htt…

模態與非模態窗口及使用時的數據交互

模態窗口使用exec()方法顯示,會阻塞父窗口,直到對話框關閉; 非模態對話框允許同時操作主窗口和設置窗口,使用show()。 模態和非模態的主要區別在于用戶能否與父窗口交互,非模態更適合需要頻繁切換的場景。非模態窗口需…

Docker進入MySQL之后如何用sql文件初始化數據

關閉Docker-compose.yml里面所有容器 docker compose -f docker_compose.yml down后臺形式開啟Docker-compose.yml所有容器 docker compose -f docker_compose.yml up -d羅列出所有啟動過的(包括退出過的)容器 docker ps -a進入指定容器ID內部 docke…

MAC 地址

MAC地址(Media Access Control Address)是指網絡設備在數據鏈路層使用的唯一標識符,也稱為硬件地址或物理地址。它用于標識設備之間的網絡通信,是網絡適配器(如網卡、Wi-Fi適配器等)的唯一標識。每個網絡設…

Redis 7.0中5種新特性及實戰應用

Redis 7.0引入了多項革命性的新特性,不僅在性能和可靠性方面有所提升,更在功能和使用體驗上有了質的飛躍。本文將介紹Redis 7.0的五大關鍵新特性,可以根據實際情況利用Redis 7.0的強大功能,構建更高效、更可靠的應用系統。 特性一…

PHP實現PDF自動簽名

技術要點:在PDF中找到一個固定錨點,在需要放置圖片的地方找到測試出錨點對應的XY位 // 使用了poppler方法,其他PDF庫在獲取坐標方面有各種問題,他的安裝是在Linux底層,比在PHP項目中用Composer安裝的庫看上去更穩定&a…

中達瑞和便攜式高光譜相機:珠寶鑒定領域的“光譜之眼”

在珠寶行業中,真偽鑒定始終是核心需求。隨著合成技術與優化處理手段的日益精進,傳統鑒定方法逐漸面臨挑戰。中達瑞和推出的便攜式高光譜相機,憑借其獨特的“圖譜合一”技術,為珠寶真假鑒定提供了科學、高效且無損的解決方案&#…