MARL零樣本協調之Fictitious Co-Play學習筆記

下列引用來自知乎作者Algernon 知乎link
FCP作為ZSC領域兩階段訓練方法的開創者

論文《Collaborating with Humans without Human Data》來自 NeurIPS 2021。這篇論文提出 Fictitious Co-Play (FCP) 來解決 ZSC 問題。論文認為,ZSC 的第一個重要問題是對稱性,第二個重要問題則是能夠與不同水平的智能體合作。這篇論文提出的 FCP 則是一種簡單的兩階段方法。在第一階段,使用 SP 訓練 個不同的同伴來打破對稱性。為了得到不同水平的智能體,需要在訓練過程中對每個智能體設置多個檢查點,越往后的檢查點表示技能越熟練的智能體。在第二階段,需要訓練 FCP 智能體來作為之前得到的個智能體的最佳響應。如下圖所示。

在這里插入圖片描述
我對上文提到的兩個問題“ZSC 的第一個重要問題是對稱性,第二個重要問題則是能夠與不同水平的智能體合作。”很不解,同時不知道為什么要這樣設計算法。解答如下:

  1. 對稱性問題:
  • 對稱性問題指的是在多智能體環境中,不同智能體的行為或策略可能處于對稱狀態,即所有智能體在訓練初期或環境設計上是等同的,彼此之間沒有明顯的區別。例如,在某些博弈或協作任務中,如果智能體的訓練初期都擁有相同的策略和能力,它們可能在合作時難以分辨彼此的角色,導致合作效率低下。
  • 解決方法:為了打破這種對稱性,論文中提到的 Fictitious Co-Play(FCP)方法在第一階段通過訓練多個不同的智能體(同伴),每個智能體都有不同的技能水平。這樣,智能體在訓練過程中不會保持對稱,能促進它們發展出不同的策略和能力,以避免在合作中“雷同”的策略。
  1. 能夠與不同水平的智能體合作:
  • 與不同水平的智能體合作是指智能體不僅要能夠與其他智能體合作,還要能夠與不同技能水平的智能體協同工作。在實際應用中,智能體可能面臨與能力較強或較弱的伙伴合作的情況,因此必須具備適應不同合作伙伴能力的能力。
  • 技能水平的不同:論文中提到,在訓練過程中對每個智能體設置多個檢查點,其中越往后的檢查點對應的智能體技能越熟練。這意味著,智能體會經歷多個階段,從初學者到專家。為了適應與不同水平的智能體合作,FCP 方法通過在第二階段訓練智能體使其成為與這些不同能力的伙伴合作時的最佳響應者,即智能體不僅能適應能力較強的合作伙伴,還能與能力較弱的合作伙伴有效協作。
例如

第一階段自博弈:
AA A0A0(初始狀態) A1A1(中間狀態) A2A2(收斂狀態)
BB B0B0(初始狀態) B1B1(中間狀態) B2B2(收斂狀態)
第二階段FCP智能體為G
GA(A0,A1,A2)——即G要與不同狀態、技能程度的A進行訓練
GB(同理)

總結:

對稱性問題:指的是在多智能體環境中,智能體的角色或策略相似,缺乏差異化,導致合作時的效率較低。解決對稱性問題的方法是訓練多個不同技能水平的智能體,以打破這種“對稱”。
與不同水平的智能體合作:強調智能體不僅能與技能相當的伙伴協作,還能夠適應和配合技能高低不一的伙伴。為此,FCP 通過設置多個檢查點訓練出技能層次不同的智能體,并在訓練過程中確保智能體能夠與這些不同水平的伙伴協作。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/72493.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/72493.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/72493.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Docker小游戲 | 使用Docker部署DOS游戲合集

Docker小游戲 | 使用Docker部署DOS游戲合集 前言項目介紹項目簡介項目預覽二、系統要求環境要求環境檢查Docker版本檢查檢查操作系統版本三、部署dos-games網頁小游戲下載鏡像創建容器檢查容器狀態檢查服務端口檢查容器日志安全設置四、訪問DOS游戲網頁五、進階玩法下載游戲拷貝…

SpringBoot-模擬SSE對話交互

SpringBoot-模擬SSE對話交互 后端使用SSE進行會話,前端使用Html模擬大模型的問答交互->【前端】【后端】 1-學習目的 本項目代碼倉庫:https://gitee.com/enzoism/springboot_sse 1-核心知識點 1)什么是SSE協議->客戶端發起一次請求&am…

2025 ubuntu24.04系統安裝docker

1.查看ubuntu版本(Ubuntu 24.04 LTS) rootmaster:~# cat /etc/os-release PRETTY_NAME"Ubuntu 24.04 LTS" NAME"Ubuntu" VERSION_ID"24.04" VERSION"24.04 LTS (Noble Numbat)" VERSION_CODENAMEnoble IDubun…

Avalonia 中文亂碼

代碼字體文件設置成支持中文的,但是編譯的代碼還是顯示的亂碼,原因是代碼文件的文件編碼格式不支持中文導致的。 如下面的2個頁面一部分中文顯示正常,一部分顯示正常,一部分顯示亂碼。

國產編輯器EverEdit - 工具欄自定義及認識工具欄上的按鈕

1 設置-高級-工具條 1.1 設置說明 1.1.1 工具條自定義 選擇主菜單工具 -> 設置 -> 常規,在彈出的選項窗口中選擇工具條分類,如下圖所示: 左側窗口是當前支持所有功能按鈕列表(上圖中居中欄),右側的窗口是當前顯示在工具欄…

淘寶商品詳情高級版API接口測試與數據處理指南

在電商數據分析、商品監控和自動化運營中,淘寶商品詳情API接口是不可或缺的工具之一。本文將詳細介紹如何測試淘寶商品詳情高級版API接口的返回數據,并提供完整的數據處理流程,幫助開發者高效利用接口數據。 一、淘寶商品詳情API接口概述 淘…

C++海康相機DEMO

非標設備經常用到相機算法,利用工作之余時間,結合海康相機demo寫一套全面的相機應用,圖像處理常用的有halcon 、 opencv , MIL , visionpro,這里采用目前比較常用的halcon和opencv對相機圖片算法處理。整個…

TMS320F28P550SJ9學習筆記2:Sysconfig 配置與點亮LED

今日學習使用Sysconfig 對引腳進行配置,并點亮開發板上的LED4 與LED5 我的單片機開發板平臺是 LAUNCHXL_F28P55x 我是在上文描述的驅動庫C2000ware官方例程example的工程基礎之上進行添加功能的 該例程路徑如下:D:\C2000Ware_5_04_00_00\driverlib\f28p…

人機交互革命:從觸屏到腦波的13維戰爭

人機交互革命:從觸屏到腦波的13維戰爭 一、交互維度大爆炸:重新定義人機溝通邊界 當ChatGPT開始解析你的微表情,當Neuralink芯片能讀取皮層信號,人機交互已突破【鍵鼠】的次元壁。我們正經歷人類史上最大規模的感官革命&#xff…

使用Qt調用HslCommunication(C++調用C#庫)

使用C/CLI 來調用C#的dll 任務分解: 1、實現C#封裝一個調用hsl的dll; 2、實現C控制臺調用C#的dll庫; 3、把調用C#的dll用C再封裝為一個dll; 4、最后再用Qt調用c的dll; 填坑: 1、開發時VS需要安裝CLI項目庫…

maven高級-03.繼承與聚合-版本鎖定

一.版本鎖定 在maven中&#xff0c;父工程的pom文件中通過<dependencyManagement>來統一管理依賴的版本。 注意&#xff1a; <dependencyManagement>僅僅管理依賴的版本號&#xff0c;并不進行依賴的注入。如果要進行依賴注入還是要使用<dependencies>注解。…

基于opencv消除圖片馬賽克

以下是一個基于Python的圖片馬賽克消除函數實現&#xff0c;結合了圖像處理和深度學習方法。由于馬賽克消除涉及復雜的圖像重建任務&#xff0c;建議根據實際需求選擇合適的方法&#xff1a; import cv2 import numpy as np from PIL import Imagedef remove_mosaic(image_pat…

深入解析/etc/hosts.allow與 /etc/hosts.deny:靈活控制 Linux 網絡訪問權限

文章目錄 深入解析/etc/hosts.allow與 /etc/hosts.deny&#xff1a;靈活控制 Linux 網絡訪問權限引言什么是 TCP Wrappers&#xff1f;工作原理 什么是 /etc/hosts.allow 和 /etc/hosts.deny&#xff1f;匹配規則配置語法詳解配置示例允許特定 IP 訪問 SSH 服務拒絕整個子網訪問…

Spring AI:開啟Java開發的智能新時代

目錄 一、引言二、什么是 Spring AI2.1 Spring AI 的背景2.2 Spring AI 的目標 三、Spring AI 的核心組件3.1 數據處理3.2 模型訓練3.3 模型部署3.4 模型監控 四、Spring AI 的核心功能4.1 支持的模型提供商與類型4.2 便攜 API 與同步、流式 API 選項4.3 將 AI 模型輸出映射到 …

大白話面試中應對自我介紹

在面試中&#xff0c;自我介紹是開場的關鍵環節&#xff0c;它就像你遞給面試官的一張“個人名片”&#xff0c;要讓面試官快速了解你并對你產生興趣。下面詳細講講應對自我介紹的要點及回答范例。 一、自我介紹的時間把控 一般面試中的自我介紹控制在1 - 3分鐘比較合適。時間…

postman請求后端接受List集合對象

后端集合 post請求&#xff0c;即前端請求方式

Spark基礎篇 RDD、DataFrame與DataSet的關系、適用場景與演進趨勢

一、核心概念與演進背景 1.1 RDD(彈性分布式數據集) 定義:RDD 是 Spark 最早的核心抽象(1.0版本引入),代表不可變、分區的分布式對象集合,支持函數式編程和容錯機制。特點: 無結構化信息:僅存儲對象本身,無法自動感知數據內部結構(如字段名、類型)。編譯時類型安全…

軟件測試人員在工作中如何運用Linux?

軟件測試的小伙們就會明白會使用Linux是多么重要的一件事&#xff0c;工作時需要用到&#xff0c;面試時會被問到&#xff0c;簡歷中需要寫到。 對于軟件測試人員來說&#xff0c;不需要你多么熟練使用Linux所有命令&#xff0c;也不需要你對Linux系統完全了解&#xff0c;你只…

數據結構秘籍(二)圖(含圖的概念、存儲以及圖的兩大搜索)

1 引言 線性數據結構的元素滿足唯一的線性關系&#xff0c;每個元素&#xff08;初第一個和最后一個外&#xff09;只有一個直接前趨和一個直接后繼。樹形數據結構的元素之間有著明顯的層次關系。但是圖形結構的元素之間的關系是任意的。 什么是圖&#xff1f; 簡單來說&…

printf 與前置++、后置++、前置--、后置-- 的關系

# 前置和前置-- 先看一段代碼 大家是不是認為printf輸出的是 2 3 3 2 1 1 但是實際輸出的是 3 3 3 1 1 1 在這兩行printf函數代碼里&#xff0c;編譯器會先計算 a 和 --a 的值&#xff0c;然后再 從右向左 開始輸出。 printf函數中&#xff0c;如果有多個…