第十五章、非合作關系設定下的多智能體強化學習

0 前言

根據上一章的內容,已知完全合作關系下的多智能體利益一致有相同的目標,而非合作關系下實際上智能體的獎勵和回報都是不一樣的,它們都在努力讓自己的利益最大化而并不考慮整體利益。

1 非合作關系設定下的策略學習

在這里插入圖片描述
要注意的點:

  • 狀態S=[O1,O2,??,Om]S=[O^1,O^2,\cdots,O^m]S=[O1,O2,?,Om],所有智能體的觀測之和是狀態。
  • 動作A=[A1,A2,??,Am]A=[A^1,A^2,\cdots,A^m]A=[A1,A2,?,Am]
  • 獎勵并不相同,相對的實際上價值網絡的參數對于每個智能體來說也不一樣。

目標函數:

完全合作關系:該部分我們回憶一下上一節中的完全合作關系下的智能體:J(θ1,??,θm)=Es[Vπ(s)]J(\theta^1,\cdots,\theta^m)=E_s[V_{\pi}(s)]J(θ1,?,θm)=Es?[Vπ?(s)],我們只需要找到讓目標函數J(θ1,??,θm)J(\theta^1,\cdots,\theta^m)J(θ1,?,θm)最大的θ\thetaθ就可以得到最后用來決策的策略網絡。
非合作關系:由于每個智能體的狀態價值都不同,所以每個智能體的目標函數也不同
狀態價值:V1(s),V2(s),??,Vm(s)V^1(s),V^2(s),\cdots,V^m(s)V1(s),V2(s),?,Vm(s).
目標函數:J1(θ1,??,θm)=Es[Vπ1],J2(θ1,??,θm)=Es[Vπ2],??,Jm(θ1,??,θm)=Es[Vπm]J^1(\theta^1,\cdots,\theta^m)=E_s[V_{\pi}^1],\quad J^2(\theta^1,\cdots,\theta^m)=E_s[V_{\pi}^2],\cdots,\quad J^m(\theta^1,\cdots,\theta^m)=E_s[V_{\pi}^m]J1(θ1,?,θm)=Es?[Vπ1?],J2(θ1,?,θm)=Es?[Vπ2?],?,Jm(θ1,?,θm)=Es?[Vπm?]每一個智能體都希望自己的目標函數最大,最終確定一個θ\thetaθ值。這個問題涉及到一個收斂準則,叫納什均衡。

下面會對納什均衡做一個簡單的介紹。
納什均衡(Nash Equilibrium):是博弈論中的一個核心概念。
舉個例子來說這個問題:

囚徒A\B沉默(合作)背叛(不合作)
沉默(合作)(-1,-1)(-10,0)
背叛(不合作)(0,-10)(-5,-5)

上表描述了一個囚徒困境的問題,警官分別審問囚徒A和囚徒B,那么根據囚徒所采取的不同動作,會得到不同的結果:

  1. 如果囚徒A和囚徒B都沉默,那么各判1年
  2. 如果囚徒A沉默、囚徒B背叛,那么囚徒A判10年,囚徒B釋放
  3. ?\cdots?

那么在完全合作關系下,實際上如果囚徒A和囚徒B都沉默,那么總體判的最少。
在非合作關系下,每個智能體只考慮自己,那么實際上不管囚徒A選什么,背叛都是囚徒B最好的選擇。所以最后即 如果囚徒A和囚徒B都背叛,那么各判5年。從總體上來看當然不是最好的選擇,但是它是個人理性的選擇結果。

2 非合作關系設定下的多智能體A2C

目標函數:J1(θ1,??,θm)=Es[Vπ1],J2(θ1,??,θm)=Es[Vπ2],??,Jm(θ1,??,θm)=Es[Vπm]J^1(\theta^1,\cdots,\theta^m)=E_s[V_{\pi}^1],\quad J^2(\theta^1,\cdots,\theta^m)=E_s[V_{\pi}^2],\cdots,\quad J^m(\theta^1,\cdots,\theta^m)=E_s[V_{\pi}^m]J1(θ1,?,θm)=Es?[Vπ1?],J2(θ1,?,θm)=Es?[Vπ2?],?,Jm(θ1,?,θm)=Es?[Vπm?]

智能體1:最大化 J1(θ1,??,θm)=Es[Vπ1]J^1(\theta^1,\cdots,\theta^m)=E_s[V_{\pi}^1]J1(θ1,?,θm)=Es?[Vπ1?]
智能體2:最大化 J2(θ1,??,θm)=Es[Vπ2]J^2(\theta^1,\cdots,\theta^m)=E_s[V_{\pi}^2]J2(θ1,?,θm)=Es?[Vπ2?]
?\cdots?
智能體m:最大化 Jm(θ1,??,θm)=Es[Vπm]J^m(\theta^1,\cdots,\theta^m)=E_s[V_{\pi}^m]Jm(θ1,?,θm)=Es?[Vπm?]

2.1 價值網絡

在這里插入圖片描述

價值網絡輸入是環境,輸出是一個值,該網絡用來是近似狀態價值函數的,記該價值網絡為v(s,wi)v(s,w^i)v(s,wi)
注意:和完全合作的相比為一的不同就是,對于價值網絡來說,完全合作關系下www參數都是一樣的,非完全合作關系下每個智能體都不相同記為wiw^iwi
TD目標:y^t=rt+γ?v(st+1,wi)\hat{y}_t=r_t+\gamma\cdot v(s_{t+1},w^i)y^?t?=rt?+γ?v(st+1?,wi)
TD誤差:δt=v(st,wi)?y^t\delta_t=v(s_t,w^i)-\hat{y}_tδt?=v(st?,wi)?y^?t?
LOSS損失:L(w)=12δt2L(w)=\frac{1}{2}\delta_t^2L(w)=21?δt2?
更新wiw^iwiwi←wi?α?δt??wiv(st,wi)w^i\leftarrow w^i-\alpha\cdot \delta_t\cdot\nabla_{w^i }v(s_t,w^i)wiwi?α?δt???wi?v(st?,wi)

如果要防止自舉偏差,可以將TD目標中的wiw^iwi換一下變成wi?w^{i-}wi?

2.2 策略網絡

在這里插入圖片描述
同樣的我們借助目標函數J1(θ),J2(θ),??,Jm(θ)J^1(\theta),J^2(\theta),\cdots,J^m(\theta)J1(θ),J2(θ),?,Jm(θ)
單個智能體的策略梯度可以表示為:
?θiJi(θ1,θ2,??,θm)=ES,A(?θiln(π(Ai∣S,θi))[Qπi(S,A)?b])\nabla_{\theta^i}J^i(\theta^1,\theta^2,\cdots,\theta^m)=E_{S,A}(\nabla_{\theta^i}ln(\pi(A^i|S,\theta^i))[Q^i_{\pi}(S,A)-b])?θi?Ji(θ1,θ2,?,θm)=ES,A?(?θi?ln(π(AiS,θi))[Qπi?(S,A)?b])

2.3 訓練及決策

第i號智能體:
當前價值網絡:wnowiw^i_{now}wnowi?,價值網絡:v(s;wi)v(s;w^i)v(s;wi)
目標價值網絡:wnowi?w^{i-}_{now}wnowi??,目標網絡:v(s;wi?)v(s;w^{i-})v(s;wi?)
策略網絡的參數:θnowi\theta^i_{now}θnowi?

  • 當前狀態st=[ot1,??,otm]s_t=[o^1_t,\cdots,o^m_t]st?=[ot1?,?,otm?],讓每一個智能體獨立做隨機抽樣: ati~π(?∣st;θnowi)a^i_t\sim\pi(\cdot|s_t;\theta^i_{now})ati?π(?st?;θnowi?), ?i=1,??,m,\forall i=1,\cdots,m,?i=1,?,m,并執行選中的動作。
  • 從環境中觀測到獎勵rt1,rt2,??,rtmr^1_t,r^2_t,\cdots,r^m_trt1?,rt2?,?,rtm?與下一時刻狀態st+1=[ot+11,??,ot+1m]s_{t+1}=[o^1_{t+1},\cdots,o^m_{t+1}]st+1?=[ot+11?,?,ot+1m?]
  • 讓價值網絡做預測:v^ti=v(st;wnowi)\hat{v}^i_t=v(s_t;w^i_{now})v^ti?=v(st?;wnowi?)
  • 讓目標網絡做預測:v^t+1i?=v(st+1;wnowi?)\hat{v}^{i-}_{t+1}=v(s_{t+1};w^{i-}_{now})v^t+1i??=v(st+1?;wnowi??)
  • 計算TD目標和TD誤差:y^ti?=rti+γ?v^t+1i?\hat{y}^{i-}_t=r^i_t+\gamma\cdot\hat{v}^{i-}_{t+1}y^?ti??=rti?+γ?v^t+1i?? δti=v^ti?y^ti?\delta^i_t=\hat{v}^i_t-\hat{y}^{i-}_{t}δti?=v^ti??y^?ti??
  • 更新價值網絡參數:wnewi←wnowi?α?δti??wiv(st;wnowi)w^i_{new}\leftarrow w^i_{now}-\alpha\cdot\delta^i_t\cdot\nabla_{w^i}v(s_t;w^i_{now})wnewi?wnowi??α?δti???wi?v(st?;wnowi?)
  • 更新目標網絡參數:wnewi?←τ?wnewi+(1?τ)?wnowi?w^{i-}_{new}\leftarrow \tau\cdot w^i_{new}+(1-\tau)\cdot w^{i-}_{now}wnewi??τ?wnewi?+(1?τ)?wnowi??
  • 更新策略網絡參數:θnewi←θnowi?β?δti??θilnπ(ati∣st;θnowi)\theta^i_{new}\leftarrow \theta^i_{now}-\beta\cdot\delta^i_t\cdot\nabla_{\theta^i}ln\pi(a^i_t|s_t;\theta^i_{now})θnewi?θnowi??β?δti???θi?l(ati?st?;θnowi?), ?i=1,??,m\forall i=1,\cdots,m?i=1,?,m

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/92282.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/92282.shtml
英文地址,請注明出處:http://en.pswp.cn/web/92282.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

分布式微服務--GateWay(過濾器及使用Gateway注意點)

前言、Spring Cloud Gateway 與 Web 依賴沖突 <!-- 下面兩個依賴不能同時使用 --><!-- Gateway 組件 --><dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-starter-gateway</artifactId><ve…

latex in overleaf快速通關論文排版

文章目錄 0 有效連接匯總 1 簡介 1.1 latex是什么 1.2 overleaf是什么? 2 快速上手 步驟1 注冊 步驟2 使用 (1) 找模板 (2) 整體論文的overleaf結構 (3) 編輯內容 打開可視化編輯 實時編譯 編輯 (4) 導出 3 常規操作 3.1 公式 3.2 表格 3.3 圖片 3.4 引用 3.5 代碼塊 3.6 設置…

OO SALV的欄位功能

SALV的欄位功能主要是通過CL_SALV_COLUMN_TABLE和CL_SALV_COLUMNS_TABLE這兩個類的實現的。 SALV的欄位屬性的詳細功能包括異常狀態圖標、圖標、符號、復選框、按鈕、熱點、超鏈接、單元格類型、單元格顏色、某一欄位顏色、某一行顏色&#xff0c;欄位隱藏等。關于顏色等樣式屬…

第2章:建模篇——第1節:點線面的選擇與控制

目錄 1.模式的切換 &#xff08;1&#xff09;編輯模式的切換 &#xff08;2&#xff09;點線面的切換 2.點線面的選擇 &#xff08;1&#xff09;選擇的設置 &#xff08;2&#xff09;循環選擇 3.點線面的控制 4.總結 1.模式的切換 &#xff08;1&#xff09;編輯模…

深入解析嵌套事務:原理與應用

嵌套事務是指在事務執行過程中啟動另一個事務形成的層級調用結構&#xff0c;主要用于處理跨服務或復雜業務場景的事務一致性控制。其核心是通過事務傳播機制管理多個操作的原子性&#xff0c;具體原理和應用如下&#xff1a;一、核心概念與工作原理層級結構 嵌套事務由頂層事務…

[激光原理與應用-168]:測量儀器 - 對光學指標進行測量的儀器

一、基礎光學參數測量儀器 - 頻率/波長/功率光學顯微鏡用途&#xff1a;觀察微小物體的顯微圖像&#xff0c;用于材料科學、生物學等領域。特點&#xff1a;高放大倍數和分辨率&#xff0c;可清晰顯示微觀結構。光譜分析儀用途&#xff1a;測量發光體的輻射光譜&#xff0c;分析…

MPC-in-the-Head 轉換入門指南

1. 引言 本文將探討構建零知識證明&#xff08;ZKP&#xff09;的一種非常有趣的方法&#xff1a; MPC-in-the-Head Transformation&#xff08;轉換&#xff09;。 該方法最早由 2007 年的論文 Zero-knowledge from secure multiparty computation 提出&#xff0c;通常被稱…

SpringBoot的優缺點

題目詳細答案優點快速開發&#xff1a;Spring Boot 通過自動配置和大量的開箱即用功能&#xff0c;使得開發者可以快速啟動和運行一個應用程序&#xff0c;無需進行繁瑣的配置工作。簡化配置&#xff1a;Spring Boot 提供了自動配置和 "starter" 依賴&#xff0c;簡化…

[激光原理與應用-171]:測量儀器 - 能量型 - 激光能量計(單脈沖能量測量)

一、工作原理激光能量計通過光電效應或光熱效應將激光脈沖能量轉換為可測量的物理信號&#xff0c;核心原理可分為兩類&#xff1a;光電型原理光電效應&#xff1a;激光照射光電材料&#xff08;如硅、硒化鋅&#xff09;時&#xff0c;光子激發電子產生光電流或光電壓。通過測…

四、應急響應

一、linux入侵排查 思路: 1、查看帳號 查看/etc/passwd文件中使用 /bin/bash 作為默認 shell 的用戶。 查詢特權用戶特權用戶(uid 為0) 查詢可以遠程登錄的帳號信息 除root帳號外&#xff0c;其他帳號是否存在sudo權限。 禁用或刪除多余及可疑的帳號 用find命令查看擁有…

類和對象(中):類的默認成員函數、構造函數、析構函數

&#x1f525;個人主頁&#xff1a;胡蘿卜3.0 &#x1f3ac;作者簡介&#xff1a;C研發方向學習者 &#x1f4d6;個人專欄&#xff1a; 《C語言》《數據結構》 《C干貨分享》 ??人生格言&#xff1a;不試試怎么知道自己行不行 目錄 一、類的默認成員函數 二、構造函數 三…

如何優雅地刷力扣 LeetCode - Easy

Source 力扣LeetCode題庫 App > LeetCode > 題庫 > 題解 Notes 仔細審題&#xff0c;明確輸入輸出&#xff0c;通過測試用例。先特殊&#xff0c;后尋常。逆向思維。 在條件語句中用!代替&#xff0c;提前終止循環&#xff0c;減少嵌套層級&#xff08;else&#…

AI繪畫:生成唐初程咬金全身像提示詞

根據唐代歷史記載和藝術形象特征&#xff0c;以下是優化后的中文Midjourney 提示詞&#xff0c;突出程咬金的猛將氣質與唐初甲胄細節&#xff1a; 核心提示詞&#xff08;戰場形象&#xff09; 中年猛將程咬金&#xff0c;全身甲胄像&#xff0c;唐初光要甲制式&#xff1a;身…

【實時Linux實戰系列】實時數據流處理框架分析

背景與重要性在當今數字化時代&#xff0c;數據的實時處理變得至關重要。無論是金融交易、工業自動化還是物聯網&#xff08;IoT&#xff09;設備&#xff0c;都需要能夠快速處理和響應數據流&#xff0c;以確保系統的高效運行和決策的及時性。實時Linux操作系統因其低延遲和高…

一周學會Matplotlib3 Python 數據可視化-Hello World編寫

鋒哥原創的Matplotlib3 Python數據可視化視頻教程&#xff1a; 2026版 Matplotlib3 Python 數據可視化 視頻教程(無廢話版) 玩命更新中~_嗶哩嗶哩_bilibili Matplotlib3簡介 Matplotlib 是 Python 最流行的數據可視化庫之一&#xff0c;廣泛應用于科學計算、數據分析、科研繪…

中國MCP市場:騰訊、阿里、百度的本土化實踐

中國MCP市場&#xff1a;騰訊、阿里、百度的本土化實踐 &#x1f31f; Hello&#xff0c;我是摘星&#xff01; &#x1f308; 在彩虹般絢爛的技術棧中&#xff0c;我是那個永不停歇的色彩收集者。 &#x1f98b; 每一個優化都是我培育的花朵&#xff0c;每一個特性都是我放飛的…

房產證識別在房產行業的技術實現及應用原理

技術實現1. 圖像采集與預處理圖像獲取&#xff1a;通過高分辨率掃描儀或手機攝像頭獲取房產證圖像預處理技術&#xff1a;去噪處理&#xff08;消除掃描噪聲&#xff09;圖像增強&#xff08;提高對比度&#xff09;傾斜校正&#xff08;自動旋轉至正確角度&#xff09;二值化處…

決策樹技術詳解:從理論到Python實戰

?決策樹像人類的思考過程&#xff0c;用一系列“是/否”問題層層逼近答案?一、決策樹的核心本質決策樹是一種模仿人類決策過程的樹形結構分類/回歸模型。它通過節點&#xff08;問題&#xff09;?? 和 ?邊&#xff08;答案&#xff09;?? 構建路徑&#xff0c;最終在葉節…

Herd-proof thinking

Let’s dive into “herd-proof thinking” — the mindset and tactics that help you stay sharp, independent, and immune to manipulative systems.&#x1f9e0; Part 1: The Foundation of Herd-Proof Thinking 1. Recognize Incentives“If you don’t know who the pr…

day068-DevOps基本知識與搭建遠程倉庫

文章目錄0. 老男孩思想-傳統文化1. 運維人員對網站集群的關注項2. CI、CD3. DevOps4. 環境5. Git5.1 **為什么叫 “Git”&#xff1f;**5.2 Git的核心設計理念5.3 Git工作空間5.4 分支 branch5.5 命令5.5.1 配置git用戶信息5.5.2 初始化git倉庫5.5.3 將文件放入暫存區5.5.4 提交…