【強化學習系列】貝爾曼方程

首先回顧狀態價值函數和動作價值函數的定義:
狀態價值函數 v π ( s ) v_\pi(s) vπ?(s)是從狀態 s s s出發,直至一幕結束后獲得的回報的期望值
動作價值函數 q π ( s , a ) q_\pi(s,a) qπ?(s,a)是從狀態 s s s出發,采取動作 a a a后,直至一幕結束后獲得的回報的期望值
以下面這張回溯圖為例:
在這里插入圖片描述
從狀態 s s s出發有三個動作可以選,選擇的概率為 π ( a i ∣ s ) \pi(a_i|s) π(ai?s),一旦選擇了動作 a i a_i ai?,后續獲得的回報為 q π ( s , a i ) q_\pi(s,a_i) qπ?(s,ai?),而狀態價值函數是從狀態 s s s出發回報的期望值,因此需要按動作被選擇的概率對動作價值進行加權求和,即:
v π ( s ) = π ( a 1 ∣ s ) q π ( s , a 1 ) + π ( a 2 ∣ s ) q π ( s , a 2 ) + π ( a 3 ∣ s ) q π ( s , a 3 ) v_\pi(s)=\pi(a_1|s)q_\pi(s,a_1)+\pi(a_2|s)q_\pi(s,a_2)+\pi(a_3|s)q_\pi(s,a_3) vπ?(s)=π(a1?s)qπ?(s,a1?)+π(a2?s)qπ?(s,a2?)+π(a3?s)qπ?(s,a3?)
更一般地,狀態價值與動作價值的關系為:
v π ( s ) = ∑ a ∈ A π ( a ∣ s ) q π ( s , a ) v_\pi(s)=\sum_{a\in\mathcal{A}}\pi(a|s)q_\pi(s,a) vπ?(s)=aA?π(as)qπ?(s,a)
在采取動作 a a a后,智能體會以一定概率獲得一個獎勵 r r r,并轉移到下一個狀態 s ′ s' s,這個概率記作 p ( s ′ , r ∣ s , a ) p(s',r|s,a) p(s,rs,a) q π ( s , a ) q_\pi(s,a) qπ?(s,a)和下一個狀態 s ′ s' s的狀態價值之間存在以下關系:
q π ( s , a ) = ∑ s ′ ∈ S ∑ r ∈ R p ( s ′ , r ∣ s , a ) [ r + γ v π ( s ′ ) ] q_\pi(s,a)=\sum_{s'\in S}\sum_{r\in R}p(s',r|s,a)[r+\gamma v_\pi(s')] qπ?(s,a)=sS?rR?p(s,rs,a)[r+γvπ?(s)]

這個關系通過下面的回溯圖很容易理解,因為動作價值是期望值,而獎勵 R t + 1 R_{t+1} Rt+1?和下一個狀態 S t + 1 S_{t+1} St+1?都是隨機變量,求期望值需要對隨機變量不同取值按概率加權求和。
在這里插入圖片描述
聯立上面兩個式子就得到狀態價值函數的貝爾曼方程:
v π ( s ) = ∑ a ∈ A π ( a ∣ s ) ∑ s ′ ∈ S ∑ r ∈ R p ( s ′ , r ∣ s , a ) [ r + γ v π ( s ′ ) ] v_\pi(s)=\sum_{a\in\mathcal{A}}\pi(a|s)\sum_{s'\in S}\sum_{r\in R}p(s',r|s,a)[r+\gamma v_\pi(s')] vπ?(s)=aA?π(as)sS?rR?p(s,rs,a)[r+γvπ?(s)]
同樣可以得到動作價值函數的貝爾曼方程:
q π ( s , a ) = ∑ s ′ ∈ S ∑ r ∈ R p ( s ′ , r ∣ s , a ) [ r + γ ∑ a ′ ∈ A π ( a ′ ∣ s ′ ) q π ( s ′ , a ′ ) ] q_\pi(s,a)=\sum_{s'\in S}\sum_{r\in R}p(s',r|s,a)[r+\gamma \sum_{a'\in\mathcal{A}}\pi(a'|s')q_\pi(s',a')] qπ?(s,a)=sS?rR?p(s,rs,a)[r+γaA?π(as)qπ?(s,a)]

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/78023.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/78023.shtml
英文地址,請注明出處:http://en.pswp.cn/web/78023.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

donet使用指定版本sdk

ps:來自微軟官方方案,實測可行,就是在項目任意目錄下在新建 global.json,并配置sdk版本 SDK 使用最新安裝的版本 SDK 命令包括 dotnet new 和 dotnet run。 .NET CLI 必須為每個 dotnet 命令選擇一個 SDK 版本。 即使在以下情況下,它也會默認使用計算機上安裝的最新…

x-cmd install | Orbiton:極簡至上的終端文本編輯器與輕量級 IDE

目錄 核心特點安裝適用場景優勢 厭倦了臃腫復雜的 IDE?渴望一個輕巧、快速、專注的編碼環境?Orbiton,一款極簡主義的終端文本編輯器與輕量級 IDE,將帶給你前所未有的編碼體驗。 核心特點 極簡主義,專注編碼&#xff1…

大腦、機器人與貝葉斯信念及AI推理

在機器不再局限于重復性任務的世界里,機器人技術已經大膽地邁入了感知、學習和決策的領域。這篇文章探討了智能機器人系統是如何構建的——從理解它們嘈雜的傳感器和不確定的環境,到使它們能夠做出明智的選擇并隨著時間的推移調整自己的行為。 AI推理 …

線上婚戀相親小程序源碼介紹

?基于ThinkPHP、FastAdmin和UniApp開發的線上婚戀相親小程序源碼,這款小程序源碼采用了ThinkPHP作為后端框架,其強大的功能與良好的擴展性為程序的穩定運行提供了保障。 ?FastAdmin作為后臺管理框架,使得管理員能夠便捷地對用戶信息、相親…

長短期記憶(LSTM)簡介

RNN 的主要限制在于它無法記住很長的序列,并且會陷入梯度消失的問題。 什么是梯度消失問題? 當添加更多具有某些激活函數的層時,神經網絡中損失函數的梯度趨近于零,這使得網絡難以訓練。 長短期記憶(LSTM)…

JESD204B 探究

JESD204B協議是高速串行接口標準,主要用于ADC/DAC與邏輯器件(如FPGA)之間的數據傳輸。以下為綜合解析: 一、協議概述 ?核心作用? 通過高速SERDES技術實現數模轉換器與邏輯器件間的高效數據傳輸,支持多通道同步和確定性延遲,適用于GB級吞吐量場景23。?版本演進? JESD2…

Flutter PIP 插件 ---- 新增PipActivity,Android 11以下支持自動進入PIP Mode

接上文 Flutter PIP 插件 ---- Android 項目地址 PIP, pub.dev也已經同步發布 pip 0.0.3,你的加星和點贊,將是我繼續改進最大的動力 開發文檔 Add videos using picture-in-picture (PiP)介紹PIP功能從 Android 8.0 (API level 26) 引入&…

【Java開發日記】6個Java 工具,輕松分析定位 JVM 問題 !

目錄 使用 JDK 自帶工具查看 JVM 情況 jps jinfo jvisualvm jcm 使用 JDK 自帶工具查看 JVM 情況 JDK 自帶了很多命令行甚至是圖形界面工具,幫助查看 JVM 的一些信息。比如,在機器上運行 ls 命令,可以看到 JDK 8 提供了非常多的工具或程…

動態規劃簡單題2

leetcode91題(解碼方法) 分析題目: 1.這是一種解碼,就是給多個數字組成的字符串,把這些數字解碼成字母,看看一共有多少種 2.如果一個數字前有前導0就不合法,比如06,這與6不同&…

(007)Excel 公式的使用

文章目錄 邏輯運算公式的參數常用函數引用方式引用工作表和工作簿表格的引用修改公式的計算時機區域交叉引用 邏輯運算 公式的參數 單元格引用:SUM(A1:A24)。字面值:SQRT(121)。字面文本字符串:PROPER(“john.f.smith”)。表達式&#xff1a…

Unity 和 Unreal Engine(UE) 兩大主流游戲引擎的核心使用方法

以下是 Unity 和 Unreal Engine(UE) 兩大主流游戲引擎的核心使用方法和對比分析,幫助開發者快速上手并根據項目需求選擇合適工具: 一、Unity 使用指南 1. 安裝與配置 安裝:從 Unity Hub 下載,選擇長期支持…

猜數字游戲:從數學原理到交互體驗的完整設計指南

目錄 猜數字游戲:從數學原理到交互體驗的完整設計指南引言第一章 游戲數學原理1.1 均勻分布與隨機生成1.2 最優猜測策略 第二章 游戲系統設計2.1 核心架構2.2 動態難度系統 第三章 交互設計細節3.1 輸入驗證系統3.2 漸進式提示機制 第四章 進階功能設計4.1 智能輔導…

2025工業大模型白皮書 | 螞蟻工廠北京航空航天大學聯合出品

由螞蟻工廠與北京航空航天大學聯合發布的《2025工業大模型白皮書》是一部針對工業領域大模型技術發展的前瞻性研究報告。該白皮書系統梳理了工業大模型的技術演進、核心應用場景、關鍵挑戰及未來發展趨勢,旨在為制造業數字化轉型提供理論支撐和實踐指南。作為產學研…

JavaWeb:后端web基礎(TomcatServletHTTP)

一、今日內容 二、Tomcat 介紹與使用 介紹 基本使用 小結 配置 配置 查找進程 三、Servlet 什么是Servlet 快速入門 需求 步驟 1.新建工程-模塊(Maven) 2.修改打包方式-war 3.編寫代碼 /*** 可以選擇繼承HttpServlet*/ WebServlet("/hello&q…

構建現代分布式云架構的三大支柱:服務化、Service Mesh 與 Serverless

目錄 前言1. 服務化架構模式:構建可擴展的基礎單元1.1 服務化的定義與演進1.2 在分布式云中的價值1.3 面臨的挑戰 2. Service Mesh 架構:服務通信的治理中樞2.1 什么是 Service Mesh?2.2 功能與優勢2.3 在分布式云中的角色2.4 落地難點 3. Se…

嵌入式C語言的運算符與輸入輸出

目錄 1. 運算符 1.1 位運算符 1.1.1 位運算 ~ 1.1.2 位邏輯與 & 1.1.3 位邏輯或 | 1.1.4 位邏輯異或 ^ 1.1.5 位移位運算 1.1.6 將無符號位的某位快速置 1 1.2 三目運算符 1.3 逗號運算符 1.4 運算符優先級 2. 輸出 2.1 字符輸出函數 2.2 格式輸出函數 2.3 字符…

IPD研學:76頁頁基于IPD思想-華為需求管理培訓方案【附全文閱讀】

適應人群 本方案適用于企業中參與產品研發、市場、銷售、項目管理等部門的人員,尤其是負責需求管理工作的相關從業者;致力于提升產品競爭力,對優化需求管理流程、提高產品開發質量感興趣的企業管理者;以及希望了解行業前沿需求管理方法,尋求突破和創新的相關人士。…

米酒的功能和優缺點

米酒(又稱甜酒、酒釀)是一種以糯米或其他谷物為原料,經發酵制成的傳統發酵飲品,酒精度較低(通常1%-10%)。以下是其功能、優點及缺點分析: 一、米酒的功能 營養補充 富含B族維生素(B1…

注冊登錄頁面項目

關系型數據庫地址:C:\Users\ASUS\AppData\Local\Temp\HuaweiDevEcoStudioDatabases\rdb #注冊頁面register.ets import dataRdb from ohos.data.rdbconst STORE_CONFIG {name: weather4.db } const TABLE_NAME weather_info const SQL_CREATE_TABLE CREATE TAB…

yum源配置文件CentOS-Base.repo完整內容

1.CentOS Yum 源配置文件 CentOS-Base.repo 的完整內容示例: 以下是適用于不同版本 CentOS 系統的 CentOS-Base.repo 文件的標準模板。這些模板基于常見的國內鏡像源(如阿里云、清華大學等),可以幫助解決倉庫配置失敗的問題。 適…