深度強化學習 pdf 董豪| 馬爾科夫性質,馬爾科夫過程,馬爾科夫獎勵過程,馬爾科夫決策過程

深度強化學習 pdf

百度云
hea4
pdf

主頁

概念

  • 馬爾可夫獎勵過程和價值函數估計的結合產生了在絕大多數強化學習方法中應用的核心結果——貝爾曼
    (Bellman)方程。
  • 最優價值函數和最優策略可以通過求解貝爾曼方程得到,還將介紹三種貝爾曼
    方程的主要求解方式:
    • 動態規劃(Dynamic Programming)
    • 蒙特卡羅(Monte-Carlo)方法
    • 時間差分(Temporal Difference)方法。

我們進一步介紹深度強化學習策略優化中對 策略價值 的擬合。
策略優化的內容將會被分為兩大類:

  • 基于價值的優化
  • 基于策略的優化。

在基于價值的優化中,我們介紹基于梯度的方法,如使用深度神經網絡的深度 Q 網絡(Deep Q-Networks);
在基于策略的優化中,我們詳細介紹確定性策略梯度(Deterministic Policy Gradient)和隨機性策略梯度(Stochastic Policy Gradient),并提供充分的數學證明。
結合基于價值和基于策略的優化方法產生了著名的 Actor-Critic 結構


在線預測(Online Prediction)問題是一類智能體需要為未來做出預測的問題。假如你在夏威夷度假一周,需要預測這一周是否會下雨;或者根據一天上午的石油價格漲幅來預測下午石油的價格。在線預測問題需要在線解決。在線學習和傳統的統計學習有以下幾方面的不同:

  • 樣本是以一種有序的(Ordered)方式呈現的,而非無序的批(Batch)的方式。
  • 我們更多需要考慮最差情況而不是平均情況,因為我們需要保證在學習過程中隨時都對事
    情有所掌控。
  • 學習的目標也是不同的,在線學習企圖最小化后悔值(Regret),而統計學習需要減少經驗
    風險。我們會稍后對后悔值進行介紹。

對于展示探索-利用的權衡問題,MAB 可以作為一個很好的例子。當我們已經對一些狀態的q 值進行估計之后,如果一個智能體一直選擇有最大 Q 值的動作的話,那么這個智能體就是貪心的(Greedy),因為它一直在利用已經估計過的 q 值。如果一個智能體總是根據最大化 Q 值來選取動作,那么我們認為這樣的智能體是有一定探索(Exploration)性的。只做探索或者只對已有估計值進行利用(Exploitation),在大多數情況下都不能很好地改善策略。


在模擬序列決策過程的問題上,馬爾可夫決策過程比馬爾可夫過程和馬爾可夫獎勵過程要好用。如圖 2.9 所示,和馬爾可夫獎勵過程不同的地方在于,馬爾可夫獎勵過程的立即獎勵只取決于狀態(獎勵值在節點上),而馬爾可夫決策過程的立即獎勵與狀態和動作都有關(獎勵值在邊上)。同樣地,給定一個狀態下的一個動作,馬爾可夫決策過程的下一個狀態不一定是固定唯一的。舉例來說,如圖 2.10 所示,當智能體在狀態 s = t2 時執行休息(rest)動作后,下一時刻的狀態有 0.8 的概率保留在狀態 s = t2 下,有 0.2 的概率變為 s = t1。


馬爾科夫性質,馬爾科夫過程,馬爾科夫獎勵過程,馬爾科夫決策過程

在這里插入圖片描述
在這里插入圖片描述

馬爾可夫過程是一個具備馬爾可夫性質

馬爾可夫過程(Markov Process,MP)是一個具備馬爾可夫性質(Markov Property)的離散隨機過程(Discrete Stochastic Process)。圖 2.4 展示了一個馬爾可夫過程的例子。每個圓圈表示一個狀態,每個邊(箭頭)表示一個狀態轉移(State Transition)。這個圖模擬了一個人做兩種不同的任務(Tasks),以及最后去床上睡覺的這樣一個例子。為了更好地理解這個圖,我們假設這個人當前的狀態是在做“Task1”,他有 0.7 的概率會轉到做“Task2”的狀態;如果他進一步從“Task2”以 0.6 的概率跳轉到“Pass”狀態,則這個人就完成了所有任務可以去睡覺了,因為“Pass”到“Bed”的概率是 1。

在這里插入圖片描述

在這里插入圖片描述
在這里插入圖片描述

在這里插入圖片描述
在這里插入圖片描述

在這里插入圖片描述
在這里插入圖片描述

在這里插入圖片描述
在這里插入圖片描述

我們知道馬爾可夫決策過程是基于馬爾可夫性質的,滿足p(Xt+1| Xt, · · · , X1) = p(Xt+1|Xt),其中 Xt 是 t 時刻的隨機變量,這意味著隨機變量 Xt 的時間相關性只取決于上一個時刻的隨機變量 Xt?1。而 O-U 噪聲就是一個具有時間相關性的隨機變量,這一點與馬爾可夫決策過程的性質相符,因此很自然地被運用到隨機噪聲的添加中。然而,實踐表明,時間不相關的零均值高斯噪聲也能取得很好的效果。
在這里插入圖片描述


在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/76940.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/76940.shtml
英文地址,請注明出處:http://en.pswp.cn/web/76940.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

驗證Kubernetes的服務發現機制

驗證Kubernetes的服務發現機制 文章目錄 驗證Kubernetes的服務發現機制[toc]一、驗證基于環境變量的服務發現機制 服務發現是讓客戶端能夠以固定的方式獲取到后端Pod訪問地址的機制。下面驗證環境變量和DNS這兩種機制。 一、驗證基于環境變量的服務發現機制 對于需要訪問服務…

FPGA系列之DDS信號發生器設計(DE2-115開發板)

一、IP核 IP(Intellectual Property)原指知識產權、著作權等,在IC設計領域通常被理解為實現某種功能的設計。IP模塊則是完成某種比較復雜算法或功能(如FIR濾波器、FFT、SDRAM控制器、PCIe接口、CPU核等)并且參數可修改的電路模塊&#xff0c…

Java單例模式詳解:實現線程安全的全局訪問點

精心整理了最新的面試資料和簡歷模板,有需要的可以自行獲取 點擊前往百度網盤獲取 點擊前往夸克網盤獲取 一、什么是單例模式? 單例模式(Singleton Pattern)是一種創建型設計模式,它保證一個類僅有一個實例&#xff…

JVM 生產環境問題定位與解決實戰(七):實戰篇——OSSClient泄漏引發的FullGC風暴

本文已收錄于《JVM生產環境問題定位與解決實戰》專欄,完整系列見文末目錄 引言 在前六篇博客中,我們系統性地學習了 JVM 生產環境問題定位與解決的全套工具鏈,涵蓋jps、jmap、jstat、jstack、jcmd 等基礎工具的使用技巧,深入剖析…

Spark集群搭建-spark-local

(一)安裝Spark 安裝Spark的過程就是下載和解壓的過程。接下來的操作,我們把它上傳到集群中的節點,并解壓運行。 1.啟動虛擬機 2.通過finalshell連接虛擬機,并上傳安裝文件到 /opt/software下 3.解壓spark安裝文件到/op…

Java 異常 SSLException: fatal alert: protocol_version 全解析與解決方案

在 Java 網絡通信中,SSLException: fatal alert: protocol_version 是典型的 TLS/SSL 協議版本不兼容異常。本文結合 Java 官方規范、TLS 協議標準及實戰經驗,提供體系化解決方案,幫助開發者快速定位并解決協議版本沖突問題。 一、異常本質&…

虛擬列表技術深度解析:原理、實現與性能優化實戰

虛擬列表技術深度解析:原理、實現與性能優化實戰 引言 在當今數據驅動的互聯網應用中,長列表渲染已成為前端開發的核心挑戰。傳統的一次性全量渲染方式在數據量超過千條時,往往導致頁面卡頓、內存飆升等問題。虛擬列表(Virtual L…

2025-04-20 李沐深度學習4 —— 自動求導

文章目錄 1 導數拓展1.1 標量導數1.2 梯度:向量的導數1.3 擴展到矩陣1.4 鏈式法則 2 自動求導2.1 計算圖2.2 正向模式2.3 反向模式 3 實戰:自動求導3.1 簡單示例3.2 非標量的反向傳播3.3 分離計算3.4 Python 控制流 硬件配置: Windows 11Inte…

Redis的使用總結

Redis 核心使用場景 緩存加速 高頻訪問數據緩存(如商品信息、用戶信息) 緩解數據庫壓力,提升響應速度 會話存儲 分布式系統共享 Session(替代 Tomcat Session) 支持 TTL 自動過期 排行榜/計數器 實時排序&#x…

富文本編輯器實現

🎨 富文本編輯器實現原理全解析 📝 基本實現路徑圖 #mermaid-svg-MO1B8a6kAOmD8B6Y {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-MO1B8a6kAOmD8B6Y .error-icon{fill:#552222;}#mermaid-s…

LeetCode熱題100——283. 移動零

給定一個數組 nums,編寫一個函數將所有 0 移動到數組的末尾,同時保持非零元素的相對順序。 請注意 ,必須在不復制數組的情況下原地對數組進行操作。 示例 1: 輸入: nums [0,1,0,3,12] 輸出: [1,3,12,0,0] 示例 2: 輸入: nums [0] 輸出:…

與Ubuntu相關命令

windows將文件傳輸到Ubuntu 傳輸文件夾或文件 scp -r 本地文件夾或文件 ubuntu用戶名IP地址:要傳輸到的文件夾路徑 例如: scp -r .\04.py gao192.168.248.129:/home/gao 如果傳輸文件也可以去掉-r 安裝軟件 sudo apt-get update 更新軟件包列表 sudo apt insta…

Kafka 在小流量和大流量場景下的順序消費問題

一、低流量系統 特點 消息量較少,吞吐量要求低。系統資源(如 CPU、內存、網絡)相對充足。對延遲容忍度較高。 保證順序消費的方案 單分區 單消費者 將消息發送到單個分區(例如固定 Partition 0),由單個…

小程序 GET 接口兩種傳值方式

前言 一般 GET 接口只有兩種URL 參數和路徑參數 一:URL 參數(推薦方式) 你希望請求: https://serve.zimeinew.com/wx/products/info?id5124接口應該寫成這樣,用 req.query.id 取 ?id5124: app.get(&…

小白學習java第14天(中):數據庫

1.DML data manage language數據庫管理語言 外鍵:外鍵是什么?就是對其進行表與表之間的聯系,就是使用的鍵進行關聯! 方法一:我們在數據庫里面就對其進行表與表之間的連接【這種是不建議的,我不太喜歡就是將數據里面弄…

NO.95十六屆藍橋杯備戰|圖論基礎-單源最短路|負環|BF判斷負環|SPFA判斷負環|郵遞員送信|采購特價產品|拉近距離|最短路計數(C++)

P3385 【模板】負環 - 洛谷 如果圖中存在負環&#xff0c;那么有可能不存在最短路。 BF算法判斷負環 執?n輪松弛操作&#xff0c;如果第n輪還存在松弛操作&#xff0c;那么就有負環。 #include <bits/stdc.h> using namespace std;const int N 2e3 10, M 3e3 1…

K8s pod 應用

/** 個人學習筆記&#xff0c;如有問題歡迎交流&#xff0c;文章編排和格式等問題見諒&#xff01; */ &#xff08;1&#xff09;編寫 pod.yaml 文件 pod 是 kubernetes 中最小的編排單位&#xff0c;一個 pod 里包含一個或多個容器。 apiVersion: v1 # 指定api版本 kind…

Oracle創建觸發器實例

一 創建DML 觸發器 DML觸發器基本要點&#xff1a; 觸發時機&#xff1a;指定觸發器的觸發時間。如果指定為BEFORE&#xff0c;則表示在執行DML操作之前觸發&#xff0c;以便防止某些錯誤操作發生或實現某些業務規則&#xff1b;如果指定為AFTER&#xff0c;則表示在執行DML操作…

Filename too long 錯誤

Filename too long 錯誤表明文件名超出了文件系統或版本控制系統允許的最大長度。 可能的原因 文件系統限制 不同的文件系統對文件名長度有不同的限制。例如&#xff0c;FAT32 文件名最長為 255 個字符&#xff0c;而 NTFS 雖然支持較長的文件名&#xff0c;但在某些情況下也…

網絡不可達network unreachable問題解決過程

問題&#xff1a;訪問一個環境中的路由器172.16.1.1&#xff0c;發現ssh無法訪問&#xff0c;ping發現回網絡不可達 C:\Windows\System32>ping 172.16.1.1 正在 Ping 172.16.1.1 具有 32 字節的數據: 來自 172.16.81.1 的回復: 無法訪問目標網。 來自 172.16.81.1 的回復:…