Value-Based Reinforcement Learning（2）

Value-Based Reinforcement Learning（2）

web/2025/7/18 11:04:11/文章來源:https://blog.csdn.net/zhangsj1007/article/details/139220535

Temporal Difference （TD） Learning

上節已經提到了如果我們有DQN，那么agent就知道每一步動作如何做了，那么DQN如何訓練那？這里面使用TD算法。

簡略分析：

$U_{t} = R_t +\gamma R_{t+1} +\gamma ^2R_{t+2} + \gamma^3R_{t+3} + ... \newline U_t = R_t + \gamma U_{t+1}$

$Q(s_t, a_t;w)$ 是 $E(U_t)$ 的估計

$Q(s_{t+1}, a_{t+1}; w)$ 是 $E(U_{t+1})$ 的估計

所以：

Deep Reinforcement Learning :?? $Q(s_t, a_t; w) \approx r_t + \gamma * Q(s_{t+1}, a_{t+1}; w)$

Prediction? ：? $Q(s_t, a_t;w_t)$

TD Target :? $y_t = r_t + \gamma Q(s_{t+1}, a_{t+1};w_t)$

Loss ：? $L_t = 1/2 [Q(s_t, a_t;w_t) - y_t]^2$

Gradient Desent :? $w_{t+1} = w_{t}- \alpha \frac{\partial L_t}{\partial w}|w=w_t$ ，做梯度下降是為了讓loss減少

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/16165.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/16165.shtml
英文地址，請注明出處：http://en.pswp.cn/web/16165.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

對vue3/core源碼ref.ts文件API的認識過程

對vue3/core源碼ref.ts文件API的認識過程

對toRef()API的認識的過程: 最開始認識toRef()是從vue3源碼中的ref.ts看見的,右側GPT已經舉了例子然后根據例子,在控制臺輸出ref對象是什么樣子的: 這就是ref對象了,我們根據對象中有沒有__v_isRef來判斷是不是一個ref對象,當對象存在且__v_isRef true的時候他就判定為是一個…

閱讀更多...

Linux-組管理和權限管理

Linux-組管理和權限管理

1 Liunx組的基本介紹： 在Linux中的每個用戶必須屬于一個組，不能獨立于組外。在Linux中每個文件都有所有者、所在組、其他組的概念所有者所在組其它組改變用戶所在的組 2 文件/目錄的所有者一般文件的創建者，誰創建了該文件，就…

閱讀更多...

Docker in Docker（DinD）原理與實踐

Docker in Docker（DinD）原理與實踐

隨著云計算和容器化技術的快速發展，Docker作為開源的應用容器引擎，已經成為企業部署和管理應用程序的首選工具。然而，在某些場景下，我們可能需要在Docker容器內部再運行一個Docker環境，即Docker in Docker（…

閱讀更多...

002 CentOS 7.9 redis-7.2.5安裝及配置

002 CentOS 7.9 redis-7.2.5安裝及配置

https://github.com/redis/redis https://redis.io/insight/#insight-form 安裝及配置在CentOS 7.9上安裝和配置Redis 7.2.5版本，可以遵循以下詳細步驟： 一、準備工作確保安裝包已準備好： 確認您已經下載了redis-7.2.5.tar.gz安裝包&a…

閱讀更多...

從程序被SQL注入來MyBatis 再談 #{} 與 ${} 的區別

從程序被SQL注入來MyBatis 再談 #{} 與 ${} 的區別

緣由最近在的一個項目上面，發現有人在給我搞 SQL 注入，我真的想說我那么點資源測試用的阿里云服務器，個人估計哈，估計能抗住他的請求。狗頭.png 系統上面的截圖數據庫截圖說句實在的，看到這個之后我立馬就是在…

閱讀更多...

游戲找不到d3dcompiler_43.dll怎么辦，教你5種可靠的修復方法

游戲找不到d3dcompiler_43.dll怎么辦，教你5種可靠的修復方法

在電腦使用過程中，我們經常會遇到一些錯誤提示，其中之一就是“找不到d3dcompiler43.dll”。這個問題通常出現在游戲或者圖形處理軟件中，它會導致程序無法正常運行。為了解決這個問題，我經過多次嘗試和總結，找到了以下五…

閱讀更多...

idea2023的git從dev分支合并到主分支master

idea2023的git從dev分支合并到主分支master

1.本地項目切換到主分支master 右鍵項目-git-Branches 依次點擊項目-Remote-Origin-master-CheckOut 現在你的idea中的這個項目就是遠程master分支的代碼了。 2.合并dev分支到master 右擊項目-git-Merge 選擇origin-dev 點擊Merge按鈕，此時只是合并到本地的maste…

閱讀更多...

每日一題---有效的括號問題

每日一題---有效的括號問題

文章目錄前言1.題目以及分析2.參考代碼前言前面我們學習了棧的相關操作，現在我們做一道題，進行鞏固 Leetcode—有效的括號 1.題目以及分析這道題就可以使用棧進行操作，因為把最左邊的括號當成棧底，最右邊的是棧頂&#xff0c…

閱讀更多...

【每日刷題】Day49

【每日刷題】Day49

【每日刷題】Day49 🥕個人主頁：開敲🍉 🔥所屬專欄：每日刷題🍍 🌼文章目錄🌼 1. 110. 平衡二叉樹 - 力扣（LeetCode） 2. 501. 二叉搜索樹中的眾數 - 力扣&…

閱讀更多...

基于YOLOv8的車牌檢測與識別(CCPD2020數據集)

基于YOLOv8的車牌檢測與識別(CCPD2020數據集)

前言本篇博客主要記錄在autodl服務器中基于yolov8實現車牌檢測與識別，以下記錄實現全過程~ yolov8源碼：GitHub - ultralytics/ultralytics: NEW - YOLOv8 🚀 in PyTorch > ONNX > OpenVINO > CoreML > TFLite 一、環境配置 …

閱讀更多...

python學習：基礎語句

python學習：基礎語句

目錄條件語句循環語句 for 循環 while 循環 break continue 條件語句 Python提供了 if、elif、else 來進行邏輯判斷。格式如下： Pythonif 判斷條件1: 執行語句1... elif 判斷條件2: 執行語句2... elif 判斷條件3: 執行語句3... else: 執行語句4…

閱讀更多...

C# 集合(六) —— 自定義集合Collection類

C# 集合(六) —— 自定義集合Collection類

總目錄 C# 語法總目錄集合六 Collection 1. 自定義集合Collection其他 1. 自定義集合Collection Collection可以對添加刪除元素或者添加刪除屬性進行事件響應。 class Person {public string name;public int age;public Person(){this.name "";this.age 0;}pub…

閱讀更多...

ubuntu 硬盤轉移

ubuntu 硬盤轉移

我插了兩個文件系統： ubuntu 硬盤轉移： sudo dd if/dev/sdX1 of/dev/sdY1 bs128K convnoerror,sync statusprogressdd 的意思是DiskToDisk，if 是輸入文件系統，of是輸出文件系統。 bs是每次傳遞的數據大小。注意：接…

閱讀更多...

mysql-主從同步原理

mysql-主從同步原理

AB復制(重點) 一、什么是主從復制? 1、主從同步也叫AB復制，是用來建立一個和主數據庫完全一樣的數據庫環境，稱為從數據庫；主數據庫一般是準實時的業務數據庫。 2、主從復制的作用 1.做數據的熱備，作為后備數據庫，…

閱讀更多...

如何用MySQL的SQL語句來讀寫硬盤目錄文件

如何用MySQL的SQL語句來讀寫硬盤目錄文件

1.先確保創建表，例如起名Temp CREATE TABLE temp ( id int(11) NOT NULL AUTO_INCREMENT, image mediumblob, PRIMARY KEY (id) ) ENGINEInnoDB AUTO_INCREMENT7 DEFAULT CHARSETutf8; 注意這里的image字段用mediumblog，就可以避免出現data too …

閱讀更多...

27【Aseprite 作圖】盆栽——拆解

27【Aseprite 作圖】盆栽——拆解

1 橘子畫法拆解（1）淺色3 1 0；深色0 2 3 就可以構成一個橘子（2）淺色 2 1；深色1 0 （小個橘子）（3）淺色 2 1 0；深色1 2 3 2 樹根部分（1）底部畫一條橫線（2）上一行左空2 右空1 【代表底部重心先在右】（3）再上一行，左空1，右空1 （4）再上一行，左突出1，…

閱讀更多...

省市區（輸入code）轉相應省市區工具類（兩種方式）

省市區（輸入code）轉相應省市區工具類（兩種方式）

方式一通過調用接口（時間高達1s） package cn.iocoder.yudao.module.supplier.utils;import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element;import java.io.BufferedReader; import java.io.InputStreamReader; i…

閱讀更多...

Java 泛型基礎

Java 泛型基礎

目錄 1. 為什么使用泛型 2. 泛型的使用方式 2.1. 泛型類 2.2. 泛型接口 2.3. 泛型方法 3. 泛型涉及的符號 3.1. 類型通配符"?" 3.2. 占位符 T/K/V/E 3.3. 占位符T和通配符？的區別。 4. 泛型不變性 5. 泛型編譯時擦除 1. 為什么使用泛型 Java 為…

閱讀更多...

基于深度學習的入侵檢測系統綜述文獻概述

基于深度學習的入侵檢測系統綜述文獻概述

好長時間不發博客了，不是因為我擺爛了，是我換研究方向了，以后我就要搞科研了。使用博客記錄我的科研故事，邀諸君共同見證我的科研之路。 1、研究方向的背景是什么？ （1）互聯網發展迅速&#xff…

閱讀更多...

Android firebase消息推送集成 FCM消息處理

Android firebase消息推送集成 FCM消息處理

FirebaseMessagingService 是 Firebase Cloud Messaging (FCM) 提供的一個服務，用于處理來自 Firebase 服務器的消息。它有幾個關鍵的方法，你提到的 onMessageReceived、doRemoteMessage 和 handleIntent 各有不同的用途。下面逐一解釋這些方法的作用和用…

閱讀更多...

最新文章