強化學習 (1)基本概念

grid-world example

一個由多個格子組成的二維網格

三種格子:accessible可通行的; forbidden禁止通行的; target目標

?state狀態

state是智能體相對于環境的狀態(情況)

在grid-world example里,state指的就是智能體所在的位置,每個格子代表一個state,s_1,s_2,\dots,s_9。所有的state組成的集合(空間)為state place狀態空間S=\left \{ s_1,s_2,\dots,s_9 \right \}

action行動

向上移動(Up) 向右移動(Right) 向下移動(Down) 向左移動(Left) 原地不動(Stay unchanged)

一個state的所有可能行動組成的集合為action space of a state狀態的行動空間

state transition

在狀態s_4,選擇行動a_2,則有s_4 \xrightarrow{a_2} s_5

state transition實際上定義了一種智能體和環境交互的行為

forbidden area

本課程中,對于forbidden area,我們認為是可以進去的,但是進入要受到懲罰(accessible but with penalty)

tabular representation

缺點是只能表示確定性

state transition probability

P(s' \mid s, a)?為在狀態?s?執行動作?a?后轉移到狀態?s′?的概率

條件概率可以描述 deterministic確定性 和 stochastic隨機性 的例子

policy策略

策略是智能體在某個狀態下選擇動作的規則(策略告訴智能體在狀態下要選擇什么行動)

基于policy可以得到一些path或者trajectory(軌跡)

強化學習里\pi指的是策略(條件概率),例如針對狀態s_1,\pi(a_1|s_1)=0,\pi(a_2|s_1)=1,\pi(a_3|s_1)=0,\pi(a_4|s_1)=0,\pi(a_5|s_1)=0,\pi(a_6|s_1)=0這是一個deterministic policy(確定性策略)

當然也有stochastic policy(不確定性策略),例如:

\pi(a_1|s_1)=0,\pi(a_2|s_1)=0.5,\pi(a_3|s_1)=0.5,\pi(a_4|s_1)=0,\pi(a_5|s_1)=0

policy也可以用tabular representation

實際情況下,用代碼進行隨機采樣,來執行隨機性的policy

參考文章

S. Zhao. Mathematical Foundations of Reinforcement Learning. Springer
Nature Press, 2025.

【【強化學習的數學原理】課程:從零開始到透徹理解(完結)】 https://www.bilibili.com/video/BV1sd4y167NS/?p=2&share_source=copy_web&vd_source=52164f68a5f27ac2e86f0e7963ea966c

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/89021.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/89021.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/89021.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【Typst】縱向時間軸

概述 6月10日實驗了一個縱向時間軸排版效果,當時沒有做成單獨的模塊,也存在一些Bug。 今天(6月29日)在原基礎上進行了一些改進,并總結為模塊。 目前暫時發布出來,可用,后續可能會進行大改。 使用案例 導入模塊使用…

【Visual Studio Code上傳文件到服務器】

在 Visual Studio Code (VS Code) 中上傳文件到 Linux 系統主要通過 SSH 協議實現,結合圖形界面(GUI)或命令行工具操作。以下是具體說明及進度查看、斷點續傳的實現方法: ?? 一、VS Code 上傳文件到 Linux 的機制 SSH 遠程連接 …

手機控車一鍵啟動汽車智能鑰匙

手機一鍵啟動車輛的方法 手機一鍵啟動車輛是一種便捷的汽車啟動方式,它通過智能手機應用程序實現對車輛的遠程控制。以下是詳細的步驟: 完成必要的認證與激活步驟。打開手機上的相關移動管家手機控車APP,并與車載藍牙建立連接。在APP的主界面…

基于深度學習的語音增強技術:時間增強多尺度頻域卷積網絡模型解析

基于深度學習的語音增強技術:時間增強多尺度頻域卷積網絡模型解析 近年來,隨著語音處理技術的不斷發展,語音增強(Speech Enhancement)逐漸成為研究熱點。語音增強的主要目標是通過消除噪聲和改善信噪比來提高語音質量…

計算機組成原理-數據表示與運算(三)

### 文字提取結果: #### 題目內容: 34. 【2009 統考真題】浮點數加、減運算過程一般包括對階、尾數運算、規格化、舍入和判斷溢出等步驟。設浮點數的階碼和尾數均采用補碼表示,且位數分別為 5 和 7(均含 2 位符號位)。…

Learning Fully Convolutional Networks for Iterative Non-blind Deconvolution論文閱讀

Learning Fully Convolutional Networks for Iterative Non-blind Deconvolution 1. 研究目標與實際問題1.1 研究目標1.2 實際意義2. 創新方法與模型設計2.1 核心框架:迭代式梯度域處理2.1.1 模型架構2.2 關鍵技術實現2.2.1 梯度域去噪網絡2.2.2 解卷積模塊(核心公式實現)2.…

Vue3——組件傳值

父傳子 props ——最推薦的方法&#xff08;TOP1級別&#xff09; 父組件文件 <sidebar :text"textname" ></sidebar> //父組件通過 :text 將父組件的數據textname傳遞給子組件 const textname:Ref<dataFather[]> ref([{name:劉亦菲,age:18 },…

DOP數據開放平臺(真實線上項目)

什么是數據開放平臺&#xff1f; 數據開放平臺是一種通過公開應用程序編程接口&#xff08;API&#xff09;或結構化數據&#xff0c;允許第三方開發者或機構訪問、使用和共享數據的平臺?&#xff0c;旨在促進數據流通、打破信息孤島并激發創新應用。 DOP數據開放平臺簡單演示…

InfluxDB 3 Core數據庫管理指南:從概念到實操的完整流程

本文深入解析InfluxDB 3 Core的數據庫管理核心概念&#xff0c;涵蓋數據庫與歷史版本的兼容性差異、關鍵限制&#xff08;數據庫/表/列數量&#xff09;、以及創建/查看/刪除數據庫的完整命令行操作。通過結構化流程和實用建議&#xff0c;幫助用戶高效管理時序數據存儲&#x…

JVM(11)——詳解CMS垃圾回收器

CMS (Concurrent Mark-Sweep) 垃圾回收器。它是 JDK 1.4 后期引入&#xff0c;并在 JDK 5 - JDK 8 期間廣泛使用的一種以低停頓時間 (Low Pause Time) 為主要目標的老年代垃圾回收器。它是 G1 出現之前解決 Full GC 長停頓問題的主要方案。 一、CMS 的設計目標與定位 核心目標…

使用Java和iText庫填充PDF表單域的完整指南

PDF表單是企業和機構常用的數據收集工具&#xff0c;而通過編程方式自動填充PDF表單可以大大提高工作效率。本文將詳細介紹如何使用Java和iText庫來實現PDF表單的自動化填充。 為什么選擇iText庫&#xff1f; iText是一個強大的PDF操作庫&#xff0c;具有以下優勢&#xff1a…

跟著AI學習C#之項目實踐Day6

&#x1f4c5; Day 6&#xff1a;實現文章搜索功能&#xff08;Search System&#xff09; ? 今日目標&#xff1a; 實現按 標題、內容、作者 搜索文章使用 LINQ 構建動態查詢條件添加搜索框 UI 界面可選&#xff1a;使用全文搜索優化&#xff08;如 SQL Server 全文索引&am…

Learning to Prompt for Continual Learning

Abstract 持續學習背后的主流范式是使模型參數適應非平穩數據分布&#xff0c;其中災難性遺忘是核心挑戰。典型方法依賴于排練緩沖區或測試時已知的任務標識來檢索已學知識并解決遺忘問題&#xff0c;而這項工作提出了一種持續學習的新范式&#xff0c;旨在訓練一個更簡潔的記…

【論文閱讀筆記】知網SCI——基于主成分分析的空間外差干涉數據校正研究

論文詞條選擇 —— 知網 【SCI】【數據分析】 題目&#xff1a;基于主成分分析的空間外差干涉數據校正研究 原文摘要&#xff1a; 空間外差光譜技術(SHS)是一種新型的高光譜遙感探測技術&#xff0c;被廣泛應用于大氣觀測、天文遙感、物質識別等領域。通過空間外差光譜儀獲取…

如何用VS Code、Sublime Text開發51單片機

文章目錄 一、前置工作二、VS Code2.1 Code Runner配置2.2 編譯快捷鍵 三、Sublime Text3.1 Build System創建3.2 編譯快捷鍵 四、使用STC-ISP下載代碼到單片機 使用VS Code開發51單片機的好處自不必多說&#xff0c;直接進入正題。本博客的目標是讓你能夠使用VS Code或者Subli…

信息抽取數據集全景分析:分類體系、技術演進與挑戰_DEEPSEEK

信息抽取數據集全景分析&#xff1a;分類體系、技術演進與挑戰 摘要 信息抽取&#xff08;IE&#xff09;作為自然語言處理的核心任務&#xff0c;是構建知識圖譜、支持智能問答等應用的基礎。近年來&#xff0c;隨著深度學習技術的發展和大規模預訓練模型的興起&#xff0c;…

利用 Python 腳本批量查找并刪除指定 IP 的 AWS Lightsail 實例

在 AWS Lightsail 管理中&#xff0c;隨著實例數量的增多&#xff0c;我們常常會遇到這樣一個問題&#xff1a; “我知道某個公網 IP 地址&#xff0c;但不知道它關聯的是哪臺實例。” 或者&#xff1a; “我有一批老舊的實例只知道 IP&#xff0c;需要一鍵定位并選擇刪除。…

CompletableFuture 深度解析

本文將探討 Java 8 引入的 CompletableFuture&#xff0c;一個在異步編程中實現非阻塞、可組合操作的強大工具。我們將從 CompletableFuture 的基本概念、與傳統 Future 的區別、核心 API 用法&#xff0c;到復雜的鏈式調用、組合操作以及異常處理進行全面解析&#xff0c;并通…

給自己網站增加一個免費的AI助手,純HTML

助手效果圖 看完這篇文章&#xff0c;你將免費擁有你自己的Ai助手&#xff0c;全程干貨&#xff0c;先到先得 獲取免費的AI大模型接口 訪問這個地址 生成key https://openrouter.ai/mistralai/mistral-small-3.2-24b-instruct:free/api 或者調用其他的免費大模型&#xff0c;這…

ASProxy64.dll導致jetbrains家的IDE都無法打開。

在Windows11中,無法打開jetbrains的IDE的軟件,經過排查,發現與ASProxy64.dll有關。 E:\idea\IntelliJ IDEA 2024.1.7\bin>idea.bat CompileCommand: exclude com/intellij/openapi/vfs/impl/FilePartNodeRoot.trieDescend bool exclude = true # # A fatal error has bee…