強化學習入門:價值、回報、策略概念詳解

前言

?最近想開一個關于強化學習專欄,因為DeepSeek-R1很火,但本人對于LLM連門都沒入。因此,只是記錄一些類似的讀書筆記,內容不深,大多數只是一些概念的東西,數學公式也不會太多,還望讀者多多指教。本次閱讀書籍為:馬克西姆的《深度強化學習實踐》
?限于篇幅原因,請讀者首先看下歷史文章:
?馬爾科夫過程
?馬爾科夫獎勵過程
?馬爾科夫獎勵過程二
?RL框架Gym簡介
?Gym實現CartPole隨機智能體
?交叉熵方法數學推導
?強化學習入門:交叉熵方法實現CartPole智能體

1、出發點

?原定本篇博客該介紹bellman方程的,但發現自己對于一些基礎概念的計算和理解有點兒模糊,于是本篇先惡補一下目前RL所出現的一些基礎概念,并搭配詳細的計算公式。

2、示例

在這里插入圖片描述
?這里以書中一個例子來說明一些概念,在上圖中,每個灰色節點表示狀態,每條邊上實線圓表示狀態轉移概率,每個虛線圓則表示狀態轉移所獲得的獎勵。
?下面將舉個視為片段的例子,在RL中也被稱為“狀態鏈”。
?片段:家–> 咖啡 --> 計算機 --> 家。
?在引入了片段后,就能解釋何為“回報”定義了:
?這里先貼下回報公式,對于一個片段來說,在 t t t時刻的回報定義為:
G t = R t + 1 + γ R t + 2 + . . . = ∑ k = 0 ∞ γ k R t + k + 1 G_t = R_{t+1} + \gamma R_{t+2} +... = \sum_{k=0}^{\infty}\gamma^kR_{t+k+1} Gt?=Rt+1?+γRt+2?+...=k=0?γkRt+k+1?
其中 γ \gamma γ是超參數, R t R_t Rt?表示 t t t時刻獎勵。
?這里有個問題,對于一個智能體來說,可執行的狀態鏈太多了,實際上回報應用的不太多,因此,這里引入了一個狀態的期望回報(對大量狀態鏈求回報的期望),即狀態的價值
V ( s ) = E [ G ] = E [ ∑ k = 0 ∞ γ k R t + k + 1 ] V(s) = E[G] = E[\sum_{k=0}^{\infty}\gamma^kR_{t+k+1}] V(s)=E[G]=E[k=0?γkRt+k+1?]
?okay,現在拿到公式了,現在計算狀態“家”的價值:

家–>家家–>咖啡
概率0.60.4
獎勵11

?則根據價值的定義:總共有兩個狀態鏈:則家的價值為
V ( 家 ) = 0.6 ? 1 + 0.4 ? 1 = 1.0 V(家) = 0.6*1 + 0.4*1 = 1.0 V()=0.6?1+0.4?1=1.0
?按照同樣的道理:能得到其余狀態的價值:

V ( c o f f e e ) = 2 × 0.7 + 1 × 0.1 + 3 × 0.2 = 2.1 V ( c o m p u t e r ) = 2 × 0.7 + 1 × 0.1 + 3 × 0.2 = 2.8 V(coffee) = 2×0.7 + 1×0.1 + 3×0.2 = 2.1 \\ V(computer) = 2×0.7 + 1×0.1 + 3×0.2 = 2.8 V(coffee)=2×0.7+1×0.1+3×0.2=2.1V(computer)=2×0.7+1×0.1+3×0.2=2.8

?在上述例子中,你其實就是智能體,你可以自由選擇3個狀態,并執行某一個狀態鏈,進而獲得最大的獎勵:則從眾多的狀態鏈中選擇出一個回報最大的狀態鏈,就是策略的選擇,即 π ( s ) \pi(s) π(s)

?而智能體優化目標常常是:選擇何種策略,通常會伴隨選擇執行什么樣動作,使得 π ( a ∣ s ) \pi(a|s) π(as)最優。

總結

?本文只是介紹了一部分概念,后續會逐步添加新的概念,從感性上認識下RL的一些基礎概念。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/84897.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/84897.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/84897.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

基于“數智立體化三維架構”框架的醫療數智化機制研究

1 研究背景與框架基礎 當前,全球醫療服務體系正經歷深刻的數智化轉型浪潮,人工智能、大數據、云計算等新一代信息技術與醫療健康領域的融合不斷深入,催生了醫療服務模式的革命性變化。在我國,數智化技術已成為提升基層衛生服務質量、促進醫療服務公平可及、增進百姓健康福…

OpenCV CUDA模塊圖像變形------對圖像進行旋轉操作函數rotate()

操作系統:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 編程語言:C11 算法描述 該函數用于對圖像進行 GPU 加速的旋轉操作,支持指定旋轉角度、縮放中心偏移和插值方法。是 OpenCV CUDA 模塊中用于圖像旋轉的核心函…

【面板數據】中國與世界各國新能源汽車進出口數據-分類別與不分類別(2017-2024年)

新能源汽車作為中國制造高質量發展的重要代表,其進出口數據不僅反映了我國技術實力與產業格局的變化,也是理解全球綠色交通趨勢、制定國家戰略決策的重要依據。目前國內主流定義判斷標準主要參考中國工信部于2009年發布的《新能源汽車生產企業及產品準入…

亞馬遜云服務器(AWS)會限制用戶使用嗎?深度解讀AWS資源政策

一、AWS的資源邏輯:為什么說"不限速"? AWS采用"按需分配"的資源配置模式,其核心限制并非來自人為設定,而是取決于: 實例類型配置(如t2.micro默認CPU積分制) 賬戶服務配額…

頂級視頻生成大模型分析:Seedance 1.0 Pro (字節跳動) - 新晉榜首

📖 目錄 一、概述與市場格局 1.1 AI視頻生成技術現狀1.2 主要競爭者概覽1.3 評測標準與方法 二、頂級模型詳細分析 2.1 Seedance 1.0 Pro (字節跳動) - 新晉榜首2.2 OpenAI Sora - 行業先驅者2.3 Google Veo 3 - 音視頻一體化領航者2.4 快手可靈 2.0 - 國產之光…

【Spring源碼核心篇-08】spring中配置類底層原理和源碼實現

Spring源碼核心篇整體欄目 內容鏈接地址【一】Spring的bean的生命周期https://zhenghuisheng.blog.csdn.net/article/details/143441012【二】深入理解spring的依賴注入和屬性填充https://zhenghuisheng.blog.csdn.net/article/details/143854482【三】精通spring的aop的底層原…

【無標題】在 4K 高分辨率(如 3840×2160)筆記本上運行 VMware 虛擬機時平面太小字體太小(ubuntu)

? 方法一:寫入 ~/.xprofile(推薦) 這個文件會在你登錄圖形界面前自動執行,適合設置縮放比例等桌面配置。 1. 打開 .xprofile 文件(如果沒有會自動創建): nano ~/.xprofile2. 寫入以下內容&a…

「Linux文件及目錄管理」目錄結構及顯示類命令

Linux文件系統的目錄結構 Linux文件系統采用嚴格的樹形結構,所有文件和目錄都從根目錄(/)開始延伸。以下是主要目錄的詳細說明: /bin:存放系統啟動和運行所必需的二進制可執行文件,如ls、cp、mv等基本命令。/etc:存放系統配置文件,如/etc/passwd(用戶賬戶信息)、/et…

人工智能學習13-Numpy-規律數組生成

人工智能學習概述—快手視頻 人工智能學習13-Numpy-規律數組生成—快手視頻 NumPy(Numerical Python)是 Python 的一種開源的數值計算擴展。 這種工具可用來存儲和處理大型矩陣,比 Python 自身的嵌套列表 (nested list structure…

Spring Boot 集成 Redis 實戰教程

前言 在高并發、大數據量的應用場景中,緩存是提升系統性能的關鍵技術。Redis 憑借其卓越的讀寫性能、豐富的數據結構和高可用性,成為開發者常用的緩存工具。本教程將嚴格依據Spring 官方文檔與Redis 官方文檔,詳細介紹 Spring Boot 與 Redis…

龍蜥開發者說:我的龍蜥開源之旅 | 第 32 期

「龍蜥開發者說」第 32 期來了!開發者與開源社區相輔相成,相互成就,這些個人在龍蜥社區的使用心得、實踐總結和技術成長經歷都是寶貴的,我們希望在這里讓更多人看見技術的力量。本期故事,我們邀請了龍蜥社區開發者潘玨…

在mac上安裝sh腳本文件

要將 jd-gui.sh 腳本轉換為在 macOS ARM 系統上帶有自定義圖標的可點擊運行的程序,你可以通過創建一個應用程序包(.app)來實現。以下是詳細步驟: 步驟 1:創建應用程序包目錄結構 應用程序包實際上是一個特殊的目錄&a…

用bilibili一個講座視頻,生成一本科普書籍

用bilibili一個講座視頻,生成一本科普書籍 一、功能介紹1.1 智能文本處理1.2 知識提煉與結構化1.3 專業知識普及1.4 自動化書籍生成1,5 大規模處理能力二、技術特點三、應用意義3.1 教育領域3.2 研究領域3.3 內容創作3.4 企業應用四、創新價值五、使用場景示例六、操作步驟6.1 …

黑馬教程強化day3-1

目錄 一、File1.定義:2.創建File類的對象3.File提供的判斷文件類型、獲取文件信息功能4.File提供的創建的方法5.File類刪除文件的功能6.File提供的遍歷文件夾的方法代碼演示 二、遞歸(了解遞歸算法,以便實現多級遍歷找文件)1.定義…

milvus 總結

1. milvus 的默認 admin 角色賬號 root 的密碼 為 Milvus 2. 最開始使用命令: docker-compose -f milvus-standalone-docker-compose.yml up -d 啟動 milvus 后,使用 attu 登錄 Milvus 是不需要輸入賬號/密碼的,可以使用如下方式開啟 mi…

基于docker技術的單主機環境模擬測試批量客戶端

EX. 任務背景 近期接到一個需求是在一個高性能服務器上,模擬啟動多個待測試客戶端的場景,但這個客戶端程序有點特殊,設置了守護模式,并且需要管理員權限會監控系統的/dev/mem節點,單個環境中只能啟動一個。 當前的測…

windows上用vnc viewer 能連接mac,不能連ubuntu

如果 VNC Viewer 可以連接 macOS,但無法連接 Ubuntu,通常是由于 Ubuntu 上的 VNC 服務配置問題或網絡限制導致的。以下是逐步排查和解決方案: 1. 確認 Ubuntu 上已安裝并運行 VNC 服務 (1) 檢查是否安裝了 VNC 服務器 Ubuntu 常用的 VNC 服…

Electron-vite【實戰】MD 編輯器 -- 編輯區(含工具條、自定義右鍵快捷菜單、快捷鍵編輯、拖拽打開文件等)

最終效果 頁面 src/renderer/src/App.vue <div class"editorPanel"><div class"btnBox"><divv-for"(config, key) in actionDic":key"key"class"btnItem":title"config.label"click"config.a…

沒有寶塔面板的服務器上的WordPress網站打包下載到本地?

在服務器上部署的wordpress博客站&#xff0c;沒有寶塔面板&#xff0c;怎么將服務器上的wordpress打包下載到本地&#xff1f; 作者: 曉北斗NorSnow 曉北斗動態視覺設計師&#xff0c;嵐度視覺工作室執行人&#xff1b;主要從事展廳視頻制作、圖形工作站銷售、AIGC研究&#…

Atcoder Beginner Contest 410 題解報告

零、前言 經過七七四十九天的分別&#xff0c;本期 ABC 題解又和大家見面啦&#xff01; 經過七周的奮勇殺題&#xff0c;我終于達成了三個小心愿&#xff1a; 不吃罰時AK上金排名 100 100 100 以內 且 Rated&#xff08;悲催的是&#xff0c;我 ABC400 排名兩位數但沒Rate…