強化學習入門:馬爾科夫獎勵過程

文章目錄

  • 前言
  • 1、組成部分
  • 2、應用例子
  • 3、馬爾科夫獎勵過程
  • 總結


前言

?最近想開一個關于強化學習專欄,因為DeepSeek-R1很火,但本人對于LLM連門都沒入。因此,只是記錄一些類似的讀書筆記,內容不深,大多數只是一些概念的東西,數學公式也不會太多,還望讀者多多指教。本次閱讀書籍為:馬克西姆的《深度強化學習實踐》

1、組成部分

? 強化學習其實主要包含下面五個部分:我將通過一個訓練狗護食的例子來說明各部分含義。
在這里插入圖片描述
?智能體是狗,環境就是周圍一切,狗當然能夠觀察環境,而且還能采取吃與不吃的動作。而我作為訓狗師會給予其獎勵揍他或者給肉。
?1)當我去拿狗飯盆時,狗觀察到我的手,采取了齜牙咧嘴的動作,結果獎勵就是一巴掌;
?2)當我去拿狗飯盆時,狗觀察到我的手,采取了眼睜睜看著我拿走飯盆的動作,結果獎勵它繼續吃;

2、應用例子

?其實上述范式在生活中到處都有應用,如下圖所示:強化學習基本是很多學科的交集。
在這里插入圖片描述
?實際應用領域:國際象棋ALphaGo,DeepSeek-R1,學習成績,大腦多巴胺系統,等等,不一而足。

3、馬爾科夫獎勵過程

?在上一篇介紹了馬爾科夫過程,核心包括有限狀態空間和概率轉移矩陣。而馬爾科夫獎勵過程則是在狀態轉移之間,引入了一個獎勵矩陣,形狀也是N*N:比如第i行第j列就表示從狀態i到狀態j所得到的獎勵。
?在引入獎勵矩陣后,引入一個核心概念:回報!其數學定義為:
G t = R t + 1 + γ R t + 2 + . . . = ∑ i = 1 ∞ R t + k + 1 G_t = R_{t+1} + {\gamma}R_{t+2} + ... = \sum_{i=1}^{\infty}R_{t+k+1} Gt?=Rt+1?+γRt+2?+...=i=1?Rt+k+1?

?表達的意思是:在t時刻狀態下,在接下來所有時刻所取得的回報和。其中 γ \gamma γ就是折扣因子,取值范圍[0~1],越接近1,則考慮越多的未來。
?由于采取的可能性很多,因此, G t G_t Gt?的變化范圍很大,很難優化。但回報的期望卻是能拿到的,即狀態的價值
V ( s ) = E [ G ∣ S t = s ] V(s) = E[G|S_t=s] V(s)=E[GSt?=s]
?表達含義是:在t時刻,對于每一個狀態s條件下,所得到回報G的平均值。

總結

?本篇只是介紹下強化學習的回報和狀態價值定義,讓讀者能從感性角度對其有個理解,下篇介紹在馬爾科夫獎勵過程中引入動作和策略。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/81144.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/81144.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/81144.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

騰訊開源實時語音大模型VITA-audio,92mstoken極速響應,支持多語言~

簡介 VITA-Audio 是一個由騰訊優圖實驗室(Tencent Youtu Lab)、南京大學和廈門大學的研究人員共同開發的項目,旨在解決現有語音模型在流式生成(streaming)場景下生成第一個音頻令牌(token)時的高…

測序的原理

Sanger 測序原理 https://v.qq.com/x/page/d0124c0k44t.html illumina 測序原理: https://v.qq.com/x/page/i0770fd7r9i.html PacBio 第三代 SMRT 單分子測序 https://v.qq.com/x/page/r03534cry7u.html Ion torrent 測序原理 https://v.qq.com/x/page/v01754s6r82.…

高項-邏輯數據模型

邏輯數據模型的核心理解 1. 定義與特點 邏輯數據模型(Logical Data Model, LDM): 是一種抽象的數據結構設計,用于描述業務實體(如客戶、訂單)及其關系(如“客戶下單”)&#xff0c…

《數字分身進化論:React Native與Flutter如何打造沉浸式虛擬形象編輯》

React Native,依托JavaScript語言,借助其成熟的React生態系統,開發者能夠快速上手,將前端開發的經驗巧妙運用到移動應用開發中。它通過JavaScript橋接機制調用原生組件,實現與iOS和Android系統的深度交互,這…

提高繩牽引并聯連續體機器人運動學建模精度的基于Transformer的分段學習方法

合肥工業大學王正雨老師團隊針對繩牽引并聯連續體機器人的運動學建模提出一種基于Transformer網絡的分段學習方法,該方法較傳統建模性能卓越、精度更高。相關研究論文“Transformer-based segmented learning for kinematics modelling of a cable-driven parallel …

【PX4飛控】在 Matlab Simulink 中使用 Mavlink 協議與 PX4 飛行器進行交互

這里列舉一些從官網收集的比較有趣或者實用的功能。 編寫 m 腳本與飛行器建立 UDP 連接,并實時可視化 Mavlink 消息內容,或者讀取腳本離線分析數據。不光能顯示 GPS 位置或者姿態等信息的時間曲線,可以利用 Matlab Plot 功能快速定制化顯示一…

Oracle中的select1條、幾條、指定范圍的語句

在Oracle中,可以使用不同的方法來選擇一條記錄、多條記錄或指定范圍內的記錄。以下是具體的實現方式: 1. 查詢單條記錄 使用ROWNUM偽列限制結果為1條: SELECT * FROM your_table WHERE ROWNUM 1;特點:Oracle會在結果集生成時分…

自營交易考試為何出圈?一場模擬交易背后的真實競爭

在交易圈里,有個現象正在悄悄發生:越來越多交易員開始主動報名參與一類“非實盤”的考試,原因卻并不復雜。不是為了資格證書,也不是為了炫技,而是為了一個更實在的東西——穩定、透明的利潤分成,以及一次向…

一鍵生成達夢、Oracle、MySQL 數據庫 ER 圖!解鎖高效數據庫設計!

從事企業軟件項目開發的同學們一定對 ER 圖很熟悉,可以幫助用戶快速厘清數據庫結構,方便后續維護和優化。但是在日常工作中,面對復雜的數據結構,整理表設計文檔對于每一位DBA來說都很頭大,需要將設計細節轉化為條理清晰…

游戲行業DDoS攻擊類型及防御分析

游戲行業作為DDoS攻擊的高發領域,攻擊類型復雜多樣,結合多個來源的信息,以下是其主要攻擊類型及特征分析: 1. 傳統流量型DDoS攻擊 UDP洪水攻擊:通過大量UDP報文淹沒服務器端口,消耗帶寬資源,導…

Web 架構之狀態碼全解

文章目錄 一、引言二、狀態碼分類2.1 1xx 信息性狀態碼2.2 2xx 成功狀態碼200 OK201 Created204 No Content 2.3 3xx 重定向狀態碼301 Moved Permanently302 Found304 Not Modified 2.4 4xx 客戶端錯誤狀態碼400 Bad Request401 Unauthorized403 Forbidden404 Not Found 2.5 5x…

jedis+redis pipeline詭異的鏈接損壞、數據讀取異常問題解決

文章目錄 問題現象棧溢出(不斷的重連)讀取超時未知響應嘗試讀取損壞的鏈接讀取到的數據和自己要讀的無關,導致空指針、類型轉換錯誤,數據讀取錯亂 問題寫法問題分析修復注意點 問題現象 棧溢出(不斷的重連&#xff09…

c++STL-list的模擬實現

cSTL-list的模擬實現 list源碼剖析list模擬實現list構造函數拷貝構造函數賦值重載迭代器 iterator訪問結點數size和判空尾插 push_back頭插 push_front尾刪pop_back頭刪pop_front插入 insert刪除 erase清空clear和析構函數訪問結點 參考程序 list源碼剖析 建議先看cSTL-list的…

WeakAuras Lua Script ICC (BarneyICC)

WeakAuras Lua Script ICC (BarneyICC) https://wago.io/BarneyICC/69 全量英文字符串: !WA:2!S33c4TXX5bQv0kobjnnMowYw2YAnDKmPnjnb4ljzl7sqcscl(YaG6HvCbxaSG7AcU76Dxis6uLlHNBIAtBtRCVM00Rnj8Y1M426ZH9XDxstsRDR)UMVCTt0DTzVhTjNASIDAU…

校園網規劃與設計方案

一、項目概述 校園網是學校實現信息化教學、科研與管理的重要基礎設施,其性能與穩定性直接影響學校的整體發展。隨著學校規模不斷擴大、教學科研活動日益豐富,對校園網的帶寬、可靠性、安全性以及智能化管理等方面提出了更高要求。本規劃與設計方案旨在構建一個高速、穩定、…

算法分析:蠻力法

一、實驗目的 1 掌握蠻力法的設計思想(利用計算機去窮舉所有的可能解,再從中依次找出可行解) 2 掌握蠻力法的具體實現和時間復雜度分析 3 理解蠻力法的常見特性 實驗要求:先用偽代碼描述利用蠻力法解決的算法解決方案,再用程序實現,計算時間…

信息系統運行管理員:臨陣磨槍版

信息系統運行管理員考試 - 全覆蓋詳細背誦大綱 (根據考情分析和原始材料,力求完整覆蓋考點細節) 第一部分:基礎知識與運維概覽 Chapter 1: 信息系統運維概述 (上午題 5分) 信息: 含義:香農 - 減少隨機不確定性的東西&#xff1b…

Linux的進程管理和用戶管理

gcc與g的區別 比如有兩個文件:main.c mainc.cpp(分別是用C語言和C語言寫的)如果要用gcc編譯: gcc -o mainc main.c gcc -o mainc mainc.cpp -lstdc表明使用C標準庫; 區別一: gcc默認只鏈接C庫&#x…

Python 常用模塊(八):logging模塊

目錄 一、引言:日志模塊在項目開發中的重要性二、從 Django 日志配置看 Logging 模塊的核心組成三、logging模塊核心組件詳解3.1 記錄器Logger3.2 級別Level3.3 根記錄器使用3.4 處理器Handler3.5 格式化器Formatter3.6 日志流3.7 日志示例 四、日志模塊總結 一、引…

Servlet原理

Servlet 體系結構的類層次關系 Servlet(接口):定義了 Servlet 的核心生命周期方法(如 init()、service()、destroy()),是所有 Servlet 的頂層規范,任何 Servlet 都需實現該接口。GenericServlet…