強化學習(趙世鈺版)-學習筆記(8.值函數方法)

本章是算法與方法的第四章,是TD算法的拓展,本質上是將狀態值與行為值的表征方式,從離散的表格形式,拓展到了連續的函數形式。
表格形式的優點是直觀,便于分析,缺點是數據量較大或者連續性狀態或者行為空間時,不能很好的處理(受限于存儲和泛化能力)。
而函數形式的優點很明顯,比如有10000個點,表格形式需要存儲10000個數據,而用函數形式,僅需保存幾個參數值,存儲壓力較小,且有泛化能力(可以生成新的樣本點)。下面是一個例子,w是參數向量(parameter?vector),因為是線性函數,所以向量維度為2(僅需保存這兩個數),φ叫做特征向量(feature?vector,專門的叫法)。
需要對應狀態值,我們僅需將狀態傳入函數,即可獲得結果,而不是用查表格的形式。
更新狀態值的方式也不同,函數法是更新函數的參數向量,這個簡介提升了泛化能力,因為為了修改當前值,也會間接影響相鄰節點的情況。
但是函數法的缺點是,無法表征的那么精確(本質上是個擬合問題,不一定能找到真實的曲線),所以叫函數近似法。可以提升函數的階數,從而增加函數的擬合能力。這個高階曲線,如果將w看做自變量,那么本質上還是線性函數。
后面對值函數方法進行了一個總結,值函數的目的是用一個參數化的方程對狀態值與行為值進行一個估計。優點是存儲壓力小,泛化能力強,難點是如何找到這個函數。
我們在這里用兩個函數分別代表真實的狀態值和估計出來的狀態值,那么問題就變成了一個優化問題,找尋一個最優參數w,使得兩者之間的意義是最小的,這樣估計值就能盡可能的近似真實值。
這里定義了對應的目標函數,轉換成了對目標函數求最小值,并找尋出對應的參數w。
那么這個隨機變量S的分布是什么呢?第一種情況就是假設S服從均勻分布,這種方法就是簡單,但缺點是真實的狀態S不是服從均勻分布,因為各狀態之間的重要性是不同的。
第二種情況是假設S服從一個穩定分布,這個穩定分布是馬爾科夫過程無限執行下去后,整個系統自動收斂于一個固定的狀態概率分布。
后面對穩定分布進一步進行了介紹,本質上還是Markov?Process 的內容,無限執行下去,各狀態之間的跳轉概率就會穩定下來。
從線性代數的角度上看,就是計算這個狀態轉移矩陣的特征向量(特征值為1)
定義完成目標函數(估計值與真實值差異平方的期望)后,下一步就是對這個目標函數進行優化,用到的方法就是梯度下降法。這里的梯度求導,涉及到了這個期望的計算。
進一步,我們用隨機梯度下降代替真實的梯度,從而簡化計算。但是,目前仍有一些問題:隨機梯度下降的樣本采樣,?也應滿足穩定分布,但是這個采樣是隨機的。真實的狀態值是未知的,也無法直接計算,只能用一個近似來使算法繼續執行。
這個真實狀態值的近似方法有兩個,蒙特卡羅方法和時序差分方法(跟前面幾章的內容對上了)
課程中主要介紹了基于時序差分的估計方法,缺點是僅能對狀態值進行估計(還有一個行為值需要處理)
還有一個亟待回答的問題,就是這個值函數如何設計。常用的方法有兩大類,線性方程和深度學習。
第一種方法的計算過程如下,這種方法叫做時序差分線性(TD-Linear)法。
時序查分線性法的優點是線性模型容易理解,容易將線性函數表征轉化為表格類型的表征,缺點是特征向量不好選擇。
轉化的方式就是找尋一個特殊的特征向量,其本質上是一個One-Hot編碼。
通過這個特殊的特征向量,就能把時序查分線性方法,轉變成一個熟悉的時序查分表格方法。
這里對時序差分方法進行了一個總結,目標函數的目的是找尋一個值函數,能盡可能近似真實的狀態值。用梯度下降法求解這個目標函數的最優解,因為真實的狀態值不知道,所以用TD算法來近似。
前面介紹了對狀態值的近似,找尋最優策略還需要行為值,行為值的近似一般用Saras算法。
Saras做近似的偽代碼如下
類似于Saras算法,Q-Learning算法也能拓展一下用于值函數的近似。
用Q-Learning算法做值函數近似的偽代碼如下
而Deep?Q-Learning或者DQN,是利用神經網絡來做一個非線性函數的近似,這也是深度學習在強化學習中比較成功的應用。
Deep?Q-Learning的目的是使目標函數或者損失最小化
如何解決這個優化問題呢,用的是梯度下降。但是這個梯度下降不好計算,在這里引入了一個假設 ,w針對y是個固定值(至少是局部或者臨時的)
為了解決這個優化問題,這里引入了兩個網絡-主網絡(main?network)和目標網絡(target?network)。?將目標函數中相加的兩部分人為劃分為主網絡和目標網絡,在求梯度的時候,固定住目標網絡的參數,以簡化梯度的計算。
雙網絡的模式本質上是計算梯度的一個技巧(為啥有用沒看明白,這個假設是否成立,是否對真實結果有影響?)
另一個重要的概念叫做經驗回放(Experience?Replay),指的是采樣到的樣本不是直接用,而是先緩存到一個buffer里面。訓練網絡時,再從這個緩存buffer里面隨機均勻采樣,生成一個mini-batch用于訓練網絡。
這里采用經驗回放的目的,是因為沒有任何的先驗知識,所以狀態-行為對的分布被假設為均勻分布。
但是我們直接采樣是依據某種策略產生的序列生成的,這個序列隱含了樣本之間的相關性,所以用經驗回放策略先進行緩存,再隨機均勻采樣生成mini-batch,從而消除樣本之間的相關性。
這里又討論了Q-Learning和Deep?Q-Learning之間的差異,為什么有的需要經驗回放
后面做了實驗,Deep?Q-Learning僅用了淺層的網絡,就能達到很好的效果。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/72970.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/72970.shtml
英文地址,請注明出處:http://en.pswp.cn/web/72970.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

[特殊字符] 2025藍橋杯備賽Day7——B2117 整理藥名

🔍 2025藍橋杯備賽Day7——B2117 整理藥名 題目難度:?? 適合掌握字符串基礎操作 考察重點:大小寫轉換、字符串遍歷、邊界條件處理 B2117 整理藥名 題目描述 醫生在書寫藥品名的時候經常不注意大小寫,格式比較混亂。現要求你…

笛卡爾軌跡規劃之齊次變換矩陣與歐拉角、四元數的轉化

一、笛卡爾軌跡規劃需求 笛卡爾軌跡規劃本質就是我們對機械臂的末端位置和姿態進行規劃,其實也就是對末端坐標系的位姿進行規劃。我們清楚末端坐標系的位姿是可以用齊次變換矩陣T來表示的,但這樣表示的話,并不利于我們去做規劃,所…

【PCIe 總線及設備入門學習專欄 3.1 -- PCIe 中為何只有 TLP 會被 Switch 和 RC 進行路由?】

文章目錄 Overview為什么 DLLP 不需要路由呢?總結Overview 這里介紹些為什么在 PCIe 中只有 TLP(事務層數據包)會被 Switch 和 Root Complex(RC) 路由,而 DLLP(數據鏈路層數據包)和 Ordered Set 不會被路由。這是因為 TLP 起始于源端口的事務層,結束于目的端口的事務…

大摩閉門會:250321 學習總結報告

如果圖片分辨率不足,可右鍵圖片在新標簽打開圖片或者下載末尾源文件進行查看 本文只是針對視頻做相應學術記錄,進行學習討論使用

深入理解 Spring Boot 應用的生命周期:從啟動到關閉的全流程解析

引言 Spring Boot 是當今 Java 開發中最流行的框架之一,它以簡化配置和快速開發著稱。然而,要真正掌握 Spring Boot,理解其應用的生命周期是至關重要的。本文將深入探討 Spring Boot 應用的生命周期,從啟動到關閉的各個階段&…

期刊分區表2025年名單下載(經濟學、管理學)

2025年期刊分區表包括SCIE、SSCI、A&HCI、ESCI和OAJ,共設置了包括自然科學、社會科學和人文科學在內的21個大類 本次分享的是期刊分區表2025年名單經濟學類、管理學類,一共7631025條 一、數據介紹 數據名稱:期刊分區表2025年名單 數據…

夢回杭州...

她對我說,煙雨中的西湖更別有情趣,我也懷著對‘人間天堂’的憧憬踏上了向往之旅。第一次親密接觸沒有感覺中那么好,現在想起來是那時的人和心情都沒能安靜下來,去慢慢品味它的美。 六下杭州,親歷每一片風景&#xff0c…

深度優先搜索(DFS)完全解析:從原理到 Java 實戰

深度優先搜索(DFS)完全解析:從原理到 Java 實戰 TOC 作為一名程序員,你是否遇到過需要在復雜的圖結構中尋找路徑、檢測環,或者進行樹遍歷的問題?深度優先搜索(Depth-First Search, DFS&#xf…

【人工智能】如何理解transformer中的token?

如何理解transformer中的token? **一、Token在Transformer中的作用****二、文本分詞的常見方法****1. 基于詞典的分詞(Dictionary-based Tokenization)****2. 子詞分詞(Subword Tokenization)****(1) WordPiece算法****(2) BPE&a…

AI風向標《AI與視頻制作全攻略:從入門到精通實戰課程》

課程信息 AI風向標《AI與視頻制作全攻略:從入門到精通實戰課程》,夸克網盤和百度網盤課程。 課程介紹 《AI與視頻制作全攻略:從入門到精通實戰課程》是一套全面融合AI技術與視頻制作的實戰課程,旨在幫助創作者從基礎軟件使用到高級視頻剪輯…

mayfly-go開源的一站式 Web 管理平臺

mayfly-go 是一款開源的一站式 Web 管理平臺,旨在通過統一的界面簡化 Linux 服務器、數據庫(如 MySQL、PostgreSQL、Redis、MongoDB 等)的運維管理。以下從多個維度對其核心特性、技術架構、應用場景及生態進行詳細解析: 一、核心…

車輛模型——運動學模型

文章目錄 約束及系統移動機器人運動學模型(Kinematic Model)自行車模型含有加速度 a a a 的自行車模型系統偏差模型 在機器人的研究領域中,移動機器人的系統建模與分析是極為關鍵的基礎環節,本文以非完整約束的輪式移動機器人為研…

go命令使用

查看配置信息 go env配置go國內源 export GO111MODULEon export GOPROXYhttps://goproxy.cn測試 go install github.com/jesseduffield/lazydockerlatesthttps://github.com/jesseduffield/lazydocker

Chrome-Edge-IDEA-Win 常用插件-工具包

Chrome-Edge-IDEA-Win 常用插件-工具包 Chrome-Edge-IDEA-Win 常用插件-工具包谷歌插件chropathJSONViewOctotree - GitHub code treeXPath Helper書簽側邊欄篡改猴Print Edit WEEdge瀏覽器插件IDEA插件CodeGlance Pro 代碼迷你縮放圖插件Alibaba Cloud ToolkitAlibaba Java Co…

西門子V90伺服系統介紹

深入淺出地了解V90伺服驅動系統的核心特性和優勢,掌握其自動優化功能,使設備獲得更高的動態性能;同時,了解其自動抑制機械諧振頻率的特性,有助于在實際應用中減少機械振動和噪音。 方便快捷地熟悉V90的使用方式。通過伺…

【FastGPT】利用知識庫創建AI智能助手

【FastGPT】利用知識庫創建AI智能助手 摘要創建知識庫上傳文檔創建應用準備提示詞準備開場白關聯知識庫AI回答效果 摘要 關于FastGPT的部署,官方提供了docker-compose方式的部署文檔,如果使用的是podman和podman-compose的同學,可以參考這篇…

最新!Ubuntu Docker 安裝教程

源自: AINLPer(每日干貨分享!!) 編輯: ShuYini 校稿: ShuYini 時間: 2025-3-1 更多:>>>>大模型/AIGC、學術前沿的知識分享! 看到很多部署大模型的時候,都是基于docker安裝部署的。…

html5炫酷3D立體文字效果實現詳解

炫酷3D立體文字效果實現詳解 這里寫目錄標題 炫酷3D立體文字效果實現詳解項目概述技術實現要點1. 基礎布局設置2. 動態背景效果3. 文字漸變效果4. 立體陰影效果5. 懸浮動畫效果 技術難點及解決方案1. 文字漸變動畫2. 立體陰影效果3. 性能優化 瀏覽器兼容性總結 項目概述 在這個…

電腦如何設置幾分鐘后自動關機

摘要:本文提供Windows、macOS和Linux系統設置定時自動關機的詳細方法。 目錄 一、Windows系統設置方法 設置定時關機 取消關機計劃 二、macOS系統設置方法 設置定時關機取消關機計劃 三、Linux系統設置方法 設置定時關機 取消關機計劃 四、注意事項五、擴展&#x…

Android音視頻多媒體開源庫基礎大全

從事音視頻開發工作,需要了解哪些常見的開源庫,從應用到底軟系統,整理了九大類,這里一次幫你總結完。 包含了應用層的MediaRecorder、surfaceView,以及常見音視頻處理庫FFmpeg和OpenCV,還有視頻渲染和音頻…