具身系列——PPO算法實現CartPole游戲(強化學習)

完整代碼參考: https://gitee.com/chencib/ailib/blob/master/rl/ppo_cartpole.py

執行結果:
ppo訓練過程

部分訓練得分:

(sd) D:\Dev\traditional_nn\feiai\test\rl>python ppo_cartpole_v2_succeed.py
Ep:    0 | Reward:   23.0 | Running:   23.0
Ep:    1 | Reward:   12.0 | Running:   21.9
Ep:    2 | Reward:   31.0 | Running:   22.8
Ep:    3 | Reward:   25.0 | Running:   23.0
Ep:    4 | Reward:    9.0 | Running:   21.6
Ep:    5 | Reward:   20.0 | Running:   21.5
Ep:    6 | Reward:   20.0 | Running:   21.3
Ep:    7 | Reward:   28.0 | Running:   22.0
Ep:    8 | Reward:   32.0 | Running:   23.0
Ep:    9 | Reward:   18.0 | Running:   22.5
……
Ep:  990 | Reward:   15.0 | Running:   19.7
Ep:  991 | Reward:   19.0 | Running:   19.7
Ep:  992 | Reward:   20.0 | Running:   19.7
Ep:  993 | Reward:   24.0 | Running:   20.1
Ep:  994 | Reward:   16.0 | Running:   19.7
Ep:  995 | Reward:   20.0 | Running:   19.7
Ep:  996 | Reward:   19.0 | Running:   19.7
Ep:  997 | Reward:   26.0 | Running:   20.3
Ep:  998 | Reward:   13.0 | Running:   19.6
Ep:  999 | Reward:   11.0 | Running:   18.7

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/78642.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/78642.shtml
英文地址,請注明出處:http://en.pswp.cn/web/78642.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Python項目源碼60:電影院選票系統1.0(tkinter)

1.功能特點:通常選票系統應該允許用戶選擇電影、場次、座位,然后顯示總價和生成票據。好的,我得先規劃一下界面布局。 首先,應該有一個電影選擇的列表,可能用下拉菜單Combobox來實現。然后場次時間,可能用…

【全隊項目】智能學術海報生成系統PosterGenius--圖片布局生成模型LayoutPrompt(2)

🌈 個人主頁:十二月的貓-CSDN博客 🔥 系列專欄: 🏀大模型實戰訓練營_十二月的貓的博客-CSDN博客 💪🏻 十二月的寒冬阻擋不了春天的腳步,十二點的黑夜遮蔽不住黎明的曙光 目錄 1. 前…

Linux的時間同步服務器(附加詳細實驗案例)

一、計時方式的發展 1.古代計時方式? 公元前約 2000 年:古埃及人利用光線留下的影子計時,他們修建高聳的大型方尖碑,通過追蹤方尖碑影子的移動判斷時間,這是早期利用自然現象計時的典型方式 。?商朝時期:人們開發并…

【無需docker】mac本地部署dify

環境安裝準備 #安裝 postgresql13 brew install postgresql13 #使用zsh的在全局添加postgresql命令集 echo export PATH"/usr/local/opt/postgresql13/bin:$PATH" >> ~/.zshrc # 使得zsh的配置修改生效 source ~/.zshrc # 啟動postgresql brew services star…

(5)概述 QT 的元對象系統里的類的調用與聯系,及訪問接口

(1) QT 的元對象系統,這幾個字大家都知道,那么 QT 的元對象系統里都包含哪些內容呢,其訪問接口是如何呢? 從 QObject 類的實現里,從其數據成員里就可以看出來: QT 里父容器可以釋放其…

打包 Python 項目為 Windows 可執行文件:高效部署指南

Hypackpy 是一款由白月黑羽開發的 Python 項目打包工具,它與 PyInstaller 等傳統工具不同,通過直接打包解釋器環境和項目代碼,并允許開發者修改配置文件以排除不需要的內容,從而創建方便用戶一鍵運行的可執行程序。以下是使用 Hyp…

MySQL JOIN詳解:掌握數據關聯的核心技能

一、為什么需要JOIN? 在關系型數據庫中,數據通常被拆分到不同的表中以提高存儲效率。當我們需要從多個表中組合數據時,JOIN操作就成為了最關鍵的技能。通過本文,您將全面掌握MySQL中7種JOIN操作,并學會如何在實際場景中…

Kdump 收集器及使用方式

以下是 Linux 系統中 Kdump 轉儲收集器的詳細說明及其使用方法,涵蓋核心工具、配置方法及實際示例: 一、Kdump 收集器分類及作用 Kdump 的核心功能是通過 捕獲內核 生成內存轉儲文件(vmcore),其核心收集器包括&#…

Error: error:0308010C:digital envelope routines::unsupported 高版本node啟動低版本項目運行報錯

我的問題就是高版本node啟動舊版本項目引起的問題,單獨在配置 package.json文件中配置并運行就可以,大概意思就是設置node的openssl "scripts": {"dev": "SET NODE_OPTIONS--openssl-legacy-provider && vue-cli-servi…

松下機器人快速入門指南(2025年更新版)

松下機器人快速入門指南(2025年更新版) 松下機器人以其高精度、穩定性和易用性在工業自動化領域廣泛應用。本文將從硬件配置、參數設置、手動操作、編程基礎到維護保養,全面講解松下機器人的快速入門方法,幫助新手快速掌握核心操…

【CISCO】Se2/0, Se3/0:串行口(Serial) 這里串口的2/0 和 3/0分別都是什么?

在 Cisco IOS 設備上&#xff0c;接口名稱通常遵循這樣一個格式&#xff1a; <類型><槽號>/<端口號>類型&#xff08;Type&#xff09;&#xff1a;表示接口的物理或邏輯類型&#xff0c;比如 Serial&#xff08;串行&#xff09;、FastEthernet、GigabitEt…

開源無人機地面站QGroundControl安卓界面美化與邏輯優化實戰

QGroundControl作為開源無人機地面站軟件,其安卓客戶端界面美化與邏輯優化是提升用戶體驗的重要工程。 通過Qt框架的界面重構和代碼邏輯優化,可以實現視覺升級與性能提升的雙重目標。本文將系統講解QGC安卓客戶端的二次開發全流程,包括開發環境搭建、界面視覺升級、多分辨率…

基于DDPG的自動駕駛小車繞圈任務

1.任務介紹 任務來源: DQN: Deep Q Learning &#xff5c;自動駕駛入門&#xff08;&#xff1f;&#xff09; &#xff5c;算法與實現 任務原始代碼: self-driving car 在上一篇使用了DQN算法完成自動駕駛小車繞圈任務之后&#xff0c;學習了DDPG算法&#xf…

緩存置換:用c++實現最近最少使用(LRU)算法

在計算機的世界里&#xff0c;緩存就像一個“快速倉庫”&#xff0c;它存儲著我們頻繁訪問的數據&#xff0c;大大提升了數據的讀取速度。但這個 “倉庫” 空間有限&#xff0c;當它被裝滿時&#xff0c;就得決定舍棄一些數據&#xff0c;為新數據騰出位置&#xff0c;這個決策…

【YOLO11改進】改進Conv、頸部網絡STFEN、以及引入PIOU用于小目標檢測!

改進后的整體網絡架構 改進一:RFD模塊(Conv) YOLOv11模型的跨步卷積下采樣雖然快速聚合了局部特征,并且實現了較高的計算效率,但其固有的信息壓縮機制會導致細粒度特征的不可逆丟失。針對特征保留與計算效率的平衡問題,本文采用RFD模塊替換跨步卷積下采樣模塊。RFD模塊通…

設計模式每日硬核訓練 Day 18:備忘錄模式(Memento Pattern)完整講解與實戰應用

&#x1f504; 回顧 Day 17&#xff1a;中介者模式小結 在 Day 17 中&#xff0c;我們學習了中介者模式&#xff08;Mediator Pattern&#xff09;&#xff1a; 用一個中介者集中管理對象之間的通信。降低對象之間的耦合&#xff0c;適用于聊天系統、GUI 控件聯動、塔臺調度等…

java單元測試代碼

import org.junit.jupiter.api.Test; import static org.junit.jupiter.api.Assertions.*; import java.util.List;public class UserServiceTest {Testpublic void testSearchUserByTags() {// 模擬標簽列表List<String> tagNameList List.of("tag1", "…

前端面經-VUE3篇(一)--vue3基礎知識- 插值表達式、ref、reactive

目錄 一、 插值表達式 1、插值表達式 ({{}}) 的本質與作用&#xff1a; 2、與 Vue 響應式系統關系&#xff1a; 二、指令 1、什么是 Vue 指令&#xff1f; 2、指令的分類 1、內置指令 ① 內容綁定&#xff1a;v-text 和 v-html ② 屬性綁定&#xff1a;v-bind ③ 事件綁定…

矩陣置零(中等)

可以用兩個標記數組分別記錄每一行和每一列是否有零出現。 首先遍歷該數組一次&#xff0c;如果某個元素為 0&#xff0c;那么就將該元素所在的行和列所對應標記數組的位置置為 true。然后再次遍歷該數組&#xff0c;用標記數組更新原數組。 class Solution {public void set…

Android 實現一個隱私彈窗

效果圖如下&#xff1a; 1. 設置同意、退出、點擊用戶協議、點擊隱私協議的函數參數 2. 《用戶協議》、《隱私政策》設置成可點擊的&#xff0c;且顏色要區分出來 res/layout/dialog_privacy_policy.xml 文件 <?xml version"1.0" encoding"utf-8"?&…