PPO 強化學習機械臂 IK 訓練過程可視化利器 Tensorboard

視頻講解：

PPO 強化學習過程中，設置了verbose會顯示數據，但還是不夠直觀，這里上一個可視化利器，Tensorboard，實際上stable baselines3中已經有了這部分的集成，但這個工具實際上在其他的框架上也可以使用，基于web的顯示，簡便好看。

https://stable-baselines3.readthedocs.io/en/master/guide/tensorboard.html

介紹下環境，ubuntu22.04 wsl，python3.10，無conda環境，安裝tensorboard

pip3 install tensorboard -i https://pypi.tuna.tsinghua.edu.cn/simple

使用非常簡單，只需要在PPO增加 `tensorboard_log="./tensorboard/"` 即可

model = PPO("MlpPolicy",env,policy_kwargs=policy_kwargs,verbose=1,n_steps=2048,batch_size=64,n_epochs=10,gamma=0.99,learning_rate=3e-4,device="cuda" if torch.cuda.is_available() else "cpu",tensorboard_log="./tensorboard/")

運行后，會在當前目錄生成tensorboard文件夾

使用tensorboard指令讀取該log，會起一個web可以看

tensorboard --logdir ./tensorboard/

打開瀏覽器，可以看到訓練過程的圖表

設置reload的時間，最快30s一次

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/80431.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/80431.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/80431.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！