視頻講解:
PPO 強化學習機械臂 IK 訓練過程可視化利器 Tensorboard
PPO 強化學習過程中,設置了verbose會顯示數據,但還是不夠直觀,這里上一個可視化利器,Tensorboard,實際上stable baselines3中已經有了這部分的集成,但這個工具實際上在其他的框架上也可以使用,基于web的顯示,簡便好看。
https://stable-baselines3.readthedocs.io/en/master/guide/tensorboard.html
介紹下環境,ubuntu22.04 wsl,python3.10,無conda環境,安裝tensorboard
pip3 install tensorboard -i https://pypi.tuna.tsinghua.edu.cn/simple
使用非常簡單,只需要在PPO增加 `tensorboard_log="./tensorboard/"` 即可
model = PPO("MlpPolicy",env,policy_kwargs=policy_kwargs,verbose=1,n_steps=2048,batch_size=64,n_epochs=10,gamma=0.99,learning_rate=3e-4,device="cuda" if torch.cuda.is_available() else "cpu",tensorboard_log="./tensorboard/")
運行后,會在當前目錄生成tensorboard文件夾
使用tensorboard指令讀取該log,會起一個web可以看
tensorboard --logdir ./tensorboard/
打開瀏覽器,可以看到訓練過程的圖表
設置reload的時間,最快30s一次