機器人強化學習入門學習筆記(二)

基于上一篇的《機器人強化學習入門學習筆記》，在基于 MuJoCo 的仿真強化學習訓練中，除了 PPO（Proximal Policy Optimization）之外，還有多個主流強化學習算法可用于訓練機器人直行或其他復雜動作。

?? 一、常見強化學習算法對比（可用于 MuJoCo）

算法	類型	特點	適合場景
PPO（Proximal Policy Optimization）	On-policy	穩定、易調參，訓練效率適中	MuJoCo官方推薦、機器人控制首選
SAC（Soft Actor-Critic）	Off-policy	探索強、樣本效率高	多關節復雜任務、稀疏獎勵
TD3（Twin Delayed DDPG）	Off-policy	避免過估計，適合連續控制	動作精細控制、穩定性好
DDPG（Deep Deterministic Policy Gradient）	Off-policy	最早的連續動作算法之一	適合學習基礎
TRPO（Trust Region Policy Optimization）	On-policy	穩定但實現復雜	PPO的前身，現已較少使用

? 推薦順序（MuJoCo 中的實用性）：PPO > SAC > TD3 > DDPG > TRPO

PPO 是由 OpenAI 提出的，是一種 策略梯度（Policy Gradient）方法的改進版本，它的目標是：

在不讓策略變動太大的前提下，最大化策略更新的期望回報。

策略梯度方法要優化目標函數：

但如果每次更新步長太大，會讓策略發散（學崩），所以 PPO 引入了

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/79962.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/79962.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/79962.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！