基于上一篇的《機器人強化學習入門學習筆記》,在基于 MuJoCo 的仿真強化學習訓練中,除了 PPO(Proximal Policy Optimization)之外,還有多個主流強化學習算法可用于訓練機器人直行或其他復雜動作。
?? 一、常見強化學習算法對比(可用于 MuJoCo)
算法 | 類型 | 特點 | 適合場景 |
---|---|---|---|
PPO(Proximal Policy Optimization) | On-policy | 穩定、易調參,訓練效率適中 | MuJoCo官方推薦、機器人控制首選 |
SAC(Soft Actor-Critic) | Off-policy | 探索強、樣本效率高 | 多關節復雜任務、稀疏獎勵 |
TD3(Twin Delayed DDPG) | Off-policy | 避免過估計,適合連續控制 | 動作精細控制、穩定性好 |
DDPG(Deep Deterministic Policy Gradient) | Off-policy | 最早的連續動作算法之一 | 適合學習基礎 |
TRPO(Trust Region Policy Optimization) | On-policy | 穩定但實現復雜 | PPO的前身,現已較少使用 |
? 推薦順序(MuJoCo 中的實用性):PPO > SAC > TD3 > DDPG > TRPO
?? 二、原理講解(簡潔易懂)
(1)PPO算法
PPO 是由 OpenAI 提出的,是一種 策略梯度(Policy Gradient)方法的改進版本,它的目標是:
在不讓策略變動太大的前提下,最大化策略更新的期望回報。
?? 核心思想:限制策略更新幅度
策略梯度方法要優化目標函數:
但如果每次更新步長太大,會讓策略發散(學崩),所以 PPO 引入了