1. PPO算法中使用GAE的好處以及參數γ和λ的作用是什么?
參考答案:
- GAE(Generalized Advantage Estimation) 的優勢在于通過指數加權多步TD誤差,平衡優勢估計的偏差與方差,提升策略優化的穩定性。
- γ(折扣因子):控制未來獎勵的衰減程度,值越大表示更關注長期收益。
- λ(GAE衰減因子):調節多步優勢估計的權重,λ=1時等價于蒙特卡洛估計(高方差低偏差),λ=0時退化為單步TD誤差(低方差高偏差)。
2. PPO算法和DQN算法的區別是什么?
參考答案:
- PPO:基于策略梯度方法,直接優化策略網絡,支持連續動作空間,通過重要性采樣和Clip機制限制策略更新幅度。
- DQN:基于值函數逼近,學習Q值網絡,僅適用于離散動作空間&#x