文章目錄
- ??Model-Free RL vs Model-Based RL
- ??核心定義
- ??核心區別
- ??Policy-Based RL vs Value-Based RL
- ??核心定義
- ?? 核心區別
- ??Monte-Carlo update vs Temporal-Difference update
- ??核心定義
- ??核心區別
- ??On-Policy vs Off-Policy
- ??核心定義
- ??核心區別
參考學習視頻:強化學習方法匯總 (Reinforcement Learning)
- 包含AI生成內容,感謝D老師??
??Model-Free RL vs Model-Based RL
??核心定義
- Model-Free RL
- 不依賴環境模型,直接通過試錯學習策略(Policy)或價值函數(Value Function)。智能體無需知曉狀態轉移概率或獎勵函數,僅通過與環境交互的經驗(如狀態、動作、獎勵序列)進行學習。
- 典型算法:Q-Lear