什么是 強化學習(RL):以DQN、PPO等經典模型
DQN(深度 Q 網絡)和 PPO(近端策略優化)共同屬于強化學習(Reinforcement Learning,RL)這一領域。強化學習是機器學習中的一個重要分支,其核心在于智能體(Agent)通過與環境進行交互,根據環境反饋的獎勵信號來學習最優的行為策略,以最大化長期累積獎勵
在 DQN(深度 Q 網絡)里,Q 代表的是動作價值函數(Action - Value Function),其主要功能是衡量在給定狀態下采取特定動作,所能獲取的長期累積獎勵的期望值。簡單來說,它的作用就是判斷 “在某個狀態時做某個動作,從長遠來看能獲得多少回報”。
DQN與PPO的現實意義舉例
DQN的現實應用
-
智能家居能源管理
- 場景:智能溫控系統根據時間、天氣、用戶習慣自動調節空調溫度,