pytorch深度Q網絡

?人工智能例子匯總：AI常見的算法和例子-CSDN博客?

DQN 引入了深度神經網絡來近似Q函數，解決了傳統Q-learning在處理高維狀態空間時的瓶頸，尤其是在像 Atari 游戲這樣的復雜環境中。DQN的核心思想是使用神經網絡 Q(s,a;θ)Q(s, a; \theta)Q(s,a;θ) 來近似 Q 值函數，其中 θ\thetaθ 是神經網絡的參數。

DQN 的關鍵創新包括：

經驗回放（Experience Replay）：在強化學習中，當前的學習可能會依賴于最近的經驗，容易導致學習過程的不穩定。經驗回放通過將智能體的經歷存儲到一個回放池中，然后隨機抽取批量數據進行訓練，這樣可以打破數據之間的相關性，使得訓練更加穩定。
目標網絡（Target Network）：在Q-learning中，Q值的更新依賴于下一個狀態的最大Q值。為了避免Q值更新時過度依賴當前網絡的輸出（導致不穩定），DQN引入了目標網絡。目標網絡的結構與行為網絡相同，但它的參數更新頻率較低，這使得Q值更新更加穩定。

DQN算法流程

初始化Q網絡：初始化Q網絡的參數 θ\thetaθ，以及目標網絡的參數 θ?\theta^-θ?（通常與Q網絡相同）。
行為選擇：基于當前的Q網絡來選擇動作（通常使用ε-greedy策略，即以ε的概率選擇隨機動作，否則選擇當前Q值最大的動作）。
執行動作并存儲經驗：執行所選動作，觀察獎勵，并記錄狀態轉移 (st,at,rt+1,st+1)(s_t, a_t, r_{t+1}, s_{t+1})(st?,at?,rt+1?,st+1?)。
經驗回放：從回放池中隨機抽取一個小批量的經驗數據。
計算Q值目標：對于每個樣本，計算目標值 y=rt+1+γmax?a′Q(st+1,a′;θ?)y = r_{t+1} + \gamma \max_{a'} Q(s_{t+1}, a'; \theta^-)y=rt+1?+γmaxa′?Q(st+1?,a′;θ?)。
更新Q網絡：通過最小化損失函數 L(θ)=1N∑(y?Q(st,at;θ))2L(\theta) = \frac{1}{N} \sum (y - Q(s_t, a_t; \theta))^2L(θ)=N1?∑(y?Q(st?,at?;θ))2 來更新Q網絡的參數。
周期性更新目標網絡：每隔一段時間，將Q網絡的參數復制到目標網絡。

DQN的應用

DQN在多個領域取得了重要應用，尤其是在強化學習任務中：

Atari 游戲：DQN 在多個經典的 Atari 游戲上成功展示了其能力，比如《Breakout》和《Pong》等。
機器人控制：利用DQN，機器人可以在復雜的環境中自主學習如何執行任務。
自動駕駛：在自動駕駛領域，DQN可以用來訓練智能體通過道路、避開障礙物等。

例子：

這里我們手動實現一個非常簡單的環境：一個1D平衡問題，類似于一個可以左右移動的棒球，目標是讓它保持在某個位置上。

import torch
import torch.nn as nn
import torch.optim as optim
import random
import matplotlib.pyplot as plt# 自定義環境
class SimpleEnv:def __init__(self):self.state = 0.0  # 初始狀態self.goal = 10.0  # 目標位置self.done = Falsedef reset(self):self.state = 0.0self.done = Falsereturn self.statedef step(self, action):if self.done:return self.state, 0, self.done  # 游戲結束，不再變化# 通過動作修改狀態self.state += action  # 動作是 -1、0、1，控制移動方向reward = -abs(self.state - self.goal)  # 獎勵是距離目標位置的負值# 如果距離目標很近，就結束if abs(self.state - self.goal) < 0.1:self.done = Truereward = 10  # 達到目標時獎勵較高return self.state, reward, self.done# Q網絡定義
class QNetwork(nn.Module):def __init__(self, input_dim, output_dim):super(QNetwork, self).__init__()self.fc = nn.Linear(input_dim, 24)self.fc2 = nn.Linear(24, output_dim)def forward(self, x):x = torch.relu(self.fc(x))x = self.fc2(x)return x# DQN智能體
class DQN:def __init__(self, env, gamma=0.99, epsilon=0.1, batch_size=32, learning_rate=1e-3):self.env = envself.gamma = gammaself.epsilon = epsilonself.batch_size = batch_sizeself.learning_rate = learning_rateself.input_dim = 1  # 因為環境狀態是一個單一的數值self.output_dim = 3  # 動作空間大小：-1, 0, 1self.q_network = QNetwork(self.input_dim, self.output_dim)self.optimizer = optim.Adam(self.q_network.parameters(), lr=self.learning_rate)self.criterion = nn.MSELoss()def select_action(self, state):if random.random() < self.epsilon:return random.choice([-1, 0, 1])  # 隨機選擇動作state = torch.tensor(state, dtype=torch.float32).unsqueeze(0)with torch.no_grad():q_values = self.q_network(state)# 將動作值 -1, 0, 1 轉換為索引 0, 1, 2action_idx = torch.argmax(q_values, dim=1).item()action_map = [-1, 0, 1]  # -1 -> 0, 0 -> 1, 1 -> 2return action_map[action_idx]def update(self, state, action, reward, next_state, done):state = torch.tensor(state, dtype=torch.float32).unsqueeze(0)next_state = torch.tensor(next_state, dtype=torch.float32).unsqueeze(0)# 將動作 -1, 0, 1 轉換為索引 0, 1, 2action_map = [-1, 0, 1]action_idx = action_map.index(action)action = torch.tensor(action_idx, dtype=torch.long).unsqueeze(0)reward = torch.tensor(reward, dtype=torch.float32).unsqueeze(0)# 確保done是Python標準bool類型done = torch.tensor(done, dtype=torch.float32).unsqueeze(0)# 計算目標Q值with torch.no_grad():next_q_values = self.q_network(next_state)next_q_value = next_q_values.max(1)[0]target_q_value = reward + self.gamma * next_q_value * (1 - done)# 獲取當前Q值q_values = self.q_network(state)action_q_values = q_values.gather(1, action.unsqueeze(1)).squeeze(1)# 計算損失并更新Q網絡loss = self.criterion(action_q_values, target_q_value)self.optimizer.zero_grad()loss.backward()self.optimizer.step()def train(self, num_episodes=200):rewards = []best_reward = -float('inf')  # 初始最好的獎勵設為負無窮best_episode = 0for episode in range(num_episodes):state = self.env.reset()  # 獲取初始狀態total_reward = 0done = Falsewhile not done:action = self.select_action([state])next_state, reward, done = self.env.step(action)total_reward += reward# 更新Q網絡self.update([state], action, reward, [next_state], done)state = next_staterewards.append(total_reward)# 記錄最佳獎勵和對應的episodeif total_reward > best_reward:best_reward = total_rewardbest_episode = episodeprint(f"Episode {episode}, Total Reward: {total_reward}")# 打印最佳結果print(f"Best Reward: {best_reward} at Episode {best_episode}")# 繪制獎勵圖plt.plot(rewards)plt.title('Total Rewards per Episode')plt.xlabel('Episode')plt.ylabel('Total Reward')# 在最佳位置添加標記plt.scatter(best_episode, best_reward, color='red', label=f"Best Reward at Episode {best_episode}")plt.legend()plt.show()# 初始化環境和DQN智能體
env = SimpleEnv()
dqn = DQN(env)# 訓練智能體
dqn.train()

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/67789.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/67789.shtml
英文地址，請注明出處：http://en.pswp.cn/web/67789.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！