強化學習（第三課第三周）

文章目錄

- 強化學習（第三課第三周）
- - 一、以火星探測器為例說明強化學習的形式化表示
  - 二、強化學習中的回報
  - 三、強化學習算法的目標
  - - （一）馬爾可夫決策過程
    - （二）狀態動作價值函數
    - （四）使用Bellman方程幫助我們計算狀態動作價值函數
  - 三、連續狀態空間的應用示例（以月球著陸器為示例）
  - - （一）月球著陸器的前提信息
    - （二）訓練一個神經網絡來計算或者近似狀態動作價值函數
    - （三）優化DQN算法
    - - 1、優化神經網絡結構
      - 2、epsilon貪婪策略
      - 3、小批量處理及軟更新
  - 四、Deep Q-Learning Algorithm with Experience Replay（代碼版）

強化學習（第三課第三周）

強化學習：找到當前狀態s到動作y的映射函數。強化學習的關鍵輸入是獎勵或者獎勵函數，讓模型多做一些有獎勵的行為，少做一些有懲罰的行為，這樣以后算法會自動找出如何選擇好的行動。

一、以火星探測器為例說明強化學習的形式化表示

在這里插入圖片描述

如上圖所示，強化學習包含了四個要素，分別是當前狀態、動作、獎勵（與當前狀態相關）、下一狀態。強化學習如何運行停止呢，一般是有一個終止狀態。

二、強化學習中的回報

在上面的獎勵里面，我們會為每一個獎勵添加折現因子（一個接近1的數），它的作用是讓強化學習變得急功近利，即越早得到獎勵，總回報值越高。示例如下;

在這里插入圖片描述

總之，我們的回報與動作息息相關，采取不同的動作，回報也會有所差別，回報是系統獲得獎勵的總和，示例如下：在這里插入圖片描述

對于負獎勵而言，算法更偏向于將負獎勵推向未來，這樣會盡量小幅度減少我們的回報值。

三、強化學習算法的目標

下面的講解都是根據火星探測器（離散狀態）的示例進行的。

（一）馬爾可夫決策過程

我們的目標是提出一個稱為pi的函數：它是將任何狀態作為輸入并映射到它想讓我們采取的的行動a上面。這個函數會應用于狀態s，并且告訴我們在那個狀態我們需要采取什么行動，以便最大化回報。

強化學習可以在很多方面進行應用：馬爾可夫決策過程（MDP）。
在這里插入圖片描述

（二）狀態動作價值函數

狀態動作價值函數（Q），報告了如果你在狀態s采取動作a然后表現最優的回報。計算示例如下：
在這里插入圖片描述

如果我們能夠計算出每個狀態和每個行動的狀態動作價值函數值Q（s,a），那么這就給了我們一種計算最優策略pi(s)的好方法。

我們只需要計算出每個狀態動作的Q值，選擇該狀態Q值最大的那個動作，就是我們的最優動作；示例如下：
在這里插入圖片描述

（四）使用Bellman方程幫助我們計算狀態動作價值函數

貝爾曼方程如下：通過示例證明貝爾曼方程確實可以正確計算出狀態動作價值函數

在這里插入圖片描述

注意：當狀態s為終端狀態時，貝爾曼方程沒有第二項，因為沒有下一個狀態了。

Q（s,a）的定義假設我們之后會最優地行動。所以貝爾曼方程地第二項是下一個狀態的最優回報。

由于強化學習的過程具有很多隨機性，受環境的影響，最終機器的動作路徑可能不是按照最優路徑進行的，所以我們感興趣的是最大化折扣獎勵總和的平均值。所以強化學習的任務就是選擇一個策略pi以最大化平均值或期望的總和。

在這里插入圖片描述

這里我理解的平均值就是：多次進行最優策略，相同的策略，但由于受到外界環境的影響，機器最終的動作路徑會有所不同，那么回報也會不同，我們需要做的是最優化這個回報的平均值。

三、連續狀態空間的應用示例（以月球著陸器為示例）

（一）月球著陸器的前提信息

在強化學習的應用中，也存在很多狀態是連續的，可能是一個狀態向量，向量里面的每一個數值都有一個范圍，這個數值就在這個范圍里面進行變化。

月球著陸器的狀態是一個向量，包含了很多信息，示例如下：
在這里插入圖片描述

根據不同的狀態信息有不同的獎勵措施：

在這里插入圖片描述

月球著陸器的折扣因子如下：
在這里插入圖片描述

根據上面的前提，我們需要設計一個強化學習算法，來使得月球著陸器在不同的狀態執行正確的動作，實現更好的著陸。

（二）訓練一個神經網絡來計算或者近似狀態動作價值函數

提供給神經網絡的輸入則是與月球著陸器的狀態和動作：狀態是一個包含了8個數值的列表，動作是進行獨熱編碼的4個數值，一共是12個數值。經過神經網咯，最終輸出的是該狀態動作的價值函數Q。這就叫做深度強化學習，我們將監督學習融入到了強化學習中去。具體如下：

在這里插入圖片描述

我們如何構造出關于輸入和輸出的訓練集供神經網絡學習呢？月球著陸模擬器，我們嘗試不同的狀態執行不同的動作，來得到訓練集。

示例如下：在這里插入圖片描述

深度Q網絡算法（DQN）的執行過程：

在這里插入圖片描述

中間特別需要注意的是，每一次訓練出來的新的Q，我們會把它將原來的Q替換掉，替換之后的數據集再次進行神經網絡訓練，這樣不斷迭代之后，Q函數會是一個很好的狀態動作價值估計。

（三）優化DQN算法

1、優化神經網絡結構

上面的模型訓練結束之后，我們想要得到Q值最大的那個動作作為最優策略，我們需要對當前狀態進行四次推理，才能得到。對上述算法的一個改進措施就是：訓練一個神經網絡來輸出當前狀態的四個Q值更為高效。示例如下：在這里插入圖片描述

2、epsilon貪婪策略

在我們完成算法學習之前，也就是在過程中，我們不知道某一個狀態的最佳動作是什么，算法還沒有對Q有一個很好的估計。

在我們獲取訓練集時，我們會隨機采取一些行動，但是為了使算法更好的學習，我們不能隨意地采取一些行動，因為那通常是一個糟糕的行動，所以我們在采取行動時，采取的是最大化Q（當前的Q）的一個動作，即使它可能現在還不是一個很好的估計，這是一個方式之一；

那么另外一種方式（貪婪策略）就是：大多數時候，我們嘗試使用當前的Q模型來估算選擇一個好的行動（貪婪），小部分時間隨機采取一個行動（探索）。

為什么要有一小部分隨機選擇呢，原因是神經網絡在學習時，由于什么奇怪的原因，可能一直都沒有選擇過某一個行動，盡管那個行動可能會表現得好，隨機值用來填補這一缺漏。貪婪策略指的是有epsilon*100%的數據是來自于隨機采取的行動。

隨著模型訓練的深入，我們可以逐漸減少隨機行動的比率，而更多地采取模型訓練之后的Q來進行行動的選擇。

在這里插入圖片描述

3、小批量處理及軟更新

在監督學習中，當樣本數量巨大時，我們每執行一次梯度下降，就會計算一次數億數據的一個平均值，這樣太過耗費時間和資源。小批量梯度下降的理念是每次迭代不適用全部數據樣本，我們可以取較少的樣本數。

在這里插入圖片描述

我們將原本的數據集劃分成若干個小的數據集，依次對這些小的數據集進行梯度下降，在梯度下降的過程中，參數逐漸擬合小數據集，直到擬合完所有的子數據集。雖然小樣本數據集在進行梯度下降是沒有大數據集那樣順滑，變得很曲折，但是計算資源卻會小很多。

在這里插入圖片描述

在強化學習中，同樣也可以如此：

在這里插入圖片描述

另外一種改進就是軟更新，它所解決的問題是：在用新的模型Q覆蓋舊的Q時，可能新的還沒有舊的好，我們該怎么辦呢？

我們可以控制舊Q向新Q更新的激進速度，來實現自我更新，使得強化學習算法能夠更快地收斂，使得強化學習算法不太可能出現動蕩、發散或者其他不良情況。通過使用軟更新，我們可以確保目標值緩慢變化，這大大提高了我們學習算法的穩定性。

在這里插入圖片描述

四、Deep Q-Learning Algorithm with Experience Replay（代碼版）

構建網絡：

# UNQ_C1
# GRADED CELL# 創建主 Q 網絡，用于估計 Q(s, a) 值
q_network = Sequential([### START CODE HERE ### Input(shape=state_size),                    # 輸入層：維度等于狀態向量長度Dense(units=64, activation="relu"),         # 隱藏層 1：64 個 ReLU 神經元Dense(units=64, activation="relu"),         # 隱藏層 2：64 個 ReLU 神經元Dense(units=num_actions, activation="linear"),  # 輸出層：每個動作對應一個 Q 值，線性激活### END CODE HERE ### 
])# 創建目標 Q^- 網絡，用于計算目標 y 值（參數更新較主網絡慢）
target_q_network = Sequential([### START CODE HERE ### Input(shape=state_size),                    # 輸入層：維度同上Dense(units=64, activation="relu"),         # 隱藏層 1：64 個 ReLU 神經元Dense(units=64, activation="relu"),         # 隱藏層 2：64 個 ReLU 神經元Dense(units=num_actions, activation="linear"),  # 輸出層：每個動作對應一個 Q 值，線性激活### END CODE HERE ###
])# 創建優化器：使用 Adam，學習率由 ALPHA 指定
### START CODE HERE ### 
optimizer = Adam(learning_rate=ALPHA)           # 優化器將用于最小化 TD-error 損失
### END CODE HERE ###

經驗回放元組：

# 使用 collections.namedtuple 創建一個輕量級、不可變的數據結構
experience = namedtuple("Experience",                       # 新數據類型的名字，叫 Experiencefield_names=[                       # 指定每個實例里包含的字段名"state",        # 當前觀測/狀態 s_t"action",       # 在該狀態下采取的動作 a_t"reward",       # 環境返回的即時獎勵 r_t"next_state",   # 執行動作后進入的下一狀態 s_{t+1}"done"          # 布爾標志：True 表示回合結束，False 表示未結束]
)

構造損失函數：

def compute_loss(experiences, gamma, q_network, target_q_network):""" Calculates the loss.Args:experiences: (tuple) tuple of ["state", "action", "reward", "next_state", "done"] namedtuplesgamma: (float) The discount factor.q_network: (tf.keras.Sequential) Keras model for predicting the q_valuestarget_q_network: (tf.keras.Sequential) Karas model for predicting the targetsReturns:loss: (TensorFlow Tensor(shape=(0,), dtype=int32)) the Mean-Squared Error betweenthe y targets and the Q(s,a) values."""# 1. 把 experiences 這個批次的數據拆成五個張量states, actions, rewards, next_states, done_vals = experiences# 2. 用“目標網絡”計算下一狀態 s' 的最大 Q 值：max_a' Q?(s', a')#    axis=-1 表示在動作維度上取最大值max_qsa = tf.reduce_max(target_q_network(next_states), axis=-1)# 3. 計算 y 目標值：#    如果 done=1（回合結束），y = r#    否則 y = r + γ * max_a' Q?(s', a')y_targets = rewards + (gamma * max_qsa * (1 - done_vals))# 4. 用“主網絡”計算當前狀態-動作對應的 Q(s, a)q_values = q_network(states)                  # 形狀: [batch_size, num_actions]# 5. 從 Q(s,·) 里挑出實際被執行動作 a 對應的 Q(s,a)#    利用 gather_nd 按 (batch_index, action_index) 取值q_values = tf.gather_nd(q_values,tf.stack([tf.range(q_values.shape[0]),   # 每個樣本的 batch 索引tf.cast(actions, tf.int32)],    # 每個樣本的動作索引axis=1))# 6. 計算 MSE 損失： (y_targets - Q(s,a))^2 的均值loss = MSE(y_targets, q_values)# 7. 把標量損失返回給調用者return loss

更新網絡權重：

# 用 @tf.function 裝飾器將函數編譯為靜態圖，加快訓練速度并支持自動微分
@tf.function
def agent_learn(experiences, gamma):"""根據一批經驗更新 Q 網絡權重（主網絡 + 目標網絡）。Args:experiences: (tuple) 由 ["state", "action", "reward", "next_state", "done"] 五個字段組成的 namedtuple 批次gamma: (float) 折扣因子 γ"""# 1. 在 GradientTape 的上下文里計算損失，便于后續求梯度with tf.GradientTape() as tape:loss = compute_loss(experiences, gamma, q_network, target_q_network)# 2. 根據 loss 對主網絡所有可訓練變量求梯度gradients = tape.gradient(loss, q_network.trainable_variables)# 3. 將梯度應用到主網絡權重，完成一次梯度下降更新optimizer.apply_gradients(zip(gradients, q_network.trainable_variables))# 4. 用軟更新或硬更新策略，把主網絡權重同步/平滑到目標網絡utils.update_target_network(q_network, target_q_network)

訓練模型：

# ---------------- 計時開始 ----------------
start = time.time()# ---------------- 訓練超參數 ----------------
num_episodes = 2000               # 總共訓練多少回合（episode）
max_num_timesteps = 1000          # 每回合最多走多少步（超過也強制結束）total_point_history = []          # 記錄每回合得分的列表，用于計算滑動平均分num_p_av = 100                    # 計算最近多少回合的平均得分
epsilon = 1.0                     # ε-貪婪策略的初始探索率（完全隨機）# 創建經驗回放池（雙端隊列），容量 MEMORY_SIZE，滿時自動彈出最舊經驗
memory_buffer = deque(maxlen=MEMORY_SIZE)# 把主網絡（q_network）的權重一次性復制給目標網絡（target_q_network），保證初始同步
target_q_network.set_weights(q_network.get_weights())# ---------------- 主訓練循環 ----------------
for i in range(num_episodes):# 1. 重置環境，拿到初始狀態state = env.reset()total_points = 0          # 本回合累計得分# 2. 單回合內循環for t in range(max_num_timesteps):# 2-1 將狀態擴展成 batch=1 的形狀，喂給主網絡state_qn = np.expand_dims(state, axis=0)# 2-2 主網絡輸出每個動作的 Q 值q_values = q_network(state_qn)# 2-3 根據 ε-貪婪策略選擇動作action = utils.get_action(q_values, epsilon)# 2-4 在環境中執行動作，拿到下一步信息next_state, reward, done, _ = env.step(action)# 2-5 把五元組經驗存進回放池memory_buffer.append(experience(state, action, reward, next_state, done))# 2-6 判斷“是否到更新時機”：時間步滿足 + 回放池夠大update = utils.check_update_conditions(t, NUM_STEPS_FOR_UPDATE, memory_buffer)if update:# 2-6-1 從回放池隨機采樣一個 mini-batch 經驗experiences = utils.get_experiences(memory_buffer)# 2-6-2 用 DQN 算法更新主網絡權重agent_learn(experiences, GAMMA)# 2-7 狀態轉移，累加獎勵state = next_state.copy()total_points += reward# 2-8 如果回合結束，跳出內層循環if done:break# 3. 記錄本回合得分，計算最近 num_p_av 回合平均分total_point_history.append(total_points)av_latest_points = np.mean(total_point_history[-num_p_av:])# 4. 每回合遞減 ε（線性/指數衰減，函數內部實現）epsilon = utils.get_new_eps(epsilon)# 5. 實時打印進度（同一行覆蓋）print(f"\rEpisode {i+1} | Total point average of the last {num_p_av} episodes: {av_latest_points:.2f}", end="")# 6. 每 num_p_av 回合換行打印一次if (i+1) % num_p_av == 0:print(f"\rEpisode {i+1} | Total point average of the last {num_p_av} episodes: {av_latest_points:.2f}")# 7. 如果最近平均得分 ≥ 200，認為環境已解決if av_latest_points >= 200.0:print(f"\n\nEnvironment solved in {i+1} episodes!")q_network.save('lunar_lander_model.h5')   # 保存最終模型break# ---------------- 訓練結束，輸出總耗時 ----------------
tot_time = time.time() - start
print(f"\nTotal Runtime: {tot_time:.2f} s ({(tot_time/60):.2f} min)")

在深度Q學習（DQN）中，神經網絡訓練所需的數據來源于智能體與環境的交互過程。具體來說，數據生成和使用的流程如下：

數據生成（交互過程）：

- 智能體在環境中執行動作（基于當前策略，如ε-貪婪策略）。

- 環境返回執行動作后的結果：新的狀態（next_state）、獎勵（reward）以及是否終止（done）。

- 將每一步的交互結果存儲為一個五元組（state, action, reward, next_state, done），稱為一個經驗（experience）。
數據存儲（經驗回放池）：

- 這些經驗被存儲在一個固定大小的緩沖區中，稱為經驗回放池（experience replay buffer）。當緩沖區滿時，舊的經驗會被新的經驗覆蓋。
數據采樣（訓練數據來源）：

- 在訓練時，從經驗回放池中隨機采樣一批（mini-batch）經驗（例如，64個經驗樣本）。

- 這個隨機采樣的過程打破了數據之間的相關性（因為相鄰的經驗是相關的），使得訓練更加穩定。
數據使用（訓練網絡）：

- 對于每個采樣的經驗樣本（s, a, r, s’, done）：