多 Agent 強化學習實踐指南（一)：CTDE PPO 在合作捕食者-獵物游戲中的應用詳解

我們來詳細講解如何在合作捕食者-獵物游戲中結合 PPO (Proximal Policy Optimization) 算法。我們將聚焦于 CTDE（Centralized Training, Decentralized Execution，集中訓練、分散執行） 模式，因為這是處理合作多 Agent 任務的常用且有效的方法。

CTDE（Centralized Training, Decentralized Execution，集中訓練、分散執行）模式是一種在人工智能、機器人系統、多智能體協作等領域廣泛應用的框架，其核心思想是通過 “集中式訓練” 提升系統性能，再通過 “分散式執行” 確保系統的靈活性、效率和魯棒性。

合作捕食者-獵物游戲回顧

游戲目標

我們的目標是訓練多個 捕食者 Agent 來協作捕捉一個或多個 獵物 Agent。當所有捕食者 Agent 將獵物完全圍堵，使其無法移動時，即視為捕獲成功。

游戲元素

環境：一個網格地圖，可能有障礙物。
捕食者 Agent ( $N_P$ 個)：我們的學習主體，例如 3 個捕食者。它們需要學習如何互相配合。
獵物 Agent ( $N_E$ 個)：被捕獲的目標，例如 1 個獵物。為了簡化，獵物可以采取隨機移動、逃跑策略，或者是一個不會學習的簡單 AI。
狀態：
- 每個捕食者的局部觀測 ( $o_i$ )：例如，捕食者 $i$ 的當前位置、它周圍一小塊區域內的障礙物、其他捕食者和獵物的位置。
- 全局狀態 ( $s_g$ )：所有 Agent 的完整位置信息，環境中的所有障礙物位置等。這個全局狀態在訓練時會被中央 Critic 使用。
動作 ( $a_i$ )：每個捕食者 Agent 可以選擇向上、下、左、右移動一格，或保持不動。
獎勵 ( $R_t$ )：
- 捕獲獎勵：如果所有捕食者成功捕獲獵物，所有捕食者都獲得一個大的正獎勵（例如 $+ 100$ ）。
- 時間懲罰：每過一個時間步，所有捕食者都受到一個小小的負獎勵（例如 $? 1$ ），鼓勵它們盡快完成任務。
- 碰撞懲罰 (可選)：Agent 之間或 Agent 與障礙物碰撞時，給予小額懲罰。

結合 PPO 的 CTDE 模式

PPO 是一種 On-Policy 算法，它通過限制每次策略更新的幅度來提高訓練穩定性。在 CTDE 模式下，我們將利用一個中心化的 Critic 來評估全局狀態，為去中心化的 Actor (策略網絡) 提供更準確的指導。

1. 神經網絡架構

我們將為每個捕食者 Agent 設計一個策略網絡 (Actor) 和一個共享的價值網絡 (Critic)。

同質 (Homogeneous) Agent：指所有捕食者 Agent 在功能上、能力上和目標上都完全相同。它們執行相同的動作集，接收相同類型的觀測，并且都在為相同的團隊目標而努力。
異質 (Heterogeneous) Agent：指 Agent在功能、能力或角色上存在差異。例如，一個捕食者是“速度型”，另一個是“力量型”，或者它們被明確分配了不同的子任務（如一個專門堵左邊，一個專門追擊）。

a. 策略網絡 (Actor) $πθi(ai∣oi)\pi_{\theta_i}(a_i | o_i)$

每個捕食者 Agent 都有一個自己的 Actor 網絡（如果 Agent 是異質的），或者所有 Agent 共享一個 Actor 網絡（如果它們是同質的）。
輸入：每個 Actor 接收其局部觀測 $o_i$ 。
輸出：當前 Agent $i$ 在給定觀測 $o_i$ 下采取每個可能動作的概率分布。
- 例如，一個小型 MLP（多層感知機）或 CNN（如果觀測是網格圖像）。
- 通過 softmax 激活層將輸出轉換為概率。

b. 價值網絡 (Critic) $V?(sg)V_\phi(s_g)$

一個中心化的 Critic 網絡，所有捕食者 Agent 共享這個 Critic。
輸入：全局狀態 $s_g$ （或所有 Agent 的局部觀測拼接在一起）。
- 這樣 Critic 就能看到整個游戲的局面，從而更準確地評估當前狀態的價值。
輸出：一個單一的標量值，預測當前全局狀態下的預期總獎勵。
- 這通常也是一個 MLP。

2. PPO 訓練流程 (CTDE 模式)

PPO 的訓練是一個迭代過程：收集數據 -> 計算損失 -> 更新網絡 -> 重新收集數據。

步驟 1：數據收集 (去中心化執行)

初始化環境：將捕食者和獵物 Agent 放置在地圖上。
迭代模擬：
- 對于每個時間步 $t$ ，每個捕食者 Agent $i$ 根據其當前的策略網絡 $πθi\pi_{\theta_i}$ ，接收局部觀測 $o_{i,t}$ ，并從中采樣一個動作 $a_{i,t}$ 。
- 記錄每個 Agent 的動作概率 $P(a_{i,t} | o_{i,t})$ (來自 $πθi\pi_{\theta_i}$ 的輸出)。這些是我們的 $πθold\pi_{\theta_{\text{old}}}$ 的概率。
- 執行所有 Agent 的動作 $a_{1:N_P,t}$ ，環境轉移到新狀態，并給出團隊獎勵 $R_t$ 。
- 收集一整條軌跡 (episode)，或者達到預設的步數（例如 $K$ 步），然后將這些數據存入一個經驗緩沖區。存儲的內容包括： $o_{i,t}, a_{i,t}, R_t, P(a_{i,t} | o_{i,t}))$ 對于每個 Agent $i$ 。
- 重要提示：這里的 $R_t$ 是所有 Agent 共同獲得的團隊獎勵。

步驟 2：計算優勢函數 (Advantage Function)

在 PPO 中，我們使用優勢函數 $A^t\hat{A}_t$ 來衡量一個動作相對于平均水平的好壞。在 CTDE 中，我們用中心化的 Critic 來幫助計算這個優勢。

計算目標價值 ( $VtargetV_{\text{target}}$ )：對于軌跡中的每個時間步 $t$ ，目標價值 $VtargetV_{\text{target}}$ 可以通過折扣累積獎勵計算（即 $Rt+γRt+1+γ2Rt+2+…R_t + \gamma R_{t+1} + \gamma^2 R_{t+2} + \dots$ ），或者更常用的是使用 GAE (Generalized Advantage Estimation)廣義優勢估計 來平滑估計。
- GAE 公式：
  $δt=Rt+γV?(sg,t+1)?V?(sg,t)\delta_t = R_t + \gamma V_\phi(s_{g,t+1}) - V_\phi(s_{g,t})$
  $A^t=δt+γλδt+1+(γλ)2δt+2+…\hat{A}_t = \delta_t + \gamma \lambda \delta_{t+1} + (\gamma \lambda)^2 \delta_{t+2} + \dots$
  其中 $R_t$ 是在 $t$ 時刻的團隊獎勵， $γ\gamma$ 是折扣因子， $λ\lambda$ 是 GAE 參數。
- 關鍵點：這里的 $V?(sg,t)V_\phi(s_{g,t})$ 是由中心化的 Critic 網絡在全局狀態 $s_{g,t}$ 上預測的值。這是 CTDE 的核心，Critic 利用全局信息提供更準確的價值評估，幫助 Actor 計算更可靠的優勢。

步驟 3：計算 PPO 損失并更新網絡

從經驗緩沖區中采樣一批數據，然后進行 $E$ 個 epoch 的訓練。

計算策略損失 (Policy Loss) $LpolicyL^{\text{policy}}$ ：
- 對于每個 Agent $i$ ，在時間步 $t$ ：
  - 從當前的策略網絡 $πθi\pi_{\theta_i}$ 計算動作 $a_{i,t}$ 的新概率 $Pnew(ai,t∣oi,t)P_{\text{new}}(a_{i,t} | o_{i,t})$ 。
  - 計算策略概率比 $rt=Pnew(ai,t∣oi,t)Pold(ai,t∣oi,t)r_t = \frac{P_{\text{new}}(a_{i,t} | o_{i,t})}{P_{\text{old}}(a_{i,t} | o_{i,t})}$ 。這里的 $PoldP_{\text{old}}$ 是在數據收集階段記錄的概率。
  - 應用 Clipped Surrogate Objective：
    $Lipolicy=?Et[min?(rtA^t,clip(rt,1??,1+?)A^t)]L^{\text{policy}}_i = -\mathbb{E}_t \left[ \min \left( r_t \hat{A}_t, \text{clip}(r_t, 1 - \epsilon, 1 + \epsilon) \hat{A}_t \right) \right]$
    注意，每個 Agent 的策略損失都使用相同的 $A^t\hat{A}_t$ ，因為 $A^t\hat{A}_t$ 是基于團隊獎勵和中心化 Critic 估算的。
- 總策略損失：所有 Agent 的策略損失之和 $Lpolicy=∑i=1NPLipolicyL^{\text{policy}} = \sum_{i=1}^{N_P} L^{\text{policy}}_i$ 。
計算價值損失 (Value Loss) $LvalueL^{\text{value}}$ ：
- 使用中心化 Critic 網絡 $V?V_\phi$ 預測當前全局狀態 $s_{g,t}$ 的價值 $V?(sg,t)V_\phi(s_{g,t})$ 。
- 計算均方誤差損失：
  $Lvalue=Et[(V?(sg,t)?Vtarget(sg,t))2]L^{\text{value}} = \mathbb{E}_t \left[ \left( V_\phi(s_{g,t}) - V_{\text{target}}(s_{g,t}) \right)^2 \right]$
  其中 $Vtarget(sg,t)V_{\text{target}}(s_{g,t})$ 可以是 GAE 計算出的 $Rt+γV?(sg,t+1)R_t + \gamma V_\phi(s_{g,t+1})$ 。
熵獎勵 (Entropy Bonus)：
- 為了鼓勵探索，我們通常會加入一個熵獎勵項 $H(πθi)H(\pi_{\theta_i})$ 到策略損失中。
- $H(πθi)H(\pi_{\theta_i})$ 是 Agent $i$ 策略的熵，熵越高表示策略越隨機。
- 總損失中會減去這個項： $?c2?∑i=1NPH(πθi)-c_2 \cdot \sum_{i=1}^{N_P} H(\pi_{\theta_i})$ 。
總損失函數 $L$ ：
$L^{\text{policy}} + c_1 \cdot L^{\text{value}} - c_2 \cdot \sum_{i=1}^{N_P} H(\pi_{\theta_i})$
其中 $c_1, c_2$ 是超參數，用于平衡不同損失項的重要性。
優化：使用 Adam 等優化器對總損失 $L$ 進行反向傳播，更新所有 Actor 網絡 $θi\theta_i$ 和 Critic 網絡 $?\phi$ 的參數。

步驟 4：重復

訓練 $E$ 個 epoch 后，丟棄經驗緩沖區中的舊數據。
返回步驟 1，使用更新后的策略網絡重新收集新的數據。

為什么 CTDE PPO 適合這個游戲？

處理非平穩性：雖然每個 Agent 獨立執行，但中心化的 Critic 能夠看到所有 Agent 的行為和全局環境，這使得它能夠更好地處理其他 Agent 策略變化帶來的環境非平穩性。
信用分配：通過使用統一的團隊獎勵和中心化的價值函數，PPO 能夠將成功的團隊行為的獎勵有效分配給每個 Agent，即使單個 Agent 的貢獻在局部觀測下不明顯。
PPO 的穩定性：PPO 固有的策略截斷機制有助于防止策略更新過大，這在多 Agent 環境中尤其重要，因為環境的動態性更高。

實現上的關鍵點

環境接口：確保你的環境能為每個 Agent 提供其局部觀測，并能接收所有 Agent 的動作。
并行化：為了提高數據收集效率，可以并行運行多個環境實例，讓多個 Agent 同時進行探索。
超參數調優：PPO 的性能對超參數（學習率、 $γ,λ,?,c1,c2\gamma, \lambda, \epsilon, c_1, c_2$ ）比較敏感，需要仔細調優。