我們來詳細講解如何在合作捕食者-獵物游戲中結合 PPO (Proximal Policy Optimization) 算法。我們將聚焦于 CTDE(Centralized Training, Decentralized Execution,集中訓練、分散執行) 模式,因為這是處理合作多 Agent 任務的常用且有效的方法。
CTDE(Centralized Training, Decentralized Execution,集中訓練、分散執行)模式是一種在人工智能、機器人系統、多智能體協作等領域廣泛應用的框架,其核心思想是通過 “集中式訓練” 提升系統性能,再通過 “分散式執行” 確保系統的靈活性、效率和魯棒性。
合作捕食者-獵物游戲回顧
游戲目標
我們的目標是訓練多個 捕食者 Agent 來協作捕捉一個或多個 獵物 Agent。當所有捕食者 Agent 將獵物完全圍堵,使其無法移動時,即視為捕獲成功。
游戲元素
- 環境:一個網格地圖,可能有障礙物。
- 捕食者 Agent (NPN_PNP? 個):我們的學習主體,例如 3 個捕食者。它們需要學習如何互相配合。
- 獵物 Agent (NEN_ENE? 個):被捕獲的目標,例如 1 個獵物。為了簡化,獵物可以采取隨機移動、逃跑策略,或者是一個不會學習的簡單 AI。
- 狀態:
- 每個捕食者的局部觀測 (oio_ioi?):例如,捕食者 iii 的當前位置、它周圍一小塊區域內的障礙物、其他捕食者和獵物的位置。
- 全局狀態 (sgs_gsg?):所有 Agent 的完整位置信息,環境中的所有障礙物位置等。這個全局狀態在訓練時會被中央 Critic 使用。
- 動作 (aia_iai?):每個捕食者 Agent 可以選擇向上、下、左、右移動一格,或保持不動。
- 獎勵 (RtR_tRt?):
- 捕獲獎勵:如果所有捕食者成功捕獲獵物,所有捕食者都獲得一個大的正獎勵(例如 +100+100+100)。
- 時間懲罰:每過一個時間步,所有捕食者都受到一個小小的負獎勵(例如 ?1-1?1),鼓勵它們盡快完成任務。
- 碰撞懲罰 (可選):Agent 之間或 Agent 與障礙物碰撞時,給予小額懲罰。
結合 PPO 的 CTDE 模式
PPO 是一種 On-Policy 算法,它通過限制每次策略更新的幅度來提高訓練穩定性。在 CTDE 模式下,我們將利用一個中心化的 Critic 來評估全局狀態,為去中心化的 Actor (策略網絡) 提供更準確的指導。
1. 神經網絡架構
我們將為每個捕食者 Agent 設計一個策略網絡 (Actor) 和一個共享的價值網絡 (Critic)。
同質 (Homogeneous) Agent:指所有捕食者 Agent 在功能上、能力上和目標上都完全相同。它們執行相同的動作集,接收相同類型的觀測,并且都在為相同的團隊目標而努力。
異質 (Heterogeneous) Agent:指 Agent在功能、能力或角色上存在差異。例如,一個捕食者是“速度型”,另一個是“力量型”,或者它們被明確分配了不同的子任務(如一個專門堵左邊,一個專門追擊)。
a. 策略網絡 (Actor) πθi(ai∣oi)\pi_{\theta_i}(a_i | o_i)πθi??(ai?∣oi?)
- 每個捕食者 Agent 都有一個自己的 Actor 網絡(如果 Agent 是異質的),或者所有 Agent 共享一個 Actor 網絡(如果它們是同質的)。
- 輸入:每個 Actor 接收其局部觀測 oio_ioi?。
- 輸出:當前 Agent iii 在給定觀測 oio_ioi? 下采取每個可能動作的概率分布。
- 例如,一個小型 MLP(多層感知機)或 CNN(如果觀測是網格圖像)。
- 通過
softmax
激活層將輸出轉換為概率。
b. 價值網絡 (Critic) V?(sg)V_\phi(s_g)V??(sg?)
- 一個中心化的 Critic 網絡,所有捕食者 Agent 共享這個 Critic。
- 輸入:全局狀態 sgs_gsg?(或所有 Agent 的局部觀測拼接在一起)。
- 這樣 Critic 就能看到整個游戲的局面,從而更準確地評估當前狀態的價值。
- 輸出:一個單一的標量值,預測當前全局狀態下的預期總獎勵。
- 這通常也是一個 MLP。
2. PPO 訓練流程 (CTDE 模式)
PPO 的訓練是一個迭代過程:收集數據 -> 計算損失 -> 更新網絡 -> 重新收集數據。
步驟 1:數據收集 (去中心化執行)
- 初始化環境:將捕食者和獵物 Agent 放置在地圖上。
- 迭代模擬:
- 對于每個時間步 ttt,每個捕食者 Agent iii 根據其當前的策略網絡 πθi\pi_{\theta_i}πθi??,接收局部觀測 oi,to_{i,t}oi,t?,并從中采樣一個動作 ai,ta_{i,t}ai,t?。
- 記錄每個 Agent 的動作概率 P(ai,t∣oi,t)P(a_{i,t} | o_{i,t})P(ai,t?∣oi,t?) (來自 πθi\pi_{\theta_i}πθi?? 的輸出)。這些是我們的 πθold\pi_{\theta_{\text{old}}}πθold?? 的概率。
- 執行所有 Agent 的動作 a1:NP,ta_{1:N_P,t}a1:NP?,t?,環境轉移到新狀態,并給出團隊獎勵 RtR_tRt?。
- 收集一整條軌跡 (episode),或者達到預設的步數(例如 KKK 步),然后將這些數據存入一個經驗緩沖區。存儲的內容包括:(oi,t,ai,t,Rt,P(ai,t∣oi,t))(o_{i,t}, a_{i,t}, R_t, P(a_{i,t} | o_{i,t}))(oi,t?,ai,t?,Rt?,P(ai,t?∣oi,t?)) 對于每個 Agent iii。
- 重要提示:這里的 RtR_tRt? 是所有 Agent 共同獲得的團隊獎勵。
步驟 2:計算優勢函數 (Advantage Function)
在 PPO 中,我們使用優勢函數 A^t\hat{A}_tA^t? 來衡量一個動作相對于平均水平的好壞。在 CTDE 中,我們用中心化的 Critic 來幫助計算這個優勢。
- 計算目標價值 (VtargetV_{\text{target}}Vtarget?):對于軌跡中的每個時間步 ttt,目標價值 VtargetV_{\text{target}}Vtarget? 可以通過折扣累積獎勵計算(即 Rt+γRt+1+γ2Rt+2+…R_t + \gamma R_{t+1} + \gamma^2 R_{t+2} + \dotsRt?+γRt+1?+γ2Rt+2?+…),或者更常用的是使用 GAE (Generalized Advantage Estimation)廣義優勢估計 來平滑估計。
- GAE 公式:
δt=Rt+γV?(sg,t+1)?V?(sg,t)\delta_t = R_t + \gamma V_\phi(s_{g,t+1}) - V_\phi(s_{g,t})δt?=Rt?+γV??(sg,t+1?)?V??(sg,t?)
A^t=δt+γλδt+1+(γλ)2δt+2+…\hat{A}_t = \delta_t + \gamma \lambda \delta_{t+1} + (\gamma \lambda)^2 \delta_{t+2} + \dotsA^t?=δt?+γλδt+1?+(γλ)2δt+2?+…
其中 RtR_tRt? 是在 ttt 時刻的團隊獎勵,γ\gammaγ 是折扣因子,λ\lambdaλ 是 GAE 參數。 - 關鍵點:這里的 V?(sg,t)V_\phi(s_{g,t})V??(sg,t?) 是由中心化的 Critic 網絡在全局狀態 sg,ts_{g,t}sg,t? 上預測的值。這是 CTDE 的核心,Critic 利用全局信息提供更準確的價值評估,幫助 Actor 計算更可靠的優勢。
- GAE 公式:
步驟 3:計算 PPO 損失并更新網絡
從經驗緩沖區中采樣一批數據,然后進行 EEE 個 epoch 的訓練。
-
計算策略損失 (Policy Loss) LpolicyL^{\text{policy}}Lpolicy:
- 對于每個 Agent iii,在時間步 ttt:
- 從當前的策略網絡 πθi\pi_{\theta_i}πθi?? 計算動作 ai,ta_{i,t}ai,t? 的新概率 Pnew(ai,t∣oi,t)P_{\text{new}}(a_{i,t} | o_{i,t})Pnew?(ai,t?∣oi,t?)。
- 計算策略概率比 rt=Pnew(ai,t∣oi,t)Pold(ai,t∣oi,t)r_t = \frac{P_{\text{new}}(a_{i,t} | o_{i,t})}{P_{\text{old}}(a_{i,t} | o_{i,t})}rt?=Pold?(ai,t?∣oi,t?)Pnew?(ai,t?∣oi,t?)?。這里的 PoldP_{\text{old}}Pold? 是在數據收集階段記錄的概率。
- 應用 Clipped Surrogate Objective:
Lipolicy=?Et[min?(rtA^t,clip(rt,1??,1+?)A^t)]L^{\text{policy}}_i = -\mathbb{E}_t \left[ \min \left( r_t \hat{A}_t, \text{clip}(r_t, 1 - \epsilon, 1 + \epsilon) \hat{A}_t \right) \right]Lipolicy?=?Et?[min(rt?A^t?,clip(rt?,1??,1+?)A^t?)]
注意,每個 Agent 的策略損失都使用相同的 A^t\hat{A}_tA^t?,因為 A^t\hat{A}_tA^t? 是基于團隊獎勵和中心化 Critic 估算的。
- 總策略損失:所有 Agent 的策略損失之和 Lpolicy=∑i=1NPLipolicyL^{\text{policy}} = \sum_{i=1}^{N_P} L^{\text{policy}}_iLpolicy=∑i=1NP??Lipolicy?。
- 對于每個 Agent iii,在時間步 ttt:
-
計算價值損失 (Value Loss) LvalueL^{\text{value}}Lvalue:
- 使用中心化 Critic 網絡 V?V_\phiV?? 預測當前全局狀態 sg,ts_{g,t}sg,t? 的價值 V?(sg,t)V_\phi(s_{g,t})V??(sg,t?)。
- 計算均方誤差損失:
Lvalue=Et[(V?(sg,t)?Vtarget(sg,t))2]L^{\text{value}} = \mathbb{E}_t \left[ \left( V_\phi(s_{g,t}) - V_{\text{target}}(s_{g,t}) \right)^2 \right]Lvalue=Et?[(V??(sg,t?)?Vtarget?(sg,t?))2]
其中 Vtarget(sg,t)V_{\text{target}}(s_{g,t})Vtarget?(sg,t?) 可以是 GAE 計算出的 Rt+γV?(sg,t+1)R_t + \gamma V_\phi(s_{g,t+1})Rt?+γV??(sg,t+1?)。
-
熵獎勵 (Entropy Bonus):
- 為了鼓勵探索,我們通常會加入一個熵獎勵項 H(πθi)H(\pi_{\theta_i})H(πθi??) 到策略損失中。
- H(πθi)H(\pi_{\theta_i})H(πθi??) 是 Agent iii 策略的熵,熵越高表示策略越隨機。
- 總損失中會減去這個項:?c2?∑i=1NPH(πθi)-c_2 \cdot \sum_{i=1}^{N_P} H(\pi_{\theta_i})?c2??∑i=1NP??H(πθi??)。
-
總損失函數 LLL:
L=Lpolicy+c1?Lvalue?c2?∑i=1NPH(πθi)L = L^{\text{policy}} + c_1 \cdot L^{\text{value}} - c_2 \cdot \sum_{i=1}^{N_P} H(\pi_{\theta_i})L=Lpolicy+c1??Lvalue?c2??i=1∑NP??H(πθi??)
其中 c1,c2c_1, c_2c1?,c2? 是超參數,用于平衡不同損失項的重要性。 -
優化:使用 Adam 等優化器對總損失 LLL 進行反向傳播,更新所有 Actor 網絡 θi\theta_iθi? 和 Critic 網絡 ?\phi? 的參數。
步驟 4:重復
- 訓練 EEE 個 epoch 后,丟棄經驗緩沖區中的舊數據。
- 返回步驟 1,使用更新后的策略網絡重新收集新的數據。
為什么 CTDE PPO 適合這個游戲?
- 處理非平穩性:雖然每個 Agent 獨立執行,但中心化的 Critic 能夠看到所有 Agent 的行為和全局環境,這使得它能夠更好地處理其他 Agent 策略變化帶來的環境非平穩性。
- 信用分配:通過使用統一的團隊獎勵和中心化的價值函數,PPO 能夠將成功的團隊行為的獎勵有效分配給每個 Agent,即使單個 Agent 的貢獻在局部觀測下不明顯。
- PPO 的穩定性:PPO 固有的策略截斷機制有助于防止策略更新過大,這在多 Agent 環境中尤其重要,因為環境的動態性更高。
實現上的關鍵點
- 環境接口:確保你的環境能為每個 Agent 提供其局部觀測,并能接收所有 Agent 的動作。
- 并行化:為了提高數據收集效率,可以并行運行多個環境實例,讓多個 Agent 同時進行探索。
- 超參數調優:PPO 的性能對超參數(學習率、γ,λ,?,c1,c2\gamma, \lambda, \epsilon, c_1, c_2γ,λ,?,c1?,c2?)比較敏感,需要仔細調優。
這個例子提供了一個扎實的基礎,能夠理解 PPO 在合作多 Agent 環境中的應用。隨著你對這個例子的理解加深,你可以嘗試更復雜的合作任務,引入更聰明的獵物,或者探索其他 MARL 算法。