面向自主多星對地觀測的多智能體強化學習

大家讀完覺的有幫助記得及時關注和點贊！！！

抽象

近地軌道（LEO）衛星的指數級增長徹底改變了地球觀測（EO）任務，解決了氣候監測、災害管理等方面的挑戰。然而，多衛星系統中的自主協調仍然是一個根本性的挑戰。傳統的優化方法難以處理動態 EO 任務的實時決策需求，因此需要使用強化學習（RL）和多智能體強化學習（MARL）。在本文中，我們通過對單衛星作進行建模并使用 MARL 框架擴展到多衛星星座來研究基于 RL 的自主 EO 任務規劃。我們解決了關鍵挑戰，包括能源和數據存儲限制、衛星觀測的不確定性以及部分可觀測性下分散協調的復雜性。通過利用近乎真實的衛星模擬環境，我們評估了最先進的 MARL 算法（包括 PPO、IPPO、MAPPO 和 HAPPO）的訓練穩定性和性能。我們的結果表明，MARL 可以有效地平衡成像和資源管理，同時解決多衛星協調中的非平穩性并獎勵相互依賴性。從這項研究中獲得的見解為自主衛星作奠定了基礎，為改善分散式 EO 任務中的政策學習提供了實用指南。

關鍵字：

?強化學習多智能體強化學習衛星系統地球觀測任務。

1介紹

近地軌道（LEO）衛星的快速擴展顯著增強了地球觀測（EO）任務，推動了氣候監測、災害響應、農業規劃和城市發展的進步。然而，由于空間環境的動態性和不確定性，自主管理多衛星星座仍然是一項根本性挑戰[1,2,3,4].與傳統的預先計劃的任務不同，自主 EO作需要衛星做出實時決策，同時管理資源限制，在部分可觀測性下運行，并與其他衛星進行自適應協調[5,6].這些挑戰來自幾個因素：觀測條件的不確定性，例如太陽照射的變化影響能量可用性和成像成功;對電池電量、數據存儲和反作用輪的嚴格資源限制，這需要高效的任務調度;以及多智能體環境中的非平穩性，其中每顆衛星的行動不斷改變系統動態，使學習穩定性復雜化[7,8].此外，衛星行動的相互依存使得實現任務目標變得更加復雜，因為運營成功不僅取決于個人決策，還取決于整個星座的協調努力[9,10].傳統的優化技術難以解決這些問題，因為它們依賴于預定義的啟發式方法，并且對實時運營需求的適應性有限，因此需要更先進的自主決策方法。

強化學習（RL）已成為在 EO 任務中實現自主決策的一種很有前途的替代方案，并已應用于單衛星調度，使衛星能夠平衡成像、能耗和數據管理[11,12].然而，隨著 EO 任務越來越依賴多衛星星座，問題不僅限于單個智能體決策，還延伸到多個衛星之間的分散協調，這需要多智能體強化學習（MARL）。 MARL 為多衛星任務中的去中心化決策提供了一個框架，其中每顆衛星都作為獨立的代理運行[13]. 使用集中式 RL 進行衛星星座的早期研究[14,15]難以實現可擴展性并依賴持續通信，這對于實際任務來說通常是不切實際的。為了緩解這種情況，已經提出了基于 MARL 的框架[16]，假設衛星不斷交換信息的理想通信條件。然而，在分散執行環境中，這種方法會帶來沉重的通信負擔，因為每顆衛星通常僅根據其本地觀測來運行。

圖 1：多衛星集群圖像捕獲任務場景：集群星座中的 Sat-1 到 Sat-4 共享相同的四個目標機會窗口。Sat-1 作為領先的衛星，可以優先進入地面站并提前捕獲 Target-1。其他衛星必須捕獲不同的目標，以確保捕獲獨特的圖像。此行為在多代理系統中引入了非平穩性問題。每顆衛星都有自己的電池（Batt.）和數據存儲（Mem.）資源，它們可能在同一時間步長處于不同的級別t.該情景突出了自主 EO 任務中衛星之間協調和有效資源管理的重要性。

為了應對這些溝通和協調挑戰，已經開發了各種 MARL 學習框架，包括完全集中（CTCE）、完全分散（DTDE）和集中培訓分散執行（CTDE）[17].CTCE 依賴于持續的信息交換，因此對于通信受限的大規模 EO 任務來說是不切實際的。DTDE 消除了通信依賴性，但限制了協調能力，因為每顆衛星都做出獨立的決策。CTDE 通過集中訓練和分散執行來提供平衡，允許衛星在訓練期間學習協調策略，同時根據當地觀測自主運行。最近的進展，例如多代理近端策略優化（MAPPO）[18]和異質性藥物近端策略優化（HAPPO）[19,20]遵循此范式，在實際約束下促進有效的多衛星協調。

這項工作對使用 RL 的自主 EO 任務進行了全面研究，并在三個不同的學習框架中開發了 MARL。我們的貢獻包括：1）一種結構化的 EO 任務規劃建模方法，將具有 RL 的單衛星擴展到使用 MARL 的多衛星協調（見圖 1）。這種方法的靈感來自實際的空間系統應用，并結合了衛星特定的作因素，例如不同的狀態轉換概率（例如，日食條件）、動作執行延遲、不確定性和非平穩性。2）深入研究單衛星場景中的 RL 和多衛星 EO 任務中的 MARL 的學習穩定性和優化挑戰。該研究確定了在這些環境中導致學習過程不穩定的關鍵因素，例如環境動力學和代理交互。3）對用于自主 EO 任務的最新 RL 和 MARL 算法進行全面性能評估，將用于單衛星任務的 RL 框架（例如 PPO）與 MARL 框架（例如，完全集中式 PPO、獨立 PPO （IPPO））進行比較[21]、MAPPO 和 HAPPO）進行多衛星協調。該分析強調了這些方法在解決可擴展性、協調性和適應性挑戰方面的優勢和局限性。該代碼已公開提供11https://anonymous.4open.science/r/Multi-Sat-MARL-2025，其中包含我們實驗場景的演示視頻。

本文的其余部分結構如下：第二部分介紹了問題陳述，從單衛星場景到多衛星場景。第 III 節描述了用于解決問題的算法。第四部分詳細介紹了我們的實驗評估和結果。最后，第五節總結了本文并討論了未來的方向。

2問題陳述

本節討論了自主多衛星地球觀測任務問題的正式模型。衛星的目標是在其軌道上捕獲盡可能多的獨特圖像（參見圖?1?中的詳細插圖）。以前關于單星 EO 任務的工作在著名的強化學習框架中將問題表述為順序決策任務，即部分可觀察馬爾可夫決策過程（POMDP）[15,22].在此基礎上，我們將多衛星 EO 任務正式定義為去中心化 POMDP （Dec-POMDP）模型，該模型從單代理 MDP 框架擴展而來。

單個 EO 衛星充當代理，根據其當前狀態以離散的時間步長做出決策。模擬定義了四種可能的作：1）捕獲我-第 -個圖像目標，其中衛星必須將其光學成像傳感器對準選定的目標 -我在地球上并將其存儲在機載內存中;2）下行鏈路，即衛星在可以訪問地面站時傳輸收集的 EO 圖像數據;3）充電，包括將衛星重新定向到太陽，以最大限度地吸收太陽能為其電池充電;4）去飽和，確保反作用輪（RW），即姿態控制的主要執行器，在安全的工作范圍內運行。

為了將自主衛星決策過程正式表示為 POMDP，我們將問題定義為元組：𝒢=?𝒮,一個,𝒪,𝒯,r,𝒵,γ?,哪里𝒮表示一組有限的狀態，這些狀態定義了衛星在太空中的真實基本條件，該條件是不可完全觀測的。一個是一組有限的可用作，包括捕獲、下行鏈路、充電和去飽和。𝒪是代理可以接收的有限觀測值集，例如電池電量、數據存儲可用性、反作用輪速度、目標機會窗口、地面站訪問窗口、日食狀態和時間。轉移概率函數𝒯?(st,一個t,st+1)=P?(st+1|st,一個t)定義轉換到 state 的概率st+1從st執行作后一個t.獎勵函數r確定在給定狀態下執行作的即時獎勵。此 EO 任務的獎勵函數定義為：

哪里ρj∈[0,1]表示基于 Target 的優先級的獎勵-j.這個獎勵函數是給代理者的重要反饋，表明代理者的策略表現。負獎勵設置為比成功捕獲目標大 100 倍，以防止代理程序進入失敗條件。最終，如果捕獲許多目標會導致衛星出現故障模式，那么它的價值就會降低。如果衛星發生故障，則會觸發故障條件，表示為：

觀測概率函數𝒵?(ot,st+1,一個t)=P?(ot|st+1,一個t)定義觀測的概率ot假設系統處于st+1采取行動后一個t.最后，折扣因子γ∈[0,1]確定未來獎勵的重要性。

2.1單衛星問題

約束和限制：在我們的研究中，這顆衛星有兩個有限的資源被認為是限制因素：電池電量（bt∈[Bm?我?n,Bm?一個?x]）和數據存儲容量（dt∈[Dm?我?n,Dm?一個?x]）在任何時間步（t).在每個時間步，衛星都會消耗電力，表示為cb,我存儲數據，表示為cd,我.為了最大限度地利用電池充電，衛星必須調整其對太陽的姿態，這可能會與其目標成像方向發生沖突。另一個約束來自姿態控制，特別是反作用輪（RW）的速度，表示為Ω^∈[?Ωm?一個?x,Ωm?一個?x].這些輪子用作沿三個軸（x,y,z).為防止超過最大速度閾值，衛星必須定期對車輪進行去飽和。有限的資源約束在數學上表示為：∑t=0∞cb,t≤bt,Bm?我?n≤bt≤Bm?一個?x和∑t=0∞cd,t≤dt,Dm?我?n≤dt≤Dm?一個?x.這些約束在獎勵函數中作為失敗（方程?2）合并到模型中，導致懲罰或負獎勵。其他一些約束因素，如通信波特率，對系統性能有相關影響，但它不是導致衛星故障情況的主要因素。

不確定性和隨機性：由于噪聲、干擾和不可預測的變化，現實世界的系統本身就涉及不確定性。在 EO 衛星任務中，這種不確定性與資源可用性密切相關，資源可用性影響觀測概率函數和行動必要性。初始電池電量會影響學習穩定性，因為只能在無陰影區域充電。同樣，有限的初始數據存儲要求策略平衡成像和下行鏈路，以維護內存以供將來捕獲。因此，初始資源可用性直接影響觀測質量和行動可行性，在 POMDP 公式中起著關鍵作用。POMDP 元組定義（𝒢）本身就捕獲了這些不確定性，因為衛星在運行期間缺乏完整的狀態可觀測性。

2.2多衛星問題

多衛星協調：在合作?MARL 中，代理共享一個全局目標并優化一個共同的獎勵函數（方程?1）。這項工作采用了去中心化部分可觀察馬爾可夫決策過程（Dec-POMDP）?框架，非常適合多衛星 EO 任務，其中每個代理都根據本地觀測采取行動[23]. Dec-POMDP 由元組定義：𝒟=?S,{一個我}我=1N,T,r,{O我}我=1N,O,N,γ?,哪里S表示環境狀態集，每個代理我具有作空間一個我，形成關節動作空間一個=一個1×?×一個N為N代理。狀態轉換函數T:S×一個×S→[0,1]描述從 state 轉換的概率s自s′鑒于聯合行動一個=(一個1,…,一個N).全局獎勵函數r:S×一個→?根據聯合作提供反饋。每個代理我具有觀察空間O我，聯合觀察空間為O=O1×?×ON.觀察功能O:S×一個×O→[0,1]定義代理接收觀察的概率o我給定狀態s和聯合行動一個.代理數為N和γ∈[0,1]是 Discount Factor，它控制未來獎勵的重要性。由于 Dec-POMDP 在分散執行下運行，因此每顆衛星僅根據其部分觀測做出決策，同時仍為共同目標做出貢獻。這種分散但合作的性質為協調衛星之間的圖像捕獲帶來了挑戰，因為它們必須在沒有直接通信的情況下推斷他人的行動。

非平穩性：在多衛星設置中出現非平穩性是因為，隨著座席在培訓期間更新其策略，環境會不斷發展。當一個代理更新其策略時，它會為其他代理更改環境，從而導致狀態和作的分布發生變化。這違反了大多數強化學習算法中的平穩性假設，導致訓練不穩定。另一個挑戰是獎勵相互依存性，即衛星的獎勵受其他衛星的行為影響。例如，基于唯一圖像捕獲的全局獎勵取決于聯合動作向量一個=(一個1,一個2,…,一個N).隨著衛星調整其政策，獎勵格局會發生變化，從而增加政策學習的復雜性。

3方法

為了解決自主 EO 任務的 POMDP 和 Dec-POMDP，選擇了無模型方法，因為它具有直接學習策略的靈活性，特別是當系統模型復雜且高度動態時。因此，RL 最初是為處理單星 EO 任務而量身定制的，然后擴展到具有多衛星星座的 MARL。

3.1強化學習

單衛星具有板載處理器，以執行最佳自主策略。在這里，衛星被定義為在執行 EO 任務期間解決衛星決策的代理。RL 用于學習最佳策略（π?），它將狀態映射到作π?(一個t|st)并隨著時間的推移最大限度地提高預期的累積獎勵或回報[24].返回時間步t表示Rt表示為折扣獎勵的總和Rt=∑我=0∞γ我?rt+我+1.為了衡量在特定策略下觀察的好壞，將 State-Value 函數定義為從方程?1?獲得的預期累積獎勵：Vπ?(s)=𝔼π?[Rt|St=s]和一個 Action-Value 函數：Qπ?(s,一個)=𝔼π?[Rt|St=s,一個t=一個].

近端策略優化：在各種 RL 方法中，我們的工作重點是政策方法，即近端政策優化（PPO）[25].該算法是一種廣泛使用的強化學習（RL）算法，特別適用于解決高維問題。它屬于具有 Actor-critic 網絡架構的策略優化方法家族，其目標是直接優化策略，而不是學習價值函數。PPO 旨在改進政策πθ?(一個|s)，參數化為θ，以最大化預期的累積獎勵：J?(θ)=𝔼τ～πθ?[∑t=0∞γt?rt].而不是直接優化J?(θ)，PPO 使用代理目標函數來限制策略更新并穩定訓練階段：

哪里rt?(θ)=πθ?(一個|s)πθo?l?d?(一個|s)是新舊策略之間的概率比。一個^t是估計的優勢函數，通常使用廣義優勢估計（GAE）計算。和ε是控制裁剪范圍的超參數。“clip” 項確保rt?(θ)不會與 1 相差太大，從而避免過大的策略更新。這樣可以穩定訓練并防止性能崩潰，這更適合于具有不確定性和隨機性的真實衛星模擬。 PPO 還包括一個 value 函數 loss，以改進策略的狀態 value 預測：L價值?(θ)=𝔼t?[(Vθ?(st)?Vt目標)2].然后，為了鼓勵探索，添加了一個熵獎勵項：L熵?(θ)=𝔼t?[?πθ?(一個t|st)?日志?πθ?(一個t|st)].PPO 的總損失函數是替代目標、值函數損失和熵獎勵的組合：L總?(θ)=LPPO （PPO）?(θ)?c1?L價值?(θ)+c2?L熵?(θ)哪里c1和c2是用于平衡不同項的貢獻的系數。

3.2多智能體強化學習

有效的多衛星星座管理需要協同控制，以優化全球性能并增強 EO 任務。MARL 將 RL 擴展到多智能體設置，允許智能體同時學習和交互[26].自主決策可以在單個資源（處理衛星或地面站）中執行，也可以通過機載處理進行分發。集中培訓分散執行（CTDE）學習范式：該框架在訓練期間利用集中信息和在執行期間實現分散決策之間取得了平衡。此外，它還支持可擴展性功能和實際適用性。每個代理我∈𝒩學習策略π我?(一個我|o我)哪里o我是 agent- 的局部觀測值我.培訓使用集中的評論家Qθ?(o,一個)根據全球觀測評估聯合行動𝒐:Qθ?(s,一個)=𝔼?[∑t=0∞γt?r?(st,一個t)∣s0=s,一個0=一個].在執行過程中，每個代理的策略仍然以去中心化的方式進行：π我?(一個我|o我).在我們的工作中，選擇了 CTDE 中的兩個最新技術，與完全集中式和分散式算法進行比較：

1）多代理 PPO （MAPPO）?是專為多代理系統設計的 PPO 的擴展[18].它結合了集中的批評者和分散的策略，以提高 MARL 任務的性能。MAPPO 使用所有代理共享的單一集中式批評器，允許對全局狀態進行評估以穩定學習并減輕非平穩性：V我集中?(s)≈𝔼?[∑t=0∞γt?r我,t∣s0=s]哪里s表示全局狀態，γ是折扣系數，而rt是時間步的獎勵t.MAPPO 中策略優化的損失函數由下式給出：

哪里：rt?(θ我)=πθ我?(一個t∣ot)πθ我老?(一個t∣ot)是概率比，一個^t是全局優勢函數，而ε是裁剪參數。

2）異構代理 PPO （HAPPO）?通過考慮具有不同狀態作空間或角色的異構代理以及順序更新方案來擴展 MAPPO[20].它使用個人優勢職能和分散的政策，同時保持集中的批評者。在 HAPPO 中，集中價值函數是特定于代理的，用于處理異構代理：V我集中?(s)≈𝔼?[∑t=0∞γt?r我,t∣s0=s]哪里我表示代理索引，r我,t是特定于 agent 的獎勵我.并且，HAPPO 的損失函數表示為：

哪里r我,t?(θ我)=πθ我?(一個我,t∣o我,t)πθ我老?(一個我,t∣o我,t)和一個^我,t是 agent 的優勢功能我.

MAPPO 和 HAPPO 在 CTDE 范式中都有效運行。它在集中式批評者中具有主要區別，其中 MAPPO 使用單一的全局批評者進行共享評估，而 HAPPO 則納入特定于代理的批評者，以便在異構系統中具有更大的靈活性。它共享相同的分散執行設置，其中每個代理僅根據本地觀察執行其策略，使這些算法適用于全局狀態信息在執行期間不可用的真實場景。

4實驗結果

我們的實驗評估了 EO 任務的性能，以從 2 倍軌道內全球 2,000 個均勻分布的目標中捕獲盡可能多的獨特圖像。我們的實驗包括兩部分：（1）將單藥 RL 應用于單顆衛星以評估 RL 的有效性，以及（2）通過擴展到四顆衛星星座來引入 MARL。BSK-RL 中的可調衛星參數列在補充文件中。在多衛星實驗中，我們評估了 Walker-delta 和 Cluster 軌道類型。

4.1單衛星 RL

在我們的實驗中，為了證明有限資源可用性問題，電池和數據存儲容量被定義為：B=(50,400)Wh、電池和D=(5,500)GB 的數據存儲。發射器波特率定義為B?d?r=(0.5,4.3)Mbps 和捕獲的圖像大小我?m?g=(S?m?一個?l?l?(S),L?一個?r?g?e?(L)).結果在補充文件圖 1 中提供。左側，通常，資源容量較高，對 PPO 學習性能的挑戰較小。有限的數據存儲資源對學習性能的降低比其他資源更大。有限的電池資源會導致學習性能多次顯著下降，因為它會觸發失敗懲罰。

此外，我們還評估了 PPO 在各種不確定性和隨機性挑戰來源下的性能（參見補充文件圖 1）。隨機性引入了學習波動，具有以下設置：姿態干擾（正態分布，比例10?4對于偏航、俯仰、滾動），初始反作用輪（RW）速度均勻在 -3000,3000 Rpm，電池電量為 40-80%，數據存儲為 20-80%。隨機 RW 速度會顯著降低機動精度。初始數據存儲的變化會帶來決策挑戰并破壞學習的穩定性。相比之下，電池電量隨機性的影響很小，姿態干擾只會影響圖像捕獲而不會受到懲罰。當 RW 速度和數據存儲都是高度隨機的時，最大的挑戰出現了，這嚴重阻礙了策略趨同。

4.2多衛星 MARL

我們的實驗重點是合作衛星觀察共享目標并補償彼此的限制，例如有限的能量或存儲。然后，MARL 算法，包括集中式 PPO、IPPO（去中心化）、MAPPO 和 HAPPO，在有限資源挑戰、不確定性和隨機性下的性能。通過比較算法性能，研究了在動態、資源受限的衛星任務中增強自主協作決策的有效方法的確定。

圖 2：集群和 Walker-Delta 軌道下的多衛星學習性能：使用默認和有限資源進行評估，包括電池（B）、數據存儲（D）、波特率（B?d?r）、拍攝的圖像大小（我?m?g）和隨機性的存在。

圖 3：不同衛星和算法的目標捕獲動作頻率：在不同的數據存儲容量（D），其中 Sat-1 到 Sat-4 具有（5， 10， 250， 500） GB。

有限的資源容量：本研究中使用的資源規范與?Section 4.1?中的定義相同。多衛星在有限資源下的學習表現如圖 2 所示。2、左側起第二列。集中式 PPO 算法的性能很容易陷入次優狀態，因為它存在非平穩性問題。此外，IPPO 的成績具有競爭力，但略低于 MAPPO 和 HAPPO 的表現。而且，HAPPO 在大資源容量下實現時具有更好的性能。多衛星存在有限資源挑戰的行為與單衛星非常相似。

不確定性和隨機初始化：不確定性和隨機性下的實驗結果（參見圖 3 中左第三列）。2）揭示了集中式方法由于對環境變化（例如反應輪速度初始化和數據存儲隨機性）的敏感性而表現不佳。其他算法 IPPO、MAPPO 和 HAPPO 表現出類似的行為和更穩定的性能，有效地適應了波動的條件。這些算法在處理不確定性方面表現出彈性，在挑戰中保持一致的性能，突出了在動態、資源受限的環境中分散訓練的優勢。

Walker-delta 和 Cluster Constellation：在不同的星座設置中，Walker-delta 被認為不太復雜，因為它具有較低的協作屬性，與集群相比會產生較弱的非衛星性問題。開始時，Walker-delta 的訓練階段（圖 D）。2?最右側的列），集中式 PPO 具有更高的獎勵，并且繼續略微增加，并且在 20k 步長時仍低于其他算法的性能。但是，IPPO 和 HAPPO 在此設置中具有相似的學習性能。

多種衛星資源中的多星協調：在多衛星協調中，分析跨衛星的捕獲動作以評估 MARL 算法的協作能力（見圖 D）。3）. 為了鼓勵合作，我們分配了不同的數據存儲容量：Sat-1 到 Sat-4 分別為 5 GB、10 GB、250 GB 和 500 GB。存儲有限的衛星往往捕獲的目標較少，而那些具有更多資源容量的衛星可以補償它們。我們的結果表明，該政策具有協調行為來捕獲不同的目標，突出了 MARL 的有效性。集中式 PPO 依賴于單一策略策略，并且它對任何衛星都有類似的策略，導致相似的行動特征和低協調性。IPPO 獨立學習多個策略，并為 Sat-3 和 Sat-4 提供更多捕獲，但它們覆蓋相同的 Target-1。MAPPO 策略具有最佳的協調特性，不同的衛星關注點不同目標。HAPPO 具有協調特性，因為不同的衛星具有不同的目標偏好，并且覆蓋的資源容量衛星較少。但是，Sat-4 在 Target-1 和 Target-4 上具有重復，兩者具有相似的作頻率。

5結論

本研究在自主 EO 任務的現實環境中實現了 RL 及其對 MARL 算法的擴展。通過在各種不確定性下進行的廣泛實驗，例如：反作用輪初始化、數據存儲和姿態擾動，它證明了 CTDE-MARL 在應對動態和資源受限的地球觀測任務挑戰方面的有效性和適應性。此外，結果突出了 MARL 框架中 MAPPO 在增強協作和保持衛星作通信效率方面的潛力。未來，這項工作可以進一步擴展以探索更復雜的場景，例如具有不同傳感器能力的異構衛星星座和更大規模的多集群軌道系統。此外，將特定領域的知識整合到 MARL 訓練中并開發方法以進一步緩解非平穩性問題將是提高實際部署可行性的關鍵方向。