【AI論文】分享即關愛：基于集體強化學習經驗共享的高效語言模型（LM）后訓練方法

摘要：利用強化學習（RL）對語言模型（LMs）進行后訓練，無需監督微調即可增強其復雜推理能力，DeepSeek-R1-Zero便證明了這一點。然而，要有效利用強化學習訓練語言模型，需要進行大規模并行化以擴大推理規模，但這會帶來不容忽視的技術挑戰（如延遲、內存和可靠性問題），同時還會導致財務成本不斷攀升。我們提出了群體采樣策略優化算法（Swarm sAmpling Policy Optimization，SAPO），這是一種完全去中心化且異步的強化學習后訓練算法。SAPO專為異構計算節點組成的去中心化網絡而設計，在該網絡中，每個節點管理自己的策略模型，同時與網絡中的其他節點“共享”采樣軌跡（rollouts）；該算法無需對延遲、模型同質性或硬件做出明確假設，且如果需要，節點可以獨立運行。因此，該算法避免了強化學習后訓練規模化過程中常見的瓶頸問題，同時還開辟了（甚至鼓勵探索）新的可能性。通過采樣網絡中“共享”的軌跡，該算法能夠促進“頓悟時刻”的傳播，從而引導學習過程。在本文中，我們展示了在可控實驗中，SAPO實現了高達94%的累積獎勵增益。此外，我們還分享了在一次開源演示中的測試見解，此次測試在一個由Gensyn社區成員貢獻的數千個節點組成的網絡上進行，社區成員在各種硬件和模型上運行了該算法。Huggingface鏈接：Paper page，論文鏈接：2509.08721

研究背景和目的

研究背景：

隨著人工智能技術的快速發展，語言模型（LMs）在自然語言處理任務中展現出強大的能力。然而，如何進一步提升語言模型的復雜推理能力，使其能夠更好地處理需要深度思考和邏輯推斷的任務，成為當前AI研究的重要方向。傳統的監督微調方法雖然有效，但往往依賴于大量標注數據，且在處理新穎或復雜任務時表現受限。強化學習（RL）作為一種通過試錯來優化模型的方法，為語言模型的后訓練提供了新的途徑。通過引入獎勵機制，RL允許模型在探索和利用過程中不斷優化其行為，從而提升復雜推理能力。

然而，將RL應用于語言模型后訓練面臨諸多挑戰。首先，傳統的分布式RL方法需要大規模的GPU集群，并且需要保持策略權重的同步，這導致了高昂的財務成本和通信瓶頸。其次，隨著模型規模的增大，訓練過程中的延遲、內存和可靠性問題變得尤為突出。為了解決這些問題，研究人員開始探索更加高效和可擴展的RL后訓練算法。

研究目的：

本研究旨在提出一種全新的、完全去中心化和異步的RL后訓練算法——Swarm Sampling Policy Optimization（SAPO），以解決傳統分布式RL方法在語言模型后訓練中的瓶頸問題。具體目標包括：

提高訓練效率：通過去中心化和異步的訓練方式，減少通信開銷和同步等待時間，從而提高整體訓練效率。
增強模型推理能力：利用集體經驗共享機制，使模型能夠從其他節點的經驗中學習，從而提升復雜推理能力。
降低訓練成本：避免對大規模GPU集群的依賴，降低硬件和運營成本，使RL后訓練更加經濟可行。
提升模型泛化能力：通過多樣化的經驗共享，增強模型對不同任務和環境的適應能力，提高泛化性能。

研究方法

1. 去中心化網絡構建：

SAPO算法構建在一個去中心化的網絡中，該網絡由多個異構的計算節點組成，每個節點都管理自己的策略模型。節點之間通過共享解碼后的策略輸出（即rollouts）來進行經驗交流，而不需要保持模型架構、學習算法或硬件的一致性。這種設計使得SAPO算法能夠靈活地應用于各種異構環境，包括邊緣設備和消費者級硬件。

2. 集體經驗共享機制：

在SAPO算法中，每個節點在生成自己的rollouts后，會將其與網絡中的其他節點共享。接收節點可以根據需要選擇性地采樣這些共享的rollouts，并將其與自己的本地rollouts結合，構建訓練集。這種集體經驗共享機制使得節點能夠從其他節點的探索中受益，從而加速學習過程。

3. 策略更新算法：

節點使用本地獎勵模型計算訓練集上的獎勵，并采用策略梯度算法（如PPO或GRPO）來更新自己的策略。這種設計允許每個節點根據自己的需求和資源情況獨立地進行策略更新，而不需要與其他節點保持同步。

4. 實驗設置：

為了驗證SAPO算法的有效性，研究團隊使用了八個Qwen2.5模型（每個模型有0.5B參數）構建了一個去中心化網絡，并在ReasoningGYM數據集上進行了實驗。ReasoningGYM數據集包含代數、邏輯和圖推理等多個領域的任務，能夠提供多樣化的訓練和評估任務。實驗過程中，節點通過Docker容器進行部署和管理，使用PyTorch的分布式包實現多GPU并行計算。

研究結果

1. 累計獎勵提升：

實驗結果表明，SAPO算法顯著提升了模型的累計獎勵。在4本地/4外部rollouts的配置下，SAPO算法相比無共享的基線方法實現了高達94%的累計獎勵提升。這一結果證明了集體經驗共享機制在提升模型性能方面的有效性。

2. 不同配置下的性能比較：

研究團隊還比較了不同配置下的模型性能。實驗結果顯示，隨著外部rollouts數量的增加，模型的峰值獎勵逐漸提高。然而，過度依賴外部rollouts會導致學習過程中的震蕩和遺忘行為，從而影響整體性能。在4本地/4外部的配置下，模型實現了最佳的整體性能。

3. 大規模開放源碼演示中的驗證：

為了進一步驗證SAPO算法在真實異構環境中的有效性，研究團隊組織了一個大規模開放源碼演示活動，吸引了數千名Gensyn社區成員參與。演示結果顯示，對于中等容量的模型（如0.5B參數的Qwen2.5模型），參與集體訓練的模型性能顯著優于孤立訓練的模型。而對于更高容量的模型（如0.6B參數的Qwen3模型），參與集體訓練帶來的性能提升則相對有限。這表明SAPO算法的優勢在中等容量模型中更為突出。