StreamRL：彈性、可擴展、異構的RLHF架構

大語言模型（LLMs）的強化學習（RL）訓練正處于快速發展階段，但現有架構存在諸多問題。本文介紹的StreamRL框架為解決這些難題而來，它通過獨特設計提升了訓練效率和資源利用率，在相關實驗中表現優異，想知道它是如何做到的嗎？快來一探究竟！

文章核心

論文標題：StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation
來源：arXiv:2504.15930v1 [cs.LG] + https://arxiv.org/abs/2504.15930
PS: 整理了LLM、量化投資、機器學習方向的學習資料，關注同名公眾號「亞里隨筆」即刻免費解鎖

研究背景

在大語言模型（LLMs）的發展進程中，強化學習（RL）已成為關鍵的訓練后技術，它有效提升了模型的推理能力，不少前沿模型如 OpenAI 的 o1、o3，Claude 3.7 Sonnet 以及 DeepSeek - R1 等均借助 RL 在多種任務中取得領先表現。

早期，RL 訓練框架多采用分離式架構，雖能復用現有基礎設施，但存在資源閑置問題。為解決此問題，共置架構應運而生，它通過時間復用 GPU 資源，提升了訓練效率，一度成為主流選擇。然而在實際大規模部署時，共置架構暴露出資源耦合的弊端。與此同時，分離式架構的優勢重新受到關注，但其在現有框架下存在流水線氣泡和偏態氣泡等挑戰，StreamRL 正是在這樣的背景下被提出，旨在解決上述問題，充分釋放分離式架構的潛力。

研究問題

傳統共置（colocated）架構存在資源耦合問題，生成階段和訓練階段因共享相同資源，無法根據各自特性靈活分配資源，導致資源利用率低，影響大規模訓練的可擴展性和成本效益。
分離式（disaggregated）架構雖理論上有優勢，但存在流水線氣泡（pipeline bubbles）和偏態氣泡（skewness bubbles）問題。流水線氣泡源于兩階段串行執行，偏態氣泡則因LLM推理工作負載中長尾輸出長度分布，這兩種氣泡都會造成GPU資源閑置。
現有框架難以有效應對LLM推理工作負載固有的長尾輸出長度分布問題，處理不當會影響模型質量和訓練效率。

主要貢獻

1. 重新審視架構優勢：分析現有共置RL框架的關鍵問題，提出重新采用分離式架構進行RL訓練。該架構可實現靈活資源分配、支持異構硬件選擇以及跨數據中心訓練，克服了共置架構的局限性。

2. 提出StreamRL框架：設計StreamRL框架，通過解決流水線氣泡和長尾問題，充分釋放分離式架構的潛力。如采用動態批處理流水線（Dynamic-batch pipelining）和完全異步流水線（Fully asynchronous pipelining）解決流水線氣泡；利用輸出長度排序器模型（Output Length Ranker）和偏態感知調度（Skewness-aware scheduling）處理長尾問題。

3. 實驗驗證性能優越：通過在多種LLMs和真實數據集上實驗，證明StreamRL相比現有最先進系統，吞吐量最高提升2.66倍，在異構、跨數據中心設置下成本效益最高提升1.33倍，展現出良好的性能和可擴展性。

方法論精要

StreamRL是專為分離式架構設計的高效強化學習框架，其技術路線圍繞解決分離式架構存在的問題展開，主要包含以下關鍵步驟：

1. 核心框架設計：StreamRL將生成和訓練階段分別抽象為流生成服務（SGS）和訓練器（Trainer），二者部署在物理上分離的資源上，甚至可位于不同數據中心，通過點到點鏈路連接。這種設計能實現靈活的資源分配、異構硬件選擇和跨數據中心訓練。

2. 解決流水線氣泡問題：針對流水線氣泡，StreamRL在不同RL算法場景下采用不同策略。在同步RL中，提出動態批處理流水線，摒棄傳統的批量生成方式，樣本一完成就立即發送給訓練階段，訓練階段根據生成速度進行動態批處理，減少訓練階段空閑時間，消除大部分流水線氣泡。在異步RL中，采用完全異步流水線，使權重傳輸與訓練、生成過程并行，去除權重傳輸對關鍵路徑的影響，即便迭代間生成和訓練時間有波動，只要平均速度匹配且波動有限，就不會產生新的氣泡。

3. 處理偏態氣泡問題：為解決偏態氣泡，StreamRL利用輸出長度排序器模型來識別長尾樣本。該模型通過對收集的（prompt, length）對進行監督微調訓練得到，可對輸入提示的輸出長度進行估計和排序。基于此，SGS采用偏態感知調度機制，將提示按估計輸出長度排序，標記出長尾樣本，為其分配專門的計算資源和較小的批量大小，同時將常規樣本組成大批次，充分利用GPU資源。在調度順序上，采用最長處理時間優先（LPT）的貪心算法，優先處理長樣本，以減少整體生成延遲。

4. 系統實現優化：SGS使用內部優化的C++推理引擎和CUDA內核，支持連續批處理和前綴共享技術，提高生成效率；Trainer實現3D并行，通過開發動態CPU卸載技術解決GPU內存限制問題。此外，專門開發的RL - RPC通信框架用于SGS和Trainer間的數據傳輸，利用GPU - Direct RDMA實現零拷貝張量傳輸，減少通信開銷，并具備TCP fallback機制確保兼容性。在權重傳輸方面，根據不同部署場景采用不同策略，單數據中心通過多樹負載均衡，跨數據中心則由特定節點發送權重并結合本地廣播，以優化傳輸效率。

實驗洞察

為全面評估StreamRL的性能，研究人員進行了一系列實驗，從多個維度深入探究其特性，具體實驗結果如下：

1. 性能優勢顯著：研究人員在包含16個節點、128個GPU的H800集群上，選用Qwen2.5系列模型（7B - 72B），以內部CodeMath prompts數據集開展實驗，并以verl和ColocationRL為基線對比。結果顯示，StreamRL - Sync相較于verl，吞吐量提升1.12 - 2.12倍；相較于ColocationRL，提升1.06 - 1.41倍。而StreamRL - Async借助一步異步訓練，充分重疊流水線氣泡，吞吐量提升幅度更大，達1.30 - 2.66倍。在異構、跨數據中心場景下，將SGS部署于H20集群，Trainer部署于H800集群，StreamRL經硬件成本歸一化后的吞吐量，相比單數據中心場景提高了1.23 - 1.31倍，展現出強大的性能優勢。

2. 效率大幅提升：在訓練效率方面，StreamRL成果斐然。通過異步訓練和優化資源分配，實現了階段延遲的有效平衡，在異步訓練中迭代時間由較慢階段決定，平衡的階段延遲直接帶來1.25倍的加速。并且，動態調整算法能實時監測生成和訓練時間差，當生成時間超訓練時間一定閾值時，自動為SGS增加數據并行單元，恢復階段平衡。如在訓練7B模型時，隨著數據集輸出長度增加，StreamRL能及時檢測到不平衡并自動調整資源，確保訓練高效進行。

3. 核心模塊效果顯著：通過消融研究，驗證了StreamRL核心模塊的有效性。以72B模型在20K最大長度數據集上的實驗為例，偏態感知調度技術可使吞吐量提升8%，主要是因為其利用輸出長度排序器模型精準識別長尾樣本，為其分配專屬資源和合適批量，加速了長尾樣本生成。在此基礎上，分離式流生成技術進一步將吞吐量提升15%，異步訓練則額外提升25%。輸出長度排序器模型對最長20%樣本的召回率高達87%，能有效識別長尾樣本，大幅提升生成效率，為整體性能提升奠定堅實基礎。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/904772.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/904772.shtml
英文地址，請注明出處：http://en.pswp.cn/news/904772.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！