dapo：開源大規模llm強化學習系統的突破與實現

本文由「大千AI助手」原創發布，專注用真話講AI，回歸技術本質。拒絕神話或妖魔化。搜索「大千AI助手」關注我，一起撕掉過度包裝，學習真實的AI技術！

? 1. dapo概述：開源llm強化學習系統的重要突破

dapo（decoupled clip and dynamic sampling policy optimization，解耦剪輯與動態采樣策略優化）是由清華大學智能產業研究院（air） 與字節跳動聯合實驗室sia-lab在2025年3月開源發布的一個大規模大型語言模型（llm）強化學習系統。這一系統在純強化學習（rl）端的比較中，超越了deepseed r1模型所使用的grpo（group relative policy optimization）算法，取得了新的sota（state-of-the-art）結果。

dapo的誕生源于一個重要背景：盡管openai和deepseek等機構通過大規模強化學習訓練出了先進的推理模型（如openai的o1和deepseek的r1），但其核心訓練算法與關鍵技術細節卻仍不明朗，導致廣大研究人員難以復現這些效果。dapo則致力于打破這種技術壁壘，完全開源了其算法設計、訓練代碼和數據集，為整個ai研究社區提供了一個完整、可復現的解決方案。

本文由「大千AI助手」原創發布，專注用真話講AI，回歸技術本質。拒絕神話或妖魔化。搜索「大千AI助手」關注我，一起撕掉過度包裝，學習真實的AI技術！

往期文章推薦:

20.eniac：世界上第一臺通用電子計算機的傳奇
19.馮·諾依曼架構：現代計算機的基石與瓶頸
18.密碼破譯機bombe：二戰中破解enigma的傳奇設備
17.波蘭密碼破譯機bomba：二戰密碼戰的隱形功臣
16.注意力機制：捕獲長距離依賴關系的革命性技術
15.康威生命游戲：零玩家游戲的元胞自動機奇跡
14.OpenHands：開源AI軟件開發代理平臺的革命性突破
13.NoCode-bench：自然語言驅動功能添加的評估新基準
12.中文房間悖論：人工智能理解力的哲學拷問
11.曼徹斯特Mark I：世界上第一臺存儲程序計算機的革命性創新
10.AdaCoT：基于強化學習的帕累托最優自適應思維鏈觸發機制
9.GThinker多模態大模型：線索引導式反思的突破
8.Auto-CoT：大型語言模型的自動化思維鏈提示技術
7.傳統概率信息檢索模型：理論基礎、演進與局限
6.Poisson分布：稀有事件建模的理論基石與演進
5.Jina Embeddings：高性能多模態向量模型的演進之路
4.GitHub Copilot：AI編程助手的架構演進與真實世界影響
3.SWE-bench：真實世界軟件工程任務的“試金石”
2.StarCoder：開源代碼大語言模型的里程碑
1.EvalPlus：代碼生成大模型的“嚴格考官”——基于測試增強的評估框架

?? 2. 技術背景與研發動機：為什么需要dapo？

2.1 現有技術的局限性

盡管grpo等算法能夠提升llm的強化學習效率，但其在長鏈式思維（cot）場景中面臨著幾大關鍵問題：

熵崩潰（entropy collapse）：策略的熵迅速下降，探索不足
獎勵噪聲（reward noise）：特別是過長響應截斷引入的噪聲
訓練不穩定：梯度信號有效性低，收斂困難

許多研究團隊在嘗試復現deepseek的結果時，都遇到了類似的難題，這表明工業級、大規模且可重現的強化學習系統需要關鍵訓練細節。

2.2 dapo的使命與目標

dapo的開發旨在解決上述挑戰，其核心目標包括：

提供一個開源可復現的大規模llm rl系統
提出新型算法，解決長cot場景下的rl優化難題
在數學推理等復雜任務上實現卓越性能

🔧 3. dapo的核心技術：四大創新點解析

dapo通過四項關鍵技術革新，解決了大規模rl訓練中的核心難題。

3.1 clip-higher：解耦高低剪輯范圍，促進探索與利用的平衡

問題：傳統ppo/grpo的固定剪裁范圍（如ε=0.2）限制了低概率token的探索，導致策略快速收斂（熵崩潰），生成樣本同質化。
解決方案：將上下剪裁閾值解耦為ε_low=0.2（抑制高概率token的過度利用）和ε_high=0.28（放寬低概率token的探索限制）。
效果：模型生成多樣性提升，熵值穩定，aime準確率從基線30%提升至40%+。

3.2 dynamic sampling：動態過濾無效樣本，提升訓練效率

問題：當所有樣本獎勵相同（如全正確或全錯誤），優勢函數為零，梯度信號消失（zero advantage），訓練效率下降。
解決方案：預采樣時過濾掉獎勵為0或1的樣本，僅保留梯度有效的樣本填充批次。
效果：收斂速度提升，相同性能所需步驟減少，訓練時間未顯著增加但效率更高。

3.3 token-level policy gradient loss：精準優化長序列

問題：傳統grpo的樣本級損失平均導致長序列token梯度稀釋，難以捕捉關鍵推理步驟，且無法有效懲罰長序列中的低質量模式（如重復、亂碼）。
解決方案：按token計算損失，加權求和（而非樣本平均），強化長序列中的關鍵token學習。
效果：訓練穩定性提升，響應長度增長更健康。

3.4 overlong reward shaping：長度感知的獎勵修正，減少噪聲

問題：過長響應的截斷懲罰（如直接-1）引入噪聲，干擾有效推理步驟的獎勵（正確推理因超長被誤判）。
解決方案：采用軟懲罰策略，根據超長程度逐步增加懲罰，并過濾截斷樣本的損失。定義一個懲罰區間，響應越長，受到的懲罰越大。
$rlength(y)={0,∣y∣≤lmax?lcache(lmax?lcache)?∣y∣lcache,lmax?lcache<∣y∣≤lmax?1,∣y∣>lmaxr_{\text{length}}(y) = \begin{cases} 0, & |y| \leq l_{\text{max}} - l_{\text{cache}} \\ \frac{(l_{\text{max}} - l_{\text{cache}}) - |y|}{l_{\text{cache}}}, & l_{\text{max}} - l_{\text{cache}} < |y| \leq l_{\text{max}} \\ -1, & |y| > l_{\text{max}} \end{cases}$
其中 l_max = 20480 tokens，l_cache = 4096。
效果：訓練穩定性顯著提升，aime準確率波動減小。

📊 4. 實驗效果與性能表現

dapo系統在數學推理任務上進行了全面驗證，取得了令人矚目的成果。

4.1 aime 2024基準測試結果

在被譽為數學競賽"奧林匹克"的aime 2024測試中：

使用qwen2.5-32b基礎模型的dapo系統達到了50分的成績
超越了之前業界最佳的deepseek-r1-zero-qwen-32b的47分表現
僅用了后者一半的訓練時間

作為對比，使用grpo的qwen2.5-32b模型在aime 2024上只能獲得30分。

4.2 各技術組件的貢獻分析

研究團隊通過詳細的對比實驗，驗證了各項技術的有效性：

表：dapo中各技術對aime性能的貢獻

技術組件	aime 2024 分數	性能提升
基礎grpo	30分	-
+ 超長過濾(overlong filtering)	36分	+6分
+ clip-higher	38分	+2分
+ 軟性超長懲罰(soft punishment)	41分	+3分
+ token級別損失(token-level loss)	42分	+1分
完整dapo系統	50分	+8分

4.3 訓練動態與模型行為演化

在訓練過程中，研究團隊觀察到一些有趣的現象：

響應長度變化：生成長度逐漸增加，為模型提供更大探索空間，允許采樣更復雜的推理行為。
獎勵動態：獎勵增加趨勢相對穩定，表明語言模型可以穩健地擬合訓練集的分布。
熵值維持：dapo通過clip-higher策略有效解決了熵崩塌問題，保持熵的緩慢上升趨勢有助于提升模型性能。
推理模式演化：策略模型的推理模式會隨著時間動態演變。rl算法不僅會強化有助于正確解決問題的現有推理模式，還會逐漸催生原本不存在的全新推理模式。例如，模型后期自發出現了"反思和修正"的能力，如產生"等等，讓我重新考慮一下"這樣的表述。