本文由「大千AI助手」原創發布,專注用真話講AI,回歸技術本質。拒絕神話或妖魔化。搜索「大千AI助手」關注我,一起撕掉過度包裝,學習真實的AI技術!
? 1. dapo概述:開源llm強化學習系統的重要突破
dapo(decoupled clip and dynamic sampling policy optimization,解耦剪輯與動態采樣策略優化)是由清華大學智能產業研究院(air) 與字節跳動聯合實驗室sia-lab在2025年3月開源發布的一個大規模大型語言模型(llm)強化學習系統。這一系統在純強化學習(rl)端的比較中,超越了deepseed r1模型所使用的grpo(group relative policy optimization)算法,取得了新的sota(state-of-the-art)結果。
dapo的誕生源于一個重要背景:盡管openai和deepseek等機構通過大規模強化學習訓練出了先進的推理模型(如openai的o1和deepseek的r1),但其核心訓練算法與關鍵技術細節卻仍不明朗,導致廣大研究人員難以復現這些效果。dapo則致力于打破這種技術壁壘,完全開源了其算法設計、訓練代碼和數據集,為整個ai研究社區提供了一個完整、可復現的解決方案。
本文由「大千AI助手」原創發布,專注用真話講AI,回歸技術本質。拒絕神話或妖魔化。搜索「大千AI助手」關注我,一起撕掉過度包裝,學習真實的AI技術!
往期文章推薦:
- 20.eniac:世界上第一臺通用電子計算機的傳奇
- 19.馮·諾依曼架構:現代計算機的基石與瓶頸
- 18.密碼破譯機bombe:二戰中破解enigma的傳奇設備
- 17.波蘭密碼破譯機bomba:二戰密碼戰的隱形功臣
- 16.注意力機制:捕獲長距離依賴關系的革命性技術
- 15.康威生命游戲:零玩家游戲的元胞自動機奇跡
- 14.OpenHands:開源AI軟件開發代理平臺的革命性突破
- 13.NoCode-bench:自然語言驅動功能添加的評估新基準
- 12.中文房間悖論:人工智能理解力的哲學拷問
- 11.曼徹斯特Mark I:世界上第一臺存儲程序計算機的革命性創新
- 10.AdaCoT:基于強化學習的帕累托最優自適應思維鏈觸發機制
- 9.GThinker多模態大模型:線索引導式反思的突破
- 8.Auto-CoT:大型語言模型的自動化思維鏈提示技術
- 7.傳統概率信息檢索模型:理論基礎、演進與局限
- 6.Poisson分布:稀有事件建模的理論基石與演進
- 5.Jina Embeddings:高性能多模態向量模型的演進之路
- 4.GitHub Copilot:AI編程助手的架構演進與真實世界影響
- 3.SWE-bench:真實世界軟件工程任務的“試金石”
- 2.StarCoder:開源代碼大語言模型的里程碑
- 1.EvalPlus:代碼生成大模型的“嚴格考官”——基于測試增強的評估框架
?? 2. 技術背景與研發動機:為什么需要dapo?
2.1 現有技術的局限性
盡管grpo等算法能夠提升llm的強化學習效率,但其在長鏈式思維(cot)場景中面臨著幾大關鍵問題:
- 熵崩潰(entropy collapse):策略的熵迅速下降,探索不足
- 獎勵噪聲(reward noise):特別是過長響應截斷引入的噪聲
- 訓練不穩定:梯度信號有效性低,收斂困難
許多研究團隊在嘗試復現deepseek的結果時,都遇到了類似的難題,這表明工業級、大規模且可重現的強化學習系統需要關鍵訓練細節。
2.2 dapo的使命與目標
dapo的開發旨在解決上述挑戰,其核心目標包括:
- 提供一個開源可復現的大規模llm rl系統
- 提出新型算法,解決長cot場景下的rl優化難題
- 在數學推理等復雜任務上實現卓越性能
🔧 3. dapo的核心技術:四大創新點解析
dapo通過四項關鍵技術革新,解決了大規模rl訓練中的核心難題。
3.1 clip-higher:解耦高低剪輯范圍,促進探索與利用的平衡
- 問題:傳統ppo/grpo的固定剪裁范圍(如ε=0.2)限制了低概率token的探索,導致策略快速收斂(熵崩潰),生成樣本同質化。
- 解決方案:將上下剪裁閾值解耦為
ε_low=0.2
(抑制高概率token的過度利用)和ε_high=0.28
(放寬低概率token的探索限制)。 - 效果:模型生成多樣性提升,熵值穩定,aime準確率從基線30%提升至40%+。
3.2 dynamic sampling:動態過濾無效樣本,提升訓練效率
- 問題:當所有樣本獎勵相同(如全正確或全錯誤),優勢函數為零,梯度信號消失(zero advantage),訓練效率下降。
- 解決方案:預采樣時過濾掉獎勵為0或1的樣本,僅保留梯度有效的樣本填充批次。
- 效果:收斂速度提升,相同性能所需步驟減少,訓練時間未顯著增加但效率更高。
3.3 token-level policy gradient loss:精準優化長序列
- 問題:傳統grpo的樣本級損失平均導致長序列token梯度稀釋,難以捕捉關鍵推理步驟,且無法有效懲罰長序列中的低質量模式(如重復、亂碼)。
- 解決方案:按token計算損失,加權求和(而非樣本平均),強化長序列中的關鍵token學習。
- 效果:訓練穩定性提升,響應長度增長更健康。
3.4 overlong reward shaping:長度感知的獎勵修正,減少噪聲
- 問題:過長響應的截斷懲罰(如直接-1)引入噪聲,干擾有效推理步驟的獎勵(正確推理因超長被誤判)。
- 解決方案:采用軟懲罰策略,根據超長程度逐步增加懲罰,并過濾截斷樣本的損失。定義一個懲罰區間,響應越長,受到的懲罰越大。
rlength(y)={0,∣y∣≤lmax?lcache(lmax?lcache)?∣y∣lcache,lmax?lcache<∣y∣≤lmax?1,∣y∣>lmaxr_{\text{length}}(y) = \begin{cases} 0, & |y| \leq l_{\text{max}} - l_{\text{cache}} \\ \frac{(l_{\text{max}} - l_{\text{cache}}) - |y|}{l_{\text{cache}}}, & l_{\text{max}} - l_{\text{cache}} < |y| \leq l_{\text{max}} \\ -1, & |y| > l_{\text{max}} \end{cases} rlength?(y)=????0,lcache?(lmax??lcache?)?∣y∣?,?1,?∣y∣≤lmax??lcache?lmax??lcache?<∣y∣≤lmax?∣y∣>lmax??
其中l_max = 20480
tokens,l_cache = 4096
。 - 效果:訓練穩定性顯著提升,aime準確率波動減小。
📊 4. 實驗效果與性能表現
dapo系統在數學推理任務上進行了全面驗證,取得了令人矚目的成果。
4.1 aime 2024基準測試結果
在被譽為數學競賽"奧林匹克"的aime 2024測試中:
- 使用qwen2.5-32b基礎模型的dapo系統達到了50分的成績
- 超越了之前業界最佳的deepseek-r1-zero-qwen-32b的47分表現
- 僅用了后者一半的訓練時間
作為對比,使用grpo的qwen2.5-32b模型在aime 2024上只能獲得30分。
4.2 各技術組件的貢獻分析
研究團隊通過詳細的對比實驗,驗證了各項技術的有效性:
表:dapo中各技術對aime性能的貢獻
技術組件 | aime 2024 分數 | 性能提升 |
---|---|---|
基礎grpo | 30分 | - |
+ 超長過濾(overlong filtering) | 36分 | +6分 |
+ clip-higher | 38分 | +2分 |
+ 軟性超長懲罰(soft punishment) | 41分 | +3分 |
+ token級別損失(token-level loss) | 42分 | +1分 |
完整dapo系統 | 50分 | +8分 |
4.3 訓練動態與模型行為演化
在訓練過程中,研究團隊觀察到一些有趣的現象:
- 響應長度變化:生成長度逐漸增加,為模型提供更大探索空間,允許采樣更復雜的推理行為。
- 獎勵動態:獎勵增加趨勢相對穩定,表明語言模型可以穩健地擬合訓練集的分布。
- 熵值維持:dapo通過clip-higher策略有效解決了熵崩塌問題,保持熵的緩慢上升趨勢有助于提升模型性能。
- 推理模式演化:策略模型的推理模式會隨著時間動態演變。rl算法不僅會強化有助于正確解決問題的現有推理模式,還會逐漸催生原本不存在的全新推理模式。例如,模型后期自發出現了"反思和修正"的能力,如產生"等等,讓我重新考慮一下"這樣的表述。
🌐 5. 系統設計與開源生態
dapo致力于構建一個完整、可復現的開源生態系統。
5.1 訓練框架與配置
- 基礎框架:基于verl開源框架構建
- 優化器:adamw,學習率設定為1×10??,配備線性預熱機制
- 批次設置:每批訓練包含512個問題,每個問題生成16個不同回答
- 基礎模型:qwen2.5-32b
5.2 數據集:dapo-math-17k
研究團隊特別開發了一個包含17000個數學問題的訓練數據集,名為dapo-math-17k。為了確保訓練過程的準確性,他們將所有答案都轉換成了整數形式,這樣既便于計算機處理,又能確保評估的準確性。
5.3 開源資源
dapo項目完全開源,提供了豐富的資源:
- 項目主頁:https://dapo-sia.github.io/
- 論文地址:https://arxiv.org/abs/2503.14476
- 代碼倉庫:https://github.com/bytedtsinghua-sia/dapo
- 數據集:https://huggingface.co/datasets/bytedtsinghua-sia/dapo-math-17k
🔮 6. 意義與影響:dapo對ai研究社區的貢獻
dapo系統的推出具有多重重要意義:
- 技術透明度:打破了頂尖ai技術被嚴密保護的現狀,提供了完整、可復現的解決方案
- 性能標桿:在數學推理任務上設立了新的性能標桿
- 系統優化:針對大規模rl訓練中的實際問題提供了有效解決方案
- 社區推動:為整個ai研究社區提供了寶貴的資源和工具,可能激發更多的創新和突破
📈 7. 局限性未來展望
盡管dapo取得了顯著成功,但研究團隊也坦誠地指出了當前技術的局限性:
- 任務范圍:dapo系統主要在數學推理任務上進行了驗證,在其他類型的復雜推理任務(如代碼生成、科學推理)上的表現還需要進一步驗證。
- 泛化能力:雖然系統在aime測試中表現優異,但這種能力是否能夠泛化到更廣泛的現實世界問題中,仍然是一個開放的研究問題。
未來工作可能包括:
- 將dapo擴展到更多元化的任務領域
- 探索與其他先進模型架構的結合
- 進一步優化訓練效率和穩定性
- 研究更好的獎勵塑形策略
💎 結論
dapo代表了ai推理能力研究的一個重要里程碑。它證明了通過精心設計的強化學習技術,確實可以顯著提升語言模型的推理能力,讓ai在復雜的數學和邏輯問題上達到接近人類專家的水平。
這項研究不僅在于其優異的性能表現,更在于其開源精神和對技術透明度的承諾。在當前大多數頂尖ai技術都被嚴密保護的情況下,dapo為整個ai研究社區提供了一個完整、可復現的解決方案,包括算法細節、訓練代碼和精心整理的數據集。這種做法可能會激發更多的創新和突破,加速整個領域的發展進程。
隨著技術的不斷成熟和普及,這種強大的推理能力有望以各種形式進入我們的日常生活,從智能教育助手到專業咨詢服務,都可能因為這種技術而變得更加智能和有效。
本文由「大千AI助手」原創發布,專注用真話講AI,回歸技術本質。拒絕神話或妖魔化。搜索「大千AI助手」關注我,一起撕掉過度包裝,學習真實的AI技術!