dapo:開源大規模llm強化學習系統的突破與實現

本文由「大千AI助手」原創發布,專注用真話講AI,回歸技術本質。拒絕神話或妖魔化。搜索「大千AI助手」關注我,一起撕掉過度包裝,學習真實的AI技術!

? 1. dapo概述:開源llm強化學習系統的重要突破

dapo(decoupled clip and dynamic sampling policy optimization,解耦剪輯與動態采樣策略優化)是由清華大學智能產業研究院(air)字節跳動聯合實驗室sia-lab在2025年3月開源發布的一個大規模大型語言模型(llm)強化學習系統。這一系統在純強化學習(rl)端的比較中,超越了deepseed r1模型所使用的grpo(group relative policy optimization)算法,取得了新的sota(state-of-the-art)結果

dapo的誕生源于一個重要背景:盡管openai和deepseek等機構通過大規模強化學習訓練出了先進的推理模型(如openai的o1和deepseek的r1),但其核心訓練算法與關鍵技術細節卻仍不明朗,導致廣大研究人員難以復現這些效果。dapo則致力于打破這種技術壁壘,完全開源了其算法設計、訓練代碼和數據集,為整個ai研究社區提供了一個完整、可復現的解決方案

本文由「大千AI助手」原創發布,專注用真話講AI,回歸技術本質。拒絕神話或妖魔化。搜索「大千AI助手」關注我,一起撕掉過度包裝,學習真實的AI技術!

往期文章推薦:

  • 20.eniac:世界上第一臺通用電子計算機的傳奇
  • 19.馮·諾依曼架構:現代計算機的基石與瓶頸
  • 18.密碼破譯機bombe:二戰中破解enigma的傳奇設備
  • 17.波蘭密碼破譯機bomba:二戰密碼戰的隱形功臣
  • 16.注意力機制:捕獲長距離依賴關系的革命性技術
  • 15.康威生命游戲:零玩家游戲的元胞自動機奇跡
  • 14.OpenHands:開源AI軟件開發代理平臺的革命性突破
  • 13.NoCode-bench:自然語言驅動功能添加的評估新基準
  • 12.中文房間悖論:人工智能理解力的哲學拷問
  • 11.曼徹斯特Mark I:世界上第一臺存儲程序計算機的革命性創新
  • 10.AdaCoT:基于強化學習的帕累托最優自適應思維鏈觸發機制
  • 9.GThinker多模態大模型:線索引導式反思的突破
  • 8.Auto-CoT:大型語言模型的自動化思維鏈提示技術
  • 7.傳統概率信息檢索模型:理論基礎、演進與局限
  • 6.Poisson分布:稀有事件建模的理論基石與演進
  • 5.Jina Embeddings:高性能多模態向量模型的演進之路
  • 4.GitHub Copilot:AI編程助手的架構演進與真實世界影響
  • 3.SWE-bench:真實世界軟件工程任務的“試金石”
  • 2.StarCoder:開源代碼大語言模型的里程碑
  • 1.EvalPlus:代碼生成大模型的“嚴格考官”——基于測試增強的評估框架

?? 2. 技術背景與研發動機:為什么需要dapo?

2.1 現有技術的局限性

盡管grpo等算法能夠提升llm的強化學習效率,但其在長鏈式思維(cot)場景中面臨著幾大關鍵問題:

  • 熵崩潰(entropy collapse):策略的熵迅速下降,探索不足
  • 獎勵噪聲(reward noise):特別是過長響應截斷引入的噪聲
  • 訓練不穩定:梯度信號有效性低,收斂困難

許多研究團隊在嘗試復現deepseek的結果時,都遇到了類似的難題,這表明工業級、大規模且可重現的強化學習系統需要關鍵訓練細節

2.2 dapo的使命與目標

dapo的開發旨在解決上述挑戰,其核心目標包括:

  • 提供一個開源可復現的大規模llm rl系統
  • 提出新型算法,解決長cot場景下的rl優化難題
  • 數學推理等復雜任務上實現卓越性能

🔧 3. dapo的核心技術:四大創新點解析

dapo通過四項關鍵技術革新,解決了大規模rl訓練中的核心難題。

3.1 clip-higher:解耦高低剪輯范圍,促進探索與利用的平衡

  • 問題:傳統ppo/grpo的固定剪裁范圍(如ε=0.2)限制了低概率token的探索,導致策略快速收斂(熵崩潰),生成樣本同質化。
  • 解決方案:將上下剪裁閾值解耦ε_low=0.2(抑制高概率token的過度利用)和ε_high=0.28(放寬低概率token的探索限制)。
  • 效果:模型生成多樣性提升,熵值穩定,aime準確率從基線30%提升至40%+。

3.2 dynamic sampling:動態過濾無效樣本,提升訓練效率

  • 問題:當所有樣本獎勵相同(如全正確或全錯誤),優勢函數為零,梯度信號消失(zero advantage),訓練效率下降。
  • 解決方案預采樣時過濾掉獎勵為0或1的樣本,僅保留梯度有效的樣本填充批次。
  • 效果收斂速度提升,相同性能所需步驟減少,訓練時間未顯著增加但效率更高。

3.3 token-level policy gradient loss:精準優化長序列

  • 問題:傳統grpo的樣本級損失平均導致長序列token梯度稀釋,難以捕捉關鍵推理步驟,且無法有效懲罰長序列中的低質量模式(如重復、亂碼)。
  • 解決方案按token計算損失,加權求和(而非樣本平均),強化長序列中的關鍵token學習。
  • 效果:訓練穩定性提升,響應長度增長更健康

3.4 overlong reward shaping:長度感知的獎勵修正,減少噪聲

  • 問題:過長響應的截斷懲罰(如直接-1)引入噪聲,干擾有效推理步驟的獎勵(正確推理因超長被誤判)。
  • 解決方案:采用軟懲罰策略,根據超長程度逐步增加懲罰,并過濾截斷樣本的損失。定義一個懲罰區間,響應越長,受到的懲罰越大。
    rlength(y)={0,∣y∣≤lmax?lcache(lmax?lcache)?∣y∣lcache,lmax?lcache<∣y∣≤lmax?1,∣y∣>lmaxr_{\text{length}}(y) = \begin{cases} 0, & |y| \leq l_{\text{max}} - l_{\text{cache}} \\ \frac{(l_{\text{max}} - l_{\text{cache}}) - |y|}{l_{\text{cache}}}, & l_{\text{max}} - l_{\text{cache}} < |y| \leq l_{\text{max}} \\ -1, & |y| > l_{\text{max}} \end{cases} rlength?(y)=????0,lcache?(lmax??lcache?)?y?,?1,?ylmax??lcache?lmax??lcache?<ylmax?y>lmax??
    其中 l_max = 20480 tokens,l_cache = 4096
  • 效果訓練穩定性顯著提升,aime準確率波動減小。

📊 4. 實驗效果與性能表現

dapo系統在數學推理任務上進行了全面驗證,取得了令人矚目的成果。

4.1 aime 2024基準測試結果

在被譽為數學競賽"奧林匹克"的aime 2024測試中:

  • 使用qwen2.5-32b基礎模型的dapo系統達到了50分的成績
  • 超越了之前業界最佳的deepseek-r1-zero-qwen-32b的47分表現
  • 僅用了后者一半的訓練時間

作為對比,使用grpo的qwen2.5-32b模型在aime 2024上只能獲得30分。

4.2 各技術組件的貢獻分析

研究團隊通過詳細的對比實驗,驗證了各項技術的有效性:

表:dapo中各技術對aime性能的貢獻

技術組件aime 2024 分數性能提升
基礎grpo30分-
+ 超長過濾(overlong filtering)36分+6分
+ clip-higher38分+2分
+ 軟性超長懲罰(soft punishment)41分+3分
+ token級別損失(token-level loss)42分+1分
完整dapo系統50分+8分

4.3 訓練動態與模型行為演化

在訓練過程中,研究團隊觀察到一些有趣的現象:

  • 響應長度變化:生成長度逐漸增加,為模型提供更大探索空間,允許采樣更復雜的推理行為。
  • 獎勵動態:獎勵增加趨勢相對穩定,表明語言模型可以穩健地擬合訓練集的分布。
  • 熵值維持:dapo通過clip-higher策略有效解決了熵崩塌問題,保持熵的緩慢上升趨勢有助于提升模型性能。
  • 推理模式演化:策略模型的推理模式會隨著時間動態演變。rl算法不僅會強化有助于正確解決問題的現有推理模式,還會逐漸催生原本不存在的全新推理模式。例如,模型后期自發出現了"反思和修正"的能力,如產生"等等,讓我重新考慮一下"這樣的表述。

🌐 5. 系統設計與開源生態

dapo致力于構建一個完整、可復現的開源生態系統

5.1 訓練框架與配置

  • 基礎框架:基于verl開源框架構建
  • 優化器:adamw,學習率設定為1×10??,配備線性預熱機制
  • 批次設置:每批訓練包含512個問題,每個問題生成16個不同回答
  • 基礎模型:qwen2.5-32b

5.2 數據集:dapo-math-17k

研究團隊特別開發了一個包含17000個數學問題的訓練數據集,名為dapo-math-17k。為了確保訓練過程的準確性,他們將所有答案都轉換成了整數形式,這樣既便于計算機處理,又能確保評估的準確性。

5.3 開源資源

dapo項目完全開源,提供了豐富的資源:

  • 項目主頁:https://dapo-sia.github.io/
  • 論文地址:https://arxiv.org/abs/2503.14476
  • 代碼倉庫:https://github.com/bytedtsinghua-sia/dapo
  • 數據集:https://huggingface.co/datasets/bytedtsinghua-sia/dapo-math-17k

🔮 6. 意義與影響:dapo對ai研究社區的貢獻

dapo系統的推出具有多重重要意義:

  1. 技術透明度:打破了頂尖ai技術被嚴密保護的現狀,提供了完整、可復現的解決方案
  2. 性能標桿:在數學推理任務上設立了新的性能標桿
  3. 系統優化:針對大規模rl訓練中的實際問題提供了有效解決方案
  4. 社區推動:為整個ai研究社區提供了寶貴的資源和工具,可能激發更多的創新和突破

📈 7. 局限性未來展望

盡管dapo取得了顯著成功,但研究團隊也坦誠地指出了當前技術的局限性:

  • 任務范圍:dapo系統主要在數學推理任務上進行了驗證,在其他類型的復雜推理任務(如代碼生成、科學推理)上的表現還需要進一步驗證。
  • 泛化能力:雖然系統在aime測試中表現優異,但這種能力是否能夠泛化到更廣泛的現實世界問題中,仍然是一個開放的研究問題。

未來工作可能包括:

  • 將dapo擴展到更多元化的任務領域
  • 探索與其他先進模型架構的結合
  • 進一步優化訓練效率和穩定性
  • 研究更好的獎勵塑形策略

💎 結論

dapo代表了ai推理能力研究的一個重要里程碑。它證明了通過精心設計的強化學習技術,確實可以顯著提升語言模型的推理能力,讓ai在復雜的數學和邏輯問題上達到接近人類專家的水平。

這項研究不僅在于其優異的性能表現,更在于其開源精神和對技術透明度的承諾。在當前大多數頂尖ai技術都被嚴密保護的情況下,dapo為整個ai研究社區提供了一個完整、可復現的解決方案,包括算法細節、訓練代碼和精心整理的數據集。這種做法可能會激發更多的創新和突破,加速整個領域的發展進程。

隨著技術的不斷成熟和普及,這種強大的推理能力有望以各種形式進入我們的日常生活,從智能教育助手專業咨詢服務,都可能因為這種技術而變得更加智能和有效。

本文由「大千AI助手」原創發布,專注用真話講AI,回歸技術本質。拒絕神話或妖魔化。搜索「大千AI助手」關注我,一起撕掉過度包裝,學習真實的AI技術!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/96866.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/96866.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/96866.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【車載開發系列】ParaSoft集成測試環境配置(五)

【車載開發系列】ParaSoft集成測試環境配置(五) 【車載開發系列】ParaSoft集成測試環境配置(五) 【車載開發系列】ParaSoft集成測試環境配置(五) 一. 剝離硬件環境的設置 二. 靈活使用編譯開關 三. 導入修改后的bdf文件 四. 自動生成底層樁函數 五. 開始跑集成測試用例 六…

大模型(一)什么是 MCP?如何使用 Charry Studio 集成 MCP?

目錄一、什么是 MCP&#xff1f;1.1 &#x1f914; 開始之前的思考1.2 MCP 的定義1.3 MCP 結構二、MCP 的使用2.1 uv 的安裝2.2 MCP 廣場2.3 MCP 的配置2.4 MCP 的依賴安裝2.5 Charry Studio2.6 測試結果背景&#xff1a; MCP 這個概念大概是 2025 年上半年火起來的&#xff0c…

源碼導航頁

一、Python捕捉動作發送到Unity驅動模型跟著動&#xff08;獲取源碼&#xff09; 二、AI輸入法源碼&#xff08;獲取源碼&#xff09; 三、Java企業級后臺管理系統-登錄授權角色菜單&#xff08;獲取源碼&#xff09; 四、Jetson實現純視覺導航&#xff08;獲取源碼&#xff09…

HTTP/2 性能提升的核心原因

一、協議架構優化??二進制分幀&#xff08;Binary Framing&#xff09;?HTTP/2 將傳統文本格式的報文&#xff08;如請求頭、數據體&#xff09;拆分為獨立的二進制幀&#xff08;Frame&#xff09;&#xff0c;每個幀包含流標識符&#xff08;Stream ID&#xff09;&#x…

vulnhub-billu_b0x靶機滲透

一、靶場詳情 Billu_b0x 是 Vulnhub 上的經典中等難度靶機&#xff0c;主要考察從信息收集到提權的完整滲透流程&#xff1a;先通過端口和目錄掃描發現網站入口&#xff0c;利用 SQL 注入或文件包含進入后臺并上傳 WebShell&#xff0c;再通過反彈 Shell 獲取低權限用戶&#…

C# 相機內存復用(減少圖像采集耗時)以及行數復用

背景我們在做圖像處理時&#xff0c;都會對一些相機的SDK進行開發完成圖像采集的操作&#xff0c;為后續圖像處理做準備。本文主要的目的是降低圖像采集的耗時&#xff0c;應用在一些高速檢測的場景下。利用循環隊列內存復用的方式&#xff0c;去掉或者減少新建內存的時間。線掃…

MTK Linux DRM分析(十三)- Mediatek KMS實現mtk_drm_drv.c(Part.1)

一、簡介 MediaTek (MTK) 的DRM驅動(基于mtk_drm_drv.c)是為MediaTek SoC(如MT6985、MT6895等)設計的顯示子系統(Display Subsystem)驅動程序。它實現了Linux DRM/KMS框架,支持多CRTC、多平面(plane)、連接器(connector)和編碼器(encoder)的顯示管道。驅動處理硬…

Wireshark筆記-DHCP流程與數據包解析

背景DHCP從大學上網絡課時就開始知道了&#xff0c;當時只知道&#xff0c;能讓計算機上網&#xff0c;要不就靜態配IP&#xff0c;要不就DHCP獲取&#xff0c;就能上網。2021年時&#xff0c;畢業好幾年了&#xff0c;想學習下網絡知識&#xff0c;就準備考一個軟考網工。按要…

Coze用戶賬號設置修改用戶頭像-前端源碼

概述 Coze Studio的用戶頭像修改功能是用戶賬號設置中的重要組成部分&#xff0c;允許用戶上傳和更新個人頭像。本文將深入分析該功能的前端實現&#xff0c;包括組件架構、文件上傳處理、API設計和用戶體驗優化等方面。 技術架構 整體架構設計 Coze Studio采用現代化的前端架構…

新手Github提交PR(Pull requests)詳細教程

一、什么是Pull requests&#xff1f; Pull Requests&#xff08;PR&#xff09;是代碼協作平臺&#xff08;如 GitHub、GitLab 等&#xff09;中的一種功能&#xff0c;用于提議將某分支的代碼變更合并到另一個分支&#xff08;通常是主分支&#xff09;。它允許開發者在合并…

本地通過跳板機連接無公網IP的內網服務器

本地環境&#xff1a;SSH client 堡壘機&#xff1a;有公網IP&#xff0c;有連接內網服務器的秘鑰 SSH配置&#xff1a; Host jmsHostName [堡壘機的公網IP]Port 22User rootIdentityFile ~/.ssh/id_rsaHost appHostName 10.0.0.14Port 22User rootIdentityFile ~/.ssh/svc-p…

B樹,B+樹,B*樹

下面我們來詳細講解一下 B樹、B樹、B*樹 這三種非常重要的多路平衡查找樹。它們在數據庫和文件系統中有著極其廣泛的應用。一、為什么需要這些樹結構&#xff1f;在開始之前&#xff0c;我們先思考一個問題&#xff1a;為什么已經有了二叉搜索樹&#xff08;BST&#xff09;、A…

汽車零部件工廠ESOP系統工業一體機如何選型

在汽車零部件工廠的生產管理中&#xff0c;ESOP 系統發揮著至關重要的作用。而工業一體機作為 ESOP 系統的關鍵硬件支撐&#xff0c;其選型的合理性直接關系到生產效率的提升、生產過程的精準控制以及生產數據的可靠采集與分析。因此&#xff0c;為汽車零部件工廠選擇一款適合的…

?維基框架 (Wiki Framework) 1.1.0 版本發布? 提供多模型AI輔助開發

介紹 多模型AI輔助開發? 維基框架1.1.0集成了主流AI引擎的統一接口&#xff0c;支持開發者按需調用不同模型的優勢能力&#xff1a; ?DeepSeek?&#xff1a;專注代碼生成與重構&#xff0c;擅長復雜業務邏輯實現 ?ChatGPT?&#xff1a;多模態推理能力&#xff0c;適用于…

LabVIEW調用MATLAB 的分形生成

LabVIEW 調用 MATLAB&#xff0c;可借前者可視化流程與硬件交互優勢&#xff0c;結合后者強數值計算、算法能力&#xff0c;復用成熟算法提速開發&#xff0c;還能靈活改代碼。但需匹配版本、裝運行環境&#xff0c;數據傳遞有性能損耗&#xff0c;腳本出錯需跨軟件調試。?優點…

ubuntu20.04開發ros2,使用docker安裝部署的詳細教程

學習docker的教程&#xff1a;可以直接在菜鳥教程上學習即可階段 0&#xff1a;系統檢查| 內容 | 建議 | |------|------| | 操作系統 | Ubuntu 22.04&#xff08;與 ROS2 Humble 最匹配&#xff09; | | 用戶權限 | 能執行 sudo |&#x1f9e9; 階段 1&#xff1a;在 Ubuntu 上…

SQL Server縮小日志文件.ldf的方法(適用于開發環境)

SQL Server縮小日志文件.ldf的方法&#xff08;適用于開發環境&#xff09; 核心概念&#xff1a;為什么日志文件會變大&#xff1f; 首先&#xff0c;理解原因至關重要。事務日志文件在以下情況下會增長&#xff1a; 大量操作&#xff1a;執行了大批量插入、更新或刪除操作&am…

2.3零基礎玩轉uni-app輪播圖:從入門到精通 (咸蝦米總結)

還在uni-app中的輪播圖組件頭疼嗎&#xff1f;看完這篇&#xff0c;讓你輕松掌握swiper的所有秘密&#xff01;輪播圖的重要性 在現代移動應用開發中&#xff0c;輪播圖&#xff08;Swiper&#xff09;已成為展示焦點內容、廣告推廣和產品展示的首選組件。無論是電商平臺的商品…

FPGA學習筆記——AHT20溫濕度讀取并在串口顯示(IIC協議)

目錄 一、任務 二、分析 1.需要了解的 2.需要用到的模塊 3.流程分析 三、Visio圖 四、代碼 五、實驗現象 一、任務 使用IIC協議通信的AHT20&#xff0c;將溫濕度數據讀取出來&#xff0c;并在串口助手上顯示。 二、分析 1.需要了解的 需要了解IIC協議簡介 也可以看看E…

Pycharm SSH連接

添加遠程服務器文件——>設置——>項目下的Python解釋器——>添加解釋器——>SSH在彈出的彈窗中&#xff0c;輸入遠程的主機、端口和用戶名、一直下一步&#xff0c;得到如下圖所示的結果&#xff1a;選擇Conda 環境&#xff1a;第一步選擇Conda環境&#xff1b;第…