突破PPO訓練效率瓶頸!字節跳動提出T-PPO,推理LLM訓練速度提升2.5倍

突破PPO訓練效率瓶頸!字節跳動提出T-PPO,推理LLM訓練速度提升2.5倍

在大語言模型(LLM)通過長思維鏈(CoT)展現出強大推理能力的當下,強化學習(RL)作為關鍵技術卻面臨訓練效率難題。本文將介紹字節跳動提出的Truncated Proximal Policy Optimization(T-PPO),其通過創新方法提升訓練效率,在AIME 2024基準測試中表現亮眼,一起來了解這一重要進展。

論文標題
Truncated Proximal Policy Optimization

來源
arXiv:2506.15050v1 [cs.AI] + https://arxiv.org/abs/2506.15050

文章核心

研究背景

近年來,推理導向的大型語言模型(LLM)如OpenAI的o1、DeepSeekR1和QwQ等,借助擴展的思維鏈(CoT)推理在數學推理、編程和基于代理的任務等復雜領域展現出最先進的性能,而深度強化學習(RL)技術是這些模型提升推理能力的重要支撐。

研究問題

  1. PPO的在線策略特性導致訓練效率低下:PPO作為LLM優化的主要RL方法,其在線策略本質限制了訓練效率,在處理長CoT軌跡時,這種限制尤為明顯,會導致大量計算開銷和延長訓練時間。

  2. 長生成過程中硬件利用率低:完全同步的長生成過程中,資源在等待完整rollout期間經常處于閑置狀態,存在硬件利用率低的固有缺點。

  3. 離線策略方法存在訓練不穩定問題:雖然離線策略方法訓練效率更高,但通常在策略梯度估計器中存在高方差,導致訓練不穩定和性能下降。

主要貢獻

  1. 提出EGAE進行優勢估計:開發Extended Generalized Advantage Estimation(EGAE),可從不完整響應中進行優勢估計,同時保持策略學習的完整性,使策略更新能在軌跡完全生成前進行,提高計算資源利用率。

  2. 設計計算優化機制:創建一種計算優化機制,允許策略和價值模型獨立優化,通過選擇性過濾提示和截斷令牌,減少冗余計算并加速訓練過程,且不犧牲收斂性能。

  3. 提升訓練效率與性能:在AIME 2024上使用32B基礎模型的實驗表明,T-PPO將推理LLM的訓練效率提高了2.5倍,性能優于現有競爭對手,在AIME’24基準測試中取得62的pass@1分數。

方法論精要

核心算法/框架

T-PPO是PPO的新型擴展,核心在于EGAE和令牌過濾策略。EGAE擴展了傳統的GAE,支持使用部分生成的響應進行策略優化;令牌過濾策略通過截斷生成和選擇性使用令牌,實現策略和價值模型的獨立優化。

(所以EGAE的關鍵是,對于未生成的tokens V ( s l ) = V ( s l ? 1 ) V(s_{l})=V(s_{l-1}) V(sl?)=V(sl?1?),算是一種近似。那 δ t \delta _ t δt?里的 r t r_t rt?是怎么來的?kl?)

關鍵參數設計原理

窗口長度 l l l:用于截斷生成,假設實際最大響應長度 L L L與窗口長度 l l l的比值為 k k k,生成時間和訓練時間大約可節省k倍。

EGAE中的參數 λ λ λ γ γ γ λ λ λ控制未來獎勵對優勢估計的影響, γ γ γ為折扣因子,通過調整它們控制偏差-方差權衡。

裁剪參數:策略的 ? l o w = 0.2 \epsilon_{low}=0.2 ?low?=0.2 ? h i g h = 0.28 \epsilon_{high}=0.28 ?high?=0.28,價值函數的 ξ l o w = 0.5 \xi_{low}=0.5 ξlow?=0.5 ξ h i g h = 0.6 \xi_{high}=0.6 ξhigh?=0.6,限制更新幅度以保證穩定性。

創新性技術組合

將EGAE與令牌過濾策略結合,實現不完整軌跡的優勢計算和漸進式策略更新。

策略模型訓練使用當前訓練步驟生成的響應令牌,價值模型訓練使用完成序列的所有生成令牌,且價值模型采用蒙特卡洛訓練范式以確保無偏估計。

采用連續批處理策略,當某些序列達到結束條件時,在下一步插入新提示,未完成樣本保留,保持每步批大小恒定。

實驗驗證方式

數據集:使用美國數學邀請賽(AIME)作為推理問題的代表性基準,訓練集為DAPO-Math-17K,包含過去所有AIME競賽問題及一些人工構造的難題。

基線方法:對比DeepSeek-R1-Zero-Qwen-32B、DAPO、VAPO、GePPO、PPO-EWMA等,通過AIME 2024的pass@1分數和訓練時間評估性能。

實驗洞察

性能優勢

T-PPO在AIME 24上實現61.88的pass@1分數,超越DeepSeek-R1-Zero-Qwen-32B和現有的最佳異步PPO算法,在相同性能下,與需要20k響應長度的PPO相比,在AIME24基準上wall-clock time減少60%。

效率突破

T-PPO的平均每1000步壁鐘時間與PPO-EWMA相當,遠低于vanillaPPO算法,且收斂步驟(6720步)顯著少于PPO-EWMA(11200步),總運行時間更短;在policy rollout中的計算強度為249 operations/byte,遠高于PPO的84 operations/byte,更好地利用了計算資源。

訓練動態分析

對響應長度的分析表明,其呈現先增加、暫時下降、再恢復并最終穩定的特征,最終穩定的響應長度超過vanillaPPO,說明T-PPO保留并可能增強了推理模型的長度縮放能力,模型在學習過程中不斷完善推理方法。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/85721.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/85721.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/85721.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【Python】dictionary

1 字典功能 字典是可變容器模型&#xff0c;且可存儲任意類型對象&#xff1b; 字典的每個鍵值對 <key: value> 用冒號 : 分割&#xff0c;每個對之間用逗號(,)分割&#xff0c;整個字典包括在花括號 {} 中 ,格式如下所示&#xff1a; d {key1 : value1, key2 : value…

【python】If 語句

1 使用if 進行條件判斷 1.1 檢查字符串是否相等 car bmw car BMW # FALSEcar bmw car.upper() BMW # true # 變小寫用方法&#xff1a;lower1.2 檢查字符串是否不相等 my_car yadeaif my_car ! Audi:print("Buy one! Buy one! Buy one!")1.3 比較數字 answe…

Knife4j 使用詳解

一、概述 Knife4j 是一款基于 Swagger 的開源 API 文檔工具&#xff0c;旨在為 Java 開發者提供更美觀、功能更強大的 API 文檔生成、展示和調試體驗。它是 Swagger-Bootstrap-UI 的升級版&#xff0c;通過增強 UI 界面和擴展功能&#xff0c;解決了原生 Swagger UI 界面簡陋、…

Java excel坐標計算

package com.common.base.util.excel;/*** excel 坐標計算*/ public class UtilExcelPosi {/*** deepseek生成 ExcelProperty(index UtilExcelPosi.pA)*/public final static int pA 0;public final static int pB 1;public final static int pC 2;public final static i…

【JavaWeb】Servlet+JSP 實現分頁功能

文章目錄 思路數據抽出功能設計 功能模塊工具類前端內容用戶端數據處理 思路 數據抽出 需要顯示的數據&#xff0c;查詢的數據抽出&#xff1b;進行分頁顯示&#xff0c;需要統計抽出的件數&#xff0c;然后根據頁面顯示尺寸調整顯示頁面內容&#xff1b; 功能設計 翻頁需要…

SpringBoot-準備工作-工程搭建

目錄 1.創建空項目 2.檢查項目jdk版本 3.檢查Maven的全局配置 4.配置項目的字符集 5.創建SpringBoot工程 1.創建空項目 2.檢查項目jdk版本 3.檢查Maven的全局配置 4.配置項目的字符集 5.創建SpringBoot工程

01、python實現matlab的插值算法,以及驗證

import numpy as np from scipy.interpolate import griddata import sys def griddata_wrapper(x, y, v, xq, yq, method): """ 包裝scipy的griddata函數,支持單個點或多個點的插值 """ try: # 將輸入轉換為numpy數組…

React ahooks——useRequest

目錄 簡介 1. 核心功能 2. 基本用法 3. 高級用法 &#xff08;1&#xff09;輪詢請求&#xff08;Polling&#xff09; &#xff08;2&#xff09;防抖&#xff08;Debounce&#xff09; &#xff08;3&#xff09;依賴刷新&#xff08;refreshDeps&#xff09; &#x…

re正則、Xpath、BeautifulSouplxml 區別

目錄 1. re 正則表達式2. XPath3. BeautifulSoup + lxml4. 功能特性對比5.對比與建議在網頁數據解析中,正則表達式(re)XPath(常結合lxml)BeautifulSoup(常依賴解析器如lxml)是三種主流技術,各有核心差異和適用場景。 1. re 正則表達式 優勢:文本匹配效率高,尤其適用于…

教師辦工專用 資源包|課件+手抄報+PPT模板+常用表格 PDF格式93GB

如果家里親戚或朋友有走上教育之路的人&#xff0c;給他這份整合可以減輕不少工作負擔&#xff0c;更快地適應教育的節奏。也可以發給孩子的老師讓他在平時做個班級活動的參考 《老師教學辦工資源包》包括手抄報大全、教學計劃、工作總結、培訓手冊、課程表等教學、辦公常用資…

算法第37天| 完全背包\518. 零錢兌換 II\377. 組合總和 Ⅳ\57. 爬樓梯

完全背包 完全背包和01背包的區別 純完全背包&#xff0c;遍歷背包和物品的順序是可以對調的&#xff0c;只要求得出最大價值&#xff0c;不要求湊成總和的元素的順序&#xff1b; 01背包&#xff0c;遍歷背包和物品的順序是不可以對調的&#xff08;一維不行&#xff0c;二維…

七彩喜智慧康養平臺:重構銀發生活的數字守護網

隨著社會老齡化程度的不斷加深&#xff0c;如何讓老年人安享幸福晚年成為社會關注的焦點。 在這一背景下&#xff0c;七彩喜智慧康養平臺應運而生&#xff0c;以創新的科技手段和貼心的服務理念&#xff0c;為老年人的生活帶來了諸多好處&#xff0c;發揮著重要作用&#xff0…

【設計模式】用觀察者模式對比事件訂閱(相機舉例)

&#x1f4f7; 用觀察者模式對比事件訂閱(相機舉例) 標簽&#xff1a;WPF、C#、Halcon、設計模式、觀察者模式、事件機制 在日常開發中&#xff0c;我們經常使用 事件機制&#xff08;Event&#xff09; 來訂閱圖像采集信號。然而當系統日益復雜&#xff0c;多個模塊同時需要響…

【數據分析九:Association Rule】關聯分析

一、數據挖掘定義 數據挖掘&#xff1a; 從大量的數據中挖掘那些令人感興趣的、有用的、隱含的、先前未知的 和可能有用的 模式或知識 &#xff0c;并據此更好的服務人們的生活。 二、四類任務 數據分析有哪些任務&#xff1f; 今天我們來講述其中的關聯分析 三、關聯分析 典…

AWS Security Hub郵件告警設置

問題 需要給AWS Security Hub設置郵件告警。 前提 已經啟用AWS Security Hub。 AWS SNS 創建一個AWS Security Hub告警主題SecurityHub-Topic&#xff0c;如下圖&#xff1a; 創建完成后&#xff0c;訂閱該主題。 AWS EventBridge 設置規則名SecurityHubFindings-Rules…

(OSGB轉3DTiles強大工具)ModelSer--強大的實景三維數據分布式管理平臺

1. ModelSer 能幫我們做什么 1.1 最快速的 osgb 發布 3dtiles 服務 測試的速度大于 10G/分鐘&#xff0c;且速度基本是線性的&#xff08;100G10分鐘&#xff0c;1T100分鐘&#xff09;。支持城市級傾斜數據半天內完成服務發布&#xff0c;并支持數據的單塊更新。 1.2 支持所見…

《HTTP權威指南》 第5-6章 Web服務器和代理

基本Web服務器請求的步驟 1、建立連接 接受一個客戶端連接&#xff0c;或者如果不希望與這個客戶端建立連接&#xff0c;就將其關閉。 處理新連接客戶端主機名識別&#xff1a;反向DNS查找&#xff0c;將IP地址轉換為客戶端主機名過ident確定客戶端用戶&#xff1a;客戶端支持…

微信二次開發,對接智能客服邏輯

接口友情鏈接&#xff0c;點擊即可訪問。 ## 設備創建與復用機制 首次調用/login/getLoginQrCode需傳空appId觸發設備創建&#xff0c;響應返回固定設備ID。后續登錄必須復用此ID以避免風控&#xff08;同一微信號綁定固定設備&#xff09;。設備類型可選ipad/mac&#xff0c;當…

網站并發訪問量達到1萬以上需要注意哪些事項

當網站并發訪問量達到1萬以上時&#xff0c;需要注意以下幾個方面?&#xff1a; ?服務器硬件配置?&#xff1a; ?處理器&#xff08;CPU&#xff09;?&#xff1a;選擇多核、高頻率的CPU&#xff0c;以確保服務器能夠高效地處理大量的請求。?內存&#xff08;RAM&#xf…

二、OpenCV的第一個程序

文章目錄 一、第一個程序&#xff1a;顯示圖片1.1 cv::imread1.2 cv::namedWindow1.3 cv::imshow 二、第二個程序&#xff1a;視頻2.1 cv::VideoCapture 三、加入了滑動條的基本瀏覽窗口 一、第一個程序&#xff1a;顯示圖片 示例&#xff1a;一個簡單的加載并顯示圖像的OpenC…