LUFFY(路飛): 使用DeepSeek指導Qwen強化學習

論文標題

Learning to Reason under Off-Policy Guidance

論文地址

https://arxiv.org/pdf/2504.14945

代碼地址

https://github.com/ElliottYan/LUFFY

作者背景

上海人工智能實驗室,西湖大學,南京大學,香港中文大學

動機

目前大模型的后訓練方法有 SFT 和 RL 兩種形式,前者強調模仿,后者強調探索。兩類后訓練方法各有千秋,基于模仿的訓練能夠快速調整模型的行為模式,但這種調整很可能流于表面而非真正掌握解題策略;基于探索的訓練能夠使模型自行找出獎勵最高的行為策略,但受限于基礎模型本身的能力,探索時很可能只是反復嘗試當前已掌握的行為模式,難以利用全新的思路去解決問題,實踐中我們也經常遇到RL訓練進入瓶頸的問題

在這里插入圖片描述

于是作者希望結合“模仿”與“探索”兩種學習方式,讓模型自主探索解題策略的同時,也有機會模仿外部強模型的行為模式,從而使大模型獲得超越其初始認知邊界的推理能力

本文方法

本文提出 LUFFY(Learning to reason Under oFF-policY guidance),核心思想是引入外部強模型(deepseek-R1)作為off-policy,與當前策略模型(on-policy)一同參與采樣,從而指導 RL 進行更高效的學習,避免純 on-policy 模型在面臨復雜問題時遲遲探索不出有效策略

一、LUFFY流程與優化目標

在這里插入圖片描述

如上圖所示,對于問題q,由當前策略模型與外部強模型共同采樣一組輸出,然后使用統一的獎勵函數對所有采樣評分(檢查格式正確性與答案正確性)

和標準GRPO一樣,對所有回答的獎勵分數做標準化作為優勢,即高于均值的優勢為正,低于均值的優勢為負或較小。由于外部強模型采樣得更少,只有當策略模型難以獨立生成正確解時它才占據產生梯度的主導地位,一旦策略模型能夠產生成功的推理軌跡, GRPO便開始鼓勵自主探索

grpo算法通常需要進行重要性采樣,因為它在策略更新過程中,使用舊策略上采樣的數據去預估新策略的期望回報

在這里插入圖片描述

LUFFY中使用了off-policy模型,更需要進行這一校準,其優化目標如下所示:
在這里插入圖片描述

為了更好地模擬外部強模型的行為,作者最終移除了梯度裁剪

二、梯度塑形

作者發現,直接按照上述流程將外部強模型引入RL訓練后,盡管利用重要性采樣加速了收斂,但模型表現出低熵、探索行為明細變少。這是因為策略模型在模仿外部模型時,對不同概率的token存在偏差,即策略模型傾向于強化那些【同時常見于 onPolicy 分布與 offPolicy 分布的token】,忽略了【不常見于 OnPolicy 分布的 token】,即便這些token在offPolicy中出現概率很高。如此一來,模型便忽略了這部分體現強模型關鍵推理能力的低概率token

教師正在認真糾正學生的錯誤想法,但學生只想著“求同存異”,迅速理解了老師的思想與自己的共同之處,而沒關注到老師的獨特之處

為了解決這一問題,作者提出了“梯度塑形”方法,本質上便是根據 token 不同的概率對梯度進行加權。具體地,作者使用了 f(x)=γ/(γ+x) 這一變換函數(γ為超參數,實驗中取0.1),其函數圖像為:

在這里插入圖片描述

加入梯度塑形后,訓練過程中策略模型的熵始終保持在一個較高的狀態,即具有更好的探索能力,并且有效避免了 Entropy Collapse

在這里插入圖片描述

實驗結果

基于 Qwen2.5-Math-7B 模型,在OpenR1-Math-220k上進行訓練,外部強模型使用DeepSeek-R1,在6個常用的數學推理基準上測試

在這里插入圖片描述

可見 LUFFY 方法全面超越了各類on-policy與off-policy方法

實驗各策略的資源開銷對比

在這里插入圖片描述

其他模型實驗結果

在這里插入圖片描述

LUFFY與on-policy RL訓練動態對比

在這里插入圖片描述

LUFFY 在困難問題上能夠問答訓練,而on-policy 方法崩潰

在這里插入圖片描述

各組件消融實驗

在這里插入圖片描述

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/908601.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/908601.shtml
英文地址,請注明出處:http://en.pswp.cn/news/908601.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Android Camera Hal中通過Neon指令優化數據拷貝

背景描述: Camera apk普通相機模式錄像操作時,一般是同時請求兩個流,即預覽流和錄像流。對于兩個流輸出圖像格式和分辨率相同的情況下,是不是可以通過一個流拷貝得到另一個流的數據,進而節省掉一個Sensor輸出處理兩次…

WPS word 已有多級列表序號

wps的word中,原來已生成的文檔里,已存在序號。比如,存在2、2.1、2.1.1、2.1.1.1、2.1.1.1.1 5層序號,而且已分為5級。但增加內容的時候,并不會自動增加序號,應該如何解決? 原來長這樣&#xff…

從零開始制作小程序簡單概述

以下是結合案例的“從零制作小紅書風格小程序”的全流程指南,采用小紅書爆款筆記的結構呈現,并附CSDN參考資源👇: 一、核心開發步驟(附工具推薦) 賬號與定位 ? 注冊類型選擇:個人店&#xff08…

【Go語言基礎【13】】函數、閉包、方法

文章目錄 零、概述一、函數基礎1、函數基礎概念2、參數傳遞機制3、返回值特性3.1. 多返回值3.2. 命名返回值3.3. 錯誤處理 二、函數類型與高階函數1. 函數類型定義2. 高階函數(函數作為參數、返回值) 三、匿名函數與閉包1. 匿名函數(Lambda函…

網絡編程之服務器模型與UDP編程

一、服務器模型 在網絡通信中,通常要求一個服務器連接多個客戶端 為了處理多個客戶端的請求,通常有多種表現形式 1、循環服務器模型 一個服務器可以連接多個客戶端,但同一時間只能連接并處理一個客戶的請求 socket() 結構體 bind() listen() …

open3D:三維點云處理

open3d 點云數據處理 爆肝5萬字??Open3D 點云數據處理基礎(Python版)_python 點云 焊縫-CSDN博客 如何用NumPy讀取和保存點云數據 - 知乎 讀取并可視化點云 np.loadtxt 從txt中讀取點集,并open3d顯示單個點云 txt內容:每行皆…

使用聯邦多軌跡圖神經網絡(GNNs)結合稀缺數據預測嬰兒腦連接|文獻速遞-深度學習醫療AI最新文獻

Title 題目 Predicting infant brain connectivity with federated multi-trajectory GNNs using scarce data 使用聯邦多軌跡圖神經網絡(GNNs)結合稀缺數據預測嬰兒腦連接 01 文獻速遞介紹 多模態影像下的嬰兒腦連接演化預測:聯邦學習與…

[特殊字符] 深入理解 Linux 內核進程管理:架構、核心函數與調度機制

Linux 內核作為一個多任務操作系統,其進程管理子系統是核心組成部分之一。無論是用戶應用的運行、驅動行為的觸發,還是系統調度決策,幾乎所有操作都離不開進程的創建、調度與銷毀。本文將從進程的概念出發,深入探討 Linux 內核中進…

第16節 Node.js 文件系統

Node.js 提供一組類似 UNIX(POSIX)標準的文件操作API。 Node 導入文件系統模塊(fs)語法如下所示: var fs require("fs") 異步和同步 Node.js 文件系統(fs 模塊)模塊中的方法均有異步和同步版本&#xff…

《探秘局域網廣播:網絡世界的 “大喇叭”》

揭開局域網廣播的神秘面紗 在當今數字化時代,網絡已成為人們生活和工作中不可或缺的一部分。從日常的網頁瀏覽、社交媒體互動,到企業級的數據傳輸、云計算應用,網絡通信無處不在。在這個龐大而復雜的網絡世界里,數據如同信息流在各個節點之間穿梭,而局域網廣播則是其中一種…

基于Ubuntu22.04安裝SVN服務器之倉庫遷移

基于Ubuntu22.04安裝SVN服務器之倉庫遷移 第一步: 停止svn服務器 第一步: 停止svn服務器 1)建議遷移的時候先把SN服務器停掉,以免操作失敗。 svnserve -d -r /usr/svn第二步:dump出svn代碼庫 1)通過dump出舊的svn服務器上的代碼…

Unity UI 性能優化終極指南 — Image篇

🎯 Unity UI 性能優化終極指南 — Image篇 🧩 Image 是什么? Image 是UGUI中最常用的基本繪制組件支持顯示 Sprite,可以用于背景、按鈕圖標、裝飾等是UI性能瓶頸的頭號來源之一,直接影響Draw Call和Overdraw &#x1…

「Java基本語法」代碼格式與注釋規范

Java代碼的基本格式 Java代碼的規范格式是編寫和維護Java程序的基礎,其中包括類定義、方法定義、代碼縮進、大括號位置等。 1.核心規則 每個Java文件必須包含一個公共類(public class),且Java源文件的文件名必須和這…

2025年AI編程工具推薦

目錄 👑 **一、全能型AI開發環境(IDE)**🛠? **二、AI代碼助手與插件**🎯 **三、垂直領域工具**🇨🇳 **四、國產工具精選**🔮 **五、創新前沿工具**?? **選型建議** 2025年&#x…

【工具使用】STM32CubeMX-FreeRTOS操作系統-信號標志、互斥鎖、信號量篇

一、概述 無論是新手還是大佬,基于STM32單片機的開發,使用STM32CubeMX都是可以極大提升開發效率的,并且其界面化的開發,也大大降低了新手對STM32單片機的開發門檻。 ????本文主要講述STM32芯片FreeRTOS信號標志、互斥鎖和信號…

ArrayList和LinkedList(深入源碼加擴展)

ArrayList 和 LinkedList 是 Java 集合框架中兩種常用的列表實現,它們在底層數據結構、性能特點和適用場景上有顯著的區別。以下是它們的詳細對比以及 ArrayList 的擴容機制。 1. ArrayList 和 LinkedList 的底層區別 (1) 底層數據結構 ArrayList: 基于動態數組(Dynamic Ar…

淺談 React Suspense

React Suspense 是 React 中用于處理異步操作的功能。它可以讓你"等待"某些操作,如數據獲取或組件加載完成,然后再渲染組件。Suspense 的核心理念是讓組件在準備好之前顯示一個備用的 UI,例如加載指示器,從而提高用戶體…

機器學習的數學基礎:線性模型

線性模型 線性模型的基本形式為: f ( x ) ω T x b f\left(\boldsymbol{x}\right)\boldsymbol{\omega}^\text{T}\boldsymbol{x}b f(x)ωTxb 回歸問題 利用最小二乘法,得到 ω \boldsymbol{\omega} ω和 b b b的參數估計$ \boldsymbol{\hat{\omega}}…

Linux【4】------RK3568啟動和引導順序

引導順序 RK3568 的啟動流程如下: 加電后,芯片首先執行 BootROM 中的代碼; BootROM 會嘗試從配置好的外部設備(如 NOR/NAND/eMMC/SD 卡)加載啟動程序; 如果這些設備都沒有有效的啟動代碼,Bo…

Deepseek/cherry studio中的Latex公式復制到word中

需要將Deepseek/cherry studio中公式復制到word中,但是deepseek輸出Latex公式,比如以下Latex代碼段,需要通過Mathtype翻譯才能在word中編輯。 $$\begin{aligned}H_1(k1) & H_1(k) \frac{1}{A_1} \left( Q_1 u_1(k) Q_{i1} - Q_2 u_2(k…