[論文閱讀] 人工智能 | 利用負信號蒸餾:用REDI框架提升LLM推理能力

【論文速讀】利用負信號蒸餾:用REDI框架提升LLM推理能力

論文信息

arXiv:2505.24850  cs.LG cs.AI cs.CL
Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning
Authors: Shuyao Xu, Cheng Peng, Jiangxuan Long, Weidi Xu, Wei Chu, Yuan Qi

一、研究背景:被浪費的“錯誤寶藏”

想象你在學數學題,老師只給你看正確解答,卻從不講解錯誤思路為啥錯——這時候你可能會疑惑:“我怎么知道自己哪里容易踩坑?”
大語言模型(LLM)的蒸餾訓練就面臨類似問題。傳統方法(如拒絕采樣)只保留老師模型生成的正確推理痕跡(正樣本),扔掉錯誤推理痕跡(負樣本)。但這些負樣本里藏著大量“避坑指南”:比如模型常犯的邏輯錯誤、邊界條件遺漏等。
舉個例子,在數學推理中,老師模型可能試過錯誤的公式套用或步驟順序,這些失敗案例對小模型學習“如何避免犯錯”至關重要。但現有方法白白浪費了這些信息,導致小模型只能“學正確答案”,卻“不懂錯誤根源”,推理能力提升有限。

二、創新點:讓錯誤成為“學習信號”

這篇論文的核心突破是:首次系統利用負樣本進行強化蒸餾,提出兩階段框架REDI(Reinforcement Distillation),解決了三大問題:

  1. 負樣本利用率低:傳統方法丟棄負樣本,REDI將其轉化為可學習的損失信號。
  2. 穩定性與性能的矛盾:現有方法(如DPO)依賴KL散度正則化,高正則化雖穩定但限制性能,低正則化則容易訓練崩潰。REDI通過非對稱加權損失(α參數)平衡兩者,既避免崩潰又提升峰值性能。
  3. 數據效率低下:用更少數據(131k正負樣本)超越需800k專有數據的模型,開源數據也能訓出SOTA。

三、研究方法和思路:兩步走的“糾錯學習法”

階段1:用正確答案打基礎(SFT)

  • 目標:讓小模型先學會“正確推理的樣子”。
  • 方法:用正樣本(老師的正確推理痕跡)進行監督微調(SFT),優化目標是最大化生成正確痕跡的概率:
    在這里插入圖片描述
  • 作用:建立基礎推理能力,作為后續優化的起點。

階段2:用錯誤答案做強化(REDI目標函數)

  • 目標:讓小模型學會“識別錯誤”,避免重復老師的失誤。
  • 方法:引入負樣本,設計非對稱加權損失函數,同時優化兩個方向:
    • 最大化正樣本概率:讓正確推理更可能被生成。

    • 最小化負樣本概率:抑制錯誤推理,但通過參數α降低負樣本的梯度權重(α∈[0,1]),避免過度懲罰導致模型“不敢推理”。
      損失函數:
      在這里插入圖片描述

    • α的作用:α=1時等價于對稱損失(易崩潰),α=0時退化為僅用正樣本。實驗發現α=0.8時平衡最佳。

實驗驗證:小數據也能超越大廠模型

  • 數據:從Open-R1數據集提取78k正樣本(D_SFT)和53k正負樣本對(D_Pref),總數據量131k。
  • 對比模型
    • 基線:SFT(僅正樣本)、SFT+DPO/SimPO(傳統強化方法)。
    • 競品:DeepSeek-R1-Distill-Qwen-1.5B(用800k專有數據訓練)。
  • 結果
    • Qwen-REDI-1.5B在MATH-500基準上達到83.1%準確率(pass@1),超過DeepSeek-R1-Distill-Qwen-1.5B的83.2%,且數據量僅為其1/6。
    • 消融實驗顯示,REDI的非對稱加權比對稱損失(α=1)更穩定,比DPO/SimPO性能提升1-2%。

四、主要貢獻:三大突破推動LLM蒸餾

  1. 方法論創新:提出REDI框架,首次在離線蒸餾中有效利用負樣本,打破“負樣本=無用數據”的固有認知。
  2. 性能提升:用開源數據實現1.5B模型SOTA,數據效率提升6倍,為小團隊和開源社區提供低成本方案。
  3. 理論分析:揭示DPO等方法中KL正則化的“性能-穩定性”矛盾,為未來損失函數設計提供方向。

五、總結:錯誤是最好的老師

這篇論文證明,LLM的“錯誤”不是垃圾,而是珍貴的學習信號。REDI通過“先學對、再辨錯”的兩步法,讓小模型既能掌握正確推理模式,又能識別常見錯誤,實現了推理能力的跨越式提升。更重要的是,其數據高效性(131k樣本)和開源友好性(基于Open-R1),讓更多研究者能復現和改進,推動LLM推理能力向低成本、高效化方向發展。

未來,REDI框架可進一步與在線RL結合,形成“離線蒸餾+在線優化”的完整鏈路,或許能解鎖更復雜的推理場景——畢竟,連錯誤都能被利用的模型,才是真正“會學習”的模型。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/85972.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/85972.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/85972.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Cursor 1.0正式推出:全面解析你的AI 編程助手

目錄 前言 一、BugBot:你的私人代碼審查專家 二、Background Agent:7x24小時在線的云端開發伙伴 三、Jupyter Notebook 深度集成:數據科學家的福音 四、記憶功能 (Memories):讓 AI 更懂你的項目 五、MCP 與工具生態&#xf…

QILSTE 精巧電子元件H4-108FO/5M解析

型號:H4-108FO/5M 在電子元件的浩瀚宇宙中,H4-108FO/5M 仿佛一顆散發著獨特光芒的恒星,其參數和特性交織成一張錯綜復雜的網絡,既令人困惑又充滿驚喜。這款型號的產品,以其 1.60.80.4mm 的微小尺寸,卻蘊含…

第2章_Excel_知識點筆記

Excel 知識點總結(第2章) 來自:第2章_Excel_知識點筆記,原筆記 基礎操作 狀態欄:快速查看計數/求和等數據(右鍵可配置)。篩選(CtrlShiftL):按條件顯示數據…

【學習筆記】單例類模板

【學習筆記】單例類模板 一、單例類模板 以下為一個通用的單例模式框架,這種設計允許其他類通過繼承Singleton模板類來輕松實現單例模式,而無需為每個類重復編寫單例實現代碼。 // 命名空間(Namespace) 和 模板(Tem…

yolo 訓練 中間可視化

yolo訓練前幾個batch&#xff0c;會可視化target: if plots and ni < 33:f save_dir / ftrain_batch{ni}.jpg # filenameplot_images(imgs, targets, paths, f, kpt_labelkpt_label)

【Linux】虛擬機代理,自動化腳本修改~/.bashrc

二選一執行 {echo ""echo "# Cla Verge代理設置 "echo "alias use-proxyexport http_proxy\"socks5h://192.168.88.1:7897\"; export https_proxy\"socks5h://192.168.88.1:7897\""echo "alias use-proxy-httpexport…

JavaScript 原型與原型鏈:深入理解 __proto__ 和 prototype 的由來與關系

引言 在 JavaScript 的世界中&#xff0c;原型和原型鏈是理解這門語言面向對象編程&#xff08;OOP&#xff09;機制的核心。不同于傳統的基于類的語言如 Java&#xff0c;JavaScript 采用了一種獨特的原型繼承機制。本文將深入探討 __proto__ 和 prototype 的由來、關系以及它…

Linux非管理員用戶安裝python環境

目錄 1. 下載2. 解壓3. 配置并指定安裝路徑&#xff08;本地用戶目錄&#xff09;4. 編譯&#xff08;不安裝系統目錄&#xff09;5. 安裝到本地用戶目錄6. 添加 Python 到環境變量7. 驗證安裝是否成功 1. 下載 版本根據需要自行指定 cd /tmp wget https://www.python.org/ft…

獵板PCB:建滔PCB板材怎么樣?

在電子元器件的精密世界中&#xff0c;PCB板材如同骨骼般支撐著整個產品的性能與壽命。面對市場上琳瑯滿目的品牌選擇&#xff0c;建滔積層板憑借三十余年技術沉淀&#xff0c;逐漸成為行業工程師與采購方口中的“品質代名詞”。今天&#xff0c;我們不談參數堆砌&#xff0c;只…

ONLYOFFICE協作空間3.1.1 企業版 介紹及部署說明:家庭云計算專家

ONLYOFFICE協作空間3.1企業版是一款專為深度集成需求設計的開源解決方案&#xff0c;其核心功能聚焦于安全性與靈活性。該版本支持私有化部署&#xff0c;允許企業將協作空間嵌入自有服務器并實現品牌定制化&#xff0c;滿足對數據主權和品牌一致性的嚴苛要求。 在安全方面&…

接IT方案編寫(PPT/WORD)、業務架構設計、投標任務

1、IT 方案編寫&#xff08;PPT/WORD&#xff09;? 定制化方案&#xff1a;根據客戶需求&#xff0c;提供涵蓋云計算、大數據、人工智能等前沿技術領域的 PPT/WORD 方案編寫服務&#xff0c;精準提煉核心價值&#xff0c;呈現專業技術內容。? 邏輯清晰架構&#xff1a;采用…

前端面試之變量與數據類型

目錄 一、聲明變量 &#xff08;1&#xff09;let &#xff08;2&#xff09;const &#xff08;3&#xff09;var var、let 和 const 的作用域差異 二、數據類型 &#xff08;1&#xff09;基本類型 undefined和null String 模板字符串拼接&#xff1a; number和b…

python queue

Python中的queue模塊提供了多種隊列實現&#xff0c;主要用于線程間安全通信。以下是主要用法&#xff1a; 基本隊列類型&#xff1a; Queue&#xff1a;先進先出(FIFO)隊列LifoQueue&#xff1a;后進先出(LIFO)隊列&#xff0c;即棧PriorityQueue&#xff1a;優先級隊列 常用方…

Linux驅動:class_create、device_create

udev是什么 動態管理設備文件 傳統的 Linux 系統通過靜態創建 /dev 目錄下的設備文件&#xff08;如早期的 mknod 命令&#xff09;&#xff0c;但現代系統中硬件設備&#xff08;如 USB 設備、存儲設備、串口等&#xff09;熱插拔頻繁&#xff0c;udev 可實時響應設備事件&…

【vLLM 學習】Cpu Offload Lmcache

vLLM 是一款專為大語言模型推理加速而設計的框架&#xff0c;實現了 KV 緩存內存幾乎零浪費&#xff0c;解決了內存管理瓶頸問題。 更多 vLLM 中文文檔及教程可訪問 →https://vllm.hyper.ai/ *在線運行 vLLM 入門教程&#xff1a;零基礎分步指南 源碼 examples/offline_inf…

基于深度強化學習的Scrapy-Redis分布式爬蟲動態調度策略研究

在大數據時代&#xff0c;網絡數據的采集與分析變得至關重要&#xff0c;分布式爬蟲作為高效獲取海量數據的工具&#xff0c;被廣泛應用于各類場景。然而&#xff0c;傳統的爬蟲調度策略在面對復雜多變的網絡環境和動態的抓取需求時&#xff0c;往往存在效率低下、資源浪費等問…

openlayers實現可拖拽的節點(類似知識圖譜)

/** * 本文介紹了實現知識圖譜可視化的技術方案&#xff0c;主要分為兩個圖層實現&#xff1a; * 1、線圖層 不拖動 * 2、點圖層 需要拖動 */ 線圖層 - 負責繪制靜態連接線&#xff0c;使用LineString創建線要素并添加到矢量圖層&#xff1b; // 線圖層 export function add…

酷黑NBA足球賽事直播源碼體育直播M39模板賽事源碼

源碼名稱&#xff1a;NBA足球賽事直播源碼酷黑體育直播M39模板賽事源碼 開發環境&#xff1a;帝國cms7.5 空間支持&#xff1a;phpmysql 帶軟件采集&#xff0c;可以掛著自動采集發布&#xff0c;無需人工操作&#xff01; 演示地址&#xff1a;https://www.52muban.com/shop…

Verilog編程技巧01——如何編寫三段式狀態機

前言 Verilog編程技巧系列文章將聚焦于介紹Verilog的各種編程范式或者說技巧&#xff0c;編程技巧和編程規范有部分重合&#xff0c;但并非完全一樣。規范更注重編碼的格式&#xff0c;像變量命名、縮進、注釋風格等&#xff0c;而編程技巧則更偏重更直觀易讀、更便于維護、綜合…

豆包和deepseek 元寶 百度ai區別是什么

豆包、DeepSeek、元寶和百度 AI 有以下區別&#xff1a; 開發公司 豆包5&#xff1a;由字節跳動公司基于云雀模型開發。DeepSeek4&#xff1a;是深度求索打造的開源多模態大模型。元寶1&#xff1a;是騰訊混元模型的落地產品&#xff0c;整合了 DeepSeek - R1 與混元模型。百…