[論文閱讀] 人工智能 | 利用負信號蒸餾：用REDI框架提升LLM推理能力

【論文速讀】利用負信號蒸餾：用REDI框架提升LLM推理能力

論文信息

arXiv:2505.24850  cs.LG cs.AI cs.CL
Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning
Authors: Shuyao Xu, Cheng Peng, Jiangxuan Long, Weidi Xu, Wei Chu, Yuan Qi

一、研究背景：被浪費的“錯誤寶藏”

想象你在學數學題，老師只給你看正確解答，卻從不講解錯誤思路為啥錯——這時候你可能會疑惑：“我怎么知道自己哪里容易踩坑？”
大語言模型（LLM）的蒸餾訓練就面臨類似問題。傳統方法（如拒絕采樣）只保留老師模型生成的正確推理痕跡（正樣本），扔掉錯誤推理痕跡（負樣本）。但這些負樣本里藏著大量“避坑指南”：比如模型常犯的邏輯錯誤、邊界條件遺漏等。
舉個例子，在數學推理中，老師模型可能試過錯誤的公式套用或步驟順序，這些失敗案例對小模型學習“如何避免犯錯”至關重要。但現有方法白白浪費了這些信息，導致小模型只能“學正確答案”，卻“不懂錯誤根源”，推理能力提升有限。

二、創新點：讓錯誤成為“學習信號”

這篇論文的核心突破是：首次系統利用負樣本進行強化蒸餾，提出兩階段框架REDI（Reinforcement Distillation），解決了三大問題：

負樣本利用率低：傳統方法丟棄負樣本，REDI將其轉化為可學習的損失信號。
穩定性與性能的矛盾：現有方法（如DPO）依賴KL散度正則化，高正則化雖穩定但限制性能，低正則化則容易訓練崩潰。REDI通過非對稱加權損失（α參數）平衡兩者，既避免崩潰又提升峰值性能。
數據效率低下：用更少數據（131k正負樣本）超越需800k專有數據的模型，開源數據也能訓出SOTA。

三、研究方法和思路：兩步走的“糾錯學習法”

階段1：用正確答案打基礎（SFT）

目標：讓小模型先學會“正確推理的樣子”。
方法：用正樣本（老師的正確推理痕跡）進行監督微調（SFT），優化目標是最大化生成正確痕跡的概率：
作用：建立基礎推理能力，作為后續優化的起點。

階段2：用錯誤答案做強化（REDI目標函數）

目標：讓小模型學會“識別錯誤”，避免重復老師的失誤。
方法：引入負樣本，設計非對稱加權損失函數，同時優化兩個方向：
- 最大化正樣本概率：讓正確推理更可能被生成。
- 最小化負樣本概率：抑制錯誤推理，但通過參數α降低負樣本的梯度權重（α∈[0,1]），避免過度懲罰導致模型“不敢推理”。
  損失函數：
- α的作用：α=1時等價于對稱損失（易崩潰），α=0時退化為僅用正樣本。實驗發現α=0.8時平衡最佳。

實驗驗證：小數據也能超越大廠模型

數據：從Open-R1數據集提取78k正樣本（D_SFT）和53k正負樣本對（D_Pref），總數據量131k。
對比模型：
- 基線：SFT（僅正樣本）、SFT+DPO/SimPO（傳統強化方法）。
- 競品：DeepSeek-R1-Distill-Qwen-1.5B（用800k專有數據訓練）。
結果：
- Qwen-REDI-1.5B在MATH-500基準上達到83.1%準確率（pass@1），超過DeepSeek-R1-Distill-Qwen-1.5B的83.2%，且數據量僅為其1/6。
- 消融實驗顯示，REDI的非對稱加權比對稱損失（α=1）更穩定，比DPO/SimPO性能提升1-2%。

四、主要貢獻：三大突破推動LLM蒸餾

方法論創新：提出REDI框架，首次在離線蒸餾中有效利用負樣本，打破“負樣本=無用數據”的固有認知。
性能提升：用開源數據實現1.5B模型SOTA，數據效率提升6倍，為小團隊和開源社區提供低成本方案。
理論分析：揭示DPO等方法中KL正則化的“性能-穩定性”矛盾，為未來損失函數設計提供方向。

五、總結：錯誤是最好的老師

這篇論文證明，LLM的“錯誤”不是垃圾，而是珍貴的學習信號。REDI通過“先學對、再辨錯”的兩步法，讓小模型既能掌握正確推理模式，又能識別常見錯誤，實現了推理能力的跨越式提升。更重要的是，其數據高效性（131k樣本）和開源友好性（基于Open-R1），讓更多研究者能復現和改進，推動LLM推理能力向低成本、高效化方向發展。

未來，REDI框架可進一步與在線RL結合，形成“離線蒸餾+在線優化”的完整鏈路，或許能解鎖更復雜的推理場景——畢竟，連錯誤都能被利用的模型，才是真正“會學習”的模型。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/85972.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/85972.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/85972.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！