【AI論文】序列標注任務廣義化研究(SFT廣義化):基于獎勵修正的強化學習視角

摘要:我們針對大語言模型(Large Language Model,LLM)的監督微調(Supervised Fine-Tuning,SFT)提出了一種簡單但具有理論依據的改進方法,以解決其與強化學習(Reinforcement Learning,RL)相比泛化能力有限的問題。通過數學分析,我們發現標準的SFT梯度隱式地編碼了一種有問題的獎勵結構,這種結構可能會嚴重限制模型的泛化能力。為了解決這一問題,我們提出了動態微調(Dynamic Fine-Tuning,DFT)方法,該方法通過根據每個詞元的出現概率對目標函數進行動態縮放,來穩定每個詞元的梯度更新。值得注意的是,僅對代碼進行這一處簡單修改,就在多個具有挑戰性的基準測試和基礎模型上顯著優于標準SFT,展現出大幅提高的泛化能力。此外,我們的方法在離線強化學習場景中也表現出具有競爭力的結果,提供了一種有效且更簡單的替代方案。本研究將理論見解與實際解決方案相結合,顯著提升了SFT的性能。代碼將在https://github.com/yongliang-wu/DFT上公開。Huggingface鏈接:Paper page,論文鏈接:2508.05629

一、研究背景和目的

研究背景

在自然語言處理領域,大語言模型(LLM)的發展日新月異,監督微調(Supervised Fine-Tuning,SFT)作為一種常用的后訓練方法,被廣泛應用于模型對新任務的適應和現有能力的增強。SFT通過在專家演示數據集上訓練模型,使其能夠快速模仿專家行為,具有實現簡單、獲取專家模式速度快的優點。然而,與強化學習(RL)方法相比,SFT的泛化能力存在明顯局限。RL方法利用顯式的獎勵或驗證信號,允許模型探索多樣化的策略,從而實現更強的泛化能力。但在實際應用中,RL方法往往需要大量的計算資源,對超參數敏感,并且依賴于獎勵信號的可用性,這些條件并不總是能夠滿足。

盡管已有多種混合方法被開發出來,結合了SFT和RL的優勢,但在沒有負樣本、獎勵模型或驗證信號的數據集中,SFT仍然是唯一可行的選擇。因此,如何從根本上改進SFT本身,提高其泛化能力,成為了一個亟待解決的問題。

研究目的

本研究旨在通過理論分析和數學推導,揭示SFT梯度隱式編碼的問題獎勵結構,進而提出一種簡單而有效的改進方法——動態微調(DFT)。DFT的目標是通過動態調整每個詞元的損失函數,穩定梯度更新,從而提高SFT的泛化能力。本研究期望通過這一改進,使SFT在保持其原有優勢的同時,能夠更接近或達到RL方法的泛化性能,為LLM的后訓練提供一種更高效、更穩定的解決方案。

二、研究方法

理論分析與數學推導

本研究首先通過理論分析,揭示了SFT梯度與RL政策梯度之間的數學聯系。研究指出,標準的SFT梯度可以看作是一種特殊形式的政策梯度,其隱式定義的獎勵結構存在問題,具體表現為獎勵極其稀疏且與模型分配給專家動作的概率成反比。這種獎勵結構導致當模型為專家動作分配低概率時,梯度會出現無界方差,從而產生不穩定的優化景觀。

基于上述分析,研究提出了DFT方法,其核心思想是通過動態調整每個詞元的損失函數,消除隱式獎勵結構中的逆概率加權問題。具體來說,DFT通過將標準SFT目標函數與詞元概率相乘(脫鉤以避免梯度流動),實現了對每個詞元損失的動態縮放。

實驗設計與實施

為了驗證DFT方法的有效性,研究在多個具有挑戰性的數學推理基準測試和不同規模的基礎模型上進行了廣泛的實驗。實驗設置包括:

  1. 數據集:使用NuminaMath CoT數據集,包含約860,000個數學問題及其解決方案。為了高效管理計算資源,研究隨機抽取了100,000個實例進行訓練。
  2. 模型:實驗涉及多個最先進的模型,包括Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、LLaMA-3.2-3B、LLaMA-3.1-8B和DeepSeekMath-7B-Base。
  3. 訓練細節:基于verl框架實現,使用推薦的SFT超參數。具體來說,采用AdamW優化器,學習率設置為5×10-5(LLaMA-3.1-8B模型為2×10-5),迷你批次大小為256,最大輸入長度為2048個詞元。學習率遵循余弦衰減計劃,預熱比率為0.1。
  4. 評估設置:在數學推理任務上,研究在Math500、Minerva Math、Olympiad Bench、AIME2024和AMC2023等基準測試上進行了評估。每個模型使用默認的聊天模板和思維鏈(CoT)提示來激發逐步推理。所有報告的結果均為在溫度為1.0和最大生成長度為4096個詞元下,進行16次解碼運行的平均準確率。

對比方法

為了全面評估DFT方法的性能,研究還實現了以下對比方法:

  1. 標準SFT:作為基線方法,用于比較DFT的改進效果。
  2. 重要性加權SFT(iw-SFT):作為一種同時利用SFT和RL優勢的混合方法,用于與DFT進行對比。
  3. 離線RL方法:包括DPO和RFT/RAFT,用于在離線RL設置下評估DFT的性能。
  4. 在線RL方法:包括PPO和GRPO,用于在在線RL設置下與DFT進行比較。

三、研究結果

主要發現

  1. DFT顯著優于標準SFT:在所有評估的LLM上,DFT的平均性能提升均顯著超過標準SFT。例如,在Qwen2.5-Math-1.5B模型上,DFT的平均準確率提升了+15.66點,是SFT提升(+2.09點)的5.9倍以上。
  2. DFT在具有挑戰性的基準測試上表現尤為突出:在Olympiad Bench、AIME2024和AMC2023等具有挑戰性的基準測試上,標準SFT往往出現性能下降,而DFT則能夠持續提供顯著的性能提升。例如,在Olympiad Bench上,SFT使Qwen2.5-Math-1.5B的準確率從15.88降至12.63,而DFT則將其提升至27.08。
  3. DFT在離線RL設置下表現優異:在利用拒絕采樣生成的獎勵信號的離線RL設置下,DFT的表現超過了所有離線RL基線方法,甚至超過了最強的在線RL算法GRPO。例如,在Qwen2.5-Math-1.5B模型上,DFT的平均得分達到了35.43,超過了GRPO的32.00。
  4. DFT的收斂速度更快:與標準SFT相比,DFT在大多數基準測試上表現出更快的收斂速度。通常在120個訓練步驟內就能達到峰值性能,而SFT則需要更多的訓練步驟。

深入分析

  1. 詞元概率分布變化:研究通過分析模型在訓練集上的詞元概率分布變化,發現DFT與標準SFT在優化過程中對詞元概率的調整方式存在顯著差異。標準SFT傾向于均勻增加所有詞元的概率,而DFT則顯著提升了部分詞元的概率,同時主動抑制了其他詞元的概率,導致詞元概率分布呈現雙峰分布。
  2. 超參數敏感性分析:研究通過消融實驗評估了DFT對關鍵訓練超參數的敏感性,發現DFT在不同學習率和批次大小下均能保持穩定的性能提升,表明DFT對超參數的選擇具有較強的魯棒性。

四、研究局限

盡管本研究在提高SFT泛化能力方面取得了顯著成果,但仍存在以下局限:

  1. 評估范圍有限:目前的研究僅在數學推理基準測試和最多70億參數的模型上進行了評估,未在其他任務領域(如代碼生成、常識問答)和更大規模的LLM(如130億+參數)上進行驗證。
  2. 文本場景限制:當前研究僅限于文本場景,未在視覺語言任務上驗證DFT的有效性。
  3. 理論分析的簡化假設:在理論分析中,研究對SFT梯度與RL政策梯度之間的聯系進行了一定的簡化假設,這些假設在實際應用中可能不完全成立。

五、未來研究方向

針對上述研究局限,未來的研究可以從以下幾個方面展開:

  1. 擴展評估范圍:將DFT方法應用于更廣泛的任務領域和更大規模的LLM上,以驗證其普適性和有效性。特別是在代碼生成、常識問答等非數學推理任務上,評估DFT的泛化能力。
  2. 多模態場景驗證:在視覺語言任務上驗證DFT的有效性,探索其在多模態大語言模型后訓練中的應用潛力。
  3. 深化理論分析:進一步放松理論分析中的簡化假設,更精確地揭示SFT梯度與RL政策梯度之間的聯系,為DFT方法的優化提供更堅實的理論基礎。
  4. 結合其他先進技術:探索將DFT與其他先進技術(如元學習、遷移學習)相結合的可能性,以進一步提高LLM的后訓練性能和泛化能力。
  5. 實際應用探索:將DFT方法應用于實際場景中,如智能客服、內容生成等,評估其在真實世界中的表現和價值。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/92772.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/92772.shtml
英文地址,請注明出處:http://en.pswp.cn/web/92772.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

(已解決)Mac 終端上配置代理

說明:為了便于理解,本文描述略顯“抽象”與“潦草”,為了過審,僅供學習交流使用。🚀 簡潔流程版啟動工具 點擊圖標,復制它給出的終端命令將這段內容粘貼進你的配置文件中(~/.zshrc 或 ~/.bash_p…

Anti-Aliasing/Mip-NeRF/Zip-NeRF/multi-scale representation

前言 CSDN的文章寫太多,都不記得之前寫的有什么了,但習慣了在這里記錄,先寫上吧。關于multi-scale representation又是看著忘著,還是寫下點什么比較啊。時看時新,還是想吐槽自己看論文太不認真了。下面直接按照文章順序…

板塊三章節3——NFS 服務器

NFS 服務器 NFS 服務介紹 NFS 是Network File System的縮寫,即網絡文件系統,最早由Sun公司開發,**用來在UNIX&Linux系統間實現磁盤文件共享的一種方法。**它的主要功能是通過網絡讓不同的主機系統之間可以共享文件或目錄。NFS客戶端&…

數學建模——最大最小化模型

1.概念最大最小化模型(Maximin Model)是一種優化方法,旨在最大化最壞情況下的收益或最小化最壞情況下的損失。常見的現實問題有:求最大值的最小化問題最大風險的最低限度最小化最壞情況下的損失等2.一般數學模型 (找最大值里面最小…

【JAVA】使用系統音頻設置播放音頻

代碼直接可以運行 import javax.sound.sampled.*; import java.io.File; import java.io.IOException; import java.io.UnsupportedEncodingException; import java.nio.charset.StandardCharsets;public class SystemDefaultAudioPlayer {// 強制使用的通用音頻格式private st…

[CSP-J 2021] 小熊的果籃

題目 12代碼 #include <bits/stdc.h> using namespace std; const int N2e55; struct node{int pre,//上一個水果塊(對于水果就是上個水果)l,//塊開始的序號&#xff0c;左邊界 d,//塊類型&#xff0c;0/1id,//水果序號 r,//塊結束的序號&#xff0c;右邊界 next;//下一塊…

【C++】STL二叉搜索樹——map與set容器的基礎結構

目錄 前言 1.二叉搜索樹的概念 1.1基本結構 1.2性能分析 2.二叉搜索樹的實現 2.1創建 2.2插入 2.3查找與遍歷 2.4刪除 3.二叉搜索樹類代碼 前言 C中STL的map與set容器廣泛應用于實踐過程中&#xff0c;本文將詳細分析容器最基礎的二叉搜索樹結構&#xff0c;為后續map…

基于Spring Boot和SSE的實時消息推送系統

一、SSE技術深度解析 1.1 協議工作原理 #mermaid-svg-u7ZBlEsXcn68R5a8 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-u7ZBlEsXcn68R5a8 .error-icon{fill:#552222;}#mermaid-svg-u7ZBlEsXcn68R5a8 .error-text{fi…

Day 40 訓練和測試的規范寫法

知識點回顧&#xff1a; 彩色和灰度圖片測試和訓練的規范寫法&#xff1a;封裝在函數中展平操作&#xff1a;除第一個維度batchsize外全部展平dropout操作&#xff1a;訓練階段隨機丟棄神經元&#xff0c;測試階段eval模式關閉dropout 作業&#xff1a;仔細學習下測試和訓練代…

分析代碼并回答問題

代碼 <template><div>Counter: {{ counter }}</div><div>Double Counter: {{ doubleCounter }}</div> </template><script setup lang"ts"> import { ref, computed } from "vue";const counter ref(0);const …

在macOS上掃描192.168.1.0/24子網的所有IP地址

在macOS上掃描192.168.1.0/24子網的所有IP地址&#xff0c;可以通過終端命令實現。以下是幾種常用方法&#xff1a; 使用ping命令循環掃描 打開終端執行以下腳本&#xff0c;會逐個ping測試192.168.1.1到192.168.1.254的地址&#xff0c;并過濾出有響應的IP&#xff1a; for i …

Java基礎05——類型轉換(本文為個人學習筆記,內容整理自嗶哩嗶哩UP主【遇見狂神說】的公開課程。 > 所有知識點歸屬原作者,僅作非商業用途分享)

Java基礎05——類型轉換 類型轉換 由于Java是強類型語言&#xff0c;所以要進行有些運算的時候&#xff0c;需要用到類型轉換。 如&#xff1a;byte(占1個字節)&#xff0c;short(占2個字節)&#xff0c;char(占2個字節)→int(4個字節)→long(占8個字節)→float(占4個字節)→do…

mysql基礎(二)五分鐘掌握全量與增量備份

全量備份 Linux環境 數據備份 數據庫的備份與恢復有多中方法&#xff0c;通過mysql自帶的mysqldump工具可對數據庫進行備份。語法&#xff1a; mysqldump -u username -p password --databases db_name > file_name .sql說明&#xff1a; -u參數指定用戶名&#xff0c;usern…

使用Windbg分析多線程死鎖項目實戰問題分享

目錄 1、問題描述 2、使用.effmach x86命令切換到32位上下文 3、切換到UI線程&#xff0c;發現UI線程死鎖了 4、使用!locks命令查看臨界區鎖的詳細信息&#xff0c;遇到了問題 5、使用dt命令查看臨界區對象信息&#xff0c;找到發生死鎖的多個線程 6、用戶態鎖與內核態鎖…

防火墻組網方式總結

一、部署模式&#xff1a;靈活適配多樣網絡環境下一代防火墻&#xff08;NGAF&#xff09;具備極強的網絡適應能力&#xff0c;支持五種核心部署模式&#xff0c;可根據不同網絡需求靈活選擇。路由模式&#xff1a;防火墻相當于路由器&#xff0c;位于內外網之間負責路由尋址&a…

AI大模型:(二)5.1 文生視頻(Text-to-Video)模型發展史

目錄 1.介紹 2.發展歷史 2.1.早期探索階段(2015-2019) 2.1.1.技術萌芽期 2.1.2.RNN/LSTM時代 2.2.技術突破期(2020-2021) 2.2.1 Transformer引入視頻生成 2.2.2 擴散模型的興起 2.3.商業化突破期(2022-2023) 2.3.1 產品化里程碑 2.3.2 競爭格局形成 2.4.革命…

14mm尋北儀能否塞進液壓支架生死縫隙?

在煤礦井下世界的方寸之間&#xff0c;液壓支架的每個關鍵節點都承載著千鈞重壓。頂梁鉸接點、立柱頂端、掩護梁角落&#xff0c;恰恰是空間最為局促的“禁區”。ER-MNS-10A MEMS尋北儀應運而生&#xff01;它采用了先進的MEMS陀螺技術&#xff0c;以14mm至薄高度、40g極致輕盈…

python之淺拷貝深拷貝

文章目錄潛拷貝(shallow copy)深拷貝(deep copy)總結一下python的淺拷貝和深拷貝.潛拷貝(shallow copy) python中潛拷貝指的是:構造一個新的復合對象&#xff0c;然后將原對象中的對象引用插入其中 平常開發過程中潛拷貝是比深拷貝更常見的場景. 比如編程中使用到的一些基本的…

普通大學本科生如何入門強化學習?

問題:你平時是如何緊跟大型語言模型和智能體技術前沿的&#xff1f;有哪些具體的學習和跟蹤方式&#xff1f;回答:我會通過“輸入-內化-實踐”結合的方式跟蹤前沿。首先&#xff0c;學術動態方面&#xff0c;每天花10分鐘瀏覽arXiv的http://cs.CL和http://cs.AI板塊&#xff0c…

新手向:Python實現數據可視化圖表生成

Python數據可視化入門&#xff1a;從零開始生成圖表數據可視化是數據分析過程中不可或缺的關鍵環節&#xff0c;它通過將抽象的數字信息轉化為直觀的圖形展示&#xff0c;幫助分析師和決策者更快速、更準確地發現數據中隱藏的模式、規律和發展趨勢。在當今大數據時代&#xff0…