強化學習新發現:僅需更新5%參數的稀疏子網絡可達到全模型更新效果

摘要:強化學習(RL)已成為大語言模型(LLM)在完成預訓練后與復雜任務及人類偏好對齊的關鍵步驟。人們通常認為,要通過 RL 微調獲得新的行為,就必須更新模型的大部分參數。本研究對這一假設提出了挑戰,并給出令人驚訝的發現:RL 微調實際上只改變了 LLM 中的一條小子網絡(通常僅占 5%–30% 的參數),而絕大多數權重幾乎保持不變。我們將這種現象稱為“RL 誘導的參數更新稀疏性”。該稀疏性是自發產生的,沒有施加任何顯式的稀疏約束,也未采用參數高效微調技術。我們在 7 種不同的 RL 算法(PPO、GRPO、ORPO、KTO、DPO、SimPO 和 PRIME)以及多種模型家族(如 OpenAI、Meta 以及開源 LLM)中一致地觀察到該稀疏性。更有趣的是,RL 所更新的這條子網絡在不同隨機種子、訓練數據集甚至不同 RL 算法之間都表現出顯著的重疊,遠高于隨機預期,表明預訓練模型中存在部分可遷移的結構。我們發現,僅對這條子網絡進行微調(凍結其余所有權重)即可恢復完整 RL 微調模型的性能,并且在參數空間中幾乎與全模型微調得到的模型無異。最后,我們分析了 RL 為何僅更新一條稀疏子網絡。證據表明,主要原因是 RL 微調所用的數據靠近模型自身的分布,只需進行微小且針對性的參數調整;而保持策略接近預訓練模型(如 KL 正則化)以及其他實現細節(如梯度裁剪、on-policy 與 off-policy 更新)對整體稀疏性的影響有限。這些發現加深了我們對 RL 驅動模型適應的理解,表明 RL 將訓練集中在一條小而始終活躍的子網絡上,同時令大多數權重保持惰性,也為 RL 微調為何比監督微調更能保留預訓練能力提供了新的解釋。這為利用這種內在更新稀疏性的更高效 RL 微調方法(例如將計算集中在該子網絡)打開了大門,并在大模型對齊的背景下為“彩票假設”提供了新的視角。

一句話總結文章

強化學習(RL)微調大語言模型時,僅更新模型中5-30%的參數形成稀疏子網絡,且該子網絡在不同隨機種子、數據集和算法下具有高度一致性,獨立訓練即可達到全模型性能

論文信息

論文標題: "Reinforcement Learning Fine-Tunes a Sparse Subnetwork in Large Language Models"
作者: "Andrii Balashov"
會議/期刊: "arXiv preprint"
發表年份: 2025
原文鏈接: "https://www.arxiv.org/pdf/2507.17107"
代碼鏈接: ""
關鍵詞: ["強化學習微調", "稀疏子網絡", "大語言模型", "參數高效微調", "RLHF"]
引用: "@article{balashov2025rlsparse,title={Reinforcement Learning Fine-Tunes a Sparse Subnetwork in Large Language Models},author={Balashov, Andrii},journal={arXiv preprint arXiv:2507.17107},year={2025}
}"

一、研究背景

近年來,大語言模型(LLMs)的對齊技術如RLHF(基于人類反饋的強化學習)已成為提升模型能力的關鍵手段。然而,現有方法存在兩大痛點:

  1. 全模型微調效率低下:傳統觀點認為RL需要更新所有參數以實現行為對齊,但這導致計算成本高昂(尤其是70B等大模型)。
  2. 監督微調(SFT)的副作用:SFT會對模型參數進行密集更新(僅5-15%參數保持不變),可能破壞預訓練知識,導致泛化能力下降。

盡管業界觀察到RL微調比SFT更能保留預訓練能力,但背后的機制一直是未解之謎。本文通過系統性實驗揭示:RL微調本質上僅調整模型中的"關鍵旋鈕"(稀疏子網絡),這解釋了為何它能在高效對齊的同時保留原有能力。

二、核心要點

“文章發現所有主流RL微調算法(PPO、DPO、PRIME等)在7B-70B規模模型上均表現出內在稀疏性——僅5-30%參數被顯著更新。更驚人的是,這些更新并非隨機:不同實驗條件下更新的子網絡重疊度高達60%,且僅訓練該子網絡就能達到全模型99.9%的性能。”

圖1: SFT與RL微調的稀疏性對比
圖1顯示:RL微調后70-95%參數保持不變(藍色柱),而SFT僅5-15%參數不變(紅色柱)。誤差條表示層間差異。

  • 現象發現:RL微調大語言模型時存在內在稀疏更新現象(70-95%參數不變)
  • 機制揭示:稀疏性源于RL對近分布數據的微調需求,非顯式約束
  • 實用價值:子網絡獨立訓練可降低70-95%計算成本,性能無損
  • 理論意義:為"彩票假說"提供新證據——預訓練模型中存在可遷移的對齊子網絡

三、深度拆解:稀疏子網絡的四大發現

3.1 參數更新的"三分類"模式

圖2: 參數更新類別分布
圖2顯示PRIME算法在7B模型上的參數更新分布:72%未更新(Untouched),20%持續更新(Effective),8%臨時更新后回退(Cancelled)。

通過追蹤參數變化軌跡,研究發現RL訓練過程中參數更新呈現三種模式:

  • 未更新參數(72%):始終保持初始值,對RL目標無貢獻
  • 有效更新參數(20%):持續調整并穩定在新值,構成核心子網絡
  • 臨時更新參數(8%):訓練中期短暫變化,最終回退到初始值(圖5的"瞬態更新"現象)

這種模式類似于人類學習:僅聚焦關鍵知識點,摒棄干擾信息

3.2 層間稀疏性的均勻分布

圖3: 層稀疏性分布
圖3顯示DPO(左)和PRIME(右)算法在各層的稀疏性分布。所有Transformer層保持70-90%稀疏性,僅LayerNorm參數接近100%不變。

關鍵發現:

  • 均勻稀疏:稀疏性在所有Transformer層間均勻分布,非集中于輸入/輸出層
  • 特殊模塊:LayerNorm參數幾乎完全不變(99%+稀疏性),暗示RL微調不改變模型的基礎歸一化能力
  • 矩陣差異:Q/K/V投影矩陣稀疏性相近(75-80%),前饋層略低

這解釋了為何RL微調能局部調整行為而不破壞整體架構

3.3 訓練動態的"探索-收斂"過程

圖4: 訓練損失曲線
圖4顯示全模型微調(藍色實線)與僅子網絡微調(紅色虛線)的損失曲線幾乎重合,證明子網絡足以完成優化目標。

圖5: 瞬態更新比例
圖5顯示訓練過程中"臨時更新"參數比例先升后降,表明RL在早期探索后收斂到穩定子網絡。

訓練動態分析揭示:

  1. 早期探索:前20%訓練步驟中,模型會嘗試更新大量參數(瞬態更新比例達60%)
  2. 中期收斂:隨著訓練推進,非關鍵參數逐漸回退到初始值
  3. 穩定階段:最終僅保留5-30%的核心參數更新

這種"先探索后聚焦"的機制,類似于科研中的假設驗證過程

3.4 高秩更新的"精準手術"

表2顯示RL更新矩陣的平均秩接近99.5%,遠高于LoRA等低秩方法,表明稀疏但全維度的參數調整。

與LoRA等顯式低秩方法不同,RL微調表現出:

  • 高秩特性:更新矩陣秩占最大可能秩的96.3-99.8%
  • 精準性:在稀疏更新的同時,覆蓋參數矩陣的全維度空間
  • 效率平衡:以5-30%的參數更新實現接近全模型的表示能力

這如同用微創手術替代開腹手術——創傷小但效果等同。

四、實驗結果:三大關鍵證據

4.1 子網絡性能超越全模型微調

表3: 子網絡與全模型性能對比
表3顯示:僅訓練RL識別的子網絡(θ_sub)在所有任務上達到或超過全模型微調(θ_full)性能,尤其在高難度任務(如MATH Level 5)提升5.2%。

關鍵數據:

  • 平均性能提升:+1.6(DPO混合任務)、+2.4(PRIME數學任務)
  • 參數一致性:99.93-99.99%參數值與全模型微調完全一致
  • 計算效率:訓練成本降低70-95%(僅更新5-30%參數)

4.2 子網絡的跨條件一致性

圖6: 子網絡重疊度分析
圖6顯示不同實驗條件下子網絡重疊度(o1/o2)顯著高于隨機基線(rand o1/rand o2),證明子網絡的內在一致性。

跨三種變異條件的重疊度:

  • 不同隨機種子:60.5%重疊(隨機基線36.7%)
  • 不同數據集:26.7-67.1%重疊(隨機基線14.6-36.7%)
  • 不同算法:33.2-59.1%重疊(隨機基線12.9-23.0%)

這種一致性暗示:預訓練模型中存在固定的"對齊敏感"參數子集

4.3 稀疏性與任務難度的正相關

表3: 子網絡與全模型性能對比

在數學推理任務中:

  • 簡單任務(Level 1-2):子網絡性能與全模型完全一致(0.0%差異)
  • 高難任務(Level 5):子網絡性能提升5.2%,參數變化更集中

這表明:任務越復雜,RL越傾向于聚焦核心子網絡,避免無關參數干擾。

五、未來工作:從發現到應用

5.1 文章展望

  • 開發動態子網絡定位算法,實時識別并更新關鍵參數
  • 探索跨模型子網絡遷移,實現知識復用
  • 結合剪枝技術,構建稀疏對齊專用模型

5.2 問題探討

  1. 可視化研究:子網絡是否對應特定注意力頭/神經元集群?
  2. 對抗魯棒性:稀疏子網絡是否更易受參數攻擊?
  3. 多任務場景:不同任務是否共享同一子網絡?5.3 論文信息

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/90604.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/90604.shtml
英文地址,請注明出處:http://en.pswp.cn/web/90604.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

electron 使用記錄

目錄 代理設置以打包成功 參考文檔 代理設置以打包成功 參考文檔 使用 JavaScript、HTML 和 CSS 構建跨平臺桌面應用 |電子 --- Build cross-platform desktop apps with JavaScript, HTML, and CSS | Electron

Spring boot Grafana優秀的監控模板

JVM (Micrometer) | Grafana Labs 1 SLS JVM監控大盤 | Grafana Labs Spring Boot 2.1 Statistics | Grafana Labs springboot granfana 監控接口指定接口響應的 在Spring Boot應用中,使用Grafana進行監控通常涉及以下幾個步驟: 設置Prometheus作…

LeetCode11~30題解

LeetCode11.盛水最多的容器: 題目描述: 給定一個長度為 n 的整數數組 height 。有 n 條垂線,第 i 條線的兩個端點是 (i, 0) 和 (i, height[i]) 。 找出其中的兩條線,使得它們與 x 軸共同構成的容器可以容納最多的水。 返回容器…

計算機結構-邏輯門、存儲器、內存、加法器、鎖存器、程序計數器

邏輯門 邏輯門簡單地理解即通過特定的條件實現與、或、非、異或等相關邏輯二極管 這些最基礎的邏輯門都是通過電路元器件進行搭建的,即半導體材料搭建的二極管二極管有個特點,一定條件下才可以導通,即得接對正負極,具體的原理可以…

連鎖店鋪巡查二維碼的應用

在連鎖店鋪的運營管理中,巡查工作是保障各門店規范運作、提升服務質量的關鍵環節。巡查二維碼的出現,為這一環節帶來了高效、便捷且規范的解決方案,其應用場景廣泛,優勢顯著。在如今的繁雜且效果參差不齊電子二維碼市場中&#xf…

各種前端框架界面

前端技術更新迭代很快,已經有不少新的前端框架問世,而且像geeker-admin風格的界面設計也挺不錯的。 今天去面試了前端開發崗位,感覺希望不大。畢竟中間空了一段時間沒接觸,得趕緊把新的知識點補上,這樣哪怕是居家辦公也…

DApp 開發者 學習路線和規劃

目錄 ?? 一、學習路線圖 階段 1:基礎知識(1~2 周) 階段 2:智能合約開發(3~4 周) 階段 3:前端與區塊鏈交互(2~3 周) 階段 4:進階與生態系統(持續學習) ?? 二、學習規劃建議(3~4 個月) ?? 三、工具推薦 ?? 四、附加建議 ?? 一、學習路線圖 階段 …

數據結構 二叉樹(3)---層序遍歷二叉樹

在上篇文章中我們主要講了關于實現二叉樹的內容,包括遍歷二叉樹,以及統計二叉樹等內容。而在這篇文章中我們將詳細講解一下利用隊列的知識實現層序遍歷二叉樹。那么層序遍歷是什么?以及利用隊列遍歷二叉樹又是怎么遍歷的?下面讓我…

【橘子分布式】gRPC(番外篇-攔截器)

一、簡介 我們之前其實已經完成了關于grpc的一些基礎用法,實際上還有一些比較相對進階的使用方式。比如: 攔截器:包括客戶端和服務端的攔截器,進而在每一端都可以劃分為流式的攔截器和非流式的攔截器。和以前我們在spring web中的…

深入探索嵌入式仿真教學:以酒精測試儀實驗為例的高效學習實踐

引言:嵌入式技術普及下的教學革新 嵌入式系統作為現代科技的核心驅動力,其教學重要性日益凸顯。然而,傳統硬件實驗面臨設備成本高、維護難、時空受限等挑戰。如何突破這些瓶頸,實現高效、靈活、專業的嵌入式教學?本文將…

三種深度學習模型(GRU、CNN-GRU、貝葉斯優化的CNN-GRU/BO-CNN-GRU)對北半球光伏數據進行時間序列預測

代碼功能 該代碼實現了一個光伏發電量預測系統,采用三種深度學習模型(GRU、CNN-GRU、貝葉斯優化的CNN-GRU/BO-CNN-GRU)對北半球光伏數據進行時間序列預測對北半球光伏數據進行時間序列預測,并通過多維度評估指標和可視化對比模型性…

PostgreSQL對象權限管理

本文記述在postgreSQL中對用戶/角色操作庫、模式、表、序列、函數、存儲過程的權限管理針對數據庫的授權 授權:grant 權限 on database 數據庫 to 用戶/角色; 撤權:revoke 權限 on database 數據庫 from 用戶/角色; 針對模式的授權 授權:gran…

Wordpress主題配置

一、下載主題 主題下載地址:https://www.iztwp.com/tag/blog-theme 二、主題安裝 三、上傳主題安裝即可 四、安裝完成啟動主題

lock 和 synchronized 區別

1. 引言 在多線程編程中,我們經常需要確保某些代碼在同一時刻只由一個線程執行。這種機制通常叫做“互斥鎖”或“同步”。Java 提供了兩種主要的同步機制:synchronized 關鍵字和 Lock 接口。盡管它們的作用相似,都用于實現線程的同步&#xf…

Tkinter - Python圖形界面開發指南

作者:唐叔在學習 專欄:唐叔學python 標簽:Python GUI編程 Tkinter教程 圖形界面開發 Python實戰 界面設計 事件監聽 Python入門 唐叔Python 編程學習 軟件開發 文章目錄一、Tkinter是什么?為什么選擇它?二、Tkinter基礎…

Java基礎day15

目錄 一、Java集合簡介 1.什么是集合? 2.集合接口 3.小結 二、List集合 1.List集合簡介 三、ArrayList容器類 1.初始化 1.1無參初始化 1.2有參初始化 2.數據結構 3.常用方法 3.1增加元素 3.2查找元素 3.3 修改元素 3.4 刪除元素 3.5 其他方法 4.擴…

React Three Fiber 實現晝夜循環:從光照過渡到日月聯動的技術拆解

在 3D 場景中用 React Three Fiber 實現自然的晝夜循環,核心難點在于光照的平滑過渡、日月運動的聯動邏輯、晝夜狀態下的光影差異處理,以及性能與視覺效果的平衡。本文以一個 ReactThree.js 的實現為例,詳細解析如何通過三角函數計算日月位置…

進階向:基于Python的簡易屏幕畫筆工具

用Python打造你的專屬屏幕畫筆工具:零基礎也能輕松實現你是否曾在觀看網課或參加遠程會議時,想要直接在屏幕上標注重點?或者作為設計師,需要快速繪制創意草圖?現在,只需幾行Python代碼,你就能輕…

Elasticsearch-ik分析器

CLI 安裝步驟 1、停止 Elasticsearch(如果正在運行): 在安裝插件之前,確保 Elasticsearch 沒有在運行。 命令: systemctl stop elasticsearch2、安裝插件: 使用 elasticsearch-plugin 命令安裝 IK 插件。進…

MySQL八股篇

查詢關鍵字執行先后順序FROM(及 JOIN)WHEREGROUP BYHAVINGSELECTDISTINCTORDER BYLIMIT / OFFSETCHAR 和 VARCHAR 的區別?使用場景?特性CHARVARCHAR?存儲方式??定長,存儲時填充空格至定義長度變長,存儲實際數據 長…