SPARKLE:深度剖析強化學習如何提升語言模型推理能力

摘要:強化學習(Reinforcement Learning,RL)已經成為賦予語言模型高級推理能力的主導范式。盡管基于 RL 的訓練方法(例如 GRPO)已經展示了顯著的經驗性收益,但對其優勢的細致理解仍然不足。為了填補這一空白,我們引入了一個細粒度的分析框架,以剖析 RL 對推理的影響。我們的框架特別研究了被認為可以從 RL 訓練中受益的關鍵要素:(1)計劃遵循和執行,(2)問題分解,以及(3)改進的推理和知識利用。通過這個框架,我們獲得了超越單純準確率的見解。例如,為模型提供明確的分步計劃,令人驚訝地在最具挑戰性的基準測試中降低了性能,然而經過 RL 調優的模型表現出更強的魯棒性,其性能下降幅度明顯小于基礎模型。這表明 RL 可能不是主要增強模型執行外部計劃的能力,而是賦予模型制定和遵循更適合自己推理過程的內部策略的能力。相反,我們觀察到 RL 增強了模型將提供的知識整合到其推理過程中的能力,從而在各種任務中實現了性能提升。我們還研究了難度,通過開發利用難題的新方法來改進訓練。

本文目錄

一、背景動機

二、核心貢獻

三、實現方法

3.1 SPARKLE分析框架

3.2 多階段RL訓練

四、實驗結果

4.1 RL提升性能的細粒度分析

4.2 多階段RL的效果

五、結論與啟示


一、背景動機

論文題目:Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning

論文地址:https://arxiv.org/pdf/2506.04723

近年來,強化學習(RL)已成為賦予語言模型高級推理能力的主導范式。盡管基于RL的訓練方法(如GRPO)展現出顯著的實證增益,但對其優勢的細粒度理解仍顯不足。現有評估大多局限于整體準確率,無法揭示RL在推理過程中的具體作用機制。例如,當模型在數學推理任務上表現提升時,我們無法確定這是由于計劃執行能力增強、知識利用效率提高,還是問題分解策略優化所致。

為解決這一 問題,本文提出了SPARKLE分析框架,旨在系統剖析RL對推理能力的影響。該框架聚焦三個關鍵維度:(1)計劃遵循與執行,(2)問題分解,(3)推理與知識利用改進。通過這一框架,研究人員能夠超越簡單的準確率指標,深入理解RL如何塑造模型的推理行為。

圖1:強化學習基本框架示意圖,展示智能體與環境的交互循環

二、核心貢獻

  • SPARKLE分析框架:首次提出從計劃執行、知識利用和問題分解三個維度評估推理能力的細粒度框架,克服了傳統準確率指標的局限性。
  • 多階段RL訓練方法:設計了一種新的兩階段RL訓練 pipeline,首先在多樣化數學問題上進行RL訓練,然后針對困難問題進行微調,并輔以部分解決方案提示,有效提升了模型在復雜任務上的表現。
  • 通過SPARKLE框架發現:
    • RL增強了模型制定和遵循內部策略的能力,而非執行外部提供的計劃
    • RL顯著提升了模型整合外部知識的能力,尤其在困難任務上效果更明顯
    • 即使最終答案正確,模型在子問題解決鏈中仍存在推理缺陷

三、實現方法

3.1 SPARKLE分析框架

SPARKLE框架通過三個互補維度解析推理能力:

1. 計劃遵循與執行 評估模型在有無外部計劃指導下的表現差異。實驗中為問題提供詳細的步驟規劃(如數學證明的關鍵步驟),比較模型在有/無計劃條件下的準確率變化。

2. 知識利用 分離知識檢索與推理過程,通過有無外部知識提供(如數學定理、公式)的對比實驗,評估模型對知識的整合能力。

3. 子問題分解鏈 將復雜問題分解為一系列相互關聯的子問題,要求模型逐步解決,定位推理失敗的具體環節。例如,在解方程問題中,先要求模型確定變量范圍,再求解具體值。

圖2:語言模型推理能力評估示例,展示數學問題的分步解決過程

3.2 多階段RL訓練

研究采用兩階段訓練策略:

  • 第一階段:在40K多樣化數學問題上使用GRPO算法進行RL訓練
  • 第二階段:針對第一階段未解決的6.5K困難問題,采用三種策略進一步微調:
    • 僅使用困難問題
    • 混合難度問題
    • 困難問題+部分解決方案提示(提示中間步驟或關鍵提示)

四、實驗結果

4.1 RL提升性能的細粒度分析

1. 計劃遵循能力

  • 基礎模型在提供外部計劃時性能下降(在AIME24上從16.7%→16.7%,無提升)
  • RL調優模型表現出更強的穩健性,性能下降幅度顯著減小(Stage 2模型在AIME24上僅從50.4%→47.9%)
  • 關鍵發現:RL增強的是模型制定內部策略的能力,而非執行外部計劃的能力

2. 知識整合能力

  • 基礎模型在提供外部知識時性能平均下降5.4%
  • RL調優模型在提供外部知識時性能平均提升4.2%
  • 知識增益隨問題難度增加而顯著提高(困難問題上增益達15.0%)

3. 子問題解決能力

所有模型在完整問題與子問題鏈上存在巨大性能差距:

  • 基礎模型在AIME24上:完整問題準確率16.7% vs 子問題鏈準確率3.3%
  • RL調優模型在AIME24上:完整問題準確率50.4% vs 子問題鏈準確率17.5%
  • 關鍵發現:RL主要提升整體問題解決能力,但在細粒度子問題推理上仍有明顯缺陷

4.2 多階段RL的效果

對比不同訓練策略的性能(Avg@8指標):

模型

AIME24

AMC23

MATH500

GSM8K

OlympiadBench

平均

基礎模型

16.67

42.50

44.03

42.53

28.65

35.23

Stage 1

46.67

67.50

80.00

91.77

39.11

65.01

Stage 2-困難問題

41.67

65.94

80.50

92.45

37.39

63.59

Stage 2-混合難度

40.00

63.44

80.78

92.52

38.85

63.12

Stage 2-困難+提示

50.42

71.25

81.00

92.38

40.11

67.03

表1:不同訓練策略下模型在各 benchmark 上的性能對比

結果顯示,困難問題+部分解決方案提示的兩階段訓練效果最佳,在最難的AIME24上達到50.42%的準確率,接近32B模型的性能水平。

五、結論與啟示

本研究通過SPARKLE框架揭示了RL提升語言模型推理能力的細粒度機制,主要發現包括:

  • RL的核心優勢:增強模型制定和執行內部策略的靈活性,而非遵循外部計劃;提升知識整合能力,尤其在困難任務上效果顯著。
  • 仍存挑戰:即使RL調優模型,在子問題鏈解決上仍有明顯缺陷,表明細粒度推理能力仍是未來研究的關鍵方向。
  • 實用啟示:多階段RL訓練結合困難問題+提示策略可有效提升模型性能,為推理模型的訓練提供了新范式。

未來工作可將SPARKLE框架擴展到數學以外的領域,并探索更有效的子問題推理增強方法,進一步推動語言模型推理能力的發展。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/89715.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/89715.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/89715.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【Linux服務器】-MySQL數據庫參數調優

一、基礎配置 [mysqld] # 聲明以下配置屬于MySQL服務器(mysqld)[mysqld]:配置文件的模塊標識,表示這是 MySQL 服務器的配置段。 二、路徑與基礎設置 datadir/var/lib/mysql socket/var/lib/mysql/mysql.sock pid-file/var/run/mys…

sqli-labs靶場通關筆記:第32-33關 寬字節注入

第32關 寬字節注入查看一下本關的源代碼:function check_addslashes($string) // 定義一個用于過濾特殊字符的函數,目的是轉義可能用于注入的特殊符號 {$string preg_replace(/. preg_quote(\\) ./, "\\\\\\", $string); // 轉義…

基于Eureka和restTemple的負載均衡

在微服務架構中,基于 Eureka(服務注冊中心)和 RestTemplate(HTTP 客戶端)實現負載均衡是常見的方案,核心是通過 Eureka 獲取服務實例列表,再結合負載均衡策略選擇具體服務實例進行調用。以下是詳…

子線程不能直接 new Handler(),而主線程可以

在 Android 中,子線程不能直接 new Handler(),而主線程可以,原因在于 Looper 機制。下面詳細解釋:1. 為什么主線程可以直接 new Handler()? 主線程(UI 線程)在啟動時,系統會自動調用…

Android無需授權直接訪問Android/data目錄漏洞

從android11開始,訪問/sdcard/Android/data目錄需要URI授權,而從更高的版本開始甚至URI權限也被收回,返回“無法使用此文件夾”的提示,這里提供一種方法,可以越權強制訪問data目錄,當然也包括obb、media等目…

本地部署 Kimi K2 全指南(llama.cpp、vLLM、Docker 三法)

Kimi K2 是 Moonshot AI 于2025年7月11日發布的高性能多專家語言模型(MoE),支持最大 128K 上下文,激活參數規模為 32B,具備極強的推理、代碼生成與多輪對話能力。自從其權重以多種格式開源以來,許多開發者希…

使用python的pillow模塊將圖片轉化為灰度圖和相關的操作

使用python的pillow模塊可以將圖片轉化為灰度圖, 可以獲取灰度圖的特定點值,區域值, 修改值并保存到圖片 圖片轉換為灰度圖 from PIL import Image# 打開圖片 image Image.open("d://python//2//1.jpg")gray_image image.convert…

【網絡安全】大型語言模型(LLMs)及其應用的紅隊演練指南

未經許可,不得轉載。 文章目錄 什么是紅隊演練? 為什么 RAI 紅隊演練是一項重要實踐? 如何開展和規劃 LLM 的紅隊演練 1.測試前的準備 規劃:由誰負責測試 規劃:測試內容 規劃:測試方式 規劃:數據記錄方式 2.測試過程中 3.每輪測試后 報告數據 區分“識別”與“測量” 本…

ROS2安裝ros-humble-usb-cam 404錯誤導致失敗的解決方法

ROS2安裝ros-humble-usb-cam遇到404錯誤導致安裝失敗,如圖:解決方法: 備份 sources.list sudo cp /etc/apt/sources.list.d/ros2.list /etc/apt/sources.list.d/ros2.list.bak替換為清華源 sudo sed -i s|http://packages.ros.org/ros2/ubunt…

OllyDbg技巧學習

1 嘗試在反匯編代碼中找到一個函數的二進制代碼 有的時候需要一個函數的二進制代碼,注入到另外的一些地方;以此程序為示例, 八叉樹的C實現與原理解析-CSDN博客 Ollydbg打開可執行文件,我想先找到此函數的二進制代碼體&#xff0…

數據分析智能體:讓AI成為你的數據科學家

數據分析智能體:讓AI成為你的數據科學家 🌟 嗨,我是IRpickstars! 🌌 總有一行代碼,能點亮萬千星辰。 🔍 在技術的宇宙中,我愿做永不停歇的探索者。 ? 用代碼丈量世界&#xff0c…

K8s與Helm實戰:從入門到精通

Kubernetes 簡介 Kubernetes(簡稱 K8s)是一個開源的容器編排平臺,用于自動化部署、擴展和管理容器化應用。最初由 Google 設計并捐贈給云原生計算基金會(CNCF),現已成為容器編排領域的事實標準。 核心功能 自動化容器部署:支持聲明式配置和自動化部署,減少人工干預。…

根據ARM手冊,分析ARM架構中,原子操作的軟硬件實現的底層原理

目錄 1.問題背景: 2.原子操作 2.1 硬件操作 2.1.1 LDREX/LDXR指令 2.1.2 STREX/STXR指令 2.2 軟件操作 2.3 軟件硬件操作的各性能對比 3.總結 1.問題背景: 我們知道,RTOS的任務調度算法是搶占式優先級調度算法。 既然是搶占了&…

iOS 抓包工具選擇與配置指南 從零基礎到高效調試的完整流程

iOS 抓包:復雜網絡調試的必要技能 隨著移動端應用越來越依賴網絡交互,iOS 抓包作為核心調試工具之一,變得尤為重要。無論是調試 App 與后端的接口通信、排查 HTTPS 請求加密問題,還是定位網絡連接超時、請求異常,抓包都…

Java使用FastExcel實現Excel文件導入

依賴配置 (Maven pom.xml)<dependencies><!-- FastExcel 核心庫 --><dependency><groupId>cn.idev.excel</groupId><artifactId>fastexcel</artifactId><version>1.0.0</version></dependency><!-- Apache POI…

【60】MFC入門到精通——運行后 button按鍵上不顯示 按鍵名, 控件上的文字不顯示

文章目錄運行后&#xff0c;button按鍵上不顯示 “Test”原因是屬性&#xff0c;圖標–>True&#xff0c;改為False就好了。

抖音回應:沒有自建外賣,就是在團購的基礎上增加的配送功能

今年以來&#xff0c;外賣行業競爭愈加激烈&#xff0c;市場格局風云變幻。在這一背景下&#xff0c;外賣行業動向備受關注。近日&#xff0c;針對抖音上線團購版外賣的消息引發公眾關注。為此&#xff0c;大公科技以商家身份咨詢了抖店客服&#xff0c;對方回應稱&#xff0c;…

中間件安全攻防全解:從Tomcat到Weblogic反序列化漏洞介紹

本文僅用于技術研究&#xff0c;禁止用于非法用途。 Author:枷鎖 文章目錄什么是中間件中間件漏洞(1) Tomcat(2) Weblogic(3) JBoss漏洞什么是中間件 中間件&#xff08;Middleware&#xff09;是指一種軟件組件&#xff0c;其作用是在不同的系統、應用程序或服務之間傳遞數據…

現代前端開發流程:CI/CD與自動化部署實戰

目錄 引言現代前端開發面臨的挑戰CI/CD基礎概念前端CI/CD流程設計實戰案例&#xff1a;構建前端CI/CD管道自動化部署策略監控與回滾機制最佳實踐與優化建議總結 引言 隨著前端技術的飛速發展&#xff0c;現代Web應用變得越來越復雜。前端項目不再只是簡單的HTML、CSS和JavaS…

MySQL EXPLAIN深度解析:優化SQL性能的核心利器

MySQL EXPLAIN深度解析&#xff1a;優化SQL性能的核心利器 引言&#xff1a;數據庫性能優化的關鍵 在數據庫應用開發中&#xff0c;SQL查詢性能往往是系統瓶頸的關鍵所在。當面對慢查詢問題時&#xff0c;EXPLAIN命令就像數據庫工程師的X光機&#xff0c;能夠透視SQL語句的執行…