大模型獎勵建模新突破!Inference-Time Scaling for Generalist Reward Modeling

傳統的RM在通用領域面臨準確性和靈活性挑戰,而DeepSeek-GRM通過動態生成principle和critic,結合并行采樣與meta RM引導的投票機制,實現了更高質量的獎勵信號生成。論文通過Self-Principled Critique Tuning (SPCT)方法,顯著提升了獎勵模型(RM)的推理時擴展能力,且推理時擴展性能優于單純增大模型規模。未來,這一技術有望成為強化學習與語言模型對齊的關鍵工具。點擊閱讀,探索通用獎勵建模的前沿突破!

論文標題

Inference-Time Scaling for Generalist Reward Modeling

來源

arXiv:2504.02495v2 [cs.CL] 5 Apr 2025
https://arxiv.org/abs/2504.02495

文章核心

研究背景

大語言模型(LLM)發展迅速,強化學習(RL)作為其訓練方法被廣泛應用,獎勵建模(RM)是RL中為LLM生成準確獎勵信號的關鍵部分。然而,當前高質量獎勵信號主要依賴特定環境或手工規則獲取,在通用領域獲取高質量獎勵信號面臨挑戰。

研究問題

  1. 通用獎勵建模需要對不同輸入類型具有靈活性,現有方法難以滿足這一要求,如成對RM難以處理單響應輸入,標量RM難以生成多樣獎勵信號。
  2. 有效推理時可擴展性要求RM能隨推理計算增加生成更高質量獎勵信號并學習可擴展行為,但現有學習方法很少關注推理時可擴展性及相關行為與RM推理時可擴展性有效性的聯系,導致性能提升有限。
  3. 在通用領域,獎勵生成標準復雜多樣,缺乏明確參考或事實,使得獎勵建模更具挑戰性。

主要貢獻

  1. 提出新的學習方法:提出Self-Principled Critique Tuning(SPCT)方法,用于點向生成式獎勵建模(GRM),使GRM能自適應生成原則和評論,顯著提升獎勵質量和推理時可擴展性,由此得到DeepSeek-GRM模型;引入元RM,進一步提高DeepSeek-GRM的推理時縮放性能。
  2. 實驗驗證優勢:通過實驗證明,SPCT在多個綜合RM基準測試中,顯著提升了GRM的質量和推理時可擴展性,優于現有方法和多個強大的公共模型。
  3. 探索新的發現:將SPCT訓練方案應用于更大規模的LLM,發現推理時縮放性能優于訓練時模型尺寸縮放。

方法論精要

  1. 核心算法/框架:采用點向Pointwise獎勵建模(GRM),并提出Self-Principled Critique Tuning(SPCT)方法。SPCT由**拒絕微調(Rejective Fine-Tuning,RFT)基于規則的在線強化學習(RL)**兩部分組成。在拒絕微調階段,使用預訓練的GRM對不同數量的response和prompt進行軌跡采樣,構建數據并篩選,讓GRM適應生成正確格式的principle和critic。基于規則的在線RL階段,利用GRPO(Generalized Reinforce Policy Optimization)原設置和基于規則的結果獎勵對GRM進一步微調,鼓勵GRM區分最佳響應,以實現有效的推理時縮放。
  2. 關鍵參數設計原理:在基于規則的在線RL中,使用標準GRPO設置,通過網格搜索確定超參數β = 0.08為最穩定配置,此時能避免GRM在基準測試的某些子集上出現偏差。設置組大小G = 4,平衡效率和性能。在數據構建方面,訓練集包含1250K RFT數據(1070K通用指令數據和186K拒絕采樣數據)和237K RL數據。對于拒絕采樣,使用DeepSeek-v2.5 - 0906生成軌跡,采樣時間 N R F T N_{RFT} NRFT?設為3;在Hinted采樣時,添加偏好強度作為提示,并移除對DeepSeek-V2-Lite-Chat來說過于簡單的樣本。
  3. 創新性技術組合
    • principle生成轉變:將principle生成從理解環節轉移到生成環節,使GRM能根據輸入prompt和response自適應生成principle,進而生成critic,且通過對GRM的后訓練可提升principle和critic的質量與粒度。
    • 并行采樣與投票:通過并行采樣擴展計算使用,對生成的多組principle和critic進行投票得到最終獎勵。由于每次采樣的獎勵通常在小離散范圍內(如1 - 10),投票過程擴大了獎勵空間,使GRM能生成更多principle,提高最終獎勵的質量和粒度。為避免位置偏差和增加多樣性,采樣前會對響應進行shuffle。
    • meta-RM指導投票:訓練元RM指導投票過程。meta-RM是pointwise scalar RM,通過二元交叉熵損失訓練,用于識別DeepSeek-GRM生成的principle和critic的正確性。其訓練數據集包含RFT階段的非Hinted采樣軌跡和DeepSeek-GRM的采樣軌跡,以提供正負獎勵并減輕訓練和推理策略間的差距。指導投票時,meta-RM為k次采樣獎勵輸出meta-reward,最終結果由meta-reward排名前 k m e t a ≤ k k_{meta}≤k kmeta?k的獎勵投票得出,從而過濾低質量樣本。
  4. 實驗驗證方式:在多個不同領域的RM基準測試中評估模型性能,包括Reward Bench、PPE、RMB、ReaLMistake等。選用多個基線方法進行對比,如LLM-as-a-Judge、DeepSeek-BTRM-27B、CLoud-Gemma-2-27B、DeepSeek-PairRM-27B等,并基于Gemma-2-27B重新實現這些基線方法,保證訓練數據和設置與DeepSeek-GRM兼容。在實驗設置中,使用標準評估指標,如在Reward Bench、PPE和RMB中選取最佳響應的準確率,ReaLMistake中的ROC-AUC。對于多響應預測獎勵的平局情況,通過shuffle和arg max操作確定最佳響應。

實驗洞察

  1. 性能優勢:在RM基準測試中,DeepSeek-GRM-27B總體性能優于基線方法,與強大的公共RM(如Nemotron-4-340B-Reward和GPT-4o)相比也具有競爭力。通過推理時縮放,DeepSeek-GRM-27B性能進一步提升,如在Voting@32設置下,總體得分達到71.0,MetaRM指導投票時可達72.8。在不同基準測試的具體指標上,如Reward Bench的準確率、PPE的正確性、RMB的各項指標等,DeepSeek-GRM-27B均有出色表現。
  2. 效率突破:采用并行采樣進行推理時縮放,在合理采樣次數(如8次)下,獎勵生成延遲不會顯著增加。與訓練時縮放模型尺寸相比,DeepSeek-GRM-27B的推理時縮放更有效,例如直接投票32次的DeepSeek-GRM-27B性能與671B MoE模型相當,MetaRM指導投票8次時效果最佳。
  3. 消融研究:通過對SPCT不同組件的消融實驗發現,principle生成對DeepSeek-GRM-27B的貪婪解碼和推理時縮放性能都至關重要;非提示采樣似乎比提示采樣更重要;即使沒有拒絕采樣的冷啟動,經過在線RL后,通用指令調整的GRM仍有顯著性能提升,表明在線訓練對GRM很重要。

本文由AI輔助完成。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/78531.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/78531.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/78531.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

機器視覺的膠帶模切應用

在電子制造領域,膠帶模切工藝如同產品的“隱形裁縫”,從手機屏幕OCA光學膠到動力電池絕緣膠帶,每一刀精準的切割都關乎產品性能與可靠性。傳統人工對位方式難以應對微米級加工精度的嚴苛要求,而MasterAlign機器視覺系統的引入&…

Vue2+ElementUI實現無限級菜單

使用Vue2和ElementUI實現無限級菜單,通常菜單數據以樹形結構存儲,每個菜單包含多個子菜單 ,子菜單又可以繼續包含更深層次的子菜單項。所以,需要使用遞歸形式,完成子項菜單的渲染。 這里,結合Element UI界面的el-menu和el-submenu組件來構建菜單結構,有子菜單時使用el-s…

如何使用WebRTC

WebRTC比較容易使用,只需要很少的步驟,有些消息在瀏覽器和服務器之間流動,有些則直接在兩個瀏覽器之間流動, 1、建立WebRTC會話 a:建立WebRTC連接需要加入以下幾個步驟: 獲取本地媒體:getUse…

數據分析管理軟件 Minitab 22.2.2 中文版安裝包 免費下載

Minitab22.2.2 安裝包下載鏈接: https://pan.baidu.com/s/1cWuDbvcWhYrub01C6QR81Q?pwd6666 提取碼: 6666 Minitab軟件是現代質量管理統計軟件,全球六西格瑪實施的共同語言。Minitab 已經在全球120多個國家,5000多所高校被廣泛使用。

從新手到高手:小程序開發進階技巧分享

小程序開發從入門到精通需要經歷技術積累、架構優化和工程化實踐等多個階段。以下是結合真實項目經驗的進階路線與核心技術要點,涵蓋性能優化、架構設計、跨平臺開發等關鍵領域: 一、性能調優實戰技巧 1. 首屏渲染加速方案 // 預請求關鍵數據&#xff…

Vue3后代組件多祖先通訊設計方案

在 Vue3 中,當需要設計一個被多個祖先組件使用的后代組件的通訊方式時,可以采用以下方案(根據場景優先級排序): 方案一:依賴注入(Provide/Inject) 響應式上下文 推薦場景&#xff…

《代碼之美:靜態分析工具與 CI 集成詳解》

《代碼之美:靜態分析工具與 CI 集成詳解》 引言 在現代軟件開發的快節奏環境中,代碼質量和效率始終是開發者關注的核心。無論您是初學者,還是經驗豐富的資深開發者,一個強大的工具鏈都能讓您如虎添翼。而 Python 的靜態代碼分析工具,如 pylint、flake8 和 mypy,正是提升…

kafka安裝、spark安裝

kafka簡介 Kafka就是一個分布式的用于消息存儲的消息隊列。 kafka角色 Kafka中存儲的消息,被消費后不會被刪除,可以被重復消費,消息會保留多長,由kafka自己去配置。默認7天刪除。背后的管理工作由zookeeper來管理。 kafka安裝 …

Jmeter數據庫url開關設置+常用Beanshell

1、數據庫url開關設置 (79 90) jdbc:mysql://test.lemonban.com:3306/future?allowMultiQueries-true&characterEncodingUTF-8 多條查詢開關:allowMultiQueriestrue 字符集配置:characterEncodingUTF-8 2、用BeanShell提取Map中的方…

媒體關注:聯易融聚焦AI+業務,重塑供應鏈金融生態

近日,供應鏈金融科技龍頭企業聯易融科技集團(以下簡稱“聯易融”)發布的公告顯示,截至2024年末,公司現金儲備達51億元,同比上一年增加2億元。公司稱,公司經營性現金流保持健康,現金儲…

求解,如何控制三相無刷電機?歡迎到訪評論

問題:通過一個集成的TF2104芯片控制H橋上橋臂和下橋臂,如何控制?還是說得需要PWM_UH和PWM_UL分開控制?

AIGC在游戲開發中的革命:自動化生成3A級游戲內容

一、智能游戲開發架構 1.1 傳統開發痛點與AIGC創新 開發環節 傳統痛點 AIGC解決方案 角色原畫設計 美術資源產能瓶頸 文生圖3D模型自動生成 場景搭建 重復勞動占比高 程序化生成風格遷移 NPC行為設計 模式化嚴重 強化學習驅動智能行為 任務系統 劇情線性缺乏變化 動態劇情生成系…

定位與解決線上 OOM 問題:原因分析與快速排查指南

OutOfMemoryError (OOM) 是 Java 應用在生產環境中常見的嚴重問題,可能導致服務不可用、響應延遲或直接崩潰。線上 OOM 的定位和解決需要快速準確,以最小化業務影響。本文將深入分析 OOM 的常見原因,介紹定位 OOM 的系統化方法,并…

Rust 數據類型

Rust 數據類型 Rust 是一種系統編程語言,它旨在提供高性能和內存安全,同時保持并發編程的簡潔性。在 Rust 中,數據類型是構成變量和表達式的基石。理解 Rust 中的數據類型對于編寫高效、可靠的 Rust 代碼至關重要。 引言 Rust 的數據類型分為兩大類:基本數據類型和復合數…

Eigen線性代數求解器(分解類)

1. 核心分解類概覽 Eigen 提供多種矩陣分解方法,適用于不同矩陣類型(稠密/稀疏、正定/非正定等): 分解類適用矩陣類型分解形式典型應用場景PartialPivLU方陣(可逆)APLUAPLU通用線性方程組求解FullPivLU任…

QQMusic項目功能總結

QQMusic項目功能總結 一、核心功能分類 (一)界面交互功能 功能模塊實現方式使用類(自定義/Qt庫)核心類說明窗口布局Head區(圖標、搜索框、控制按鈕) Body區(左側功能欄右側頁面區&#xff09…

2025第十六屆藍橋杯大賽(軟件賽)網絡安全賽 Writeup

2025第十六屆藍橋杯大賽(軟件賽)網絡安全賽 Writeup 2025第十六屆藍橋杯大賽(軟件賽)網絡安全賽 Writeup情報收集黑客密室逃脫 數據分析ezEvtxflowzip 密碼破解EnigmaECBTraineasy_AES 逆向分析ShadowPhases 漏洞挖掘分析RuneBrea…

CSS Position 屬性完全指南

CSS 中的 position 屬性是布局的基礎,它決定了元素在頁面中的定位方式。理解各種定位值的行為和適用場景對于構建靈活、響應式的布局至關重要。 position 屬性的五個主要值 1. static(默認值) 元素遵循正常的文檔流不受 top, right, botto…

Java集成Redisson實現分布式鎖(實戰)

一、Redisson是什么 Redisson 是一個基于 Redis 實現的 Java 駐內存數據網格(In-Memory Data Grid)。它不僅提供了一系列分布式和可擴展的 Java 數據結構,還對 Redis 進行了封裝,讓開發者可以更便捷地使用 Redis。 二、Redisson…

linux的例行性工作(at)

使用場景: 生活中,我們有太多場景需要使用到鬧鐘,比如早上 7 點起床,下午 4 點開會,晚上 8 購物,等等 在 Linux 系統里,我們同樣也有類似的需求。比如我們想在凌晨 1 點將文件上傳服務器&#…