傳統的RM在通用領域面臨準確性和靈活性挑戰,而DeepSeek-GRM通過動態生成principle和critic,結合并行采樣與meta RM引導的投票機制,實現了更高質量的獎勵信號生成。論文通過Self-Principled Critique Tuning (SPCT)方法,顯著提升了獎勵模型(RM)的推理時擴展能力,且推理時擴展性能優于單純增大模型規模。未來,這一技術有望成為強化學習與語言模型對齊的關鍵工具。點擊閱讀,探索通用獎勵建模的前沿突破!
論文標題
Inference-Time Scaling for Generalist Reward Modeling
來源
arXiv:2504.02495v2 [cs.CL] 5 Apr 2025
https://arxiv.org/abs/2504.02495
文章核心
研究背景
大語言模型(LLM)發展迅速,強化學習(RL)作為其訓練方法被廣泛應用,獎勵建模(RM)是RL中為LLM生成準確獎勵信號的關鍵部分。然而,當前高質量獎勵信號主要依賴特定環境或手工規則獲取,在通用領域獲取高質量獎勵信號面臨挑戰。
研究問題
- 通用獎勵建模需要對不同輸入類型具有靈活性,現有方法難以滿足這一要求,如成對RM難以處理單響應輸入,標量RM難以生成多樣獎勵信號。
- 有效推理時可擴展性要求RM能隨推理計算增加生成更高質量獎勵信號并學習可擴展行為,但現有學習方法很少關注推理時可擴展性及相關行為與RM推理時可擴展性有效性的聯系,導致性能提升有限。
- 在通用領域,獎勵生成標準復雜多樣,缺乏明確參考或事實,使得獎勵建模更具挑戰性。
主要貢獻
- 提出新的學習方法:提出Self-Principled Critique Tuning(SPCT)方法,用于點向生成式獎勵建模(GRM),使GRM能自適應生成原則和評論,顯著提升獎勵質量和推理時可擴展性,由此得到DeepSeek-GRM模型;引入元RM,進一步提高DeepSeek-GRM的推理時縮放性能。
- 實驗驗證優勢:通過實驗證明,SPCT在多個綜合RM基準測試中,顯著提升了GRM的質量和推理時可擴展性,優于現有方法和多個強大的公共模型。
- 探索新的發現:將SPCT訓練方案應用于更大規模的LLM,發現推理時縮放性能優于訓練時模型尺寸縮放。
方法論精要
- 核心算法/框架:采用點向Pointwise獎勵建模(GRM),并提出Self-Principled Critique Tuning(SPCT)方法。SPCT由**拒絕微調(Rejective Fine-Tuning,RFT)和基于規則的在線強化學習(RL)**兩部分組成。在拒絕微調階段,使用預訓練的GRM對不同數量的response和prompt進行軌跡采樣,構建數據并篩選,讓GRM適應生成正確格式的principle和critic。基于規則的在線RL階段,利用GRPO(Generalized Reinforce Policy Optimization)原設置和基于規則的結果獎勵對GRM進一步微調,鼓勵GRM區分最佳響應,以實現有效的推理時縮放。
- 關鍵參數設計原理:在基于規則的在線RL中,使用標準GRPO設置,通過網格搜索確定超參數β = 0.08為最穩定配置,此時能避免GRM在基準測試的某些子集上出現偏差。設置組大小G = 4,平衡效率和性能。在數據構建方面,訓練集包含1250K RFT數據(1070K通用指令數據和186K拒絕采樣數據)和237K RL數據。對于拒絕采樣,使用DeepSeek-v2.5 - 0906生成軌跡,采樣時間 N R F T N_{RFT} NRFT?設為3;在Hinted采樣時,添加偏好強度作為提示,并移除對DeepSeek-V2-Lite-Chat來說過于簡單的樣本。
- 創新性技術組合
- principle生成轉變:將principle生成從理解環節轉移到生成環節,使GRM能根據輸入prompt和response自適應生成principle,進而生成critic,且通過對GRM的后訓練可提升principle和critic的質量與粒度。
- 并行采樣與投票:通過并行采樣擴展計算使用,對生成的多組principle和critic進行投票得到最終獎勵。由于每次采樣的獎勵通常在小離散范圍內(如1 - 10),投票過程擴大了獎勵空間,使GRM能生成更多principle,提高最終獎勵的質量和粒度。為避免位置偏差和增加多樣性,采樣前會對響應進行shuffle。
- meta-RM指導投票:訓練元RM指導投票過程。meta-RM是pointwise scalar RM,通過二元交叉熵損失訓練,用于識別DeepSeek-GRM生成的principle和critic的正確性。其訓練數據集包含RFT階段的非Hinted采樣軌跡和DeepSeek-GRM的采樣軌跡,以提供正負獎勵并減輕訓練和推理策略間的差距。指導投票時,meta-RM為k次采樣獎勵輸出meta-reward,最終結果由meta-reward排名前 k m e t a ≤ k k_{meta}≤k kmeta?≤k的獎勵投票得出,從而過濾低質量樣本。
- 實驗驗證方式:在多個不同領域的RM基準測試中評估模型性能,包括Reward Bench、PPE、RMB、ReaLMistake等。選用多個基線方法進行對比,如LLM-as-a-Judge、DeepSeek-BTRM-27B、CLoud-Gemma-2-27B、DeepSeek-PairRM-27B等,并基于Gemma-2-27B重新實現這些基線方法,保證訓練數據和設置與DeepSeek-GRM兼容。在實驗設置中,使用標準評估指標,如在Reward Bench、PPE和RMB中選取最佳響應的準確率,ReaLMistake中的ROC-AUC。對于多響應預測獎勵的平局情況,通過shuffle和arg max操作確定最佳響應。
實驗洞察
- 性能優勢:在RM基準測試中,DeepSeek-GRM-27B總體性能優于基線方法,與強大的公共RM(如Nemotron-4-340B-Reward和GPT-4o)相比也具有競爭力。通過推理時縮放,DeepSeek-GRM-27B性能進一步提升,如在Voting@32設置下,總體得分達到71.0,MetaRM指導投票時可達72.8。在不同基準測試的具體指標上,如Reward Bench的準確率、PPE的正確性、RMB的各項指標等,DeepSeek-GRM-27B均有出色表現。
- 效率突破:采用并行采樣進行推理時縮放,在合理采樣次數(如8次)下,獎勵生成延遲不會顯著增加。與訓練時縮放模型尺寸相比,DeepSeek-GRM-27B的推理時縮放更有效,例如直接投票32次的DeepSeek-GRM-27B性能與671B MoE模型相當,MetaRM指導投票8次時效果最佳。
- 消融研究:通過對SPCT不同組件的消融實驗發現,principle生成對DeepSeek-GRM-27B的貪婪解碼和推理時縮放性能都至關重要;非提示采樣似乎比提示采樣更重要;即使沒有拒絕采樣的冷啟動,經過在線RL后,通用指令調整的GRM仍有顯著性能提升,表明在線訓練對GRM很重要。
本文由AI輔助完成。