DeepCritic: SFT+RL兩階段訓練突破LLM自我監督!顯著提升大模型的自我批判能力!!

摘要:隨著大型語言模型(LLMs)的迅速發展,對其輸出進行準確反饋和可擴展監督成為一個迫切且關鍵的問題。利用LLMs作為批評模型以實現自動化監督是一個有前景的解決方案。在本研究中,我們專注于研究并提升LLMs在數學批評方面的能力。當前的LLM批評模型在每個步驟上提供的批評過于膚淺和表面化,導致判斷準確度低,且難以提供足夠的反饋來幫助LLM生成器糾正錯誤。為解決這一問題,我們提出了一個新穎且有效的兩階段框架,用于開發能夠針對數學解決方案的每個推理步驟進行深思熟慮的批評的LLM批評模型。在第一階段,我們利用Qwen2.5-72B-Instruct生成4500條長篇批評作為監督微調的種子數據。每條種子批評包含對每個推理步驟的深思熟慮的分步批評,包括多角度驗證以及對初始批評的深入批評。然后,我們使用強化學習對微調后的模型進行訓練,使用PRM800K中現有的人工標注數據或通過基于蒙特卡洛抽樣的正確性估計獲得的自動標注數據,以進一步激勵其批評能力。我們基于Qwen2.5-7B-Instruct開發的批評模型不僅在各種錯誤識別基準測試中顯著優于現有的LLM批評模型(包括相同大小的DeepSeek-R1-distill模型和GPT-4o),而且通過更詳細的反饋更有效地幫助LLM生成器完善錯誤步驟。

本文目錄

一、背景動機

二、實現方法

3.1 監督式微調(階段一)

3.2 強化學習(階段二)

四、實驗結論

4.1 性能提升

4.2 測試時擴展性

4.3 弱監督潛力

五、總結


一、背景動機

論文題目:DeepCritic: Deliberate Critique with Large Language Models

論文地址:https://arxiv.org/pdf/2505.00662

當前使用LLM critics 可以生成對 LLM 生成內容的批判,識別其中的缺陷和錯誤,幫助 LLM 生成器改進輸出,從而實現自動監督和持續改進。然而,現有的 LLM critics 在復雜領域(如數學推理任務)中表現出的批判能力有限,其生成的批判往往過于膚淺,缺乏批判性思維,無法提供準確可靠的反饋。例如,它們通常只是重復原始推理步驟的內容,而不是對其進行深入的批判性分析,導致批判結果不準確且缺乏指導性。

該文章提出了一個名為 DeepCritic 的新型兩階段框架,用于開發能夠對數學解題過程的每個推理步驟進行深入批判的 LLM critics。實驗結果表明,基于 Qwen2.5-7B-Instruct 開發的 DeepCritic 模型在多個錯誤識別基準測試中顯著優于現有的 LLM critics(包括同尺寸的 DeepSeek-R1-distill 模型和 GPT-4o),并且能夠通過更詳細的反饋更有效地幫助 LLM 生成器修正錯誤步驟。

二、實現方法

3.1 監督式微調(階段一)

  • 初始批判生成:從 PRM800K 數據集中采樣一小部分標注數據作為種子任務輸入,利用 Qwen2.5-72B-Instruct 為每個推理步驟生成初始批判。
    • 對于每個步驟,模型生成一個批判和一個判斷結果,表示該步驟的正確性。

    • 生成過程是獨立的,即每次只針對一個步驟進行批判,而不是直接生成整個解決方案的批判。

    • 生成的初始批判通常較為簡略,主要跟隨原始推理步驟的邏輯進行驗證。

  • 深入批判生成:基于初始批判,進一步生成深入批判,從不同角度驗證推理步驟的正確性,或對初始批判本身進行批判性分析。
    • 基于問題 P、解決方案 S 和初始批判,再次利用 Qwen2.5-72B-Instruct 模型生成深入批判和判斷結果。

    • 深入批判的目標是從不同角度驗證推理步驟的正確性,或對初始批判本身進行批判性分析,以發現初始批判中的潛在錯誤。

  • 最終批判合成:將初始批判和深入批判合并為一個長篇批判,形成完整的解決方案批判。
    • 利用 Qwen2.5-72B-Instruct 模型,將初始批判和深入批判合并為一個最終批判 cfinali?。

    • 合并過程中,模型會添加一些過渡性的、反思性的語句,使批判內容更加連貫和深入。

    • 最終批判不僅包含對每個步驟的詳細分析,還可能包含對初始批判的修正和補充。

  • 監督微調:使用上述生成的批判數據對目標模型進行監督式微調,使模型能夠進行多視角評估和自我反思。

3.2 強化學習(階段二)

  • 數據準備
    • 人類標注數據:如果現成的人類標注數據可用(如 PRM800K),直接使用這些數據進行強化學習。

    • 自動標注數據:如果沒有人類標注數據,通過蒙特卡洛采樣估計每個推理步驟的正確性,自動生成標注數據。

      • 對于每個問題,生成多個逐步解決方案,并通過蒙特卡洛采樣估計每個步驟的正確性。

      • 如果某個步驟在大多數采樣路徑中都被認為是錯誤的,則將其標注為錯誤;否則標注為正確。

  • 強化學習優化
    • 獎勵機制:如果模型的最終判斷結果正確,則給予獎勵 1.0;否則給予獎勵 0.0。

    • 訓練目標:通過強化學習,進一步提升模型的批判能力,使其能夠更準確地識別錯誤并提供詳細反饋。

四、實驗結論

4.1 性能提升

DeepCritic 在多個錯誤識別基準測試中顯著優于現有的 LLM critics 和過程獎勵模型(PRMs),在 6 個測試集中有 5 個測試集的性能超過了 GPT-4o 和其他基線模型。如在 MR-GSM8K 數據集上,DeepCritic-7B-RL-PRM800K 的 F1 分數達到了 77.3%,顯著高于其他基線模型,如 Qwen2.5-7B-Instruct(48.1%)和 GPT-4o(69.7%)。

4.2 測試時擴展性

DeepCritic 在測試時表現出良好的擴展性。通過增加測試時的采樣次數,批判模型的判斷準確性一致提高,如使用 8 次采樣的多數投票(Maj@8)將 DeepCritic-7B-RL-PRM800K 的 F1 分數從 77.3% 提升到 78.7%

DeepCritic 通過提供詳細反饋幫助 LLM 生成器修正錯誤,有效提升 LLM 生成器的性能,在 MATH500 數據集上,使用 DeepCritic 的反饋進行修正后,Qwen2.5-7B-Instruct 的準確率從 74.0% 提升到 77.2%

4.3 弱監督潛力

DeepCritic 展示了弱監督的潛力,在 MATH500 數據集上,DeepCritic-7B-RL 能夠有效監督 Qwen2.5-72B-Instruct 的輸出,幫助其修正錯誤,提升整體性能。

五、總結

文章提出了一種有效的兩階段訓練范式,通過監督式微調和強化學習顯著提升了 LLMs 的數學批判能力。DeepCritic 模型不僅在多個基準測試中表現出色,還展示了在測試時擴展和弱監督方面的潛力。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/86602.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/86602.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/86602.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【深度學習】深度學習中的張量:從多維數組到智能計算單元

? 一、n維數組(張量,Tensor) 1. 定義 張量(Tensor)是一個通用的n維數組數據結構。 它的維度(維數)決定了它的形狀,例如: 維度名稱舉例說明0維標量(scalar…

以太網MDI信號PCB EMC設計要點

1. PHY側和RJ45連接器側通用MDI布局建議 1. MDI差分對保持對稱走線,走線上的焊盤封裝應一致,焊盤放置位置也應對稱。可以減少EMI測試中的模式轉換。 ??2. MDI走線應保持阻抗匹配,從而減少信號線上的反射。 ??3. MDI走線下需有連續完整的接…

深入淺出WebGL:在瀏覽器中解鎖3D世界的魔法鑰匙

WebGL:在瀏覽器中解鎖3D世界的魔法鑰匙 引言:網頁的邊界正在消失 在數字化浪潮的推動下,網頁早已不再是靜態信息的展示窗口。如今,我們可以在瀏覽器中體驗逼真的3D游戲、交互式數據可視化、虛擬實驗室,甚至沉浸式的V…

pysnmp模塊中 GET、SET、WALK操作詳細分步解析

1. SNMP GET 操作詳解 1.1 核心代碼結構 from pysnmp.hlapi import *# 定義參數 community public # SNMPv2c 社區名 target_ip 192.168.1.1 # 目標設備 IP oid 1.3.6.1.2.1.1.1.0 # 要查詢的 OID# 發起 GET 請求 error_indication, error_status, error_index, …

接收rabbitmq消息

以下是一個使用純Java&#xff08;非Spring Boot&#xff09;接收RabbitMQ消息的完整實現&#xff0c;包含Maven依賴和持續監聽消息的循環&#xff1a; 1. 首先添加Maven依賴 (pom.xml) <dependencies><!-- RabbitMQ Java Client --><dependency><group…

SQL進階之旅 Day 23:事務隔離級別與性能優化

【SQL進階之旅 Day 23】事務隔離級別與性能優化 文章簡述 在數據庫系統中&#xff0c;事務是確保數據一致性和完整性的核心機制。隨著業務復雜度的提升&#xff0c;如何合理設置事務隔離級別以平衡并發性能與數據一致性成為開發人員必須掌握的關鍵技能。本文深入解析事務隔離級…

六.原型模式

一.原型模式的定義 原型模式是一種創建型設計模式&#xff0c;通過復制現有對象&#xff08;原型&#xff09;生成新對象&#xff0c;避免重復初始化成本。需了解以下關鍵概念&#xff1a; ?淺拷貝?&#xff1a;復制基本類型字段&#xff0c;引用類型字段共享內存地址&#…

【筆記】LoRA 理論與實現|大模型輕量級微調

論文鏈接&#xff1a;LoRA: Low-Rank Adaptation of Large Language Models 官方實現&#xff1a;microsoft/LoRA 非官方實現&#xff1a;huggingface/peft、huggingface/diffusers 這篇文章要介紹的是一種大模型/擴散模型的微調方法&#xff0c;叫做低秩適應&#xff08;也就是…

Cilium動手實驗室: 精通之旅---15.Isovalent Enterprise for Cilium: Network Policies

Cilium動手實驗室: 精通之旅---15.Isovalent Enterprise for Cilium: Network Policies 1. 環境信息2. 測試環境部署3. 默認規則3.1 測試默認規則3.2 小測驗 4. 網絡策略可視化4.1 通過可視化創建策略4.2 小測試 5. 測試策略5.1 應用策略5.2 流量觀測5.3 Hubble觀測5.4 小測試 …

opencv RGB圖像轉灰度圖

這段代碼的作用是將一個 3通道的 RGB 圖像&#xff08;CV_8UC3&#xff09;轉換為灰度圖像&#xff08;CV_8UC1&#xff09;&#xff0c;并使用 OpenCV 的 parallel_for_ 對圖像處理進行并行加速。 &#x1f50d; 一、函數功能總結 if (CV_8UC3 img.type()) {// 創建灰度圖 d…

React Hooks 的原理、常用函數及用途詳解

1. ??Hooks 是什么&#xff1f;?? Hooks 是 React 16.8 引入的函數式組件特性&#xff0c;允許在不編寫 class 的情況下使用 state 和其他 React 特性&#xff08;如生命周期、副作用等&#xff09;。??本質是一類特殊函數??&#xff0c;它們掛載到 React 的調度系統中…

學習路之PHP--webman協程學習

學習路之PHP--webman協程學習 一、準備二、配置三、啟動四、使用 協程是一種比線程更輕量級的用戶級并發機制&#xff0c;能夠在進程中實現多任務調度。它通過手動控制掛起和恢復來實現協程間的切換&#xff0c;避免了進程上下文切換的開銷 一、準備 PHP > 8.1 Workerman &g…

linux libusb使用libusb_claim_interface失敗(-6,Resource busy)解決方案

linux libusb使用libusb_claim_interface失敗&#xff08;-6&#xff0c;Resource busy&#xff09;解決方案 ? 問題原因&#x1f6e0;? 解決方案&#x1f538; 方法一&#xff1a;分離內核驅動 libusb_detach_kernel_driver()&#x1f538; 方法二&#xff1a;使用 usb-devi…

使用mpu6500/6050, PID,互補濾波實現一個簡單的飛行自穩控制系統

首先&#xff0c;參考ai給出的客機飛機的比較平穩的最大仰府&#xff0c;偏轉&#xff0c;和防滾角度&#xff0c;如下&#xff1a; 客機的最大平穩仰俯&#xff08;Pitch&#xff09;、偏轉&#xff08;Yaw&#xff09;和防滾&#xff08;Roll&#xff09;角度&#xff0c;通…

深度解析AD7685ARMZRL7:16位精密ADC在低功耗系統中的設計價值

產品概述 AD7685ARMZRL7是16位逐次逼近型&#xff08;SAR&#xff09;ADC&#xff0c;采用MSOP-10緊湊封裝。其核心架構基于電荷再分配技術&#xff0c;支持2.3V至5.5V單電源供電&#xff0c;集成低噪聲采樣保持電路與內部轉換時鐘。器件采用偽差分輸入結構&#xff08;IN/-&a…

EXCEL 實現“點擊跳轉到指定 Sheet”的方法

&#x1f4cc; WPS 表格技巧&#xff1a;如何實現點擊單元格跳轉到指定 Sheet 在使用 WPS 表格&#xff08;或 Excel&#xff09;時&#xff0c;我們經常會希望通過點擊一個單元格&#xff0c;直接跳轉到工作簿中的另一個工作表&#xff08;Sheet&#xff09;。這在制作目錄頁…

Python格式化:讓數據輸出更優雅

Python格式化&#xff1a;讓數據輸出更優雅 Python的格式化功能能讓數據輸出瞬間變得優雅又規范。不管是對齊文本、控制數字精度&#xff0c;還是動態填充內容&#xff0c;它都能輕松搞定。 一、基礎格式化&#xff1a;從簡單拼接開始 1. 百分號&#xff08;%&#xff09;格式…

2025年滲透測試面試題總結-小鵬[實習]安全工程師(題目+回答)

安全領域各種資源&#xff0c;學習文檔&#xff0c;以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各種好玩的項目及好用的工具&#xff0c;歡迎關注。 目錄 小鵬[實習]安全工程師 1. 自我介紹 2. 有沒有挖過src&#xff1f; 3. 平時web滲透怎么學的&#xff0c;有…

VSCode科技風主題設計詳細指南

1. 科技風設計的核心特點 科技風設計是一種強調未來感、現代感和高科技感的設計風格,在VSCode主題設計中,可以通過以下幾個核心特點來體現: 1.1 色彩特點 冷色調為主:藍色、紫色、青色等冷色調是科技風設計的主要色彩高對比度:深色背景配合明亮的霓虹色,形成強烈的視覺…

android知識總結

Activity啟動模式 standard (標準模式) 每次啟動該 Activity&#xff08;例如&#xff0c;通過 startActivity()&#xff09;&#xff0c;系統總會創建一個新的實例&#xff0c;并將其放入調用者&#xff08;啟動它的那個 Activity&#xff09;所在的任務棧中。 singleTop (棧…