大語言模型推理能力的強化學習現狀理解GRPO與近期推理模型研究的新見解

??每周跟蹤AI熱點新聞動向和震撼發展 想要探索生成式人工智能的前沿進展嗎?訂閱我們的簡報,深入解析最新的技術突破、實際應用案例和未來的趨勢。與全球數同行一同,從行業內部的深度分析和實用指南中受益。不要錯過這個機會,成為AI領域的領跑者。點擊訂閱,與未來同行! 訂閱:https://rengongzhineng.io/

【本周AI新聞: Gemini 2.5 Flash, Open AI 4.1,o3&o4 mini 重磅登場】 https://www.bilibili.com/video/BV1M55WzwETw/

本月發布了多個旗艦模型,包括GPT-4.5與Llama 4,引起了業界廣泛關注。但與以往相比,這些新模型的市場反應相對冷淡。其中一個重要原因在于,這兩款模型仍采用傳統訓練方式,未顯著加強推理能力,尤其未采用強化學習方法對推理進行專門訓練。

與此同時,其他公司如xAI與Anthropic則在其模型中引入了更多推理功能。例如,xAI的Grok與Anthropic的Claude平臺已為部分模型加入“思考模式”按鈕,用以激活推理能力。

因此,市場對GPT-4.5與Llama 4反應平淡,或許反映出模型規模和數據量的擴大已逐漸接近效果瓶頸。相比之下,OpenAI新發布的o3推理模型則顯示出若將計算資源有策略地投入于推理強化訓練中,模型性能仍可顯著提升。據OpenAI員工在4月16日的直播中透露,o3訓練所耗計算資源是o1的10倍。

盡管推理并非萬能解法,但目前為止,它確實穩定提升了模型在復雜任務中的準確率與問題解決能力。因此,未來LLM訓練流程中很可能將推理導向的后訓練機制作為標準。

本文將深入探討用于發展與改進推理模型的強化學習方法。


目錄概覽:

  1. 理解推理模型

  2. RLHF基礎:強化學習從何而來

  3. PPO簡介:RL的主力算法

  4. RL算法演化:從PPO到GRPO

  5. 獎勵建模方式:從RLHF到RLVR

  6. DeepSeek-R1模型訓練過程

  7. RL推理模型訓練相關論文經驗總結

  8. 值得關注的研究論文匯總

(提示:如讀者已熟悉RL基礎、PPO與GRPO概念,可直接跳轉至“RL推理模型訓練相關論文經驗總結”部分)


理解推理模型

所謂“推理”,指的是大型語言模型在處理復雜任務時,進行邏輯推斷與中間步驟生成的能力。具體而言,當前主流方式是“思維鏈”或“鏈式思考”(CoT),即模型在給出最終答案前,會先輸出多個有邏輯結構的中間步驟,展現其思考路徑。

例如,當模型面對一道多步數學題時,不再僅僅憑記憶給出結果,而是通過一系列計算步驟逐步推導至正確答案。這些中間步驟視實際應用場景可能顯示給用戶,也可能隱藏于系統內部。

此前的研究顯示,提升推理能力通常有兩種路徑:一是增加訓練階段的計算資源,二是在推理階段(即推斷時)增加計算資源。前者強調模型本身的訓練方法,后者則偏重運行時優化。本文主要關注前者,即如何通過強化學習改善訓練過程,從而提高模型的推理能力。


RLHF基礎回顧

LLM在對齊人類偏好方面,最初使用的是強化學習結合人類反饋(RLHF)的方法。RLHF的流程包括三個階段:

  1. 監督微調(SFT):使用高質量人工答案對預訓練模型進行微調;

  2. 獎勵模型訓練:由人工對多個答案進行排序,用以訓練一個回歸型獎勵模型;

  3. 強化學習階段:使用PPO算法基于獎勵模型進行策略優化。

PPO(Proximal Policy Optimization)是一種主流的策略優化算法,其核心是限制策略每次更新的變化范圍,以避免模型不穩定。該方法結合KL散度懲罰項與熵獎勵,引導模型平衡“探索”與“保守”。


從PPO到GRPO

DeepSeek團隊在開發R1模型時并未繼續使用PPO,而是提出了GRPO(Group Relative Policy Optimization)算法,以替代傳統的價值評估模型(Critic)。GRPO通過比較來自同一策略模型的多個答案,基于其相對優劣來評估“優勢值”,從而省去了價值模型這一資源密集型組件。此方法在提升數學推理能力的同時,還顯著優化了計算資源效率。


從RLHF到RLVR:獎勵建模演化

在標準RLHF中,獎勵模型由人類偏好訓練得出。而DeepSeek-R1則采用了RLVR(Reinforcement Learning with Verifiable Rewards)策略,用確定性工具(如計算器、編譯器)對模型輸出進行正確性驗證,取代了人類標注的獎勵信號,從而提高訓練效率并避免“獎勵黑客”(Reward Hacking)問題。


DeepSeek-R1推理模型的訓練流程

DeepSeek-R1系列包括三類模型:

  1. R1-Zero:完全使用RLVR訓練,不經過監督微調;

  2. R1:結合監督微調與RLHF、RLVR交替訓練;

  3. R1-Distill:基于R1輸出生成指令數據,對較小模型(如LLaMA 3、Qwen 2.5)進行微調,但未使用RL。

訓練過程采用了兩種獎勵:

  • 準確性獎勵:輸出是否符合格式并計算正確;

  • 格式獎勵:要求推理過程必須包裹在 <think></think> 標簽中,確保推理結構清晰。


近期論文中關于訓練推理模型的經驗總結

以下為近期15篇論文中提取的關鍵見解:

  1. 強化學習顯著提升了小模型的推理能力
    尤其是將RL用于已經通過知識蒸餾獲得初步推理能力的小模型,進一步提升表現。小模型用少量數據與極低計算成本便可超越一些大模型。

  2. 生成冗長錯誤答案的問題
    多篇論文指出PPO與GRPO都存在偏好長文本的傾向,特別是在錯誤輸出時。為解決此問題,研究者提出了如“Dr.GRPO”與LCPO等改進算法,引入長度懲罰與精細化獎勵結構以控制輸出長度。

  3. 強化學習引發的推理行為
    如DeepSeek-R1中的“AHA時刻”并非手動設計,而是模型在訓練中自發學會了驗證與反思行為。

  4. 推理能力的跨領域泛化
    通過邏輯謎題訓練獲得的模型,在數學與編程任務中也表現出色,表明推理能力可以不依賴具體領域知識泛化。

  5. 向更廣泛領域擴展
    如醫學、心理學、教育等非結構化任務中,也能通過生成式評分機制引入可驗證獎勵,從而實現強化學習訓練。

  6. 推理能力并非僅由RL驅動
    有研究指出,鏈式思考能力可能在預訓練階段就已自然涌現。即使不進行強化學習,一些基礎模型(如Qwen2.5)也展現出“反思”與“自我修正”的傾向。這說明推理能力的形成可能是多因素共同作用的結果。


總結

當前推理模型的研究與訓練正快速向更高效率、更廣適應性的方向發展。強化學習,尤其是結合可驗證獎勵(RLVR)與相對策略優化(GRPO)的方法,正逐步替代傳統的PPO與獎勵模型。同時,研究者也在積極探索如何控制響應長度、提升泛化能力與引入外部工具,以推動推理能力的實際落地。

值得關注的下一步,將是推理模型與檢索增強生成(RAG)與工具使用能力的深度結合。OpenAI最新的o3模型已展現出這種趨勢,預示推理型大模型正逐步走向實用階段。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/77693.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/77693.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/77693.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【Linux系統】Linux基礎指令(詳解Linux命令行常用指令,每一個指令都有示例演示)

文章目錄 一、與文件路徑相關的指令0.補充知識&#xff1a;路徑的認識1.pwd 指令2.cd 指令&#xff08;含家目錄的介紹&#xff09; 二、創建和刪除文件的指令0.補充知識&#xff1a;普通文件和目錄文件1.touch 指令&#xff08;可以修改文件的時間戳&#xff09;2.mkdir 指令3…

LangChain 單智能體模式示例【純代碼】

# LangChain 單智能體模式示例import os from typing import Anyfrom langchain.agents import AgentType, initialize_agent, Tool from langchain_openai import ChatOpenAI from langchain.tools import BaseTool from langchain_experimental.tools.python.tool import Pyt…

解決:VSCode C++ conan 安裝第三方庫后 頭文件報錯

文章目錄 1 頭文件include路徑查找報錯參考 1 頭文件include路徑查找報錯 找到conan_toolchain.cmake中 INCLUDE_PATH list(PREPEND CMAKE_INCLUDE_PATH "/Users/hanliqiang/.conan2/p/b/fmte8c4f7a755477/p/include")生成C編譯配置 CtrlShiftP 中選擇C Edit Confi…

松靈Cobot Magic雙臂具身遙操機器人(基于ROS的定位建圖與協同導航技術)

摘要 本文以CobotMagic可移動協作機器人為研究對象&#xff0c;從硬件架構設計、軟件系統架構、多傳感器融合定位建圖系統、智能導航系統協同機制四個維度&#xff0c;深入解析機器人系統工作原理。重點研究多傳感器融合定位建圖系統實現原理&#xff0c;結合實測數據驗證系統…

回歸,git 分支開發操作命令

核心分支說明 主分支&#xff08;master/production&#xff09;存放隨時可部署到生產環境的穩定代碼&#xff0c;僅接受通過測試的合并請求。 開發分支&#xff08;develop&#xff09;集成所有功能開發的穩定版本&#xff0c;日常開發的基礎分支&#xff0c;從該分支創建特性…

ASP.NET Core 最小 API:極簡開發,高效構建(下)

在上篇文章 ASP.NET Core 最小 API&#xff1a;極簡開發&#xff0c;高效構建&#xff08;上&#xff09; 中我們添加了 API 代碼并且測試&#xff0c;本篇繼續補充相關內容。 一、使用 MapGroup API 示例應用代碼每次設置終結點時都會重復 todoitems URL 前綴。 API 通常具有…

Spring之我見 - Spring Boot Starter 自動裝配原理

歡迎光臨小站&#xff1a;致橡樹 Spring Boot Starter 的核心設計理念是 約定優于配置&#xff0c;其核心實現基于 自動配置&#xff08;Auto-Configuration&#xff09; 和 條件化注冊&#xff08;Conditional Registration&#xff09;。以下是其生效原理&#xff1a; 約定…

精益數據分析(7/126):打破創業幻想,擁抱數據驅動

精益數據分析&#xff08;7/126&#xff09;&#xff1a;打破創業幻想&#xff0c;擁抱數據驅動 在創業的道路上&#xff0c;我們都懷揣著夢想&#xff0c;但往往容易陷入自我編織的幻想中。我希望通過和大家一起學習《精益數據分析》&#xff0c;能幫助我們更清醒地認識創業過…

牛客java練習題

[toc] 1.依賴注入 依賴注入是一種設計模式和編程思想,不依賴 具體的框架實現,可以通過多種方式和框架來實現可以通過Spring , Google Guice , PicoContainer 等都可以實現依賴注入,也可以通過手動編寫實現目的: 為了解耦合,將對象之間的依賴關系從代碼中解耦出來, 使系統更加…

大模型應用開發自學筆記

理論學習地址&#xff1a; https://zh.d2l.ai/chapter_linear-networks/index.html autodl學術加速&#xff1a; source /etc/network_turboconda常見操作: 刪除&#xff1a; conda remove --name myenv --all -y導出&#xff1a; conda env export > environment.yml…

鴻蒙ArkUI實戰之TextArea組件、RichEditor組件、RichText組件、Search組件的使用

本文接上篇繼續更新ArkUI中組件的使用&#xff0c;本文介紹的組件有TextArea組件、RichEditor組件、RichText組件、Search組件&#xff0c;這幾個組件的使用對應特定場景&#xff0c;使用時更加需要注意根據需求去使用 TextArea組件 官方文檔&#xff1a; TextArea-文本與輸…

除了`String`、`StringBuffer` 和 `StringBuilder`之外,還有什么處理字符串的方法?

一、標準庫中的字符串處理類 1. StringJoiner&#xff08;Java 8&#xff09; 用途&#xff1a;用于在拼接字符串時自動添加分隔符、前綴和后綴。示例&#xff1a;StringJoiner sj new StringJoiner(", ", "[", "]"); sj.add("A").…

Qt中讀寫結構體字節數據

在Qt中讀寫結構體字節數據通常涉及將結構體轉換為字節數組(QByteArray)或直接從內存中讀寫。以下是幾種常見方法&#xff1a; 方法1&#xff1a;使用QDataStream讀寫結構體 cpp #include <QFile> #include <QDataStream>// 定義結構體 #pragma pack(push, 1) //…

Windows 10 上安裝 Spring Boot CLI詳細步驟

在 Windows 10 上安裝 Spring Boot CLI 可以通過以下幾種方式完成。以下是詳細的步驟說明&#xff1a; 1. 手動安裝&#xff08;推薦&#xff09; 步驟 1&#xff1a;下載 Spring Boot CLI 訪問 Spring Boot CLI 官方發布頁面。下載最新版本的 .zip 文件&#xff08;例如 sp…

Unity3D仿星露谷物語開發37之澆水動畫

1、目標 當點擊水壺時&#xff0c;實現澆水的動畫。同時有一個水從水壺中流出來的特效。 假如某個grid被澆過了&#xff0c;則不能再澆水了。。 如果某個grid沒有被dug過&#xff0c;也不能被澆水。 2、優化Settings.cs腳本 增加如下內容&#xff1a; public static float…

【2】Kubernetes 架構總覽

Kubernetes 架構總覽 主節點與工作節點 主節點 Kubernetes 的主節點&#xff08;Master&#xff09;是組成集群控制平面的關鍵部分&#xff0c;負責整個集群的調度、狀態管理和決策。控制平面由多個核心組件構成&#xff0c;包括&#xff1a; kube-apiserver&#xff1a;集…

如何對docker鏡像存在的gosu安全漏洞進行修復——筑夢之路

這里以mysql的官方鏡像為例進行說明&#xff0c;主要流程為&#xff1a; 1. 分析鏡像存在的安全漏洞具體是什么 2. 根據分析結果有針對性地進行修復處理 3. 基于當前鏡像進行修復安全漏洞并復核驗證 # 鏡像地址mysql:8.0.42 安全漏洞現狀分析 dockerhub網站上獲取該鏡像的…

【Tauri2】026——Tauri+Webassembly

前言 不多廢話 直言的說&#xff0c;筆者看到這篇文章大佬的文章 【04】Tauri 入門篇 - 集成 WebAssembly - 知乎https://zhuanlan.zhihu.com/p/533025312嘗試集成一下WebAssembly&#xff0c;直接開始 正文 準備工作 新建一個項目 安裝 vite的rsw插件和rsw pnpm instal…

OpenHarmony Camera開發指導(五):相機預覽功能(ArkTS)

預覽是在相機啟動后實時顯示場景畫面&#xff0c;通常在拍照和錄像前執行。 開發步驟 創建預覽Surface 如果想在屏幕上顯示預覽畫面&#xff0c;一般由XComponent組件為預覽流提供Surface&#xff08;通過XComponent的getXcomponentSurfaceId方法獲取surfaceid&#xff09;&…

puzzle(0531)腦力航跡

目錄 腦力航跡 規則 解法 簡單模式 中等模式 困難模式 專家模式 腦力航跡 規則 2條航跡會產生一個相對航跡&#xff1a; 根據相對航跡和其中一個航跡推導另外一個航跡。 解法 沒有任何需要推理的地方&#xff0c;就是純粹的2個矢量相加。 簡單模式 中等模式 困難模…