??每周跟蹤AI熱點新聞動向和震撼發展 想要探索生成式人工智能的前沿進展嗎?訂閱我們的簡報,深入解析最新的技術突破、實際應用案例和未來的趨勢。與全球數同行一同,從行業內部的深度分析和實用指南中受益。不要錯過這個機會,成為AI領域的領跑者。點擊訂閱,與未來同行! 訂閱:https://rengongzhineng.io/
【本周AI新聞: Gemini 2.5 Flash, Open AI 4.1,o3&o4 mini 重磅登場】 https://www.bilibili.com/video/BV1M55WzwETw/
本月發布了多個旗艦模型,包括GPT-4.5與Llama 4,引起了業界廣泛關注。但與以往相比,這些新模型的市場反應相對冷淡。其中一個重要原因在于,這兩款模型仍采用傳統訓練方式,未顯著加強推理能力,尤其未采用強化學習方法對推理進行專門訓練。
與此同時,其他公司如xAI與Anthropic則在其模型中引入了更多推理功能。例如,xAI的Grok與Anthropic的Claude平臺已為部分模型加入“思考模式”按鈕,用以激活推理能力。
因此,市場對GPT-4.5與Llama 4反應平淡,或許反映出模型規模和數據量的擴大已逐漸接近效果瓶頸。相比之下,OpenAI新發布的o3推理模型則顯示出若將計算資源有策略地投入于推理強化訓練中,模型性能仍可顯著提升。據OpenAI員工在4月16日的直播中透露,o3訓練所耗計算資源是o1的10倍。
盡管推理并非萬能解法,但目前為止,它確實穩定提升了模型在復雜任務中的準確率與問題解決能力。因此,未來LLM訓練流程中很可能將推理導向的后訓練機制作為標準。
本文將深入探討用于發展與改進推理模型的強化學習方法。
目錄概覽:
-
理解推理模型
-
RLHF基礎:強化學習從何而來
-
PPO簡介:RL的主力算法
-
RL算法演化:從PPO到GRPO
-
獎勵建模方式:從RLHF到RLVR
-
DeepSeek-R1模型訓練過程
-
RL推理模型訓練相關論文經驗總結
-
值得關注的研究論文匯總
(提示:如讀者已熟悉RL基礎、PPO與GRPO概念,可直接跳轉至“RL推理模型訓練相關論文經驗總結”部分)
理解推理模型
所謂“推理”,指的是大型語言模型在處理復雜任務時,進行邏輯推斷與中間步驟生成的能力。具體而言,當前主流方式是“思維鏈”或“鏈式思考”(CoT),即模型在給出最終答案前,會先輸出多個有邏輯結構的中間步驟,展現其思考路徑。
例如,當模型面對一道多步數學題時,不再僅僅憑記憶給出結果,而是通過一系列計算步驟逐步推導至正確答案。這些中間步驟視實際應用場景可能顯示給用戶,也可能隱藏于系統內部。
此前的研究顯示,提升推理能力通常有兩種路徑:一是增加訓練階段的計算資源,二是在推理階段(即推斷時)增加計算資源。前者強調模型本身的訓練方法,后者則偏重運行時優化。本文主要關注前者,即如何通過強化學習改善訓練過程,從而提高模型的推理能力。
RLHF基礎回顧
LLM在對齊人類偏好方面,最初使用的是強化學習結合人類反饋(RLHF)的方法。RLHF的流程包括三個階段:
-
監督微調(SFT):使用高質量人工答案對預訓練模型進行微調;
-
獎勵模型訓練:由人工對多個答案進行排序,用以訓練一個回歸型獎勵模型;
-
強化學習階段:使用PPO算法基于獎勵模型進行策略優化。
PPO(Proximal Policy Optimization)是一種主流的策略優化算法,其核心是限制策略每次更新的變化范圍,以避免模型不穩定。該方法結合KL散度懲罰項與熵獎勵,引導模型平衡“探索”與“保守”。
從PPO到GRPO
DeepSeek團隊在開發R1模型時并未繼續使用PPO,而是提出了GRPO(Group Relative Policy Optimization)算法,以替代傳統的價值評估模型(Critic)。GRPO通過比較來自同一策略模型的多個答案,基于其相對優劣來評估“優勢值”,從而省去了價值模型這一資源密集型組件。此方法在提升數學推理能力的同時,還顯著優化了計算資源效率。
從RLHF到RLVR:獎勵建模演化
在標準RLHF中,獎勵模型由人類偏好訓練得出。而DeepSeek-R1則采用了RLVR(Reinforcement Learning with Verifiable Rewards)策略,用確定性工具(如計算器、編譯器)對模型輸出進行正確性驗證,取代了人類標注的獎勵信號,從而提高訓練效率并避免“獎勵黑客”(Reward Hacking)問題。
DeepSeek-R1推理模型的訓練流程
DeepSeek-R1系列包括三類模型:
-
R1-Zero:完全使用RLVR訓練,不經過監督微調;
-
R1:結合監督微調與RLHF、RLVR交替訓練;
-
R1-Distill:基于R1輸出生成指令數據,對較小模型(如LLaMA 3、Qwen 2.5)進行微調,但未使用RL。
訓練過程采用了兩種獎勵:
-
準確性獎勵:輸出是否符合格式并計算正確;
-
格式獎勵:要求推理過程必須包裹在
<think>
和</think>
標簽中,確保推理結構清晰。
近期論文中關于訓練推理模型的經驗總結
以下為近期15篇論文中提取的關鍵見解:
-
強化學習顯著提升了小模型的推理能力
尤其是將RL用于已經通過知識蒸餾獲得初步推理能力的小模型,進一步提升表現。小模型用少量數據與極低計算成本便可超越一些大模型。 -
生成冗長錯誤答案的問題
多篇論文指出PPO與GRPO都存在偏好長文本的傾向,特別是在錯誤輸出時。為解決此問題,研究者提出了如“Dr.GRPO”與LCPO等改進算法,引入長度懲罰與精細化獎勵結構以控制輸出長度。 -
強化學習引發的推理行為
如DeepSeek-R1中的“AHA時刻”并非手動設計,而是模型在訓練中自發學會了驗證與反思行為。 -
推理能力的跨領域泛化
通過邏輯謎題訓練獲得的模型,在數學與編程任務中也表現出色,表明推理能力可以不依賴具體領域知識泛化。 -
向更廣泛領域擴展
如醫學、心理學、教育等非結構化任務中,也能通過生成式評分機制引入可驗證獎勵,從而實現強化學習訓練。 -
推理能力并非僅由RL驅動
有研究指出,鏈式思考能力可能在預訓練階段就已自然涌現。即使不進行強化學習,一些基礎模型(如Qwen2.5)也展現出“反思”與“自我修正”的傾向。這說明推理能力的形成可能是多因素共同作用的結果。
總結
當前推理模型的研究與訓練正快速向更高效率、更廣適應性的方向發展。強化學習,尤其是結合可驗證獎勵(RLVR)與相對策略優化(GRPO)的方法,正逐步替代傳統的PPO與獎勵模型。同時,研究者也在積極探索如何控制響應長度、提升泛化能力與引入外部工具,以推動推理能力的實際落地。
值得關注的下一步,將是推理模型與檢索增強生成(RAG)與工具使用能力的深度結合。OpenAI最新的o3模型已展現出這種趨勢,預示推理型大模型正逐步走向實用階段。