原創文章 | |
1 | FFN前饋網絡與激活函數技術解析:Transformer模型中的關鍵模塊 |
2 | Transformer掩碼技術全解析:分類、原理與應用場景 |
3 | 【大模型技術】Attention注意力機制詳解一 |
4 | Transformer模型中位置編碼(Positional Embedding)技術全解析(三) |
5 | Transformer模型中位置編碼(Positional Embedding)技術全解析(二) |
6 | Transformer模型中位置編碼(Positional Embedding)技術全解析(一) |
7 | 自然語言處理核心技術詞嵌入(Word Embedding),從基礎原理到大模型應用 |
8 | DeepSeek-v3:基于MLA的高效kv緩存壓縮與位置編碼優化技術 |
9 | 【Tokenization第二章】分詞算法深度解析:BPE、WordPiece與Unigram的原理、實現與優化 |
10 | Tokenization自然語言處理中分詞技術:從傳統規則到現代子詞粒度方法 |
任務背景
在復雜推理、數學求解和代碼生成等任務中,增加測試時間計算(即生成更長的思維鏈)可以顯著提升模型性能。然而,現有的方法缺乏對推理鏈長度的精確與動態控制,導致無法在性能與效率之間取得理想平衡。
研究難點
- 如何讓模型精確控制輸出長度?
- 在滿足指定長度限制的同時保持準確性?
- 如何訓練模型在推理時根據任務動態調整計算資源?
方法概述:LCPO(Length-Controlled Policy Optimization)
設計動機
觀察到模型通過生成更長的思維鏈可提升性能,但其推理長度不可控。因此提出?LCPO,一種專門用于訓練推理專用模型以實現精確且自適應長度控制的方法。
核心思想
- 在訓練過程中,從預設范圍內均勻采樣目標長度
。
- 將該長度作為提示的一部分輸入模型。
- 使用一個獎勵函數評估模型表現:
- 包括答案正確性獎勵;
- 減去長度偏差項(實際 token 數與目標 token 數之差乘以系數
)。
- 使用?GRPO(Generalized Reinforcement Policy Optimization)算法?訓練模型,最大化累積獎勵。
獎勵函數設計
獎勵函數具有雙重目的:
- 鼓勵生成正確的答案;
- 在指定較短輸出時隱含地傾向于簡潔推理;
- 激勵模型始終匹配規定的目標長度,即使可用更少 token 得出正確結果。
我們將以此目標訓練的模型稱為?L1-Exact。
論文實驗
數據集
訓練數據:DeepScaleR-Preview-Dataset
- 來源:AIME、AMC、Omni-Math 和 STILL 提取的?40,000 個問題-答案對。
- 特點:專注于數學推理問題,用于訓練模型在數學領域的推理能力。
- 目標:模型需學習生成正確答案,并滿足特定長度約束。
測試數據(共6個測試集)
名稱 | 描述 | 類型 |
---|---|---|
AIME 2025 | 美國數學邀請賽 2025 年試題 | 數學 |
MATH (Hendrycks et al., 2021b) | 數學問題解決基準 | 數學 |
AMC | 美國數學競賽測試集 | 數學 |
Olympiad-Bench (He et al., 2024) | 奧林匹克級別科學問題 | 科學 |
GPQA (Rein et al., 2023) | 研究生級問答基準 | 綜合 |
LSAT (Zhong et al., 2023) | 法學院入學考試邏輯題 | 邏輯 |
MMLU (Hendrycks et al., 2021a) | 多任務語言理解基準 | 知識 |
測試目標:評估模型在不同長度約束下的性能及其在未見過任務上的泛化能力。
模型架構
模型名稱 | 描述 |
---|---|
DeepSeek-R1-Distill-Qwen-1.5B | 經過 R1 推理痕跡微調 |
DeepScaleR-1.5B-Preview | 原始模型,未進行長度控制修改 |
DeepScaleR-1.5B-Preview-4K | 使用 4K 上下文長度微調的 Agentic-24K 版本 |
對比方法
- S1(Muennighoff et al., 2025):預算強制方法,使用簡單干預控制推理長度。
評價指標
- 平均長度偏差:
(實際生成 token 數)與
(目標長度)之間的平均差異。
- 準確率(解決問題):在不同目標長度下模型的總體性能。
- 目標長度集合:{512, 1024, 2048, 3600} tokens。
實現細節
- GRPO 超參數:與 DeepScaleR-1.5B Preview 相同。
- 學習率:1e-6
- Batch Size:128
- 上下文長度:訓練時為 4k tokens,評估時擴展至 8k tokens。
- 訓練框架:VeRL (MLSys, 2025)
- 訓練步數:700 步
- 目標長度采樣范圍:
,其中
,
- 平衡參數
:固定為 0.0003
注意:未進行廣泛超參數搜索,預期可通過進一步優化提升性能。
模型類型
類型 | 描述 |
---|---|
L1-Exact | 要求生成的推理鏈長度恰好等于目標長度 |
L1-Max | 要求生成的推理鏈長度不超過目標長度(動態調整) |
實驗目標
- 驗證長度控制有效性
-
檢查 L1-Exact 和 L1-Max 是否能嚴格遵循用戶指定的長度約束,從而實現推理成本與性能的靈活權衡。
-
評估性能與長度關系
- 分析不同長度約束下模型準確率變化趨勢;
-
與現有方法(如 S1)對比優勢。
-
探索泛化能力
- 評估模型在訓練數據之外的任務(如邏輯推理、知識理解)上的表現;
-
驗證是否能將長度控制能力遷移到其他領域。
-
研究短推理鏈性能
- 探討 LCPO 在 Short-CoT 場景下的表現;
- 檢查在有限 token 預算下是否仍能高效推理。
如果您認為博文還不錯,請幫忙點贊、收藏、關注。您的反饋是我的原動力
原創文章 | |
1 | FFN前饋網絡與激活函數技術解析:Transformer模型中的關鍵模塊 |
2 | Transformer掩碼技術全解析:分類、原理與應用場景 |
3 | 【大模型技術】Attention注意力機制詳解一 |
4 | Transformer模型中位置編碼(Positional Embedding)技術全解析(三) |
5 | Transformer模型中位置編碼(Positional Embedding)技術全解析(二) |
6 | Transformer模型中位置編碼(Positional Embedding)技術全解析(一) |
7 | 自然語言處理核心技術詞嵌入(Word Embedding),從基礎原理到大模型應用 |
8 | DeepSeek-v3:基于MLA的高效kv緩存壓縮與位置編碼優化技術 |
9 | 【Tokenization第二章】分詞算法深度解析:BPE、WordPiece與Unigram的原理、實現與優化 |
10 | Tokenization自然語言處理中分詞技術:從傳統規則到現代子詞粒度方法 |