Transformer核心技術解析LCPO方法:精準控制推理長度的新突破

原創文章
1FFN前饋網絡與激活函數技術解析:Transformer模型中的關鍵模塊
2Transformer掩碼技術全解析:分類、原理與應用場景
3【大模型技術】Attention注意力機制詳解一
4Transformer模型中位置編碼(Positional Embedding)技術全解析(三)
5Transformer模型中位置編碼(Positional Embedding)技術全解析(二)
6Transformer模型中位置編碼(Positional Embedding)技術全解析(一)
7自然語言處理核心技術詞嵌入(Word Embedding),從基礎原理到大模型應用
8DeepSeek-v3:基于MLA的高效kv緩存壓縮與位置編碼優化技術
9

【Tokenization第二章】分詞算法深度解析:BPE、WordPiece與Unigram的原理、實現與優化

10Tokenization自然語言處理中分詞技術:從傳統規則到現代子詞粒度方法

任務背景

在復雜推理、數學求解和代碼生成等任務中,增加測試時間計算(即生成更長的思維鏈)可以顯著提升模型性能。然而,現有的方法缺乏對推理鏈長度的精確與動態控制,導致無法在性能與效率之間取得理想平衡。

研究難點

  1. 如何讓模型精確控制輸出長度?
  2. 在滿足指定長度限制的同時保持準確性?
  3. 如何訓練模型在推理時根據任務動態調整計算資源?

方法概述:LCPO(Length-Controlled Policy Optimization)

設計動機

觀察到模型通過生成更長的思維鏈可提升性能,但其推理長度不可控。因此提出?LCPO,一種專門用于訓練推理專用模型以實現精確且自適應長度控制的方法。

核心思想

  • 在訓練過程中,從預設范圍內均勻采樣目標長度 $ n_{gold} $
  • 將該長度作為提示的一部分輸入模型。
  • 使用一個獎勵函數評估模型表現:
  • 包括答案正確性獎勵;
  • 減去長度偏差項(實際 token 數與目標 token 數之差乘以系數 $ \alpha $)。
  • 使用?GRPO(Generalized Reinforcement Policy Optimization)算法?訓練模型,最大化累積獎勵。

獎勵函數設計

獎勵函數具有雙重目的:

  1. 鼓勵生成正確的答案;
  2. 在指定較短輸出時隱含地傾向于簡潔推理;
  3. 激勵模型始終匹配規定的目標長度,即使可用更少 token 得出正確結果。

我們將以此目標訓練的模型稱為?L1-Exact

論文實驗

數據集

訓練數據:DeepScaleR-Preview-Dataset

  • 來源:AIME、AMC、Omni-Math 和 STILL 提取的?40,000 個問題-答案對
  • 特點:專注于數學推理問題,用于訓練模型在數學領域的推理能力。
  • 目標:模型需學習生成正確答案,并滿足特定長度約束。

測試數據(共6個測試集)

名稱描述類型
AIME 2025美國數學邀請賽 2025 年試題數學
MATH (Hendrycks et al., 2021b)數學問題解決基準數學
AMC美國數學競賽測試集數學
Olympiad-Bench (He et al., 2024)奧林匹克級別科學問題科學
GPQA (Rein et al., 2023)研究生級問答基準綜合
LSAT (Zhong et al., 2023)法學院入學考試邏輯題邏輯
MMLU (Hendrycks et al., 2021a)多任務語言理解基準知識

測試目標:評估模型在不同長度約束下的性能及其在未見過任務上的泛化能力。

模型架構

模型名稱描述
DeepSeek-R1-Distill-Qwen-1.5B經過 R1 推理痕跡微調
DeepScaleR-1.5B-Preview原始模型,未進行長度控制修改
DeepScaleR-1.5B-Preview-4K使用 4K 上下文長度微調的 Agentic-24K 版本

對比方法

  • S1(Muennighoff et al., 2025):預算強制方法,使用簡單干預控制推理長度。

評價指標

  1. 平均長度偏差$ n_y $(實際生成 token 數)與$ n_{gold} $(目標長度)之間的平均差異。
  2. 準確率(解決問題):在不同目標長度下模型的總體性能。
  3. 目標長度集合:{512, 1024, 2048, 3600} tokens。

實現細節

  • GRPO 超參數:與 DeepScaleR-1.5B Preview 相同。
  • 學習率:1e-6
  • Batch Size:128
  • 上下文長度:訓練時為 4k tokens,評估時擴展至 8k tokens。
  • 訓練框架:VeRL (MLSys, 2025)
  • 訓練步數:700 步
  • 目標長度采樣范圍$ U(n_{min}, n_{max}) $,其中 $ n_{min}=100 $, $ n_{max}=4000 $
  • 平衡參數 $ \alpha $:固定為 0.0003

注意:未進行廣泛超參數搜索,預期可通過進一步優化提升性能。

模型類型

類型描述
L1-Exact要求生成的推理鏈長度恰好等于目標長度
L1-Max要求生成的推理鏈長度不超過目標長度(動態調整)

實驗目標

  1. 驗證長度控制有效性
  2. 檢查 L1-Exact 和 L1-Max 是否能嚴格遵循用戶指定的長度約束,從而實現推理成本與性能的靈活權衡。

  3. 評估性能與長度關系

  4. 分析不同長度約束下模型準確率變化趨勢;
  5. 與現有方法(如 S1)對比優勢。

  6. 探索泛化能力

  7. 評估模型在訓練數據之外的任務(如邏輯推理、知識理解)上的表現;
  8. 驗證是否能將長度控制能力遷移到其他領域。

  9. 研究短推理鏈性能

  10. 探討 LCPO 在 Short-CoT 場景下的表現;
  11. 檢查在有限 token 預算下是否仍能高效推理。

如果您認為博文還不錯,請幫忙點贊、收藏、關注。您的反饋是我的原動力

原創文章
1FFN前饋網絡與激活函數技術解析:Transformer模型中的關鍵模塊
2Transformer掩碼技術全解析:分類、原理與應用場景
3【大模型技術】Attention注意力機制詳解一
4Transformer模型中位置編碼(Positional Embedding)技術全解析(三)
5Transformer模型中位置編碼(Positional Embedding)技術全解析(二)
6Transformer模型中位置編碼(Positional Embedding)技術全解析(一)
7自然語言處理核心技術詞嵌入(Word Embedding),從基礎原理到大模型應用
8DeepSeek-v3:基于MLA的高效kv緩存壓縮與位置編碼優化技術
9

【Tokenization第二章】分詞算法深度解析:BPE、WordPiece與Unigram的原理、實現與優化

10Tokenization自然語言處理中分詞技術:從傳統規則到現代子詞粒度方法

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/84788.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/84788.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/84788.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

在 WSL 中安裝 JetBrains Toolbox:完整指南

JetBrains Toolbox 是一個非常實用的工具,它可以幫助開發者輕松管理 JetBrains 的各種開發工具,如 IntelliJ IDEA、PyCharm、WebStorm 等。通過它,你可以快速安裝、更新和管理這些工具,極大地提高了開發效率。而在 WSL 環境中安裝…

ZooKeeper 命令操作

文章目錄 Zookeeper 數據模型Zookeeper 服務端常用命令Zookeeper 客戶端常用命令 Zookeeper 數據模型 ZooKeeper 是一個樹形目錄服務,其數據模型和Unix的文件系統目錄樹很類似,擁有一個層次化結構。這里面的每一個節點都被稱為: ZNode,每個節…

Turf.js:前端地理空間分析的瑞士軍刀

在Web開發中,地理空間數據處理已成為許多應用的核心需求。從地圖可視化到位置服務,再到復雜的數據分析,前端開發者需要強大的工具來處理這些任務。Turf.js 作為一款輕量級、模塊化的地理空間分析庫,憑借其豐富的功能和易用性,成為前端開發者的得力助手。本文將深入探討 Tu…

大模型微調

使用 Ollama 微調大語言模型(如 LLaMA、Mistral、Gemma 等)主要是圍繞 LoRA(Low-Rank Adaptation)或者 QLoRA 等輕量級微調技術進行的。Ollama 本身是一個部署和運行本地大語言模型的平臺,但其微調能力有限&#xff0c…

《自動駕駛軌跡規劃實戰:Lattice Planner實現避障路徑生成(附可運行Python代碼)》—— 零基礎實現基于離散優化的避障路徑規劃

《自動駕駛軌跡規劃實戰:Lattice Planner實現避障路徑生成(附可運行Python代碼)》 —— 零基礎實現基于離散優化的避障路徑規劃 一、為什么Lattice Planner成為自動駕駛的核心算法? 在自動駕駛的路徑規劃領域,Lattice…

切換到舊提交,同時保證當前修改不丟失

在 Git 中&#xff0c;可以通過以下幾種方式切換到之前的提交&#xff0c;同時保留當前的提交&#xff08;即不丟失工作進度&#xff09;&#xff1a; 1. 使用 git checkout 創建臨時分離頭指針&#xff08;推薦用于查看&#xff09; git checkout <commit-hash>這會讓…

zookeeper 操作總結

zookeeper 中的節點類型 節點類型命令選項說明?持久節點?無選項&#xff08;默認&#xff09;永久存在&#xff0c;除非手動刪除。?臨時節點?-e與客戶端會話綁定&#xff0c;會話結束自動刪除&#xff08;?不能有子節點?&#xff09;。?順序節點?-s節點名自動追加遞增…

nova14 ultra,是如何防住80°C熱水和10000KPa水壓沖擊的?

暴雨突襲&#xff0c;手忙腳亂護住背包&#xff0c;卻擔心手機被雨水浸濕&#xff1b;泳池里想記錄美好時刻&#xff0c;卻擔心手機掉入水中 &#xff1b;廚房里充滿了高溫水汽&#xff0c;近距離拍攝美食瞬間&#xff0c;手機屏幕花屏&#xff0c;讓人失去了對美食的興趣…… …

flutter加載dll 報錯問題

解決flutter加載dll 報錯問題 LoadLibrary 報錯 126 or 193 明確一點&#xff1a;flutter構建exe 時默認是MSVC的。 1. 先檢查dll 的位數是否滿足 file ***.dll output: PE32 executable (DLL) (console) x86-64, for MS Windows, 19 sections 這種是64位的機器。 滿足的話可…

Mac 版不能連接華為 GaussDB 嗎?我看 Windows 版可以連接?

&#x1f9d1;?&#x1f4bb; GaussDB 用戶 Mac 版不能連接華為 GaussDB 嗎&#xff1f;我看Windows 版可以連接。 &#x1f9d1;?&#x1f527; 官方技術中心 由于 GaussDB 數據庫本身未支持 macOS 系統&#xff0c;所以在 macOS 上的 Navicat 中也未支持該數據庫。 &…

【MySQL成神之路】MySQL索引相關介紹

1 相關理論介紹 一、索引基礎概念 二、索引類型 1. 按數據結構分類 2. 按功能分類 三、索引數據結構原理 B樹索引特點&#xff1a; 哈希索引特點&#xff1a; 四、索引使用原則 1. 創建索引原則 2. 避免索引失效情況 五、索引優化策略 六、索引維護與管理 七、特殊…

五、web安全--XSS漏洞(1)--XSS漏洞利用全過程

本文章僅供學習交流&#xff0c;如作他用所承受的法律責任一概與作者無關1、XSS漏洞利用全過程 1.1 尋找注入點&#xff1a;攻擊者首先需要找到目標網站中可能存在XSS漏洞的注入點。這些注入點通常出現在用戶輸入能夠直接輸出到頁面&#xff0c;且沒有經過適當過濾或編碼的地方…

使用 Shell 腳本實現 Spring Boot 項目自動化部署到 Docker(Ubuntu 服務器)

使用 Shell 腳本實現 Spring Boot 項目自動化部署到 Docker&#xff08;Ubuntu 服務器&#xff09; 在日常項目開發中&#xff0c;我們經常會將 Spring Boot 項目打包并部署到服務器上的 Docker 環境中。為了提升效率、減少重復操作&#xff0c;我們可以通過 Shell 腳本實現自動…

高考加油(Python+HTML)

前言 詢問DeepSeek根據自己所學到的知識來生成多個可執行的代碼&#xff0c;為高考學子加油。最開始生成的都會有點小問題&#xff0c;還是需要自己調試一遍&#xff0c;下面就是完整的代碼&#xff0c;當然了最后幾天也不會有多少人看&#xff0c;都在專心的備考。 Python勵…

HTTP協議接口三種測試方法之-JMeter(保姆教程)

在當今 API 驅動的開發世界中&#xff0c;高效、可靠的 HTTP 接口測試是保障應用質量的關鍵。作為開源性能測試工具中的王者&#xff0c;Apache JMeter 不僅擅長壓力測試&#xff0c;更是進行功能性和回歸測試的利器。本文將手把手教你如何用 JMeter 構建強大的 HTTP 測試計劃&…

聊聊JVM怎么調優?(實戰總結)

JVM 核心配置與調優指南 一、堆內存與年輕代配置&#xff08;影響最大&#xff09; 堆內存大小&#xff1a; 在資源允許的前提下&#xff0c;堆內存應盡可能設置得更大。關鍵點&#xff1a; 必須將堆內存的最大值 (-Xmx) 和最小值 (-Xms) 設置為相同值。動態擴容會觸發 Full G…

開疆智能Profinet轉Profibus網關連接費斯托閥島總線模塊配置案例

本案例是通過開疆智能Profibus轉Profinet網關將費托斯閥島接入到西門子1200PLC的配置案例。 首先我們先了解一下Profibus報文以及他的通訊原理。 除了起始符 SD 和結束符 ED 這些固定數值之外&#xff0c;還有功能碼&#xff08;Function Code, FC&#xff09;和服務訪問點&…

ARM內核一覽

經常看介紹某某牛批芯片用的又是ARM什么核&#xff0c;看的云里霧里&#xff0c;所以簡單整理整理。&#xff08;內容來自官網和GPT&#xff09; 1 ARM 內核總體分類 系列特點應用場景Cortex-M超低功耗、低成本、實時性嵌入式系統、微控制器、IoTCortex-R高可靠性、硬實時汽車…

RT Thread Nano V4.1.1 rtconfig.h 注釋 Configuration Wizard 格式

rtcomfig.h 以下是對 [rtconfig.h](file://c:\Users\admin\Downloads\rtthread-nano-master\rt-thread\bsp\stm32f407-msh\RT-Thread\rtconfig.h) 文件中每一個配置項的詳細注釋說明: 基本配置(Basic Configuration) [RT_THREAD_PRIORITY_MAX](file://c:\Users\admin\Downl…

UniApp網頁版集成海康視頻播放器

注意&#xff1a;本人全部集成好后使用最新的海康平臺下載插件進行替換后就不能預覽視頻 使用Uni插件進行集成&#xff1a;海康視頻H5播放器組件 - DCloud 插件市場 CSDN資源下載&#xff1a;https://download.csdn.net/download/wangdaoyin2010/90910975 注意&#xff1a;初…