【論文閱讀】LightThinker: Thinking Step-by-Step Compression (EMNLP 2025)

論文題目:LightThinker: Thinking Step-by-Step Compression

論文來源:EMNLP 2025,CCF B

論文作者:

論文鏈接:https://arxiv.org/abs/2502.15589

論文源碼:https://github.com/zjunlp/LightThinker

一、摘要

大語言模型(LLMs)在復雜推理任務中展現出卓越性能,但其效率受到生成冗長token所帶來的巨大內存和計算開銷的嚴重制約。本文提出了一種新穎的方法——LightThinker,使LLMs能夠在推理過程中動態壓縮中間思維步驟。受人類認知過程啟發,LightThinker將冗長的推理鏈壓縮為緊湊的表示,并丟棄原始推理鏈,從而顯著減少上下文窗口中存儲的token數量。該方法通過以下方式實現:構建訓練數據以指導模型學習何時以及如何壓縮;將隱藏狀態映射為少量“gist token”;并設計專門的注意力掩碼。此外,我們引入了依賴度(Dependency, Dep)指標,用于通過衡量生成過程中對歷史token的依賴程度來量化壓縮效果。我們在兩個模型和四個數據集上進行了大量實驗,結果表明,LightThinker在保持競爭力的準確率的同時,顯著降低了峰值內存使用和推理時間。本研究為在不犧牲性能的前提下提升 LMs在復雜推理任務中的效率提供了新的方向。

二、Introduction(簡潔版)

問題:“慢思考”雖提升推理準確率,卻生成大量中間token,導致KV緩存爆炸、推理延遲飆升。

動機:受人類“只寫關鍵步驟、腦中壓縮其余”啟發,讓模型邊推理邊壓縮,兼顧性能與效率。

方法(提出LightThinker)

  • 數據層面:插入特殊token教會模型何時壓縮;
  • 模型層面:用gist token隱藏狀態壓縮思維鏈;
  • 訓練層面:設計注意力掩碼實現壓縮與繼續推理的解耦;
  • 評估層面:引入Dep指標量化壓縮程度。

貢獻

  • 首次提出“動態壓縮推理鏈”的端到端方法;
  • 在4個數據集、2個模型上驗證:峰值token↓70%,推理時間↓26%,準確率僅↓1%;
  • 提供新的LLM推理加速思路,兼顧效率與性能。

三、相關工作

當前加速LLM推理的研究主要集中在三類方法:模型量化、減少生成token數量,以及縮減KV緩存。模型量化包括參數量化(Lin et al., 2024)和KV緩存量化(Liu et al., 2024b)。值得注意的是,生成長文本與理解長文本是兩種不同場景,因此專門針對“預填充階段”的加速技術(如 AutoCompressor、ICAE、LLMLingua、Activation Beacon、SnapKV、PyramidKV 等)本文不作討論。受篇幅限制,以下重點介紹后兩類方法。

3.1 減少生成token數量

  • 離散token縮減:通過提示工程(Han et al., 2024)、指令微調(Liu et al., 2024a)或強化學習(Arora & Zanette, 2025)引導模型在推理時使用更少的離散token。
  • 連續token替代:用連續空間的向量代替離散詞表token(如 CoConut)。
  • 零token推理:把推理過程內化到模型層間,直接生成最終答案(Deng et al., 2023, 2024)。

這三種策略無需推理時額外干預,但加速效果越好,模型泛化性能下降越明顯,且第一種對顯存節省有限。

3.2 縮減KV緩存

  • 基于剪枝的策略:為每個token設計顯式淘汰規則,保留重要token(StreamingLLM、H2O、SepLLM)。
  • 基于融合的策略:引入anchor token,訓練模型把歷史關鍵信息壓縮進這些token,實現KV緩存融合(AnLLM)。

二者均需推理時干預;區別在于前者無需訓練卻需逐token判斷,后者需訓練但由模型自主決定何時壓縮。

四、方法(簡潔版)

LightThinker的核心思想是:在推理過程中,讓模型自動判斷何時壓縮當前的冗長思維鏈,將其壓縮成少量“gist tokens”(壓縮標記),并丟棄原始長文本,只保留壓縮后的信息繼續推理。下圖為LightThinker的方法框架圖

LightThinker涉及到的兩個關鍵問題是何時壓縮,以及如何壓縮?整個過程可以概括為以下三個關鍵步驟:

第一步:數據重構——在思考流程中植入壓縮指令

LightThinker的第一步是改造訓練數據,讓LLM明白“壓縮”的存在和時機。具體操作是:

  1. 步驟劃分:首先,將模型原本冗長的完整回答Y,按照語義或段落(即一個完整的「想法」)切分成若干個思維步驟S1, S2, S3, ...。
  2. 插入特殊指令符:在這些思維步驟之間,插入一組特殊的指令令牌。這組指令符主要包含兩個部分:
  • 緩存令牌(Cache Tokens, [c]):這是一組特殊的、用于存儲壓縮后信息的摘要令牌。它的作用就像是為即將產生的思想摘要預留的空白便簽。
  • 輸出令牌(Output Token, [o]):這是一個強制性的輸出信號,它的作用是告訴模型:“好了,摘要寫完了,現在請基于這份摘要繼續你下一步的思考”。

經過這樣的改造,原本一條完整的思考鏈,就變成了一個「思考步驟S1 →?進行壓縮?→ 繼續思考步驟S2 →?再次壓縮?→ ...」的全新格式。這等于是在模型的學習材料中明確地標注出了何時需要進行壓縮。注意,研究者在具體實現中,采用換行符作為思維步驟的劃分,此處不存在任何數據精心構造的過程。

第二步:注意力改造——學會壓縮與理解壓縮的內容

教會了模型何時壓縮,下一步就是最關鍵的如何壓縮。第二步這主要通過一種名為Thought-based Attention Mask的技術來實現,如Figure2 (b)所示。它能夠精確地控制著模型在思考時 “能看什么” 和 “不能看什么” 。這個過程分為兩個階段:

  • 壓縮階段(生成思維摘要)。當模型需要將思維步驟Si壓縮進緩存令牌C時,注意力掩碼會強制這些C令牌只能看到三個東西:最初的問題X、先前已經壓縮好的歷史摘要、當前正在處理的思維步驟Si。其他所有原始的、未壓縮的思維步驟都會被遮蔽。這迫使模型必須將Si中的所有關鍵信息高度濃縮并存儲到C中 。
  • 生成階段(基于摘要生成思維)。當思維步驟Si被成功壓縮進C之后,更關鍵的一步來了。在生成下一個思緒片段S(i+1)時,注意力掩碼會徹底遮蔽掉原始的思維步驟Si。此時,模型只能看到最初的問題X和包括剛剛生成的摘要在內的所有歷史摘要 。

通過這種方式,模型被迫學會僅依賴緊湊的思想摘要來進行連貫的、層層遞進的推理,而不是依賴越來越長的原始思考全文。

第三步:動態推理——即用即棄的高效循環

經過以上兩個步驟的訓練,LightThinker模型在實際推理時,就會形成一種高效的動態循環,如Figure 1?(b) 和Figure 2 (c) 所示,清晰地展示了“生成→壓縮→拋棄”的動態循環過程。下面以Figure 1 (b)為例進行分析:

  1. 模型接收問題,生成第一段思考(Thought 1)。
  2. 觸發壓縮,將Thought 1中的核心信息壓縮成緊湊的摘要(C T1)。
  3. 拋棄原文,將冗長的Thought 1從上下文中丟棄。
  4. 模型基于問題和摘要(C T1),生成第二段思考(Thought 2)。
  5. 再次壓縮,將Thought 2壓縮為摘要(C T2),并丟棄Thought 2原文。
  6. 如此循環,直到問題解決。

圖1?LightThinker與原始CoT的區別

(a) 例子展示冗余性。標準CoT會生成完整句子:“Mike starts with 12 apples … gives away half … buys 5 more …”。黃色高亮的才是“真正影響答案”的關鍵數字與運算;其余token僅維持語言流暢,可被壓縮。
(b) 流程對比:

  • Vanilla:從頭到尾保留整條推理鏈(Thought 1 → Thought 2 → Answer),token 數隨步驟線性增長。
  • LightThinker:每產生一段Thought i后,立即將其壓縮成極短的gist token C_Ti,并丟棄原長文本;后續推理只依賴這些壓縮表示。結果上下文里始終只有“問題 + 若干gist token”,顯著降低KV緩存。

通過這種“即用即棄”的機制,LightThinker確保了模型的上下文窗口始終保持在一個非常小的尺寸,從而解決了因上下文過長導致的內存爆炸和計算緩慢問題,實現了效率與性能的完美平衡。

下圖展示了不同方法在推理過程中上下文長度的變化,其中曲線和坐標軸圍城的面積為我們定義的新指標Dependency,其意義生成token時需要關注token的數量總和。

五、實驗(簡潔版)

5.1 主要實驗

在Qwen-7B與Llama-8B上,LightThinker(thought級)以僅犧牲1-6個百分點的準確率為代價,將峰值token使用量降低約70%,推理時間縮短26%-41%,依賴度Dep(壓縮比)提升3.9-4.5倍,全面優于H2O、SepLLM、AnLLM等基線,在準確率與效率之間取得最佳平衡。

5.2 效率(Efficiency)

  • 生成token數反而比Vanilla少13~15%。
  • 32k token長文本推理時間省44%。

5.3 消融(Ablation)

  • 解耦token + 專用注意力掩碼合計帶來9%準確率提升。
  • 增大gist token數|C| → 準確率↑、壓縮頻率↓、生成token↓。

5.4??Case Study

  • 壓縮漏掉關鍵數字會導致最終答案錯誤,提示需更好處理數值信息。

六、結論

本文提出LightThinker,一種通過在生成過程中動態壓縮中間思維鏈來提升大語言模型復雜推理效率的新方法。通過訓練模型學習何時、如何將冗長的思維步驟壓縮為緊湊表示,LightThinker在顯著降低內存占用與計算成本的同時,仍保持了具有競爭力的準確率。我們引入了Dependency(Dep)指標,用于統一量化不同加速方法的壓縮程度。大量實驗表明,LightThinker在效率與性能之間取得了良好平衡,為未來的LLM推理加速提供了新的思路。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/95497.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/95497.shtml
英文地址,請注明出處:http://en.pswp.cn/web/95497.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

ABAQUS多尺度纖維增強混凝土二維建模

本案例是通過ABAQUS對論文Study on the tensile and compressive mechanical properties of multi-scale fiber-reinforced concrete: Laboratory test and mesoscopic numerical simulation(https://doi.org/10.1016/j.jobe.2024.108852)中纖維增強混凝…

C++ ---- 模板的半特化與函數模板的偏特化

在 C 中,模板提供了一種強大的泛型編程方式,使得我們能夠編寫類型無關的代碼。然而,在實際使用中,有時我們需要根據具體的類型或類型組合對模板進行定制,這時就需要用到模板的特化。本文將介紹半模板特化和函數模板的偏…

為何 React JSX 循環需要使用 key

key 是 React 用于識別列表中哪些子元素被改變、添加或刪除的唯一標識符 它幫助 React 更高效、更準確地更新和重新渲染列表 1、核心原因:Diff算法與性能優化 React 的核心思想之一是通過虛擬 DOM (Virtual DOM) 來減少對真實 DOM 的直接操作,從而提升性…

Jetson AGX Orin平臺R36.3.0版本1080P25fps MIPI相機圖像采集行缺失調試記錄

1.前言 主板:AGX Orin 官方開發套件 開發版本: R36.3.0版本 相機參數如下: 相機硬件接口: 2. 梳理大致開發流程 核對線序/定制相機轉接板 編寫camera driver驅動 編寫camera dts配置文件 調camera參數/測試出圖 前期基本流程就不多介紹了直接講正題 3. 問題描述 …

力扣hot100:螺旋矩陣(邊界壓縮,方向模擬)(54)

在解決螺旋矩陣問題時,我們需要按照順時針螺旋順序遍歷矩陣,并返回所有元素。本文將分享兩種高效的解決方案:邊界收縮法和方向模擬法。題目描述邊界收縮法邊界收縮法通過定義四個邊界(上、下、左、右)來模擬螺旋遍歷的…

[嵌入式embed][Qt]Qt5.12+Opencv4.x+Cmake4.x_用Qt編譯linux-Opencv庫 測試

[嵌入式embed][Qt]Qt5.12Opencv4.xCmake4.x_用Qt編譯linux-Opencv庫 & 測試前文:準備環境安裝qt-opencv必備庫git-clone opencv庫編譯opencv庫特殊:opencv編譯的include,編譯出來后多嵌套了一層文件夾,手工處理下改為include/opencv2測試demo新建項目QOpencv3.promain.cpp百…

百度智能云「智能集錦」自動生成短劇解說,三步實現專業級素材生產

備受剪輯壓力困擾的各位自媒體老板、MCN 同學們、投放平臺大佬們,解放雙手和大腦的好機會它來了! 在這個數字化飛速發展的時代,智能技術正以前所未有的速度改變著我們的生活與工作方式。百度智能云,作為智能科技的引領者&#xf…

FPGA筆試面試常考問題及答案匯總

經歷了無數的筆試面試之后,不知道大家有沒有發現FPGA的筆試面試還是有很多共通之處和規律可循的。所以一定要掌握筆試面試常考的問題。FPGA設計方向(部分題目)1. 什么是同步邏輯和異步邏輯?同步邏輯 是指在同一個時鐘信號的控制下…

從0開始的github學生認證并使用copilot教程(超詳細!)

目錄 一.注冊github賬號 1.1、僅僅是注冊 1.2、完善你的profile 二、Github 學生認證 郵箱 學校名稱 How do you plan to use Github? Upload Proof 學校具體信息 一.注冊github賬號 1.1、僅僅是注冊 1.用如QQ郵箱的第三方郵箱注冊github 再添加.edu結尾的教育郵箱&…

自動駕駛叉車與 WMS 集成技術方案:數據交互、協議適配與系統對接實現

自動駕駛叉車與倉庫管理系統(WMS)是現代物流自動化的核心。當這兩項技術協同工作時,倉庫將實現前所未有的效率、準確性和可擴展性。以下是利用其集成實現最佳效果的方法。 為何集成至關重要 倉庫管理在當今運營中扮演著至關重要的角色&…

“企業版維基百科”Confluence

“企業版維基百科”Confluence Confluence 是一款由澳大利亞公司 Atlassian 開發的企業級團隊協作與知識管理軟件。您可以把它理解為一個功能非常強大的 “企業版維基百科” 或 “團隊知識庫”。 它的核心目標是幫助團隊在一個統一的平臺上創建、共享、組織和討論項目文檔、會議…

QT去除顯示的紅色和黃色下劃線的辦法

在使用 Qt Creator 開發項目時,有時候會遇到這樣的情況: 代碼明明沒有錯誤,但編輯器里卻出現了紅色或黃色的下劃線提示,甚至讓人誤以為代碼有問題。其實,這通常是 Qt Creator 的代碼模型沒有及時更新 導致的,而不是項目本身的錯誤。 為什么會出現紅色和黃色下劃線? 紅…

域內的權限提升

CVE-2020-1472域內有一個服務:MS-NRPC(建立與域控安全通道),可利用此漏洞獲取域管訪問權限。檢測這個漏洞能不能打,能打之后,將域控的機器hash置空,密碼為空,那么你就可以通過空的ha…

一鍵掌握服務器健康狀態與安全風險

一鍵掌握服務器健康狀態與安全風險 在服務器運維工作中,定期對系統進行全面檢查是保障服務穩定運行的關鍵環節。手動檢查不僅耗時費力,還容易遺漏關鍵指標。今天我將為大家介紹一款功能全面的系統綜合巡檢工具,只需一鍵運行,即可完成系統狀態、性能、安全等多維度檢查,并…

線性代數第一講—向量組

文章目錄考綱術語向量組的線性表示與線性相關判別線性相關性的七大定理極大線性無關組、等價向量組、向量組的秩等價矩陣和等價向量組向量空間基本概念基變換、坐標變換 考綱術語 n維向量n維行向量n維列向量分量向量相等向量的加法向量的數乘向量的內積正交向量的模單位向量標準…

涉私數據安全與可控匿名化利用機制研究(下)

文章目錄前言三、可信數據空間支撐可控匿名化機制(一)基于政府可信根的可控匿名化(二)可信數據空間“中國模式”保障數據全生命周期合規可控(三)可控匿名化對大模型數據可逆風險的防御機制前言 盡管《個人…

More Effective C++ 條款25:將構造函數和非成員函數虛擬化

More Effective C 條款25:將構造函數和非成員函數虛擬化核心思想:通過虛擬構造函數和非成員函數,實現運行時的多態行為,允許在不知道對象具體類型的情況下創建新對象或執行操作,增強代碼的靈活性和擴展性。 &#x1f6…

血緣元數據采集開放標準:OpenLineage Guides 在 Airflow 中使用 OpenLineage Proxy

OpenLineage 是一個用于元數據和血緣采集的開放標準,專為在作業運行時動態采集數據而設計。它通過統一的命名策略定義了由作業(Job)、運行實例(Run)和數據集(Dataset) 組成的通用模型&#xff0…

【Linux】網絡(中)

目錄1. 序列化和反序列化1.1 序列化1.2 反序列化2. 網絡版本計算器(自定義協議)3. 再次理解OSI七層模型4. HTTP協議4.1 HTTP協議格式4.2 HTTP的方法4.3 HTTP的狀態碼4.4 HTTP常見Header4.5 長連接和短連接4.6 Cookie5. HTTPS協議5.1 對稱加密和非對稱加密…

AI 寫作實戰:用 GPT-4o+ Claude 3 生成小紅書文案,轉化率提升 30%

引言?AI 寫作開啟小紅書營銷新引擎在社交媒體營銷的浪潮中,小紅書以其獨特的社區氛圍和龐大的年輕用戶群體,成為品牌推廣的關鍵陣地。然而,撰寫既吸引眼球又能高效轉化的文案并非易事,傳統人工編寫不僅耗時費力,還難以…