圖像、視頻、音頻多模態大模型中長上下文token壓縮方法綜述

多模態大模型MLLMs 能夠處理高分辨率圖像、長視頻序列和冗長音頻輸入等復雜上下文，但自注意力機制的二次復雜度使得大量輸入 token 帶來了巨大的計算和內存需求。
如下圖，上：圖像、視頻和音頻數據類型可以在其表示維度上進行擴展，從
而導致 token 數量的相應增加。下：表現最佳的多模態大模型無法滿足
現實世界的需求，因為多模態輸入（尤其是視頻）的 token 數量遠遠超
過文本，并且大多數視覺 token 是冗余的。

因此 token 壓縮對于解決這一限制至關重要。

一些概念

1、多模態結構

MLLMs通常框架由三個組件構成：

特定模態編碼器（(g)）：負責處理圖像、音頻等原始輸入，將高維數據壓縮為緊湊的語義嵌入序列（如圖像通過視覺編碼器轉化為視覺token，音頻通過音頻編碼器轉化為音頻token）。常用的視覺編碼器包括CLIP、SigLIP等，音頻編碼器包括Whisper、Audio-CLIP等。
投影器（連接器）模塊（(P)）：將編碼器輸出的嵌入映射到與語言模型（LLM）文本嵌入相同的潛在空間，使多模態數據能與文本指令融合。
大語言模型（LLM）：接收投影后的多模態嵌入與文本提示嵌入的拼接序列，通過自回歸解碼生成響應。

2、大模型的token壓縮

MLLMs的核心通常基于文本大型語言模型（LLMs）微調而來，因此文本LLMs的token壓縮技術（常稱為“prompt壓縮”）是重要基礎。這些技術旨在處理長文本上下文（如整本書、代碼庫），方法包括：

自編碼器與摘要壓縮：如AutoCompressor將上下文壓縮為摘要向量，SentenceVAE用單個token表示句子。
選擇性修剪：如Selective Context通過自信息度量移除低信息token，LLMLingua系列通過層級修剪和語義密度排序減少token。
查詢引導過濾：如QUITO利用注意力分數篩選與查詢相關的token，AdaComp根據查詢復雜度動態提取關鍵信息。
概念蒸餾與遞歸框架：如Concept Distillation通過抽象意義表示（AMR）圖提煉核心概念，RCC通過遞歸融合生成分段摘要。

然而，文本壓縮技術難以直接應用于MLLMs，因為多模態數據（圖像、視頻、音頻）存在獨特的冗余模式（如空間相關性、時空連續性），需要專門的壓縮策略。

3、視覺Transformer的token壓縮

視覺Transformer（ViTs）的token壓縮技術為MLLMs的視覺token壓縮提供了借鑒，其核心是解決圖像的空間冗余（如相鄰patch的相似性、前景與背景的語義不平衡）：

動態修剪：如DynamicViT、EViT通過注意力分數量化token相關性，修剪低顯著性token。
token合并與學習：如ToMe通過相似性度量合并語義相近的token，TokenLearner通過學習的空間注意力生成緊湊token集。
蒸餾與跨模態過濾：如DeiT用輕量級“學生頭”從壓縮token子集預測標簽，MADTP利用跨模態對齊過濾token。

與MLLMs的差異：MLLMs不僅包含視覺token，還需處理文本token和更長的序列，因此其token壓縮面臨更復雜的挑戰，但ViTs的技術思路（如注意力引導修剪、相似性合并）更具參考價值。

下面來看下具體的token壓縮方法。

多模態token壓縮方法

多模態token壓縮分類：分視頻、圖像、音頻

1、以圖像為中心的Token壓縮

四類方法：圖示、總結及優缺點

以圖像
為中心的代表性 token 壓縮方法總結

總結：

圖像中心的 token 壓縮方法針對空間冗余，從變換、相似性、注意力、查詢四個維度提出解決方案：

變換方法通過下采樣直接減少 token 數量，適合保留空間結構；
相似性方法合并語義重復 token，適合去除冗余；
注意力方法動態篩選高重要性 token，可解釋性強；
查詢方法聚焦任務相關信息，適合交互式場景。

下面具體看看。

1.1 基于Transformer的圖像中心壓縮

這類方法通過對圖像特征進行空間變換（如下采樣）來減少token數量，核心是利用圖像的空間結構特性，在保留關鍵信息的同時降低維度。主要包括以下四類操作：

像素重排（Pixel Unshuffle）
像素重排是像素洗牌（Pixel Shuffle）的逆操作，將高分辨率、低通道的特征圖轉換為低分辨率、高通道的特征圖，從而減少token數量：
$\times W \times D \to \frac{H}{r} \times \frac{W}{r} \times (D \cdot r^2)$

其中， $H 、 W$ 為特征圖的高和寬， $D$ 為通道數， $r$ 為下采樣率。

代表性工作：InternVL系列、Qwen2系列、NVLM等，通過像素重排將視覺編碼器生成的token數量減少為原來的1/4，再通過MLP對齊視覺與文本的維度。

優勢：無額外參數，不增加模型權重。
空間池化/插值
直接對token進行二維下采樣，不改變通道維度，數學表達式為：
$\times W \times D \to \frac{H}{S} \times \frac{W}{S} \times D$
其中， $S$ 為下采樣因子。

代表性工作：LLaVA-OneVision采用雙線性插值，LLaVA-Video使用平均池化， $M^3$ 通過池化學習多粒度表示，在推理時用更少token保持性能。

優勢：可無訓練實現，直接作用于對齊后的token維度。
空間卷積（Spatial Convolution）
通過卷積操作學習局部信息抽象，同時降低空間維度，數學表達式為：
$\times W \times D_{in} \to \frac{H}{S} \times \frac{W}{S} \times D_{out}$
其中， $S$ 為步長（下采樣因子）， $D_{in}、D_{out}$ 為輸入/輸出通道數。
代表性工作：Honeybee的C-Abstractor模塊用卷積提取壓縮信息，MobileVLM的LDP模塊通過深度卷積減少75%的token。

優勢：通過可學習權重捕捉更復雜的局部特征。

對比總結：

像素重排、池化、插值均為無參數操作，不增加權重開銷；卷積引入可學習參數，能更精細地抽象局部信息。
像素重排會改變通道維度，需后續MLP對齊文本維度；池化和插值可直接作用于對齊后的維度，無需額外處理。
壓縮率通常有限（常見為25%），受限于二維下采樣的特性。

1.2、基于相似性的圖像中心壓縮

這類方法通過度量token在隱空間中的相似性（如距離或相似度），合并相似token，保留代表性的“簇中心”token，從而減少冗余。核心思路是通過聚類或匹配算法識別語義相近的token，將其合并為單個代表性token，降低序列長度。

代表性工作：

ToMe：在ViT的注意力和MLP模塊間插入token合并模塊，通過二分軟匹配合并相似token。
FOLDER：在視覺編碼器的最后一個注意力塊中插入合并模塊，減少傳入LLM的token。
DivPrune：將壓縮問題轉化為“最大-最小多樣性”問題，篩選內部差異最大的token子集。
TopV：在LLM層中綜合特征的相似性和距離函數，直接在多模態表示空間中壓縮token。

優勢：能有效去除語義重復的token，保留關鍵信息。

局限性：過度合并可能丟失細粒度信息；聚類算法的復雜度可能引入額外計算開銷。

1.3、基于注意力的圖像中心壓縮

這類方法利用注意力機制的稀疏性，通過注意力分數篩選高重要性token，修剪低關注度token，分為編碼器內和解碼器內兩種策略。

編碼器內注意力（Attention in Encoder）
基于視覺Transformer（ViT）的注意力分數，在視覺編碼器內部篩選關鍵token，減少傳入LLM的數量。通常通過視覺token與[CLS] token的注意力分數選擇top-K token：
$\mathcal{T}_{\text{encoder}} = \text{TopK}_k\left(\left\{\text{Attention}(v_i, v_{cls}) \mid v_i \in \mathcal{V}\right\}\right)$

其中， $V\mathcal{V}$ 為原始視覺token集， $v_{cls}$ 為[CLS] token。
代表性工作：
- PruMerge：基于[CLS]注意力選擇簇中心，通過KNN合并低關注度token。
- VisionZip：保留高注意力token，聚類合并剩余token。
- VisPruner：先保留高注意力token，再通過多輪相似度修剪重復token，保留多樣性。
解碼器內注意力（Attention in Decoder）
利用LLM解碼器的注意力分數，在視覺token與文本token的聯合空間中篩選關鍵token。通過計算視覺token從所有其他token（視覺+文本）獲得的平均注意力分數選擇top-K token：
$\overline{A}(v_i) = \frac{1}{|\mathcal{S}|} \sum_{s_j \in \mathcal{S}} \text{Attention}(v_i, s_j), \quad \mathcal{T}_{\text{decoder}} = \text{TopK}_k\left(\left\{\overline{A}(v_i) \mid v_i \in \mathcal{V}\right\}\right)$
其中， $S\mathcal{S}$ 為當前層注意力窗口中的所有token。
代表性工作：
- FastV：在第二層后基于注意力分數修剪50%的視覺token，保持性能。
- ZipVL：通過解碼器注意力動態壓縮token，平衡效率與精度。
- SparseVLM：結合編碼器和解碼器注意力，篩選與文本相關的視覺token。

優勢：基于注意力的動態篩選能自適應保留任務相關token， interpretability（可解釋性）強。

局限性：需顯式計算注意力分數，與優化加速庫（如FlashAttention）不兼容，可能引入額外計算開銷。

1.4 基于查詢的圖像中心壓縮

這類方法利用文本查詢（prompt）引導視覺token壓縮，分為token蒸餾和跨模態選擇兩類，聚焦于保留與查詢相關的信息。

Token Distillation（token蒸餾）
將視覺token蒸餾為少量與文本相關的token，同時實現模態對齊。
代表性工作：
- Q-Former系列：通過可學習查詢和交叉注意力提取與文本相關的視覺線索，壓縮為固定數量token。
- LLaMA-VID：用文本查詢聚合視覺嵌入中的文本相關線索，將整幅圖像表示為2個token。
- LLaVA-Mini：將視覺信息預融合到文本token中，僅需1個視覺token即可保持性能。
- Victor：引入少量可學習“寄存器token”，通過大模型淺層將視覺信息蒸餾到寄存器中，丟棄原始視覺token。
Cross-Modal Selection（跨模態選擇）
利用模態間的對齊關系，通過一種模態的token篩選另一種模態的關鍵token。
代表性工作：
- SparseVLM：用視覺token預篩選相關文本token，縮小文本搜索空間。
- AdaFV：結合文本-圖像相似度和視覺顯著性，選擇語義對齊且視覺突出的token。
- TRIM：先通過文本-視覺相似度識別“離群token”（視為重要），再聚類合并剩余token。

優勢：壓縮后的token與查詢高度相關，適合任務驅動場景（如視覺問答）。

局限性：依賴文本查詢的質量；多輪對話中需重新計算壓縮，可能增加開銷。

2、以視頻為中心的Token壓縮

視頻數據因包含空間和時間維度的雙重信息，其token數量遠超靜態圖像（如90分鐘視頻可生成5400萬token），成為多模態大型語言模型（MLLMs）處理的主要瓶頸。視頻中心的token壓縮需同時解決空間冗余（同幀內相鄰區域的相似性）和時間冗余（連續幀間的重復性），該部分按底層機制分為四類方法，因為視頻的每一幀是圖像，因此圖像部分和前面是一樣的，重點看下針對時間維度的優化策略。

以視頻為中心的 token 壓縮方法

總結：

視頻中心的token壓縮需同時應對空間和時間冗余，核心策略包括：

變換方法通過時空池化/卷積直接減少token，適合保留全局結構；
相似性方法通過幀聚類合并時間冗余，效率高但需避免丟失動態信息；
注意力方法動態篩選關鍵token，可解釋性強但受限于加速庫兼容問題；
查詢方法聚焦任務相關幀，適合交互式場景。

2.1、基于Transformer的視頻中心壓縮

這類方法延續圖像壓縮中的變換思路，結合視頻的時間維度特性，通過池化或卷積操作減少token數量，核心是在空間壓縮基礎上增加時間維度下采樣。

2D/3D池化（2D/3D Pooling）
- 空間池化：對單幀圖像進行下采樣（如LLaVA-Video用平均池化減少單幀token），但對長視頻效果有限。
- 時間池化：針對視頻幀序列進行下采樣，降低幀率以減少時間維度的token。例如：
  - PLLaVA、Video-ChatGPT、LongVLM等采用 temporal pooling（時間池化），實驗表明模型性能對時間池化更敏感。
  - LLaMA-VID對單圖像保留原始分辨率，對視頻幀則壓縮為單個token，大幅減少數據量。
- 混合策略：SlowFast-LLaVA-1.5采用雙路徑架構——“慢路徑”采樣少量高分辨率幀，“快路徑”采樣更多低分辨率幀，拼接后輸入LLM，在減少token的同時保留時空細節。
2D/3D卷積（2D/3D Convolution）
與池化的簡單聚合不同，卷積通過學習濾波器捕捉時空特征并壓縮維度。例如： VideoLLaMA 2對比2D和3D卷積后發現，3D卷積能更好地學習復雜的時空關系，在性能和效率間取得平衡。

特點：

空間變換（池化/卷積）與圖像壓縮方法類似，時間變換是視頻特有的優化。
需平衡幀率/分辨率與信息保留（如24 FPS是捕捉完整動作的最低幀率，但實際常采用1 FPS采樣）。

2.2、基于相似性的視頻中心壓縮

針對視頻的時間冗余（相鄰幀高度相似），通過聚類或相似度匹配合并冗余幀或token，優先壓縮時間維度。核心思路主要包括：

對視頻幀進行聚類（基于幀級表示的相似度），合并非關鍵幀；
在聚類后的幀內進一步合并空間冗余token，最終保留“時空緊湊表示”。

代表性工作：
- Chat-UniVi：先將每幀池化為單個幀級token，再用DPC-KNN（基于K近鄰的密度峰值聚類）合并相似幀，最后在簇內對多幀token二次聚類，得到時空緊湊表示。
- PruneVid：與Chat-UniVi類似，但先合并時間上靜態的token（如靜止背景），再進行時空token合并，減少冗余。
- HoliTom：將時間冗余壓縮視為優化問題，最大化聚類幀內的可壓縮冗余特征，更全面地處理時間維度冗余。
- FrameFusion：針對流式視頻，在模型淺層直接合并超過相似度閾值的時間冗余token，適合實時處理。

優勢：通過聚類針對性減少時間冗余，壓縮效率高于單純空間壓縮。

局限性：過度合并可能丟失關鍵動態信息（如快速動作幀）。

2.3、基于注意力的視頻中心壓縮

利用注意力機制的稀疏性篩選重要token，與圖像壓縮思路類似，但需結合視頻的時序特性。

編碼器內注意力
將視頻視為獨立幀的序列輸入圖像編碼器，通過幀內注意力分數篩選高重要性空間token（如PruMerge、VisionZip）。但此類方法忽略幀間關系，本質仍是“圖像級壓縮”的擴展。
解碼器內注意力
在LLM解碼器中處理幀序列的拼接token，通過跨幀注意力捕捉時間關聯，并篩選關鍵時空token。例如：
- FastV、ZipVL等延續圖像解碼器的注意力篩選策略，計算視頻token與文本查詢的交叉注意力，保留高相關token。
- 對長視頻采用窗口注意力（windowed attention），僅關注局部時間窗口內的幀，降低計算復雜度。

2.4、基于查詢的視頻中心壓縮

以文本查詢為引導，篩選與任務相關的關鍵幀或token，減少無關時序信息的冗余。

token蒸餾
通過專用適配器模塊（如Q-former、Token Turing Machines）將長視頻token蒸餾為少量緊湊表示：
- Token Turing Machines（TTMs）：維護外部“摘要token內存”，通過Transformer的讀寫機制逐幀壓縮輸入token與內存，支持長視頻的高效處理。
- BLIP-3-Video：用時間編碼器將數百幀的視覺token抽象為16–32個時空token，平衡效率與信息保留。
- LinVT：通過線性視頻tokenizer，結合時空評分和文本條件聚合，將幀級token壓縮為緊湊視頻token，使圖像LLM可直接處理視頻。
跨模態選擇
基于查詢與視頻幀的相關性動態調整壓縮率，保留關鍵幀的更多信息：LongVU：計算每幀與查詢的相關性分數，對高相關幀采用低壓縮率（保留更多token），低相關幀采用高壓縮率，確保總token數在模型上下文窗口內。

優勢：聚焦查詢相關的時空信息，適合視頻問答、行為識別等任務。

局限性：依賴查詢質量，對無明確任務的場景（如視頻摘要）適用性有限。

3、以音頻為中心的Token壓縮

音頻數據作為多模態輸入的重要組成部分，其token數量隨采樣率和時長增加而顯著增長，給MLLMs的高效處理帶來挑戰。音頻信號本質是時間維度上的振幅變化（1D信號），通常通過頻譜圖（如梅爾頻譜圖）轉換為類圖像的2D表示，以便復用視覺處理技術。音頻中心的token壓縮需解決時間冗余（如長靜音段）和頻譜冗余（如特定頻率的重復信號），該部分也分為四類方法。

3.1、基于Transformer的音頻中心壓縮

這類方法通過下采樣操作直接減少音頻token數量，借鑒圖像壓縮中的變換思路，針對音頻的時間或頻譜維度進行壓縮。

token堆疊
類似圖像的“像素重排”操作，將連續的多個音頻token沿隱藏維度堆疊，減少總token數。例如：
- HTS-AT最早將梅爾頻譜圖的2D特征通過像素重排減少音頻token；
- SLAM-ASR、LLaMA-Omni等采用該技術，通過堆疊調整隱藏維度后，需用MLP對齊其他模態的維度。
Pooling（池化）
直接對音頻序列進行時間維度下采樣，無額外參數。例如：
- Qwen2-audio、Qwen2.5-Omni使用步長為2的池化層，直接縮短音頻表示長度；
- Llama-MTSK采用“套娃式（matryoshka）”訓練，通過多尺度平均池化或堆疊，實現推理時動態調整token數量，平衡壓縮率與性能。
時間卷積
用1D卷積在時間維度上壓縮token，同時調整隱藏維度以適配后續LLM。例如： SpeechVerse、Baichuan-Audio等采用該技術，下采樣后音頻表示的有效采樣率通常為12.5 Hz，在減少token的同時保留關鍵時序特征。

特點：Transformer的方法均通過降低時間或頻譜維度減少token，其中池化和堆疊為無參數操作，卷積通過學習權重捕捉更復雜的局部特征。

3.2、基于相似性的音頻中心壓縮

通過度量音頻token的相似度，合并冗余token，保留獨特信息。核心思路類似視覺領域的ToMe方法，在音頻Transformer的層間插入token合并模塊，合并高相似度的相鄰token（如通過余弦相似度度量）。

代表性工作： A-ToMe：在多頭自注意力（MHSA）和前饋網絡（FFN）之間插入模塊，合并余弦相似度高的相鄰音頻token，減少冗余。

優勢：針對性去除時間或頻譜上的重復信息，適合處理包含長靜音或固定背景噪聲的音頻。

局限性：過度合并可能丟失短時關鍵信號（如突發聲音）。

3.3、基于注意力的音頻中心壓縮

利用注意力機制的稀疏性，通過注意力分數篩選高重要性token，修剪低關注度token。

編碼器內注意力
在音頻Transformer塊中，基于自注意力分數保留top-K token。例如： Top-K：直接保留音頻頻譜圖Transformer中注意力分數最高的K個token，聚焦關鍵頻譜特征。
解碼器內注意力
在LLM解碼器中，基于音頻token與文本token的交叉注意力分數篩選關鍵token。例如：SpeechPrune：利用LLM第一層的注意力分數，在處理早期修剪低重要性音頻token，減少后續計算量。

優勢：動態適配音頻內容的重要性，保留與任務相關的關鍵信號（如語音中的關鍵詞）。
局限性：需顯式計算注意力分數，與優化加速庫（如FlashAttention）兼容性差，可能增加額外開銷。

3.4、基于查詢的音頻中心壓縮

以文本查詢或其他模態信息為引導，壓縮與任務無關的音頻token，分為token蒸餾和跨模態選擇兩類。

token蒸餾
用可學習查詢token提取音頻的關鍵信息，壓縮為固定長度的緊湊表示。例如：
- Video-LLaMA、SALMONN系列：通過音頻Q-former將變長音頻輸入轉換為固定長度的可學習查詢序列，供LLM處理；
- MMCE-Qformer：結合全局聲學上下文（通過可學習查詢提取）和局部文本相關聲學特征（通過文本引導的交叉注意力），蒸餾出緊湊的音頻表示；
- MMS-LLaMA：先通過“早期音視頻融合模塊”減半序列長度，再用AV Q-Former進一步壓縮為固定數量的查詢token，捕捉完整語音上下文。
跨模態選擇
利用音頻與其他模態（如文本）的相關性篩選關鍵token。例如：SpeechPrune：計算音頻-文本的余弦相似度矩陣，基于跨模態相關性修剪無關音頻token，保留語義重要的片段。

優勢：壓縮后的token與查詢高度相關，適合語音識別、音頻問答等任務。
局限性：依賴查詢質量，對無明確任務的場景（如音頻摘要）適用性有限。

總結：音頻中心的token壓縮針對時間和頻譜冗余，核心策略包括：

變換方法通過堆疊、池化或卷積直接減少token，適合保留全局時序結構；
相似性方法合并高相似度token，有效去除重復信號；
注意力方法動態篩選關鍵token，可解釋性強但受限于加速庫兼容性；
查詢方法聚焦任務相關音頻信息，適合交互式場景。

參考文獻：When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios,https://arxiv.org/pdf/2507.20198