高效VLM:VisionZip

論文:[2412.04467] VisionZip: Longer is Better but Not Necessary in Vision Language Models

github:https://github.com/dvlab-research/VisionZip

LLaVA論文:https://arxiv.org/abs/2310.03744

LLaVA倉庫:https://github.com/haotian-liu/LLaVA?tab=readme-ov-file

1.內容概括:? ? ? ?

?????????LLMs的發展推動了VLMs的發展,現有的VLMs為了把視覺信號與文本語義連接起來,通常采用順序視覺表示,將圖像轉換為視覺tokens并通過LLM解碼器處理。通過模態對齊和指令調優,這些VLM利用LLM的感知和推理能力,使其適應視覺領域【傳統處理方法】。?????????

????????VLM模型性能依賴于視覺token的數量,但是通過增加視覺token的長度(比文本token長度還要長)使得模型性能提升,這種方式顯著增加了計算成本,限制了模型在邊緣計算、自動駕駛和機器人等實際應用場景中的發展【傳統方法的局限性】【問題1:計算成本】。有研究表明:圖像中的信息更加稀疏。而現有的最先進的 VLMs 的視覺 tokens 數量遠遠超過文本 tokens。“所有視覺 tokens 都是必要的嗎?”,而經過實驗證明CLIP和SigLIP生成的視覺token存在冗余問題2token雖然長,但不都是有用的】。

? ? ? ? 如圖所示就是改論文所作的實驗,左側的實驗是注意力權重分布圖,可見高注意力權重(如 0.05–0.10 區間)的標記概率密度低,即此類標記數量少;大量標記的注意力權重集中在 0 附近(概率密度高),說明多數標記未被關注,進一步驗證視覺標記冗余現象。

? ? ? ? 在兩張圖片中,高亮度區域是高注意力權重的視覺token,可以看見在整張圖中,高注意力權重的區域非常小,那么也就是說視覺token的冗余現象非常嚴重。而且還可以看見一個現象就是高注意權重的視覺token區域并不在圖像的主要目標物體中,例如圖中的人物或者出租車,而是出現在了馬路上,這種高注意力權重視覺token的偏移現象似乎也能解釋為什么在LLM階段根據文本與圖像之間的對應關系篩選主導token時可能性能下降比較明顯:因為與文本對象關聯的視覺主體上的視覺token權重并不高,這樣篩選出的視覺token會丟失大量的圖像原本的信息。

????????VisionZip的解決方案:選擇一組信息豐富的 tokens 作為語言模型的輸入,減少視覺 tokens 的冗余,提升效率的同時保持模型性能。VisionZip可廣泛應用于圖像和視頻理解任務,尤其適合多輪對話等實際場景,而此前的方法在這些場景中表現欠佳【優勢】。?

A: 性能對比雷達圖

????????對比使用 VisionZip 優化的LLaVA-1.5模型與當前高效VLM模型優化方法(如 FastV、SparseVLM 等)在 11 個基準測試(如 LLaVA-Bench、MME、TextVQA、VQAV2 等)上的性能表現。VisionZip 在僅使用 10%tokens的情況下,實現了接近當前最優模型95% 的性能。

B: 預填充時間對比柱狀圖

?????? 基座模型選擇LLaVA-NeXT,7B是70億參數版本。VisionZip 大幅優化了預填充效率,將 LLaVA-NeXT 7B 模型的預填充時間從 218ms 減少至 27ms,實現了8 倍的時間縮減(Reduction: 8x),同時可以達到基座模型性能的95%

C: 推理時間與性能對比柱狀圖

?????? 三個模型:LLaVA-NeXT 13B,經過VisionZip優化的13B模型,LLaVA-NeXT 7B,內容:在 11 個基準測試中的 GPU 推理時間與性能。經過VisionZip優化的13B模型推理時間上是原本13B模型的1/2,性能可以達到96.5%,比7B模型的推理時間還少,性能卻更好(96.1%)。

2.方法總結:

????????VisionZip方法總結起來就是刪去無用的視覺token以達到提高推理速度的作用。這種類型的方法在此之前已經出現過,比如FastV、SparseVLM這類,但是他們主要在VLM的LLM階段(Vision Encoder->MM->LLM)對視覺token進行處理,在這個過程中操作較為復雜而且性能損失較大。VisionZip選擇的道路是在VisionEncoder之后就對視覺token進行處理,主要的處理分為兩個步驟:

2.1:保留主導token:

????????這一塊的主要思路是確定一個閾值k,即我們要保留多少高注意力權重的視覺token,然后根據CLS標識得到所有視覺token的注意力得分,然后選擇其中最高的k個做保留即可。

2.2:合并其余token:

????????這一塊的主要思路是在剩余的視覺token中,可能他們所攜帶的信息量并不多,但是完全刪去他們可能會損失模型的性能,因此對于剩余的token要做一定的合并處理,首先給定一個閾值M,即要合并出多少個token,之后將剩余的視覺token分割為兩部分,一部分是目標token,一部分是合并token,計算出合并token與目標token之間的余弦相似度,此時,對于每一個合并token來說,只保留與他相似度最大的目標token的索引,然后統計針對每一個目標token,有哪些合并token要與他合并,最后進行求和相加即可完成合并工作。?

3.實驗思路:

實驗思路:

????????該論文提出的實驗思路有三種應用:

????????第一種是無訓練方法,即只需要在推理時在Vision Encoder之后進行視覺token篩選即可。

????????第二種是高效微調方法:視覺token經過了壓縮之后出現了一個問題,那就是經過信息性視覺token壓縮后,輸入到大語言模型的視覺token長度顯著減少,這可能導致原本在完整視覺token上訓練的視覺語言模型難以適應這種變化,使得視覺和大語言模型空間之間出現差距 ,即兩者在信息表示和處理方式上不太匹配。解決方法是通過微調多模態投影器,讓它適應減少后的視覺token輸入,從而增強視覺和語言空間之間的對齊。具體操作中,只對多模態投影器進行微調,保持模型的其他組件(如視覺編碼器、大語言模型主體等)不變。

????????第三種方法是從頭開始訓練:全新訓練,整合 VisionZip 方法到模型構建中,從初始訓練就應用標記優化策略。

實驗結果:

????????通過在 Mini - Gemini(基于 ConvNeXt - L)上應用 VisionZip,觀察其性能變化,證明 VisionZip 不僅適用于基于 Transformer VLM(如 LLaVA 系列),還能在基于 CNN VLM 中發揮作用,從而驗證其跨架構的普適性。如果在 ConvNeXt - L 生成的視覺標記中同樣存在冗余,并且 VisionZip 能夠有效減少冗余并提升效率,這將進一步證明視覺標記冗余是一個普遍現象,而非特定架構的問題。?

分析:

視覺 tokens 冗余的原因:

注意力跨層變化分析

  • 早期層(如視覺編碼器初始層)
    注意力在圖像上廣泛分布,模型此時在捕捉圖像的基礎特征(如邊緣、顏色、簡單形狀等),尚未聚焦到特定區域或物體,屬于對圖像整體信息的初步感知階段。
  • 中間層
    注意力突然收斂到少量標記(token)。這表明模型在中間層開始篩選關鍵信息,過濾掉冗余細節,逐步明確對圖像中重要內容的關注,是從底層特征向高層語義過渡的階段。
  • 深層(如第 23 層,用于為大語言模型提取視覺標記,作為VLM的視覺編碼器的輸出
    注意力和信息高度集中在一小部分 “主導token” 上,達到集中化的峰值。此時模型已識別出圖像中最核心、最具信息量的部分,這些主導標記承載了圖像的關鍵語義,是后續大語言模型處理的核心視覺輸入。
  • 最后一層(如第 24 層)
    注意力分布更分散。因為最后一層的標記需通過對比損失(contrastive loss)與 CLIP 文本分支對齊,這種對齊操作會讓標記更偏向語言空間的特征,而非單純表示原始圖像內容,從而限制了其對原始圖像細節的精準表達。

?Softmax 函數的梯度特性會加劇視覺標記冗余:

????????當輸入值?zi??增大時,softmax梯度呈指數上升趨勢。在模型訓練中,這種梯度特性會讓模型更傾向于關注少數響應值高的標記(對應圖像中的局部區域),而忽略其他標記的信息。長期訓練后,大量標記因未被充分利用成為冗余,僅少數標記承載主要信息。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/83624.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/83624.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/83624.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

華為設備OSPF配置與實戰指南

一、基礎配置架構 sysname HUAWEI-ABR ospf 100 router-id 1.1.1.1area 0.0.0.0network 10.1.1.0 0.0.0.255 # 將接口加入區域0 interface GigabitEthernet0/0/1ospf enable 100 area 0.0.0.0 # 華為支持點分十進制區域號bandwidth-reference 10000 # 設置10Gbps參考帶寬…

區塊鏈架構深度解析:從 Genesis Block 到 Layer 2

# 區塊鏈架構深度解析:從 Genesis Block 到 Layer 2 目錄 一、Genesis Block:區塊鏈的起點 二、Layer 0:區塊鏈的底層網絡架構 三、Layer 1:核心協議層 🚀 四、Layer 2:擴展性解決方案 五、未來展望&a…

【位運算】丟失的數字(easy)

34. 丟失的數字(easy) 題?描述:方法一:排序解法(位運算):C 算法代碼:Java 算法代碼: 題?鏈接: 268. 丟失的數字 題?描述: 給定?個包含 [0, n…

如何通過RL真正提升大模型的推理能力?NVIDIA提出長期強化學習訓練框架ProRL

原文:https://mp.weixin.qq.com/s/QLFKvb8Ol3CX9uWKBXSrow 論文:ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models Abs:https://arxiv.org/abs/2505.24864 權重下載:https://hugg…

ORM 框架的優缺點分析

ORM 框架的優缺點分析 一、ORM 框架概述 ORM(Object-Relational Mapping)是一種將關系型數據庫與面向對象編程進行映射的技術框架。它通過將數據庫表映射為編程語言中的類,將記錄映射為對象,將字段映射為屬性,實現了用面向對象的方式操作數據庫。 核心價值:ORM 在數據庫和…

1. 數據庫基礎

1.1 什么是數據庫 ? mysql 本質是一種網絡服務, 是基于 C(mysql) S(mysqld)的 網絡服務. 存儲數據用文件就可以了,為什么還要弄個數據庫?文件保存數據存在以下缺點: 文件的安全性問題。文件不利于數據查詢和管理。文件不利于存儲海量數據。…

go語言學習 第5章:函數

第5章:函數 函數是編程中不可或缺的一部分,它封裝了一段可重復使用的代碼,用于執行特定的任務。在Go語言中,函數同樣扮演著重要的角色。本章將詳細介紹Go語言中函數的定義、調用、參數傳遞、返回值處理以及一些高級特性&#xff…

MapReduce 分布式計算模型

what:分解大數據集,并行處理,匯總結果(分解組合思想) 目的:SQL查詢轉換為MR,理解MR更好優化SQL 優點: 只需關注業務邏輯(自定義函數map,reduce&#xff09…

RDMA簡介3之四種子協議對比

RDMA協議共有四種子協議,分別為InfiniBand、iWARP、RoCE v1和RoCE v2協議。這四種協議使用統一的RDMA API,但在具體的網絡層級實現上有所不同,如圖1所示,接下來將分別介紹這四種子協議。 圖1 RDMA四種子協議網絡層級關系圖 Infin…

LabelImg: 開源圖像標注工具指南

LabelImg: 開源圖像標注工具指南 1. 簡介 LabelImg 是一個圖形化的圖像標注工具,使用 Python 和 Qt 開發。它是目標檢測任務中最常用的標注工具之一,支持 PASCAL VOC 和 YOLO 格式的標注輸出。該工具開源、免費,并且跨平臺支持 Windows、Lin…

系統架構設計論文

disstertation 軟考高級-系統架構設計師-論文:論文范圍(十大知識領域)、歷年論題、預測論題及論述過程、論文要點、論文模板等。 —— 2025 年 4 月 4 日 甲辰年三月初七 清明 目錄 disstertation1、論文范圍(十大核心領域&#x…

數學復習筆記 26

5.25:這題還是有點難度的。主要是出現了新的知識點,我現在還沒有那么熟悉這個新的知識點。這塊就是,假設一個矩陣可以寫成一個列向量乘以一個行向量的形式,這兩個向量都是非零向量,那么這個矩陣的秩等于一。這個的原理…

[Java 基礎]注釋

注釋在編程中扮演著非常重要的角色,它們是寫給人類閱讀的,而不是給計算機執行的。良好的注釋可以極大地提高代碼的可讀性和可維護性。 為什么需要注釋? 提高可讀性: 注釋可以解釋代碼的功能、實現思路、特殊處理等,幫…

TortoiseSVN賬號切換

SVN登錄配置及賬號切換 本文主要為了解答svn客戶端如何進行賬號登錄及切換不同權限賬號的方式。 一、環境準備與客戶端安裝 安裝TortoiseSVN客戶端 ??下載地址??:TortoiseSVN官網 ??安裝步驟??: 雙擊安裝包,按向導完成安裝后&#x…

5分鐘了解JVM運行時數據區域

點擊藍字,關注我們 在 Java 程序運行期間,JVM 會劃分出幾塊重要的內存區域,用來支撐類加載、方法調用、對象分配、線程執行等一切運行時行為。 這些區域構成了 JVM 的“運行時數據區”。 一、運行時數據區域概覽圖 二、Java 堆(H…

深入理解CSS浮動:從基礎原理到實際應用

深入理解CSS浮動:從基礎原理到實際應用 引言 在網頁設計中,CSS浮動(float)是一個歷史悠久卻又至關重要的概念。雖然現代布局技術如Flexbox和Grid逐漸流行,但浮動仍然在許多場景中發揮著重要作用。本文將帶你深入理解…

Spring Bean 為何“難產”?攻克構造器注入的依賴與歧義

本文已收錄在Github,關注我,緊跟本系列專欄文章,咱們下篇再續! 🚀 魔都架構師 | 全網30W技術追隨者🔧 大廠分布式系統/數據中臺實戰專家🏆 主導交易系統百萬級流量調優 & 車聯網平臺架構&a…

華為云Flexus+DeepSeek征文|實戰體驗云服務器單機部署和CCE高可用的架構AI賦能

前引:“在數字化浪潮洶涌澎湃的今天,企業對云計算服務的需求已從基礎架構支撐,逐步轉向更深層次的AI賦能與業務創新驅動。面對復雜多變的市場環境,選擇一個強大、可靠且具備前瞻性的云服務伙伴,無疑是企業實現高速增長…

雷卯針對易百納G610Q-IPC-38E 模組防雷防靜電方案

一、應用場景 1、智能監控 2、智能家居 3、工業自動化 4、機器人 5、智能交通 6、醫療影像 7、教育科研 二、 功能概述 1 HI3516CV610(ARM Cortex-A7 MP2) 2 AI算力 1Tops 3 模組集成 4M30FPS Sensor,支持最高 6M30fps 的 ISP 圖像…

生成對抗網絡(GAN)基礎原理深度解析:從直觀理解到形式化表達

摘要 本文詳細解析 生成對抗網絡(GAN) 的 核心原理,從通俗類比入手,結合印假鈔與警察博弈的案例闡述生成器 與 判別器 的對抗機制;通過模型結構示意圖,解析 噪聲采樣、樣本生成 及判別流程;基于…