視覺大語言模型未能充分利用視覺表征

視覺大語言模型未能充分利用視覺表征
FesianXu 20250612 at Wechat Search Team

前言

這兩天看到一篇新掛在arxiv上的文章 [1],討論了下視覺大語言模型的視覺表征退化問題。先前的研究將VLM缺陷歸咎于視覺編碼器薄弱,并提出集成編碼器方案以彌補不足,本文認為可能是底座LLM不能充分利用視覺編碼器的特征,筆者覺得挺有意思的,就在此筆記,希望對讀者有所幫助。如有謬誤請見諒并聯系指出,本文遵守CC 4.0 BY-SA版權協議,轉載請聯系作者并注明出處,謝謝

  • 關鍵詞:VLM、以視覺為中心任務、視覺表征退化

? \nabla ? 聯系方式:

  • e-mail: FesianXu@gmail.com
  • github: https://github.com/FesianXu
  • 知乎專欄: 計算機視覺/計算機圖形理論與應用
  • 微信公眾號:機器學習雜貨鋪3號店

視覺語言大模型(Visual Language Model, VLM)通常由三部分組成:

  1. 視覺編碼器,可以是CLIP、SigLIP、DINO等,采用的結構可以是ViT,也可以是傳統的CNN,不過現在主流都是ViT結構,本文指的視覺編碼器也是ViT的產出。
  2. 視覺連接器(Projector),通常是簡單的MLP結構,或者Q-Former、Resampler、D-abstractor等復雜結構。
  3. 底座LLM,如LLama、Qwen、baichuan等。

之前筆者在博文 [2] 中也曾介紹過一篇對VLM中的視覺短板問題的研究,其最終結論是單純基于CLIP的視覺特征,在視覺問題上可能存在固有的缺陷,這個缺陷通過擴大模型規模和數據尺度可能都無法彌補,因此最終提議結合采用CLIP和DINO v2一起交織作為視覺表征供給VLM。然而,最近有研究文章 [1] 表示當前的VLM并不能充分利用視覺編碼器的表征,導致在一些視覺為中心的任務中表現接近隨機。以視覺為中心的任務,是計算機視覺領域中的一類任務,其核心在于理解與解讀來自圖像和視頻的視覺信息。這類任務通常通過分析視覺內容實現特定功能:提取關鍵特征、識別目標對象,或基于視覺感知執行其他相關操作,通常不依賴語言級別的知識及其領域知識等。具體來說,比如語義相關點匹配(Semantic Correspondence)、低級特征匹配(Low-level Matching)、深度估計(Depth Estimation)、3D物體感知(3D Object Awareness)等都屬于視覺為中心的任務。

作者的評估策略是,挑選出主流的4種視覺編碼器,包括只在ImageNet 1K上進行監督訓練得到的IN-1k,只采用視覺自監督訓練得到的DINO v2,采用圖文跨模態訓練得到的SigLIPCLIP。然后挑選Vicuna v1.5作為LLM底座,在固定住視覺編碼器和底座LLM的情況下,采用LLaVA v1.5的數據微調視覺連接器。

從Fig 1.中,我們發現在一些視覺為中心的任務中,在主流的多種視覺特征下,標準的視覺評估策略(只采用視覺特征)的效果往往遠比轉向VLM評估策略后效果好,后者則基本上是隨機猜測的水平。

在這里插入圖片描述

Fig 1. 從標準視覺評估策略(只采用視覺特征)轉向 VLM 評估策略會導致性能下降,其準確率常常降至隨機猜測水平。此外,在某個任務中表現最佳的視覺編碼器(通常是 DINO v2)并非在性能更優異的 VLM 框架中表現最佳的視覺編碼器。

以上實驗采用的視覺編碼器的參數是固定的,沒有進行微調,作者同樣拿開源的VLM進行了對比(開源的VLM中對視覺編碼器也進行了端到端的訓練),如Fig 2.所示,同樣發現了類似的現象。此外,從Fig 1和Fig 2中我們還發現,在標準視覺評估策略中表現最好的視覺特征,在VLM下可能并不是最優的,以Fig 1的Low-Level Matching為例,在Visual下的性能序為DINO v2 > IN-1k > SigLIP > CLIP,而在VLM中的性能序為IN-1k > SigLIP > CLIP ≈ DINO v2

在這里插入圖片描述

Fig 2. 在開源的VLM中,其視覺編碼器是聯合底座LLM進行微調的,即便如此,在視覺為中心的任務中,只考慮視覺特征的標準視覺評估也是遠比VLM本身占優的。

以上的實驗證明當前的VLM并沒有充分利用視覺信息(起碼是在視覺為中心的這些任務中),這結論和之前的一些研究 [2] 并不相似。一種可能的解釋是,這來自于視覺特征的退化,特別是當視覺特征經過視覺連接器或者LLM后可能會丟棄一些任務相關的視覺信息。因此考慮將VLM的逐層進行探針(probe),統計下游任務的效果,從Fig 3來看,視覺信息在逐層中并沒有發生明顯的衰減現象,但是在最后一層中會傾向于發生性能的大幅度下降,作者猜測這種變化源于LLM在其末端的信息處理重點的轉移——從前期的特征保持與注意力分配,轉向最終的語義生成任務,因此導致最終效果不盡人意。

在這里插入圖片描述

Fig 3. 對視覺語言模型中間層的可視化評估。通過在視覺連接器(灰色區域)和底座LLM(白色區域)逐層探測(Probing)視覺表征,我們發現這些層級普遍保留著任務關聯信息,且未出現明顯衰減跡象。

還有種可能是VLM對prompt比較敏感,因此作者采用Prompt Tuning [3] 的方式在原始prompt前面插入若干個可學習的前綴(共用詞表),然后在1000個VQA樣本上進行微調。結果如Fig 4所示,引入Prompt-tuning的確有些許效果提升,不過提升仍然有限,提升可學習前綴數量并不會帶來進一步的提升。

在這里插入圖片描述

Fig 4. 提示調優評估實驗。我們分別微調[1, 5, 10]個前綴嵌入向量,將結果與原始性能(x=0)及視覺評估上限(虛線)進行對比。實驗顯示:前綴嵌入數量在突破1-5個后,模型性能提升幅度顯著收窄,呈現邊際收益遞減現象。

鑒于已排除視覺語言模型(VLM)的視覺表征衰減和Prompt表述的敏感性對性能的制約,作者轉向探索LLM自身的作用機制。我們在每個視覺為中心的任務中選取5000個樣本,分別對VLM的三個組件——視覺編碼器(ViT)、視覺連接器(Proj)和底座LLM——進行獨立微調。實驗采用與評估框架相同的VQA數據格式,通過LoRA微調并嚴格控制可調權重矩陣,確保所有組件保持同等參數量級(16.7M參數量,等效于全視覺連接器微調的參數量)。如Fig 5所示,對比微調視覺編碼器和微調視覺連接器,微調底座LLM的提升最為明顯,但仍然對比視覺本身存在一定差距。

在這里插入圖片描述

Fig 5. 在各組件參數量嚴格對等的實驗設定下,針對特定任務微調LLM所產生的性能增益遠高于微調投影層或視覺編碼器。這些結果證實了LLM有效利用視覺表征的能力是制約視覺中心任務表現的核心瓶頸。

為了深入理解這一現象,作者分析了微調后DINO v2表征的注意力偏移變化。在對應任務中,微調加強了對多選題標簽、參考點及其他文本(尤見于LLM第4層)的關注度。不同于投影器或ViT微調(這些方法在任何注意力層或頭中均未穩定凸顯上述關鍵點),LLM微調顯著提升了模型在關鍵區域定位并利用視覺表征的能力。如Fig 6所示,通過可視化Object Affordance任務和Semantic Correspondence任務中微調底座LLM前后的注意力圖的變化,發現微調了LLM后能夠有效提高參考點和關注點之間的注意力強度。

在這里插入圖片描述

Fig 6. 通過可視化底座LLM微調前后的注意力分布差異,觀察到Semantic Correspondence任務中關注點(REF、A、B、C、D)的注意力強度顯著提升。這些關注點在注意力層4-6中表現最為明顯;此處分別可視化的是第4層在Object Affordance任務(左圖)與Semantic Correspondence任務(右圖)中的注意力分布。

綜合來看,作者認為底座LLM是以視覺為中心任務實現更高預測性能的瓶頸,其局限既源于對關鍵視覺區域的關注不足,也來自LLM對特定多選題答案的強先驗依賴。需要強調的是,本文并非主張通過直接任務訓練作為解決VLM視覺表征利用不足的通用方案;而是借助該方法定位VLM失效機制,并論證提升LLM視覺表征利用能力可有效突破語言先驗束縛,實現最優性能提升。

Reference

[1]. Fu, Stephanie, Tyler Bonnen, Devin Guillory, and Trevor Darrell. “Hidden in plain sight: VLMs overlook their visual representations.” arXiv preprint arXiv:2506.08008 (2025).

[2]. https://fesianxu.github.io/2024/07/06/20240706-visual-shortcome-mllm/ 《基于CLIP特征的多模態大模型中的視覺短板問題》

[3]. https://fesianxu.github.io/2023/09/28/prompt-tuning-20230928/, 《Prompt Tuning——一種高效的LLM模型下游任務適配方式》

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/88075.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/88075.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/88075.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

SSRF3 任意文件讀取

一.任意文件讀取 http://192.168.112.12/pikachu-master/vul/ssrf/ssrf_curl.php?urlfile:///etc/passwd 讀取文件使用 file://文件路徑即可,這里我們換協議為file,然后從根目錄開始讀取。 /etc/passwd 我們這樣修改完url路徑后查看結果可以看到文件內…

洛谷P3953 [NOIP 2017 提高組] 逛公園

洛谷P3953 [NOIP 2017 提高組] 逛公園 洛谷題目傳送門 題目背景 NOIP2017 D1T3 題目描述 策策同學特別喜歡逛公園。公園可以看成一張 N N N 個點 M M M 條邊構成的有向圖,且沒有 自環和重邊。其中 1 1 1 號點是公園的入口, N N N 號點是公園的出…

Vue3+TypeScript+Element Plus 表格展開行優化方案

在 Vue3 TypeScript Element Plus 項目中優化表格展開行的內存使用,主要從 渲染優化、數據管理 和 內存回收 三方面入手。以下是最佳實踐和完整解決方案: 1. 懶加載展開內容(核心優化) 只當行展開時才渲染內容,避免…

OpenCV——直方圖與匹配

直方圖與匹配 一、直方圖簡介二、直方圖統計三、直方圖比較四、直方圖均衡化五、自適應的直方圖均衡化六、直方圖反向投影七、模板匹配 一、直方圖簡介 圖像直方圖(Histogram)是一種頻率分布圖,它描述了不同強度值在圖像中出現的頻率。圖像直…

通義大模型在文檔自動化處理中的高效部署指南(OCR集成與批量處理優化)

1. 傳統OCR解決方案常面臨識別精度低、版面分析能力弱、處理效率瓶頸等問題。通義大模型憑借其多模態理解和生成能力,為文檔處理領域帶來革命性突破。本文將深入探討如何高效部署通義大模型實現端到端的文檔自動化處理,特別聚焦OCR集成與批量處理優化兩…

Ubuntu20.04通過ssh協議配置遠程終端

一、在目標計算機(即被連接的計算機)上操作: 1、安裝 OpenSSH 服務器: sudo apt update sudo apt install openssh-server3、啟動并設置 SSH 服務開機自啟: sudo systemctl enable --now ssh二、在源計算機&#xf…

《HTTP權威指南》 第7章 緩存

帶著問題學習: 緩存如何提高性能如何衡量緩存的有效性緩存置于何處作用最大HTTP如何保持緩存副本的新鮮度緩存如何與其他緩存及服務器通信 web緩存是可以自動保存常見文檔副本的HTTP設備。 緩存優點 減少冗余的數據傳輸,節省網絡費用緩解網絡瓶頸問題&…

第十三章 模板

函數模板 函數模板使用 函數模板注意事項 自動類型推導,必須推導出一致的數據類型T,才可以使用 模板必須要確定出T的數據類型,才可以使用 普通函數和函數模板的類型轉化 普通函數隱式類型轉化(char轉int) 函數模板正常使用不會發生…

云計算-專有網絡VPC

🌐 什么是 VPC?(Virtual Private Cloud) VPC(Virtual Private Cloud,虛擬私有云) 是公有云服務商提供的一種網絡隔離服務,允許用戶在云中創建一個邏輯隔離的私有網絡環境。你可以在這…

關于*gin.Context的理解

關于*gin.Context的理解 作為初學者,在學習go語言用gin開發web時,我對*gin.Context感到困惑。本文章以自我總結為主,大部分為來自詢問ai后的總結,如有問題歡迎指出。 *gin.Context可以理解為一個gin框架的上下文對象指針&#x…

Qt中的OpenGL (6)[坐標系統]

文章目錄 文章說明學習目標目錄結構坐標系統局部空間世界空間觀察空間裁剪空間正射投影矩陣透視投影矩陣組合進入3D世界頂點數據著色器設置數據矩陣設置文章說明 本文是學習OpenGL的筆記,主要參考大神JoeyDeVries的LearnOpenGL第八課《坐標系統》,并將教程中的代碼基于Qt進行…

Spring Aop @After (后置通知)的使用場景?

核心定義 After 是 Spring AOP 中的另一種通知(Advice)類型,通常被稱為“后置通知”或“最終通知”。 它的核心作用是: 無論目標方法是正常執行完成,還是在執行過程中拋出了異常,After 通知中的代碼 總是…

UNet改進(4):交叉注意力(Cross Attention)-多模態/多特征交互

在計算機視覺領域,UNet因其優異的性能在圖像分割任務中廣受歡迎。本文將介紹一種改進的UNet架構——UNetWithCrossAttention,它通過引入交叉注意力機制來增強模型的特征融合能力。 1. 交叉注意力機制 交叉注意力(Cross Attention)是一種讓模型能夠動態地…

C#里從CSV文件加載BLOB數據字段到數據庫的處理

大量的數據保存在CSV文件, 當需要把這些數據加載到數據庫,然后使用數據庫來共享出去。 就需要把CSV文件導入數據庫, 怎么樣快速地把CSV文件導入數據庫呢? 這個就需要使用類MySqlBulkLoader,它是mariadb數據庫快速導入的方式。 一般使用SQL語句導入是10秒,那么使用這種方…

【后端】負載均衡

長期不定期更新補充。 定義 負載均衡(Load Balancing)是指將來自客戶端的請求合理分發到多個服務器或服務節點,以提高系統性能、可用性與可靠性。 分工 前端不做負載均衡,前端只發請求,不知道請求去哪臺服務器。 負…

記錄一次:Java Web 項目 CSS 樣式/圖片丟失問題:一次深度排查與根源分析

記錄一次:Java Web 項目 CSS 樣式/圖片丟失問題:一次深度排查與根源分析 **記錄一次:Java Web 項目 CSS 樣式丟失問題:一次深度排查與根源分析****第一層分析:資源路徑問題****第二層分析:服務端跳轉邏輯**…

torchmd-net開源程序是訓練神經網絡潛力

?一、軟件介紹 文末提供程序和源碼下載 TorchMD-NET 提供最先進的神經網絡電位 (NNP) 和訓練它們的機制。如果有多個 NNP,它可提供高效、快速的實現,并且它集成在 GPU 加速的分子動力學代碼中,如 ACEMD、OpenMM 和 …

在Docker上安裝Mongo及Redis-NOSQL數據庫

應用環境 Ubuntu 20.04.6 LTS (GNU/Linux 5.15.0-139-generic x86_64) Docker version 28.1.1, build 4eba377 文章目錄 一、部署Mongo1. 拉取容器鏡像2. 生成Run腳本2.1 準備條件2.2 參數解讀2.3 實例腳本 3. 實例操作3.1 Mongo bash控制臺3.2 庫表操作 4. MongoDB Compass (G…

Java 編程之責任鏈模式

一、什么是責任鏈模式? 責任鏈模式(Chain of Responsibility Pattern) 是一種行為型設計模式,它讓多個對象都有機會處理請求,從而避免請求的發送者和接收者之間的耦合關系。將這些對象連成一條鏈,沿著這條…

1、做中學 | 一年級上期 Golang簡介和安裝環境

一、什么是golang Golang,通常簡稱 Go,是由 Google 公司的 Robert Griesemer、Rob Pike 和 Ken Thompson 于 2007 年創建的一種開源編程語言,并在 2009 年正式對外公布。 已經有了很多編程語言,為什么還要創建一種新的編程語言&…