視覺大語言模型未能充分利用視覺表征

FesianXu 20250612 at Wechat Search Team

前言

這兩天看到一篇新掛在arxiv上的文章 [1]，討論了下視覺大語言模型的視覺表征退化問題。先前的研究將VLM缺陷歸咎于視覺編碼器薄弱，并提出集成編碼器方案以彌補不足，本文認為可能是底座LLM不能充分利用視覺編碼器的特征，筆者覺得挺有意思的，就在此筆記，希望對讀者有所幫助。如有謬誤請見諒并聯系指出，本文遵守CC 4.0 BY-SA版權協議，轉載請聯系作者并注明出處，謝謝。

關鍵詞：VLM、以視覺為中心任務、視覺表征退化

$\nabla$ 聯系方式：

e-mail: FesianXu@gmail.com
github: https://github.com/FesianXu
知乎專欄: 計算機視覺/計算機圖形理論與應用
微信公眾號：機器學習雜貨鋪3號店

視覺語言大模型（Visual Language Model, VLM）通常由三部分組成：

視覺編碼器，可以是CLIP、SigLIP、DINO等，采用的結構可以是ViT，也可以是傳統的CNN，不過現在主流都是ViT結構，本文指的視覺編碼器也是ViT的產出。
視覺連接器（Projector），通常是簡單的MLP結構，或者Q-Former、Resampler、D-abstractor等復雜結構。
底座LLM，如LLama、Qwen、baichuan等。

之前筆者在博文 [2] 中也曾介紹過一篇對VLM中的視覺短板問題的研究，其最終結論是單純基于CLIP的視覺特征，在視覺問題上可能存在固有的缺陷，這個缺陷通過擴大模型規模和數據尺度可能都無法彌補，因此最終提議結合采用CLIP和DINO v2一起交織作為視覺表征供給VLM。然而，最近有研究文章 [1] 表示當前的VLM并不能充分利用視覺編碼器的表征，導致在一些視覺為中心的任務中表現接近隨機。以視覺為中心的任務，是計算機視覺領域中的一類任務，其核心在于理解與解讀來自圖像和視頻的視覺信息。這類任務通常通過分析視覺內容實現特定功能：提取關鍵特征、識別目標對象，或基于視覺感知執行其他相關操作，通常不依賴語言級別的知識及其領域知識等。具體來說，比如語義相關點匹配（Semantic Correspondence）、低級特征匹配（Low-level Matching）、深度估計（Depth Estimation）、3D物體感知（3D Object Awareness）等都屬于視覺為中心的任務。

作者的評估策略是，挑選出主流的4種視覺編碼器，包括只在ImageNet 1K上進行監督訓練得到的IN-1k，只采用視覺自監督訓練得到的DINO v2，采用圖文跨模態訓練得到的SigLIP和CLIP。然后挑選Vicuna v1.5作為LLM底座，在固定住視覺編碼器和底座LLM的情況下，采用LLaVA v1.5的數據微調視覺連接器。

從Fig 1.中，我們發現在一些視覺為中心的任務中，在主流的多種視覺特征下，標準的視覺評估策略（只采用視覺特征）的效果往往遠比轉向VLM評估策略后效果好，后者則基本上是隨機猜測的水平。

在這里插入圖片描述

Fig 1. 從標準視覺評估策略（只采用視覺特征）轉向 VLM 評估策略會導致性能下降，其準確率常常降至隨機猜測水平。此外，在某個任務中表現最佳的視覺編碼器（通常是 DINO v2）并非在性能更優異的 VLM 框架中表現最佳的視覺編碼器。

以上實驗采用的視覺編碼器的參數是固定的，沒有進行微調，作者同樣拿開源的VLM進行了對比（開源的VLM中對視覺編碼器也進行了端到端的訓練），如Fig 2.所示，同樣發現了類似的現象。此外，從Fig 1和Fig 2中我們還發現，在標準視覺評估策略中表現最好的視覺特征，在VLM下可能并不是最優的，以Fig 1的Low-Level Matching為例，在Visual下的性能序為DINO v2 > IN-1k > SigLIP > CLIP，而在VLM中的性能序為IN-1k > SigLIP > CLIP ≈ DINO v2。

在這里插入圖片描述

Fig 2. 在開源的VLM中，其視覺編碼器是聯合底座LLM進行微調的，即便如此，在視覺為中心的任務中，只考慮視覺特征的標準視覺評估也是遠比VLM本身占優的。

以上的實驗證明當前的VLM并沒有充分利用視覺信息（起碼是在視覺為中心的這些任務中），這結論和之前的一些研究 [2] 并不相似。一種可能的解釋是，這來自于視覺特征的退化，特別是當視覺特征經過視覺連接器或者LLM后可能會丟棄一些任務相關的視覺信息。因此考慮將VLM的逐層進行探針（probe），統計下游任務的效果，從Fig 3來看，視覺信息在逐層中并沒有發生明顯的衰減現象，但是在最后一層中會傾向于發生性能的大幅度下降，作者猜測這種變化源于LLM在其末端的信息處理重點的轉移——從前期的特征保持與注意力分配，轉向最終的語義生成任務，因此導致最終效果不盡人意。

在這里插入圖片描述

Fig 3. 對視覺語言模型中間層的可視化評估。通過在視覺連接器（灰色區域）和底座LLM（白色區域）逐層探測（Probing）視覺表征，我們發現這些層級普遍保留著任務關聯信息，且未出現明顯衰減跡象。

還有種可能是VLM對prompt比較敏感，因此作者采用Prompt Tuning [3] 的方式在原始prompt前面插入若干個可學習的前綴（共用詞表），然后在1000個VQA樣本上進行微調。結果如Fig 4所示，引入Prompt-tuning的確有些許效果提升，不過提升仍然有限，提升可學習前綴數量并不會帶來進一步的提升。

在這里插入圖片描述

Fig 4. 提示調優評估實驗。我們分別微調[1, 5, 10]個前綴嵌入向量，將結果與原始性能（x=0）及視覺評估上限（虛線）進行對比。實驗顯示：前綴嵌入數量在突破1-5個后，模型性能提升幅度顯著收窄，呈現邊際收益遞減現象。

鑒于已排除視覺語言模型（VLM）的視覺表征衰減和Prompt表述的敏感性對性能的制約，作者轉向探索LLM自身的作用機制。我們在每個視覺為中心的任務中選取5000個樣本，分別對VLM的三個組件——視覺編碼器（ViT）、視覺連接器（Proj）和底座LLM——進行獨立微調。實驗采用與評估框架相同的VQA數據格式，通過LoRA微調并嚴格控制可調權重矩陣，確保所有組件保持同等參數量級（16.7M參數量，等效于全視覺連接器微調的參數量）。如Fig 5所示，對比微調視覺編碼器和微調視覺連接器，微調底座LLM的提升最為明顯，但仍然對比視覺本身存在一定差距。

在這里插入圖片描述

Fig 5. 在各組件參數量嚴格對等的實驗設定下，針對特定任務微調LLM所產生的性能增益遠高于微調投影層或視覺編碼器。這些結果證實了LLM有效利用視覺表征的能力是制約視覺中心任務表現的核心瓶頸。

為了深入理解這一現象，作者分析了微調后DINO v2表征的注意力偏移變化。在對應任務中，微調加強了對多選題標簽、參考點及其他文本（尤見于LLM第4層）的關注度。不同于投影器或ViT微調（這些方法在任何注意力層或頭中均未穩定凸顯上述關鍵點），LLM微調顯著提升了模型在關鍵區域定位并利用視覺表征的能力。如Fig 6所示，通過可視化Object Affordance任務和Semantic Correspondence任務中微調底座LLM前后的注意力圖的變化，發現微調了LLM后能夠有效提高參考點和關注點之間的注意力強度。

在這里插入圖片描述

Fig 6. 通過可視化底座LLM微調前后的注意力分布差異，觀察到Semantic Correspondence任務中關注點（REF、A、B、C、D）的注意力強度顯著提升。這些關注點在注意力層4-6中表現最為明顯；此處分別可視化的是第4層在Object Affordance任務（左圖）與Semantic Correspondence任務（右圖）中的注意力分布。

綜合來看，作者認為底座LLM是以視覺為中心任務實現更高預測性能的瓶頸，其局限既源于對關鍵視覺區域的關注不足，也來自LLM對特定多選題答案的強先驗依賴。需要強調的是，本文并非主張通過直接任務訓練作為解決VLM視覺表征利用不足的通用方案；而是借助該方法定位VLM失效機制，并論證提升LLM視覺表征利用能力可有效突破語言先驗束縛，實現最優性能提升。

Reference

[1]. Fu, Stephanie, Tyler Bonnen, Devin Guillory, and Trevor Darrell. “Hidden in plain sight: VLMs overlook their visual representations.” arXiv preprint arXiv:2506.08008 (2025).

[2]. https://fesianxu.github.io/2024/07/06/20240706-visual-shortcome-mllm/ 《基于CLIP特征的多模態大模型中的視覺短板問題》

[3]. https://fesianxu.github.io/2023/09/28/prompt-tuning-20230928/, 《Prompt Tuning——一種高效的LLM模型下游任務適配方式》