前言
這兩天看到一篇新掛在arxiv上的文章 [1],討論了下視覺大語言模型的視覺表征退化問題。先前的研究將VLM缺陷歸咎于視覺編碼器薄弱,并提出集成編碼器方案以彌補不足,本文認為可能是底座LLM不能充分利用視覺編碼器的特征,筆者覺得挺有意思的,就在此筆記,希望對讀者有所幫助。如有謬誤請見諒并聯系指出,本文遵守CC 4.0 BY-SA版權協議,轉載請聯系作者并注明出處,謝謝。
- 關鍵詞:VLM、以視覺為中心任務、視覺表征退化
? \nabla ? 聯系方式:
- e-mail: FesianXu@gmail.com
- github: https://github.com/FesianXu
- 知乎專欄: 計算機視覺/計算機圖形理論與應用
- 微信公眾號:機器學習雜貨鋪3號店
視覺語言大模型(Visual Language Model, VLM)通常由三部分組成:
- 視覺編碼器,可以是CLIP、SigLIP、DINO等,采用的結構可以是ViT,也可以是傳統的CNN,不過現在主流都是ViT結構,本文指的視覺編碼器也是ViT的產出。
- 視覺連接器(Projector),通常是簡單的MLP結構,或者Q-Former、Resampler、D-abstractor等復雜結構。
- 底座LLM,如LLama、Qwen、baichuan等。
之前筆者在博文 [2] 中也曾介紹過一篇對VLM中的視覺短板問題的研究,其最終結論是單純基于CLIP的視覺特征,在視覺問題上可能存在固有的缺陷,這個缺陷通過擴大模型規模和數據尺度可能都無法彌補,因此最終提議結合采用CLIP和DINO v2一起交織作為視覺表征供給VLM。然而,最近有研究文章 [1] 表示當前的VLM并不能充分利用視覺編碼器的表征,導致在一些視覺為中心的任務中表現接近隨機。以視覺為中心的任務,是計算機視覺領域中的一類任務,其核心在于理解與解讀來自圖像和視頻的視覺信息。這類任務通常通過分析視覺內容實現特定功能:提取關鍵特征、識別目標對象,或基于視覺感知執行其他相關操作,通常不依賴語言級別的知識及其領域知識等。具體來說,比如語義相關點匹配(Semantic Correspondence)、低級特征匹配(Low-level Matching)、深度估計(Depth Estimation)、3D物體感知(3D Object Awareness)等都屬于視覺為中心的任務。
作者的評估策略是,挑選出主流的4種視覺編碼器,包括只在ImageNet 1K上進行監督訓練得到的IN-1k
,只采用視覺自監督訓練得到的DINO v2
,采用圖文跨模態訓練得到的SigLIP
和CLIP
。然后挑選Vicuna v1.5作為LLM底座,在固定住視覺編碼器和底座LLM的情況下,采用LLaVA v1.5的數據微調視覺連接器。
從Fig 1.中,我們發現在一些視覺為中心的任務中,在主流的多種視覺特征下,標準的視覺評估策略(只采用視覺特征)的效果往往遠比轉向VLM評估策略后效果好,后者則基本上是隨機猜測的水平。
以上實驗采用的視覺編碼器的參數是固定的,沒有進行微調,作者同樣拿開源的VLM進行了對比(開源的VLM中對視覺編碼器也進行了端到端的訓練),如Fig 2.所示,同樣發現了類似的現象。此外,從Fig 1和Fig 2中我們還發現,在標準視覺評估策略中表現最好的視覺特征,在VLM下可能并不是最優的,以Fig 1的Low-Level Matching為例,在Visual下的性能序為DINO v2 > IN-1k > SigLIP > CLIP
,而在VLM中的性能序為IN-1k > SigLIP > CLIP ≈ DINO v2
。
以上的實驗證明當前的VLM并沒有充分利用視覺信息(起碼是在視覺為中心的這些任務中),這結論和之前的一些研究 [2] 并不相似。一種可能的解釋是,這來自于視覺特征的退化,特別是當視覺特征經過視覺連接器或者LLM后可能會丟棄一些任務相關的視覺信息。因此考慮將VLM的逐層進行探針(probe),統計下游任務的效果,從Fig 3來看,視覺信息在逐層中并沒有發生明顯的衰減現象,但是在最后一層中會傾向于發生性能的大幅度下降,作者猜測這種變化源于LLM在其末端的信息處理重點的轉移——從前期的特征保持與注意力分配,轉向最終的語義生成任務,因此導致最終效果不盡人意。
還有種可能是VLM對prompt比較敏感,因此作者采用Prompt Tuning [3] 的方式在原始prompt前面插入若干個可學習的前綴(共用詞表),然后在1000個VQA樣本上進行微調。結果如Fig 4所示,引入Prompt-tuning的確有些許效果提升,不過提升仍然有限,提升可學習前綴數量并不會帶來進一步的提升。
鑒于已排除視覺語言模型(VLM)的視覺表征衰減和Prompt表述的敏感性對性能的制約,作者轉向探索LLM自身的作用機制。我們在每個視覺為中心的任務中選取5000個樣本,分別對VLM的三個組件——視覺編碼器(ViT)、視覺連接器(Proj)和底座LLM——進行獨立微調。實驗采用與評估框架相同的VQA數據格式,通過LoRA微調并嚴格控制可調權重矩陣,確保所有組件保持同等參數量級(16.7M參數量,等效于全視覺連接器微調的參數量)。如Fig 5所示,對比微調視覺編碼器和微調視覺連接器,微調底座LLM的提升最為明顯,但仍然對比視覺本身存在一定差距。
為了深入理解這一現象,作者分析了微調后DINO v2表征的注意力偏移變化。在對應任務中,微調加強了對多選題標簽、參考點及其他文本(尤見于LLM第4層)的關注度。不同于投影器或ViT微調(這些方法在任何注意力層或頭中均未穩定凸顯上述關鍵點),LLM微調顯著提升了模型在關鍵區域定位并利用視覺表征的能力。如Fig 6所示,通過可視化Object Affordance任務和Semantic Correspondence任務中微調底座LLM前后的注意力圖的變化,發現微調了LLM后能夠有效提高參考點和關注點之間的注意力強度。
綜合來看,作者認為底座LLM是以視覺為中心任務實現更高預測性能的瓶頸,其局限既源于對關鍵視覺區域的關注不足,也來自LLM對特定多選題答案的強先驗依賴。需要強調的是,本文并非主張通過直接任務訓練作為解決VLM視覺表征利用不足的通用方案;而是借助該方法定位VLM失效機制,并論證提升LLM視覺表征利用能力可有效突破語言先驗束縛,實現最優性能提升。
Reference
[1]. Fu, Stephanie, Tyler Bonnen, Devin Guillory, and Trevor Darrell. “Hidden in plain sight: VLMs overlook their visual representations.” arXiv preprint arXiv:2506.08008 (2025).
[2]. https://fesianxu.github.io/2024/07/06/20240706-visual-shortcome-mllm/ 《基于CLIP特征的多模態大模型中的視覺短板問題》
[3]. https://fesianxu.github.io/2023/09/28/prompt-tuning-20230928/, 《Prompt Tuning——一種高效的LLM模型下游任務適配方式》