基于CLIP特征的多模態大模型中的視覺短板問題

【論文極速讀】基于CLIP特征的多模態大模型中的視覺短板問題

FesianXu 20240706 at Tencent WeChat search team

前言

今天讀到篇CVPR 24’的論文 [1]，討論了常見的多模態大模型（大多都基于CLIP語義特征，以下簡稱為MLLM）中的視覺短板問題，筆者感覺挺有意思的就簡單筆記下，希望對讀者有所幫助。如有謬誤請見諒并聯系指出，本文遵守CC 4.0 BY-SA版權協議，轉載請聯系作者并注明出處，謝謝。

$\nabla$ 聯系方式：

e-mail: FesianXu@gmail.com
github: https://github.com/FesianXu
知乎專欄: 計算機視覺/計算機圖形理論與應用
微信公眾號：機器學習雜貨鋪3號店

請訪問github page以獲得最佳閱讀效果：
https://fesianxu.github.io/2024/07/06/20240706-visual-shortcome-mllm/

如今的大多數多模態大模型，其視覺輸入側采用的視覺編碼器，都是依照CLIP的訓練方式，采用大規模對比學習進行訓練的。在論文 [1] 中，作者發現CLIP特征具有某些視覺短板，從而導致基于此的MLLM也受到了影響。作者觀察到，在一些簡單直接（不需要復雜推理）的問題上，MLLM似乎并不能很好解決，如Fig 1所示，一些光從圖片中就能很容易判斷的問題，如頭的朝向、眼睛數量、車門的狀態等，強大的mllm反而不能很好地理解，經常會出現“睜眼說瞎話”的情況。這不禁讓人好奇，是因為視覺側沒有對圖片內容進行完備準確的描述（也就是“眼睛出問題了”）？還是作為底座的大語言模型沒有理解好視覺側提供的信息呢（也就是“大腦出問題了”）？本文就嘗試在探索這個問題。

fig_1_mllm_cases

Fig 1. 一些簡單直接的視覺問題，mllm并不能很好的解決，這不禁讓人好奇是為什么？“大腦”還是“眼睛”的問題？

作者認為是CLIP視覺特征的問題，也就是MLLM的“眼睛”有“視覺問題”，導致其“睜眼說瞎話”。考慮到在Fig 1中是一些明顯直接的視覺問題，作者假設CLIP在視覺問題上可能存在固有的缺陷，這個缺陷通過擴大模型規模和數據尺度可能都無法彌補。為了驗證這個觀點，作者想出了這樣一個招兒。

CLIP是弱監督模型，建模了圖片的語義信息，而描述圖片本身的視覺信息，則可以考慮視覺自監督模型（SSL），比如MAE、MoCo或者DINOv2等，如果一個圖片對 $I_i, I_j>$ ，其CLIP打分 $s_{CLIP}(I_i,I_j)$ 很小，但是其自監督模型打分 $s_{SSL}(I_i, I_j)$ 卻很大，如Fig 2 step 1所示，這意味著這個圖片對在語義上接近，但是視覺上卻有比較大的差異。注意到，通過CLIP訓練出來的語義，通常是比較偏向于實體的，如Fig 2.所示，兩張圖中如果都是出現同一個實例（instance），CLIP特征就可能沒有區分度。因此作者在ImageNet和LAION-Aesthetics 數據集中，采集了很多被稱之為CLIP-blind（筆者譯為，CLIP視盲）的圖片對，其采集規則為：
$s_{CLIP}(I_i, I_j) > 0.95 \ \& \ s_{DINOv2}(I_i, I_j) < 0.6 \tag{1}$
對于采集得到的CLIP視盲樣本，人工去確認其視覺差異的來源，并且給出一個選擇題，這個選擇題后續可以交給待評測的MLLM，從而評測不同MLLM的CLIP視盲程度。這里的選擇題，通常如Fig 2. step 2所示，就是讓MLLM去判斷這兩張圖片之間的細微視覺差別，如圖中動物頭的朝向等，都是可以直接從圖片中獲取的視覺信息，不需要模型進行復雜推理。待評測的MLLM只有在CLIP視盲樣本對中，對兩張圖片的結果都正確了，才能算為是對這個case的一個有效解。最終作者收集了150個CLIP視盲樣本對，并且提供了300個選擇題，作者將這個測試集稱之為MMVP（Multimodal Visual Patterns）基準。

fig_2_mmvp_dataset

Fig 2. 采集MMVP數據集，用于驗證CLIP是否在基礎視覺問題上存在缺陷。

作者首先去評估了MMVP基準的可靠性，考慮先拿市面上可用的MLLM（都是采用的CLIP視覺編碼）在這個基準上進行測試。同時，作者請評估者對這300個選擇題進行了標注，發現人工的準確率是95.7%，這是一個很高的基線，也說明了MMVP中的視覺問題的確是一些基礎的視覺問題。然而，作者發現大部分模型的結果甚至還不如隨機猜測（25%），即便是表現最好的Gemini（40.7%），也和人工表現差了一大坨。

在這里插入圖片描述

Fig 3. 拿市面上可用的MLLM在MMVP基準上進行測試，發現大部分MLLM的準度甚至不如隨機猜測的結果。

看起來，MLLM確實在這些簡單的視覺問題上無能為力，究竟這些視覺問題有什么樣本的固有模式能困倒“萬能”的大模型呢？作者將MMVP樣本交給GPT-4v進行判斷其帶有的視覺模式，發現了如Fig 4.所示的9種視覺模式。上面的試驗說明了MLLM在這些視覺模式上存在固有缺陷，但是這個問題是否是從CLIP帶來的呢？這個問題仍未得到解答。

fig_4_visual_pattern

Fig 4. 采用GPT4v，對mmvp基準數據中的視覺模式進行挖掘。

作者采用不同規模的類CLIP模型，將MMVP基準（每個樣本都進行了視覺模式的歸屬）的圖片對和其文本進行匹配，如Fig 5所示，只有完全能匹配上的CLIP視盲對樣本才認為是有效的一次驗證。從結果上看，不難發現在大多數的視覺模式下，增大CLIP的模型規模和圖片分辨率都沒有幫助，并且ImageNet-1k ZeroShot上的指標和MMVP指標并沒有太大相關性。這意味著

當前CLIP在這些視覺問題上準確率很低，MMVP平均值最高的都不超過40%。
即便增加CLIP的模型規模，數據規模，圖片分辨率等，都無法有本質上的提升。

這意味著，CLIP特征在這些視覺問題上是存在固有缺陷的。

fig_5_vit_scaling_for_vp

Fig 5. 采用不同的類CLIP模型對MMVP中的CLIP視盲對樣本進行文本-圖片的匹配，統計在不同視覺模式問題上的準度。

當然了，CLIP存在固有缺陷，并不代表著其結合LLM后就表現一定糟糕（因為LLM可能會彌補CLIP的缺陷），是否能找到這兩者的相關性呢？如Fig 6.所示，CLIP在不同視覺模式下的表現曲線，和MLLM的性能曲線變化是相當一致的。據作者統計，LLava和InstructBLIP和CLIP特征的性能表現之間的相關系數超過了0.7，這意味著存在著很大的相關性。當然，在文本問題上，GPT4和Gemini的表現存在異常的高，筆者不負責任地猜測是因為商業LLM，系統繼承了某些OCR能力。

fig_6_vit_emb_llm_perf

Fig 6. CLIP特征的表現和集成了CLIP的MLLM的表現，在各個視覺模式問題下具有相似的性能趨勢，間接地說明了CLIP特征就是導致MLLM在這些視覺模式下出現缺陷的主要原因。

那么怎么解決這個問題呢？一種合理的想法是，既然CLIP特征存在缺陷，那么我們就在MLLM中引入另外的視覺特征唄，考慮到這些CLIP視盲樣本是采用DINOv2特征采集的，那么我們將引入DINOv2特征就好咯，這個想法稱之為特征混合（Mixture of Feature，MoF）。也就是說，MLLM的視覺側特征，應該同時具有語義能力和視覺自身的能力。作者基于這個想法，進行了兩種模型設計，如Fig 7所示，分別是加性的特征混合、交織的特征混合。

作者發現加性的特征混合方法，的確能大幅度提升MMVP指標（5.5 -> 18.7, +13.2），但是其指令跟隨能力也會極度地下降（81.8 -> 75.8, -6.0），要犧牲指令跟隨能力還是不舍得的。作者又繼續嘗試了基于拼接的方法，不過作者不是將兩個特征直接相拼，而是將其中的視覺特征交織地拼接。筆者猜測，是因為CLIP編碼器和DINO編碼器都是采用的Visual Transformer模型，因此對圖片進行了分塊，將語義特征和視覺特征相鄰拼接在一起，其存在“彼此之間的能力增強”，不過這是筆者腦補的哈哈哈嗝。不管怎么說，這樣搞了后，在不犧牲指令跟隨能力的情況下（81.8->82.8, +1.0），還能得到MMVP能力的提升哦（5.5 -> 16.7, +10.7）。

fig_7_mof

Fig 7. 兩種不同的MoF模型，加性和交織。

筆者看完后呢，還是比較認同這篇論文的結論的。不同的是，筆者之前雖然不是大模型的應用場景，而主要是站在視頻搜索業務落地多模態能力過程中的經驗去看待這個工作。如博文 [4] 所說的，筆者在規劃多模態基礎算子能力的時候，就認為CLIP語義特征雖然很強大，但是描述的問題大多是基于語義的，在一些需要考慮視頻本身視覺結構問題上（如質量、后驗應用），應該基于自監督的方法進行建模。這篇文章算是提供了一個很不錯的參考，嘿嘿嘿。

Reference

[1]. Tong, Shengbang, Zhuang Liu, Yuexiang Zhai, Yi Ma, Yann LeCun, and Saining Xie. “Eyes wide shut? exploring the visual shortcomings of multimodal llms.” In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 9568-9578. 2024.

[2]. Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In ICML, 2021. aka CLIP

[3]. Maxime Oquab, Timothee Darcet, Theo Moutakanni, Huy Vo, Marc Szafraniec, Vasil Khalidov, Pierre Fernandez, Daniel Haziza, Francisco Massa, Alaaeldin El-Nouby, et al. DINOv2: Learning robust visual features without supervision. arXiv preprint arXiv:2304.07193, 2023 aka DINO v2

[4]. https://fesianxu.github.io/2024/06/30/video-retrieval-multimodal-20240630/, 《萬字淺析視頻搜索系統中的多模態能力建設》