視覺語言模型的“視而不見“

這項研究發現，號稱能“看圖說話”的視覺語言模型（VLMs），在處理需要真正“看”懂圖片的純視覺任務（如判斷深度、找對應點、認物體材質等）時，表現遠不如它們自己內部的“眼睛”（視覺編碼器），甚至接近瞎猜的水平！問題不在于“眼睛”不好，而在于負責“說話”的語言模型（LLM）不會好好用“眼睛”看到的信息，還總帶著自己的語言偏見。

研究背景：VLMs 是什么？
- 一個AI有一只厲害的“眼睛”（視覺編碼器，如 DINOv2, CLIP），負責看懂圖片；還有一個“大腦”（大型語言模型 LLM），負責理解語言和生成文字。
- 視覺語言模型（VLMs） 就是把這兩者結合起來，目標是讓AI既能看懂圖又能理解文字描述，并能回答關于圖片的問題（比如“圖片里有什么？”，“狗在追什么？”）。
- 大家都以為這種結合很完美：視覺編碼器提供視覺信息，LLM 負責理解和表達。
驚人發現：VLMs “視而不見”
- 研究人員想測試VLMs的“視力”到底有多好，測試的不是常識問答，而是純視覺任務：
  - 深度估計： 圖片里哪個地方離我們近，哪個地方遠？
  - 對應關系： 兩張相似圖片里，同一個點在另一張圖的哪里？（比如左右眼看到的同一個點）
  - 物體屬性： 物體表面是光滑的還是粗糙的（紋理）？物體是方的還是圓的（形狀）？
  - 藝術風格： 這張畫是什么風格的？
- 測試方法對比：
  - 方法A (直接問“眼睛”)： 繞過LLM，直接用技術手段“讀取”視覺編碼器內部對圖片的表示（特征），然后用簡單的分類器判斷任務結果。這代表了視覺編碼器本身的能力上限。
  - 方法B (問整個VLM)： 像正常用戶一樣，用文字提問VLM（例如：“圖片A的點X在圖片B的對應點是A, B, C, D中的哪一個？”），讓它輸出文字答案。
- 震撼結果：
  - 視覺編碼器（“眼睛”）自己看時表現超棒！ 在深度估計等任務上準確率接近90%（遠超隨機猜測）。
  - 一旦讓整個VLM（“眼睛”+“大腦”）來回答，表現暴跌！ 很多任務上準確率掉到接近隨機瞎猜（比如25%或33%，取決于選項數），甚至比瞎猜還差（因為有偏見）。
  - 下降幅度巨大： 從“眼睛”的優異表現到VLM的糟糕表現，差距非常顯著。最強“眼睛”DINOv2 搭配的VLM，表現反而不如一些較弱的“眼睛”搭配的VLM。
- 結論： VLMs在處理這些需要精確視覺理解的任務時，嚴重浪費了視覺編碼器提供的高質量信息，表現得像“視而不見”。
刨根問底：為什么“視而不見”？問題出在哪？
研究人員做了大量分析，排除了幾種可能，鎖定了核心原因：
- 原因1：視覺信息在傳遞中丟失/損壞了？（被排除）
  - 檢查點： 他們檢查了信息從“眼睛”（視覺編碼器）出來后，經過連接器（投影層）到“大腦”（LLM）的每一站。
  - 發現： 視覺信息在投影層和LLM的早期層依然保持得很好！用方法A去“讀”這些中間層的表示，依然能很好解決視覺任務。
  - 結論： 問題不是視覺信息在傳遞過程中被破壞或丟失了。信息還在，LLM能接觸到。
- 原因2：問題問得不對？（部分影響，非主因）
  - 測試： 嘗試微調提問方式（提示調整），在問題前面加幾個可學習的“提示詞”嵌入，希望能引導VLM更好地理解任務。
  - 發現： 微調提示詞能帶來一點點提升，但效果非常有限，離視覺編碼器本身的水平差得遠。換不同問法（提示工程）也難以顯著改善。
  - 結論： 提示方式有影響，但不是性能暴跌的核心瓶頸。
- 核心原因：LLM 不會用/不想用“眼睛”看，還自帶“語言偏見”
  - “不會用/不想用”：
    - 分析發現，即使高質量視覺信息就在LLM面前，LLM沒有有效地利用這些信息來完成純視覺任務。
    - 關鍵實驗： 在少量數據上微調VLM的不同部分：
      - 微調“眼睛”（ViT）或連接器（投影層） -> 效果提升很小。
      - 微調“大腦”（LLM） -> 效果提升巨大！
    - 這說明，LLM本身是瓶頸。它沒學會如何根據視覺信息精準回答這類視覺問題。
  - “自帶偏見”：
    - “盲測”實驗： 不給VLM看任何圖片（輸入空白圖），只讓它回答選擇題。
    - 發現： 這種情況下VLM的答案分布（偏向選某些選項），和有圖片時VLM給出的答案分布高度相似！
    - 這證明，VLMs在回答這類問題時，很大程度上忽略了圖片內容，而是依賴于LLM內部固有的語言偏好和偏見（比如更傾向于選某個順眼的選項）。
  - 注意力機制佐證： 微調LLM后，LLM在決策時更關注圖片中與問題相關的關鍵區域（如需要找對應的點）。微調前，它的注意力是分散或不相關的。
重要澄清：不是“眼睛”的錯！
- 過去一些研究認為VLMs視覺能力弱是因為視覺編碼器不夠好（比如CLIP不如DINOv2看空間關系準），并建議用更強的編碼器或融合多個編碼器。
- 這項研究顛覆了這種看法：
  - 最強的視覺編碼器（DINOv2）在獨立測試中表現最好。
  - 但把它放進VLM后，搭配LLM的整體表現反而下降得最多，導致在VLM排名中不再是第一。
  - 這說明，視覺編碼器本身能力很強，問題出在LLM如何利用它。單純升級“眼睛”不能根本解決VLM“視而不見”的問題。
研究的啟示與影響：
- 對VLMs能力的重新認識： VLMs在需要語言知識或常識的任務上可能很出色，但在需要精確實時視覺感知的任務上表現可能極差。不能簡單認為VLMs繼承了視覺編碼器的所有視覺能力。
- 診斷VLM問題的新視角： 當VLM表現不佳時，不能只歸咎于視覺部分。要重點檢查LLM是否有效利用了視覺信息，以及是否存在語言偏見。
- 未來改進方向：
  - 提升LLM的視覺理解能力： 如何讓LLM更好地“看懂”并利用視覺信息是關鍵（微調LLM有效）。可能需要設計新的架構或訓練方法，讓LLM學會真正依賴視覺輸入來做視覺判斷。
  - 緩解語言偏見： 需要機制讓LLM在視覺任務中抑制其固有的語言偏好，強制其基于圖像作答。
  - 謹慎評估視覺能力： 評估視覺編碼器時，避免依賴VLM問答作為指標（結果不可靠且有誤導性）。應使用更直接的視覺評估方法。
- 對VLM應用的警示： 在涉及精確視覺感知的應用場景（如機器人視覺引導、醫學影像初步分析、工業質檢等），直接使用現成的VLMs（如 LLaVA, Qwen-VL）進行視覺問答可能不可靠。需要針對性優化或考慮替代方案。

這項研究揭示了一個VLMs的“阿喀琉斯之踵”：它們的語言大腦（LLM）在處理純視覺任務時，既不善于利用高質量的眼睛（視覺編碼器）看到的信息，又深受自身語言偏見的影響，導致在需要真正“看”圖的場景下表現糟糕，遠不如單獨測試“眼睛”的能力。問題的核心在于LLM與視覺信息的整合方式，而非視覺編碼器本身。 這項研究為理解和改進VLMs的視覺能力提供了關鍵診斷和方向。

https://mp.weixin.qq.com/s/ghexA89mk7KLdO0UEGOB2w
https://www.arxiv.org/abs/2506.08008

“阿喀琉斯之踵”（Achilles’ Heel）是一個源自希臘神話的著名典故，用來比喻一個看似強大的人或事物身上存在致命的弱點或缺陷。

故事背景（神話來源）

阿喀琉斯是誰？
他是希臘神話中半人半神的英雄，海洋女神忒提斯（Thetis）與凡人國王珀琉斯（Peleus）的兒子。他英勇善戰，參與了特洛伊戰爭，是希臘聯軍中最強大的戰士。
“踵”為什么是弱點？
阿喀琉斯出生時，母親忒提斯握著他的腳踵將他浸入冥河（Styx）的圣水中，使他全身刀槍不入。唯獨被手握住的腳踵沒有沾到圣水，成了他唯一的致命弱點。
? 特洛伊戰爭中，阿喀琉斯所向無敵，但最終被敵人帕里斯（Paris）一箭射中腳踵而死。

如今，“阿喀琉斯之踵”被廣泛用于描述：