這項研究發現,號稱能“看圖說話”的視覺語言模型(VLMs),在處理需要真正“看”懂圖片的純視覺任務(如判斷深度、找對應點、認物體材質等)時,表現遠不如它們自己內部的“眼睛”(視覺編碼器),甚至接近瞎猜的水平!問題不在于“眼睛”不好,而在于負責“說話”的語言模型(LLM)不會好好用“眼睛”看到的信息,還總帶著自己的語言偏見。
-
研究背景:VLMs 是什么?
- 一個AI有一只厲害的“眼睛”(視覺編碼器,如 DINOv2, CLIP),負責看懂圖片;還有一個“大腦”(大型語言模型 LLM),負責理解語言和生成文字。
- 視覺語言模型(VLMs) 就是把這兩者結合起來,目標是讓AI既能看懂圖又能理解文字描述,并能回答關于圖片的問題(比如“圖片里有什么?”,“狗在追什么?”)。
- 大家都以為這種結合很完美:視覺編碼器提供視覺信息,LLM 負責理解和表達。
-
驚人發現:VLMs “視而不見”
- 研究人員想測試VLMs的“視力”到底有多好,測試的不是常識問答,而是純視覺任務:
- 深度估計: 圖片里哪個地方離我們近,哪個地方遠?
- 對應關系: 兩張相似圖片里,同一個點在另一張圖的哪里?(比如左右眼看到的同一個點)
- 物體屬性: 物體表面是光滑的還是粗糙的(紋理)?物體是方的還是圓的(形狀)?
- 藝術風格: 這張畫是什么風格的?
- 測試方法對比:
- 方法A (直接問“眼睛”): 繞過LLM,直接用技術手段“讀取”視覺編碼器內部對圖片的表示(特征),然后用簡單的分類器判斷任務結果。這代表了視覺編碼器本身的能力上限。
- 方法B (問整個VLM): 像正常用戶一樣,用文字提問VLM(例如:“圖片A的點X在圖片B的對應點是A, B, C, D中的哪一個?”),讓它輸出文字答案。
- 震撼結果:
- 視覺編碼器(“眼睛”)自己看時表現超棒! 在深度估計等任務上準確率接近90%(遠超隨機猜測)。
- 一旦讓整個VLM(“眼睛”+“大腦”)來回答,表現暴跌! 很多任務上準確率掉到接近隨機瞎猜(比如25%或33%,取決于選項數),甚至比瞎猜還差(因為有偏見)。
- 下降幅度巨大: 從“眼睛”的優異表現到VLM的糟糕表現,差距非常顯著。最強“眼睛”DINOv2 搭配的VLM,表現反而不如一些較弱的“眼睛”搭配的VLM。
- 結論: VLMs在處理這些需要精確視覺理解的任務時,嚴重浪費了視覺編碼器提供的高質量信息,表現得像“視而不見”。
- 研究人員想測試VLMs的“視力”到底有多好,測試的不是常識問答,而是純視覺任務:
-
刨根問底:為什么“視而不見”?問題出在哪?
研究人員做了大量分析,排除了幾種可能,鎖定了核心原因:- 原因1:視覺信息在傳遞中丟失/損壞了?(被排除)
- 檢查點: 他們檢查了信息從“眼睛”(視覺編碼器)出來后,經過連接器(投影層)到“大腦”(LLM)的每一站。
- 發現: 視覺信息在投影層和LLM的早期層依然保持得很好!用方法A去“讀”這些中間層的表示,依然能很好解決視覺任務。
- 結論: 問題不是視覺信息在傳遞過程中被破壞或丟失了。信息還在,LLM能接觸到。
- 原因2:問題問得不對?(部分影響,非主因)
- 測試: 嘗試微調提問方式(提示調整),在問題前面加幾個可學習的“提示詞”嵌入,希望能引導VLM更好地理解任務。
- 發現: 微調提示詞能帶來一點點提升,但效果非常有限,離視覺編碼器本身的水平差得遠。換不同問法(提示工程)也難以顯著改善。
- 結論: 提示方式有影響,但不是性能暴跌的核心瓶頸。
- 核心原因:LLM 不會用/不想用“眼睛”看,還自帶“語言偏見”
- “不會用/不想用”:
- 分析發現,即使高質量視覺信息就在LLM面前,LLM沒有有效地利用這些信息來完成純視覺任務。
- 關鍵實驗: 在少量數據上微調VLM的不同部分:
- 微調“眼睛”(ViT)或連接器(投影層) -> 效果提升很小。
- 微調“大腦”(LLM) -> 效果提升巨大!
- 這說明,LLM本身是瓶頸。它沒學會如何根據視覺信息精準回答這類視覺問題。
- “自帶偏見”:
- “盲測”實驗: 不給VLM看任何圖片(輸入空白圖),只讓它回答選擇題。
- 發現: 這種情況下VLM的答案分布(偏向選某些選項),和有圖片時VLM給出的答案分布高度相似!
- 這證明,VLMs在回答這類問題時,很大程度上忽略了圖片內容,而是依賴于LLM內部固有的語言偏好和偏見(比如更傾向于選某個順眼的選項)。
- 注意力機制佐證: 微調LLM后,LLM在決策時更關注圖片中與問題相關的關鍵區域(如需要找對應的點)。微調前,它的注意力是分散或不相關的。
- “不會用/不想用”:
- 原因1:視覺信息在傳遞中丟失/損壞了?(被排除)
-
重要澄清:不是“眼睛”的錯!
- 過去一些研究認為VLMs視覺能力弱是因為視覺編碼器不夠好(比如CLIP不如DINOv2看空間關系準),并建議用更強的編碼器或融合多個編碼器。
- 這項研究顛覆了這種看法:
- 最強的視覺編碼器(DINOv2)在獨立測試中表現最好。
- 但把它放進VLM后,搭配LLM的整體表現反而下降得最多,導致在VLM排名中不再是第一。
- 這說明,視覺編碼器本身能力很強,問題出在LLM如何利用它。單純升級“眼睛”不能根本解決VLM“視而不見”的問題。
-
研究的啟示與影響:
- 對VLMs能力的重新認識: VLMs在需要語言知識或常識的任務上可能很出色,但在需要精確實時視覺感知的任務上表現可能極差。不能簡單認為VLMs繼承了視覺編碼器的所有視覺能力。
- 診斷VLM問題的新視角: 當VLM表現不佳時,不能只歸咎于視覺部分。要重點檢查LLM是否有效利用了視覺信息,以及是否存在語言偏見。
- 未來改進方向:
- 提升LLM的視覺理解能力: 如何讓LLM更好地“看懂”并利用視覺信息是關鍵(微調LLM有效)。可能需要設計新的架構或訓練方法,讓LLM學會真正依賴視覺輸入來做視覺判斷。
- 緩解語言偏見: 需要機制讓LLM在視覺任務中抑制其固有的語言偏好,強制其基于圖像作答。
- 謹慎評估視覺能力: 評估視覺編碼器時,避免依賴VLM問答作為指標(結果不可靠且有誤導性)。應使用更直接的視覺評估方法。
- 對VLM應用的警示: 在涉及精確視覺感知的應用場景(如機器人視覺引導、醫學影像初步分析、工業質檢等),直接使用現成的VLMs(如 LLaVA, Qwen-VL)進行視覺問答可能不可靠。需要針對性優化或考慮替代方案。
這項研究揭示了一個VLMs的“阿喀琉斯之踵”:它們的語言大腦(LLM)在處理純視覺任務時,既不善于利用高質量的眼睛(視覺編碼器)看到的信息,又深受自身語言偏見的影響,導致在需要真正“看”圖的場景下表現糟糕,遠不如單獨測試“眼睛”的能力。問題的核心在于LLM與視覺信息的整合方式,而非視覺編碼器本身。 這項研究為理解和改進VLMs的視覺能力提供了關鍵診斷和方向。
https://mp.weixin.qq.com/s/ghexA89mk7KLdO0UEGOB2w
https://www.arxiv.org/abs/2506.08008
“阿喀琉斯之踵”(Achilles’ Heel)是一個源自希臘神話的著名典故,用來比喻一個看似強大的人或事物身上存在致命的弱點或缺陷。
故事背景(神話來源)
-
阿喀琉斯是誰?
他是希臘神話中半人半神的英雄,海洋女神忒提斯(Thetis)與凡人國王珀琉斯(Peleus)的兒子。他英勇善戰,參與了特洛伊戰爭,是希臘聯軍中最強大的戰士。 -
“踵”為什么是弱點?
阿喀琉斯出生時,母親忒提斯握著他的腳踵將他浸入冥河(Styx)的圣水中,使他全身刀槍不入。唯獨被手握住的腳踵沒有沾到圣水,成了他唯一的致命弱點。
? 特洛伊戰爭中,阿喀琉斯所向無敵,但最終被敵人帕里斯(Paris)一箭射中腳踵而死。
如今,“阿喀琉斯之踵”被廣泛用于描述:
- 強大個體/系統的隱蔽缺陷
(例如:某科技公司市場占有率極高,但過度依賴單一供應商是其“阿喀琉斯之踵”) - 無法克服的關鍵短板
(例如:一名運動員身體素質頂尖,但心理抗壓能力是“阿喀琉斯之踵”)
用“阿喀琉斯之踵”形容視覺語言模型(VLMs)的缺陷:
- 強大之處:VLMs融合了頂尖的視覺編碼器(“眼睛”)和語言模型(“大腦”),整體能力強勁。
- 致命弱點:語言模型(LLM)無法有效利用視覺信息,反而依賴語言偏見,導致在純視覺任務中表現崩塌——如同阿喀琉斯被一支射中腳踵的箭摧毀。
環保組織指出:“快速工業化是發展中國家的經濟引擎,但污染治理的缺失正成為其阿喀琉斯之踵。” (比喻:工業化雖強,但環境問題是致命短板)
“阿喀琉斯之踵” = “再強大的存在,也可能因一個微小缺陷而崩潰”。這個比喻生動提醒我們:優勢中可能潛藏危機,完美背后或有致命軟肋。