視覺語言模型的“視而不見“

這項研究發現,號稱能“看圖說話”的視覺語言模型(VLMs),在處理需要真正“看”懂圖片的純視覺任務(如判斷深度、找對應點、認物體材質等)時,表現遠不如它們自己內部的“眼睛”(視覺編碼器),甚至接近瞎猜的水平!問題不在于“眼睛”不好,而在于負責“說話”的語言模型(LLM)不會好好用“眼睛”看到的信息,還總帶著自己的語言偏見。


  1. 研究背景:VLMs 是什么?

    • 一個AI有一只厲害的“眼睛”(視覺編碼器,如 DINOv2, CLIP),負責看懂圖片;還有一個“大腦”(大型語言模型 LLM),負責理解語言和生成文字。
    • 視覺語言模型(VLMs) 就是把這兩者結合起來,目標是讓AI既能看懂圖又能理解文字描述,并能回答關于圖片的問題(比如“圖片里有什么?”,“狗在追什么?”)。
    • 大家都以為這種結合很完美:視覺編碼器提供視覺信息,LLM 負責理解和表達。
  2. 驚人發現:VLMs “視而不見”

    • 研究人員想測試VLMs的“視力”到底有多好,測試的不是常識問答,而是純視覺任務
      • 深度估計: 圖片里哪個地方離我們近,哪個地方遠?
      • 對應關系: 兩張相似圖片里,同一個點在另一張圖的哪里?(比如左右眼看到的同一個點)
      • 物體屬性: 物體表面是光滑的還是粗糙的(紋理)?物體是方的還是圓的(形狀)?
      • 藝術風格: 這張畫是什么風格的?
    • 測試方法對比:
      • 方法A (直接問“眼睛”): 繞過LLM,直接用技術手段“讀取”視覺編碼器內部對圖片的表示(特征),然后用簡單的分類器判斷任務結果。這代表了視覺編碼器本身的能力上限
      • 方法B (問整個VLM): 像正常用戶一樣,用文字提問VLM(例如:“圖片A的點X在圖片B的對應點是A, B, C, D中的哪一個?”),讓它輸出文字答案。
    • 震撼結果:
      • 視覺編碼器(“眼睛”)自己看時表現超棒! 在深度估計等任務上準確率接近90%(遠超隨機猜測)。
      • 一旦讓整個VLM(“眼睛”+“大腦”)來回答,表現暴跌! 很多任務上準確率掉到接近隨機瞎猜(比如25%或33%,取決于選項數),甚至比瞎猜還差(因為有偏見)。
      • 下降幅度巨大: 從“眼睛”的優異表現到VLM的糟糕表現,差距非常顯著。最強“眼睛”DINOv2 搭配的VLM,表現反而不如一些較弱的“眼睛”搭配的VLM。
    • 結論: VLMs在處理這些需要精確視覺理解的任務時,嚴重浪費了視覺編碼器提供的高質量信息,表現得像“視而不見”。
  3. 刨根問底:為什么“視而不見”?問題出在哪?
    研究人員做了大量分析,排除了幾種可能,鎖定了核心原因:

    • 原因1:視覺信息在傳遞中丟失/損壞了?(被排除)
      • 檢查點: 他們檢查了信息從“眼睛”(視覺編碼器)出來后,經過連接器(投影層)到“大腦”(LLM)的每一站。
      • 發現: 視覺信息在投影層和LLM的早期層依然保持得很好!用方法A去“讀”這些中間層的表示,依然能很好解決視覺任務。
      • 結論: 問題不是視覺信息在傳遞過程中被破壞或丟失了。信息還在,LLM能接觸到。
    • 原因2:問題問得不對?(部分影響,非主因)
      • 測試: 嘗試微調提問方式(提示調整),在問題前面加幾個可學習的“提示詞”嵌入,希望能引導VLM更好地理解任務。
      • 發現: 微調提示詞能帶來一點點提升,但效果非常有限,離視覺編碼器本身的水平差得遠。換不同問法(提示工程)也難以顯著改善。
      • 結論: 提示方式有影響,但不是性能暴跌的核心瓶頸
    • 核心原因:LLM 不會用/不想用“眼睛”看,還自帶“語言偏見”
      • “不會用/不想用”:
        • 分析發現,即使高質量視覺信息就在LLM面前,LLM沒有有效地利用這些信息來完成純視覺任務。
        • 關鍵實驗: 在少量數據上微調VLM的不同部分:
          • 微調“眼睛”(ViT)或連接器(投影層) -> 效果提升很小。
          • 微調“大腦”(LLM) -> 效果提升巨大!
        • 這說明,LLM本身是瓶頸。它沒學會如何根據視覺信息精準回答這類視覺問題。
      • “自帶偏見”:
        • “盲測”實驗: 不給VLM看任何圖片(輸入空白圖),只讓它回答選擇題。
        • 發現: 這種情況下VLM的答案分布(偏向選某些選項),和有圖片時VLM給出的答案分布高度相似
        • 這證明,VLMs在回答這類問題時,很大程度上忽略了圖片內容,而是依賴于LLM內部固有的語言偏好和偏見(比如更傾向于選某個順眼的選項)。
      • 注意力機制佐證: 微調LLM后,LLM在決策時更關注圖片中與問題相關的關鍵區域(如需要找對應的點)。微調前,它的注意力是分散或不相關的。
  4. 重要澄清:不是“眼睛”的錯!

    • 過去一些研究認為VLMs視覺能力弱是因為視覺編碼器不夠好(比如CLIP不如DINOv2看空間關系準),并建議用更強的編碼器或融合多個編碼器。
    • 這項研究顛覆了這種看法:
      • 最強的視覺編碼器(DINOv2)在獨立測試中表現最好。
      • 但把它放進VLM后,搭配LLM的整體表現反而下降得最多,導致在VLM排名中不再是第一。
      • 這說明,視覺編碼器本身能力很強,問題出在LLM如何利用它。單純升級“眼睛”不能根本解決VLM“視而不見”的問題。
  5. 研究的啟示與影響:

    • 對VLMs能力的重新認識: VLMs在需要語言知識或常識的任務上可能很出色,但在需要精確實時視覺感知的任務上表現可能極差。不能簡單認為VLMs繼承了視覺編碼器的所有視覺能力。
    • 診斷VLM問題的新視角: 當VLM表現不佳時,不能只歸咎于視覺部分。要重點檢查LLM是否有效利用了視覺信息,以及是否存在語言偏見。
    • 未來改進方向:
      • 提升LLM的視覺理解能力: 如何讓LLM更好地“看懂”并利用視覺信息是關鍵(微調LLM有效)。可能需要設計新的架構或訓練方法,讓LLM學會真正依賴視覺輸入來做視覺判斷。
      • 緩解語言偏見: 需要機制讓LLM在視覺任務中抑制其固有的語言偏好,強制其基于圖像作答。
      • 謹慎評估視覺能力: 評估視覺編碼器時,避免依賴VLM問答作為指標(結果不可靠且有誤導性)。應使用更直接的視覺評估方法。
    • 對VLM應用的警示: 在涉及精確視覺感知的應用場景(如機器人視覺引導、醫學影像初步分析、工業質檢等),直接使用現成的VLMs(如 LLaVA, Qwen-VL)進行視覺問答可能不可靠。需要針對性優化或考慮替代方案。

這項研究揭示了一個VLMs的“阿喀琉斯之踵”:它們的語言大腦(LLM)在處理純視覺任務時,既不善于利用高質量的眼睛(視覺編碼器)看到的信息,又深受自身語言偏見的影響,導致在需要真正“看”圖的場景下表現糟糕,遠不如單獨測試“眼睛”的能力。問題的核心在于LLM與視覺信息的整合方式,而非視覺編碼器本身。 這項研究為理解和改進VLMs的視覺能力提供了關鍵診斷和方向。

https://mp.weixin.qq.com/s/ghexA89mk7KLdO0UEGOB2w
https://www.arxiv.org/abs/2506.08008

“阿喀琉斯之踵”(Achilles’ Heel)是一個源自希臘神話的著名典故,用來比喻一個看似強大的人或事物身上存在致命的弱點或缺陷

故事背景(神話來源)
  • 阿喀琉斯是誰?
    他是希臘神話中半人半神的英雄,海洋女神忒提斯(Thetis)與凡人國王珀琉斯(Peleus)的兒子。他英勇善戰,參與了特洛伊戰爭,是希臘聯軍中最強大的戰士。

  • “踵”為什么是弱點?
    阿喀琉斯出生時,母親忒提斯握著他的腳踵將他浸入冥河(Styx)的圣水中,使他全身刀槍不入。唯獨被手握住的腳踵沒有沾到圣水,成了他唯一的致命弱點
    ? 特洛伊戰爭中,阿喀琉斯所向無敵,但最終被敵人帕里斯(Paris)一箭射中腳踵而死。

如今,“阿喀琉斯之踵”被廣泛用于描述:

  1. 強大個體/系統的隱蔽缺陷
    (例如:某科技公司市場占有率極高,但過度依賴單一供應商是其“阿喀琉斯之踵”)
  2. 無法克服的關鍵短板
    (例如:一名運動員身體素質頂尖,但心理抗壓能力是“阿喀琉斯之踵”)

用“阿喀琉斯之踵”形容視覺語言模型(VLMs)的缺陷:

  • 強大之處:VLMs融合了頂尖的視覺編碼器(“眼睛”)和語言模型(“大腦”),整體能力強勁。
  • 致命弱點:語言模型(LLM)無法有效利用視覺信息,反而依賴語言偏見,導致在純視覺任務中表現崩塌——如同阿喀琉斯被一支射中腳踵的箭摧毀。

環保組織指出:“快速工業化是發展中國家的經濟引擎,但污染治理的缺失正成為其阿喀琉斯之踵。” (比喻:工業化雖強,但環境問題是致命短板)

“阿喀琉斯之踵” = “再強大的存在,也可能因一個微小缺陷而崩潰”。這個比喻生動提醒我們:優勢中可能潛藏危機,完美背后或有致命軟肋。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/909466.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/909466.shtml
英文地址,請注明出處:http://en.pswp.cn/news/909466.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Wyn 商業智能與 3D 大屏的深度融合應用

引言 在當今數字化快速發展的時代,數據可視化對于企業的決策和管理變得至關重要。商業智能軟件作為數據可視化的重要工具,能夠幫助企業將海量的數據轉化為直觀、易懂的信息。而 3D 大屏以其沉浸式、立體的展示效果,為數據可視化帶來了全新的…

使用docker compose部署netmaker打通內網

準備 我看官網推薦都是使用ssl然后要ssl證書,不想走彎路了 一、docker-compose.yml version: "3.4"services:netmaker:container_name: netmakerimage: gravitl/netmaker:v0.90.0restart: unless-stoppedports:- "18081:18082"- "50051…

Linux集市采購指南[特殊字符]:yum和apt的“搶貨”大戰!

Linux集市采購指南🍅:yum和apt的“搶貨”大戰! ? 歡迎來到 Linux軟件生態集市!這里分兩大陣營: 🥬 CentOS/RHEL傳統菜市場:派穩重的 yum 大叔當采購員,做事一板一眼;?…

DataX 框架學習筆記

官方倉庫: https://github.com/alibaba/DataX?tabreadme-ov-file 1. 介紹 1.1. 基本介紹: DadaX 是阿里云 DataWorks 數據集成 的開源版本(異構數據同步、離線數據同步工具 / 平臺)。主要抽象為 Reader 和 Writer 插件&#…

MaxCompute的Logview分析詳解

文章目錄 一、Logview簡介1、概述2、標題與功能3、基礎信息 二、作業詳情1、Job Details2、Fuxi Sensor3、Result①當前作業運行成功,顯示的為運行結果。②當前作業運行失敗,顯示的為失敗原因。 4、SourceXML5、SQL Script6、History7、SubStatusHistory…

HTML5白云飄飄動態效果教程

HTML5白云飄飄動態效果教程 這里寫目錄標題 HTML5白云飄飄動態效果教程效果介紹實現步驟步驟一:創建HTML結構步驟二:設計CSS樣式步驟三:添加JavaScript交互 代碼解析HTML結構解析CSS樣式解析JavaScript功能解析 自定義調整總結 效果介紹 本教…

tcp高難度問題

以下是針對這些問題,在面試場景下,既保證理論扎實、邏輯清晰,又具備交流延展性的回答思路與內容,可根據實際面試節奏和面試官反饋靈活調整展開: 1. 客戶端端口號如何確定的? 面試官您好,客戶端…

廣東省省考備考(第二十八天6.13)—資料分析(第二節課)

基期與現期 官方定義:作為對比參照的是基期,而相對于基期比較的是現期 通俗說法:時間靠前的為基期,時間靠后的為現期 增長量與增長率 增長量用來表述基期量與現期量變化的絕對量; 增長率用來表述基期量與現期量變化…

pytorch 中前向傳播和后向傳播的自定義函數

系列文章目錄 文章目錄 系列文章目錄一、torch.autograd.function代碼實例 在開始正文之前,請各位姥爺動動手指,給小店增加一點訪問量吧,點擊小店,同時希望我的文章對你的學習有所幫助。本文也很簡單,主要講解pytorch的…

【項目實訓#08】HarmonyOS知識圖譜前端可視化實現

【項目實訓#08】HarmonyOS知識圖譜前端可視化實現 文章目錄 【項目實訓#08】HarmonyOS知識圖譜前端可視化實現一、背景簡介二、技術方案與架構設計2.1 技術選型2.2 組件架構設計 三、知識圖譜可視化組件實現3.1 KGResultTab組件設計組件模板結構不同狀態的處理用戶交互控制節點…

【軟件開發】什么是DSL

什么是DSL DSL(Domain-Specific Language,領域特定語言)是一種為特定領域或任務設計的編程語言,目的在于提高該領域中的表達能力與開發效率。 1 在腳本語言中的 DSL 是什么? 在腳本語言(如 Python、Lua、…

JasperReport生成PDF/A類型文檔

當JasperReport導出的文檔為PDF/A模式時,該PDF為只讀可以防止被修改。 設置導出參數 JRPdfExporter exporter new JRPdfExporter();exporter.setExporterInput(SimpleExporterInput.getInstance(jasperPrints));exporter.setExporterOutput(new SimpleOutputStre…

微信小程序使用畫布實現飄落泡泡功能

微信小程序使用畫布實現飄落泡泡功能:從組件封裝到頁面調用的完整實踐 先看示例截圖: 一、背景與技術選型 在微信小程序中實現類似于飄落的泡泡或者櫻花飄落的功能,一般主要有 Canvas 和圖片兩種方案: (1&#xff…

使用STM32設置GPIO中斷

使用S? 32設置GPIO中斷 中斷示例按鍵中斷實例設計:EXTI0和EXTI9硬件連接分析STM32代碼實現代碼說明 中斷示例 設計一個按鍵中斷的實例。設置兩個中斷:EXTI0、EXTI9, 在EXTI9的中斷服務之程序中實現LED燈的控制 按鍵中斷實例設計&#xff…

解決在微信小程序中view組件下的text和images設置了樣式display: flex; align-items: center;對不齊

原始代碼的問題 <view style"display: flex; align-items: center;"><text style"line-height: 1;">全國</text><image src"/images/xia.png" style"height: 20rpx; width: 20rpx; display: block;"></im…

歸并排序詳解:優雅的分治藝術

什么&#xff1f;歸并排序&#xff1f;這讓博主想起了大學那會被《數據結構與算法》支配的恐懼… 哈哈言歸正傳&#xff0c;一直想對算法做一個專欄&#xff0c;因為其實工作中很少很少有機會用到算法&#xff0c;倒是很多工具方法底層會使用&#xff0c;工作被各種需求業務“折…

新零售視域下實體與虛擬店融合的技術邏輯與商業模式創新——基于開源AI智能名片與鏈動2+1模式的S2B2C生態構建

摘要&#xff1a;新零售的核心在于打破線上線下邊界&#xff0c;構建“人、貨、場”的全場景融合生態。本文提出&#xff0c;實體線下店與虛擬店的協同發展是新零售的重要演進方向&#xff0c;其底層邏輯在于滿足消費者作為“現實人”的體驗需求與“虛擬人”的效率需求。通過引…

可視化圖解算法51:尋找第K大(數組中的第K個最大的元素)

牛客網 面試筆試 TOP101 | LeetCode 215. 數組中的第K個最大元素 1. 題目 描述 有一個整數數組&#xff0c;請你找出數組中第 k 大的數。 給定一個整數數組 a ,同時給定它的大小n和要找的 k &#xff0c;請返回第 k 大的數(包括重復的元素&#xff0c;不用去重)&…

DataWhale-零基礎網絡爬蟲技術(一)

課程鏈接先給各位 ↓↓↓ &#xff08;點擊即可食用.QAQ Datawhale-學用 AI,從此開始 一、引言 還是在筆記的開始&#xff0c;嘮嘮一些自己的故事 十年前第一次接觸網絡&#xff0c;也可以說是第一次接觸計算機的時候&#xff0c;那時候還是在中學階段&#xff0c;那時候大…

Linux02

目錄 linux常用命令 用戶和權限 壓縮和解壓縮 其他相關命令 Linux中安裝常用軟件 1.1. jdk的安裝 1.1.1. 卸載linux中自帶的open-jdk 1.1.2. 把安裝包上傳到 linux上 1.1.3. 解壓安裝包 1.1.4. 配置環境變量 1.1.5 驗證環境變量 1.3 安裝mysql 1.3.1. 檢查依賴 1.…