視覺推理中評估視覺語言模型

大家讀完覺得有幫助記得及時關注和點贊!!!

抽象

基于基于語言的推理模型的最新進展,我們探索了集成視覺和文本的多模態推理。現有的多模態基準測試主要測試視覺提取與基于文本的推理相結合,缺乏真正的視覺推理和視覺與語言之間更復雜的交互。受 ARC 挑戰賽的啟發,我們推出了 EasyARC,這是一種需要多圖像、多步驟推理和自我校正的視覺語言基準測試。EasyARC 是程序生成的,完全可驗證且可擴展,使其成為強化學習 (RL) 管道的理想選擇。生成器包含漸進的難度級別,支持跨任務類型和復雜性進行結構化評估。我們對最先進的視覺語言模型進行基準測試并分析它們的失效模式。我們認為 EasyARC 為評估視覺語言模型中的真實推理和測試時間縮放能力設定了新標準。我們開源了基準測試數據集和評估代碼。

1介紹

人工智能研究的長期目標 是開發能夠推理和回答有關視覺信息問題的系統。許多基準測試評估了視覺語言模型 (VLM) 的視覺推理能力。以前的工作創建了視覺問答 (VQA) 基準測試,其中向模型詢問(開放式)有關理解合成生成或創建真實世界場景的問題[2]?[7].其他基準包括圖像組件的幾何問題數據集[11]?[3].然而,這些基準測試側重于提取信息,而不是真正的視覺理解和推理。在本文中,我們介紹了?EasyARC:一個真正的視覺推理基準測試,其靈感來自抽象推理挑戰 ARC[5].我們相信 EasyARC 解決了多模態 AI 中的一個關鍵差距:在簡單的信息提取之外執行真實視覺推理的能力。

圖 1:EasyARC 的示例任務:轉換是識別非背景色的最大連通分量,并用展平的分量填充答案。所有 SoTA 自動立體貨柜都難以理解或解決這個例子。

本文的其余部分組織如下。在第 2 節中,我們介紹了 ARC 挑戰賽以及 EasyARC 以及我們創建數據集的動機。在第 3 節中,我們在 EasyARC 上評估了最先進的 VLM,證明當前的模型在這個非常簡單的基準上失敗了。此外,我們探索了這些模型的失效模式,試圖了解這項任務的缺失組件并規劃未來的研究方向。

2EasyARC 數據集

2.1原創 ARC 挑戰賽

ARC 挑戰喬萊特?[4]被設計為抽象推理的基準,易于記憶。它類似于 Raven 的漸進矩陣,其中提供了一個數字矩陣,考生必須填寫最后一個缺失的數字。但是,在?ARC 設置中,我們反而有許多由輸入和輸出網格組成的示例,這些示例在它們之間需要一個隱藏的轉換規則。為了證明找到了正確的轉換規則,應試者隨后獲取一個或多個測試輸入網格,并構建與基本實況相對應的輸出網格。

請參閱標題

圖 2:來自公共評估集的示例 ARC 任務:從視覺上看,此任務很簡單,因為它類似于以三維方式堆疊矩形。

ARC 最初由 400 個訓練樣本和 400 個評估樣本組成。ARC 的常見方法包括(LLM 指導的)程序綜合和轉導推理以及額外的測試時間訓練[10]?[1]?[9].在這兩種情況下,訓練示例和測試輸入網格通常直接以語言的形式提供。Li 等人。?[10]證明這兩種推理模式對于解決 ARC 挑戰是互補的。受此啟發,我們研究了視覺推理是否可以補充解決 ARC 問題的現有方法。這種動機源于人類主要依靠視覺來解決 ARC 問題的觀察。一些模式在視覺領域中變得很明顯,但當通過網格的冗長自然語言表示進行描述時,可能會顯得復雜。

2.2EasyARC 公司

我們最初在 ARC 上評估了 VLM,希望它們能夠泛化。然而,即使是最先進的模型——無論是開源還是閉源——在僅提供圖像時得分也接近 0%。這種失敗揭示了一個根本的局限性:VLM 難以進行空間推理和基于網格的轉換。

為了促進更有意義的評估,我們開發了 EasyARC,其任務在精神上與最初的 ARC 挑戰相似,但需要更簡單的空間/視覺理解。由于 ARC 挑戰的訓練數據集非常小,因此 ARC 的非視覺方法通常依賴于合成數據的生成[6,10,1].具體說來Li 等人。?[10]將 400 個原始訓練示例分類為 160 個種子任務,每個任務都用人工編寫的 Python 代碼進行注釋,用于生成示例、自然語言描述和概念標簽。從這種方法中汲取靈感,我們設計了生成器,可以創建三個難度級別的任務:簡單、中等和困難。更高的級別通常需要之前級別的超集技能。由于網格大小、顏色排列、形狀位置、軸和其他因素的組合可能性,每個單獨的任務都會生成大量示例。

對于初步評估,我們選擇了五個問題類別,它們涵蓋了一組不同的概念:

  • ??

    十字架,星號:向模型介紹網格上的基本幾何形狀(例如,行、列、對角線)及其各自的錨點。

  • ??

    細胞計數:需要識別和計數均勻背景上的單個單元格或連續形狀。

  • ??

    雙網格:涉及在應用水平翻轉或顏色翻轉時復制圖案。

  • ??

    優勢側:需要了解圖像的各個部分(例如,左側或上側)。變換以主側的顏色為整個圖像著色,同時過濾掉或保留分散注意力的雜色像素。

  • ??

    Drop One Color(拖放一種顏色):涉及將一種顏色轉換為另一種顏色,同時保留第三種不受影響的顏色。目標是確定哪些顏色映射適用。

我們分別為每個類別生成 1000 個和 100 個隨機樣本用于訓練和測試拆分。對于所有任務,我們從概率為 0.5、0.35 和 0.15 的簡單、中等和困難類別中抽樣,樣本行數和列數在 3 到 10 之間均勻隨機,除非任務有特定要求。這會產生一個包含 5000 個訓練樣本和 500 個測試樣本的多樣化數據集。我們在附錄中描述了詳細的任務描述,并附上了圖片。

2.3自動立體貨柜測試時擴展的基準

EasyARC 是視覺模型中測試時間縮放的理想測試平臺。具體而言,EasyARC 是:

  1. 1.?

    真實推理基準:EasyARC 任務需要多步驟推理,包括假設形成(例如,“預測少數單元格顏色”)、迭代驗證(例如,“但示例 2 有一個 1x2 的藍色網格而不是單一顏色”)、假設細化和替代視角。

  2. 2.?

    合成且易于擴展:EasyARC 允許通過可配置的參數(如網格大小和難度概率)靈活地創建數據集。我們的數據集包括 5000 個訓練任務和 500 個評估任務,我們將與生成器一起發布。此外,還可以無縫集成新的發電機。

  3. 3.?

    核查:由于該任務需要精確的輸出網格預測,因此評估非常簡單。這避免了對開放式 VQA 等代理的依賴,其中復雜的多步驟推理任務通常會犧牲可驗證性。

  4. 4.?

    漸進難度級別:我們可以逐步調整任務難度,以在 RL 管道中提供結構化的學習信號,從而深入了解訓練動態。

  5. 5.?

    多圖像推理:每個示例由多個 input-output 圖像對組成。模型必須正確地關聯對,關注它們的轉換,描述它們,并相應地進行概括。

這些特性使 EasyARC 特別適合強化學習 (RL) 管道,其中基本問題數據集的難度分布至關重要。

3SoTA 自動柜員機的評估

在本節中,我們展示了我們對 SoTA 自動柜車在 EasyARC 基準測試中的性能的發現。我們評估了閉源模型,如 Claude 3.7 Sonnet 和 GPT4o-mini,以及小型和大型開源模型,如 QVQ-72B-Preview、Qwen2.5-VL-7B-Inform 和 Gemma3-27B-Instruct。我們將輸入輸出網格的堆疊圖像以及描述任務的文本提示傳遞給所有模型。由于預算限制,我們使用 0.5 的低溫并從每個模型中收集 1 個樣本。 盡管我們的基準測試設計得非常簡單,但我們發現除了 Claude 3.7 Sonnet 之外的所有模型在這項任務上都表現出較弱的性能,得分低于 %20。我們在附錄中分享了這個提示。

Refer to caption

圖 3:EasyARC 上自動立體貨柜的成功率

我們無法廣泛評估 OpenAI o 系列模型,因為截至我們撰寫本文時,API 訪問不允許圖像。通過我們的人工評估,我們預計 o3-mini 的得分介于 Claude 3.7 Sonnet 和 GPT4o-mini 之間。

3.1故障模式

為了更好地了解 EasyARC 上自動柜員機面臨的挑戰,我們手動分析了它們的輸出。

3.2Claude 能看到什么?

Claude 3.7 Sonnet 是唯一一個展示一定程度的真正視覺推理的模型。為了分析其局限性,我們按問題類別細分其成功率。

Refer to caption

圖 4:Claude 3.7 的題型成功率。

為了有意義地解釋此圖,回想一下,每個類別都包含分別從簡單、中等和困難級別以 0.5、0.35 和 0.15 的概率采樣的問題。我們觀察到,該模型在 Counting Cells 方面最困難,這需要精確計算特定顏色的連通分量。相比之下,它在 Drop One Color 和 Dominant Side 上的表現要好得多,前者只是標識缺失的顏色,后者確定圖像的哪一側決定輸出顏色。

這些結果表明,該模型感知到圖像的“模糊”表示,即捕獲高級特征,同時缺少精細細節。值得注意的是,它的大部分成功都來自簡單的任務;一旦引入 Noise 或映射變得更加復雜,其性能就會下降。這凸顯了其泛化能力超越簡單模式識別的根本局限性。

3.3任務分析:細胞計數

下面,我們提供了一個 Counting Cells 任務的示例輸入輸出示例,其中模型只需找到少數顏色的最大連通分量,并計算該分量中的單元格數。所有模型,包括最成功的 Claude 3.7 十四行詩,都未能理解這種轉變。

圖 5:用于計數單元格任務的輸入-輸出示例

該模型通常確定輸出應該是少數顏色的,這允許它解決此任務的簡單版本。但是,模型無法“更長時間”地查看圖像,以意識到它應該找到并計算最大的連通分量。這種失敗表明可能需要對圖像進行測試時計算,因為模型僅依賴訓練示例來推斷轉換規則,而不是逐步處理圖像。

3.4任務分析:交叉/星形

雖然許多測試模型成功地解決了 Cross/Star 任務,但我們確定了兩種值得注意的故障模式。

第一種失效模式與模型無法精確定位對象(如單元、行、列和對角線)有關。具體來說,模型通常無法識別高亮顯示的單元格用作轉換的錨點。這種限制似乎源于兩個潛在的瓶頸:一方面,視覺組件可能難以在單元格在輸入中的位置與結果行在輸出中的位置之間建立直接對應關系。另一方面,如果模型能夠以自然語言提取每個網格的精確位置信息(而不是直接直觀地比較),它可能會緩解這個問題;然而,我們的研究結果表明,它也缺乏這種能力。

第二種失效模式涉及對角線結構的生成。即使模型正確識別了變換規則和對角線的方向(例如,右上角),它也經常無法完全擴展對角線。在許多情況下,模型只完成錨點之后對角線的上半部分,而忽略了前一部分。此外,一些模型在錯誤的位置生成對角線,盡管它正確地闡明了它應該錨定在給定的輸入單元格上。這些發現表明,該模型難以有效地跨模態集成信息,具體來說,就是將空間知識從視覺輸入轉移到語言推理,然后將其正確應用于輸出網格。

3.5QVQ-72B-Preview 推理模型分析

QVQ-72B-Preview 是唯一一個使用強化學習進行訓練的推理模型,以類似于 OpenAI 的 o 系列模型來解決我們基準測試中的問題。當我們查看模型的輸出時,我們意識到模型有一個清晰的推理模式:即使模型應該進行視覺推理,它也遵循:

  1. 1.?

    將輸入輸出圖像提取為文本。

  2. 2.?

    進行基于文本的推理來解決問題。

盡管正確提取圖像對于解決任務是必要的,但我們也希望模型將視覺和語言理解混合在一起,而不是僅將圖像用于提取目的。我們推測這是在 Geometry3k 等數據集上訓練的模型的產物[11]提取并解決問題即可獲得獎勵。相反,EasyARC 提供了一個基準,其中 VLM 必須與圖像交互并進行一些真正的視覺推理,而不僅僅是提取。

4結論

我們推出了 EasyARC,這是第一個旨在評估視覺語言模型中真實視覺推理的基準測試。與專注于視覺提取的現有基準測試不同,EasyARC 需要多步驟推理、假設形成和迭代驗證。我們的結果表明,最先進的自動立體貨柜甚至難以完成簡單的 EasyARC 任務,凸顯了視覺認知方面的根本差距。憑借其可擴展的數據生成和結構化難度級別,EasyARC 為研究視覺推理中的測試時間縮放和強化學習策略提供了一個有價值的測試平臺。我們發布數據集和評估代碼,以促進這一方向的進一步研究。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/910129.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/910129.shtml
英文地址,請注明出處:http://en.pswp.cn/news/910129.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

解決uni-app發布微信小程序主包大小限制為<2M的問題

一 問題說明 我想用uniapp開發多端應用,引入了uview組件庫來美化樣式,可發布為微信小程序卻提示我代碼質量不過關,主包代碼量太大了: 二 問題分析 2.1 原生微信小程序開發代碼質量限制: 1.主包代碼大小不得大于2M&…

使用 OpenCV 和傳統機器學習實現工業開關狀態識別

在工業自動化領域,開關狀態的檢測對于監控設備運行狀態至關重要。通過圖像識別技術,我們可以快速、準確地判斷開關是否處于開閘、合閘、分閘或中間狀態。本文將介紹如何結合 OpenCV 和傳統機器學習方法實現這一目標。 一、背景與挑戰 在工業環境中&…

WebFuture:模板如何加上簡繁切換?

問題描述&#xff1a;模板如何加上簡繁切換&#xff1f; 解決方法&#xff1a;在模板找到合適位置調用系統自帶的stot.js文件&#xff0c;添加以下簡繁調用代碼&#xff0c;一般在網站頂部標簽里面添加。 <script type"text/javascript" src"~/content/(thi…

手陽明大腸經之上廉穴

個人主頁&#xff1a;云納星辰懷自在 座右銘&#xff1a;“所謂堅持&#xff0c;就是覺得還有希望&#xff01;” 上廉又名&#xff1a; 1.手上廉。 2.手之上廉。 所屬經絡&#xff1a;手陽明大腸經 定位 在前臂背面橈側&#xff0c;當陽溪穴與曲池穴連線上&#xff0c;肘橫紋下…

tkinter 的 place() 布局管理器學習指南

place() 是 tkinter 中三種布局管理器之一&#xff0c;它允許你通過精確的坐標和尺寸來定位組件。下面我將詳細介紹 place() 的使用方法。 tk.Label(root, text"坐標x50,y30").place(x50, y30) 這行代碼創建了一個標簽&#xff0c;并將其放置在窗口的 (50, 30) 坐標…

物體變化下的邁克爾遜干涉:條紋密度、載波解調與雙曝光去畸變

??本文目錄?? 一、摘要二、連續物體——四步相移算法三、連續物體-空間載波法-數值擬合法去畸變四、連續物體-空間載波法-雙曝光去畸變五、混疊干涉條紋六、推薦閱讀七、實驗指導與matlab代碼獲取 一、摘要 邁克爾遜干涉儀光路原理如下圖所示。其中&#xff0c;平面反射鏡…

湖北理元理律師事務所:債務優化中的法律風險控制體系

實務痛點&#xff1a;75%的債務惡化源于不當協商&#xff08;來源&#xff1a;2024《中國個人債務管理白皮書》&#xff09; 一、協商談判的“三要三不要” 要 ? 以書面《債務重組建議函》啟動溝通 ? 引用具體法律條文&#xff08;如網貸利率上限依據法釋〔2020〕27號&…

【PmHub面試篇】PmHub 緩存與數據庫一致性的面試專題分析

在分布式系統開發中&#xff0c;緩存與數據庫的一致性問題是后端開發面試的核心考點之一。本文結合 PmHub 項目實踐&#xff0c;整理高頻面試題及深度解答&#xff0c;幫助開發者系統掌握緩存一致性解決方案的設計與實現。若想對相關內容有更透徹的理解&#xff0c;強烈推薦參考…

游戲行業對于服務器類型該怎樣進行選擇

大型的網絡游戲和多人在線游戲對于服務器類型的選擇還是有著一定要求的&#xff0c;在游戲運行的過程中一般需要處理大量的數據&#xff0c;如玩家的實時操作和游戲場景渲染等多種內容&#xff0c;較為熱門的在線游戲&#xff0c;在線玩家數量會非常龐大&#xff0c;這需要服務…

Android Studio安裝遇到的問題

一、現況 1.1 安裝時間 2025-06 1.2由于本人操作系統是win7的&#xff0c;android studio最新版支持的最低要求官方是win11,16G&#xff0c;所以我下載的是android studio的版本&#xff0c;版本信息android-studio-2024.1.2.12-windows jdk用的是1.8&#xff0c; gradle用的…

[論文閱讀] 人工智能 + 軟件工程 | 用大語言模型架起軟件需求形式化的橋梁

用大語言模型架起軟件需求形式化的橋梁 論文信息 misc{beg2025short,title{A Short Survey on Formalising Software Requirements with Large Language Models}, author{Arshad Beg and Diarmuid ODonoghue and Rosemary Monahan},year{2025},eprint{2506.11874},archivePre…

0_1面向對象

基本套路 題目描述 往往非常簡單,如:設計一個XX系統。或者:你有沒有用過XXX,給你看一下它的界面和功能,你來設計一個。闡述題意 面試者需向面試官詢問系統的具體要求。如,需要什么功能,需要承受的流量大小,是否需要考慮可靠性,容錯性等等。面試者提供一個初步的系統設…

mumu模擬器鼠標側鍵返回

把圖片中的“點擊鼠標右鍵“操作換成點側鍵 參考文章&#xff1a;你們要的鼠標右鍵返回來啦【mumu模擬器吧】_百度貼吧

軟件公司進軍無人機領域的戰略指南與生態合作全景-優雅草卓伊凡

軟件公司進軍無人機領域的戰略指南與生態合作全景-優雅草卓伊凡 那么找到細分領域我們應該如何開始真正加入無人機開發的梯隊呢&#xff0c;卓伊凡看了大疆創新加入成為認證開發者也是非常不錯的選擇。 引言&#xff1a;無人機產業的黃金機遇 根據德勤2023年全球無人機解決方…

鍵盤覺醒:Raycast 把 Mac 變成「AI 指令戰艦」

在 Mac 上追逐效率的腳步&#xff0c;從未停歇。從早期的 Alfred 到系統內置的 Spotlight&#xff0c;這些工具雖好用&#xff0c;卻總讓人覺得功能邊界清晰&#xff0c;變化有限。直到 Raycast 出現&#xff0c;徹底重塑了這個品類的想象空間。它集啟動應用、查找文件、單位換…

宇宙盡頭是WPS之——【Excel】一個自動重新排序的宏

1. 目的 你是否在做一個表格排序&#xff0c;但只能知道某幾個行之間的相對順序&#xff0c;而可能排著排著發現后面還有順序更靠前的項&#xff0c;而不得不將排好的序號重新11…… 所以你需要一個宏&#xff0c;它可以知道你輸入了一個已經存在的序號&#xff0c;并以那個序…

Sharding-jdbc使用(一:水平分表)

說明&#xff1a;Sharding-jdbc是常見的分庫分表工具&#xff0c;本文介紹Sharding-jdbc的基礎使用。 分庫分表 首先&#xff0c;介紹一下分庫分表&#xff1a; &#xff08;1&#xff09;分庫 水平分庫&#xff1a;以字段為依據&#xff0c;按照一定策略&#xff08;hash、…

處理器指令中的函數調用指令是什么?

處理器指令中的函數調用指令是什么? 函數調用指令是處理器指令集中用于實現函數(或子程序)調用和返回的專用指令。它們是支持結構化編程和代碼復用的硬件基礎。核心指令通常包括: 調用指令 (CALL / BL / BLX 等): 功能: 暫停當前函數的執行,跳轉到目標函數(被調用函數)…

CHASE、CoSQL、SPARC概念介紹

CHASE&#xff1a;一個跨領域多輪交互text2sql中文數據集&#xff0c;包含5459個多輪問題組成的列表&#xff0c;一共17,940個<query, SQL>二元組&#xff0c;涉及280個不同領域的數據庫。CoSQL&#xff1a;一個用于構建跨域對話文本到sql系統的語料庫。它是Spider和SPar…

設備巡檢系統小程序ThinkPHP+UniApp

基于ThinkPHP和Uniapp開發的設備巡檢系統&#xff0c;可應用于電力、水利、物業等巡檢場景&#xff0c;可編譯微信小程序。提供全部無加密源碼&#xff0c;可私有化部署。 ?功能特性 部門管理 后臺可以設置多部門&#xff0c;便于篩選員工 員工管理 后臺維護員工信…