視覺推理中評估視覺語言模型

大家讀完覺得有幫助記得及時關注和點贊！！！

抽象

基于基于語言的推理模型的最新進展，我們探索了集成視覺和文本的多模態推理。現有的多模態基準測試主要測試視覺提取與基于文本的推理相結合，缺乏真正的視覺推理和視覺與語言之間更復雜的交互。受 ARC 挑戰賽的啟發，我們推出了 EasyARC，這是一種需要多圖像、多步驟推理和自我校正的視覺語言基準測試。EasyARC 是程序生成的，完全可驗證且可擴展，使其成為強化學習（RL）管道的理想選擇。生成器包含漸進的難度級別，支持跨任務類型和復雜性進行結構化評估。我們對最先進的視覺語言模型進行基準測試并分析它們的失效模式。我們認為 EasyARC 為評估視覺語言模型中的真實推理和測試時間縮放能力設定了新標準。我們開源了基準測試數據集和評估代碼。

1介紹

人工智能研究的長期目標是開發能夠推理和回答有關視覺信息問題的系統。許多基準測試評估了視覺語言模型（VLM）的視覺推理能力。以前的工作創建了視覺問答（VQA）基準測試，其中向模型詢問（開放式）有關理解合成生成或創建真實世界場景的問題[2]?[7].其他基準包括圖像組件的幾何問題數據集[11]?[3].然而，這些基準測試側重于提取信息，而不是真正的視覺理解和推理。在本文中，我們介紹了?EasyARC：一個真正的視覺推理基準測試，其靈感來自抽象推理挑戰 ARC[5].我們相信 EasyARC 解決了多模態 AI 中的一個關鍵差距：在簡單的信息提取之外執行真實視覺推理的能力。

圖 1：EasyARC 的示例任務：轉換是識別非背景色的最大連通分量，并用展平的分量填充答案。所有 SoTA 自動立體貨柜都難以理解或解決這個例子。

本文的其余部分組織如下。在第 2 節中，我們介紹了 ARC 挑戰賽以及 EasyARC 以及我們創建數據集的動機。在第 3 節中，我們在 EasyARC 上評估了最先進的 VLM，證明當前的模型在這個非常簡單的基準上失敗了。此外，我們探索了這些模型的失效模式，試圖了解這項任務的缺失組件并規劃未來的研究方向。

2EasyARC 數據集

2.1原創 ARC 挑戰賽

ARC 挑戰喬萊特?[4]被設計為抽象推理的基準，易于記憶。它類似于 Raven 的漸進矩陣，其中提供了一個數字矩陣，考生必須填寫最后一個缺失的數字。但是，在?ARC 設置中，我們反而有許多由輸入和輸出網格組成的示例，這些示例在它們之間需要一個隱藏的轉換規則。為了證明找到了正確的轉換規則，應試者隨后獲取一個或多個測試輸入網格，并構建與基本實況相對應的輸出網格。

請參閱標題

圖 2：來自公共評估集的示例 ARC 任務：從視覺上看，此任務很簡單，因為它類似于以三維方式堆疊矩形。

ARC 最初由 400 個訓練樣本和 400 個評估樣本組成。ARC 的常見方法包括（LLM 指導的）程序綜合和轉導推理以及額外的測試時間訓練[10]?[1]?[9].在這兩種情況下，訓練示例和測試輸入網格通常直接以語言的形式提供。Li 等人。?[10]證明這兩種推理模式對于解決 ARC 挑戰是互補的。受此啟發，我們研究了視覺推理是否可以補充解決 ARC 問題的現有方法。這種動機源于人類主要依靠視覺來解決 ARC 問題的觀察。一些模式在視覺領域中變得很明顯，但當通過網格的冗長自然語言表示進行描述時，可能會顯得復雜。

2.2EasyARC 公司

我們最初在 ARC 上評估了 VLM，希望它們能夠泛化。然而，即使是最先進的模型——無論是開源還是閉源——在僅提供圖像時得分也接近 0%。這種失敗揭示了一個根本的局限性：VLM 難以進行空間推理和基于網格的轉換。

為了促進更有意義的評估，我們開發了 EasyARC，其任務在精神上與最初的 ARC 挑戰相似，但需要更簡單的空間/視覺理解。由于 ARC 挑戰的訓練數據集非常小，因此 ARC 的非視覺方法通常依賴于合成數據的生成[6,10,1].具體說來Li 等人。?[10]將 400 個原始訓練示例分類為 160 個種子任務，每個任務都用人工編寫的 Python 代碼進行注釋，用于生成示例、自然語言描述和概念標簽。從這種方法中汲取靈感，我們設計了生成器，可以創建三個難度級別的任務：簡單、中等和困難。更高的級別通常需要之前級別的超集技能。由于網格大小、顏色排列、形狀位置、軸和其他因素的組合可能性，每個單獨的任務都會生成大量示例。

對于初步評估，我們選擇了五個問題類別，它們涵蓋了一組不同的概念：

??

十字架，星號：向模型介紹網格上的基本幾何形狀（例如，行、列、對角線）及其各自的錨點。
??

細胞計數：需要識別和計數均勻背景上的單個單元格或連續形狀。
??

雙網格：涉及在應用水平翻轉或顏色翻轉時復制圖案。
??

優勢側：需要了解圖像的各個部分（例如，左側或上側）。變換以主側的顏色為整個圖像著色，同時過濾掉或保留分散注意力的雜色像素。
??

Drop One Color（拖放一種顏色）：涉及將一種顏色轉換為另一種顏色，同時保留第三種不受影響的顏色。目標是確定哪些顏色映射適用。

我們分別為每個類別生成 1000 個和 100 個隨機樣本用于訓練和測試拆分。對于所有任務，我們從概率為 0.5、0.35 和 0.15 的簡單、中等和困難類別中抽樣，樣本行數和列數在 3 到 10 之間均勻隨機，除非任務有特定要求。這會產生一個包含 5000 個訓練樣本和 500 個測試樣本的多樣化數據集。我們在附錄中描述了詳細的任務描述，并附上了圖片。

2.3自動立體貨柜測試時擴展的基準

EasyARC 是視覺模型中測試時間縮放的理想測試平臺。具體而言，EasyARC 是：

1.?

真實推理基準：EasyARC 任務需要多步驟推理，包括假設形成（例如，“預測少數單元格顏色”）、迭代驗證（例如，“但示例 2 有一個 1x2 的藍色網格而不是單一顏色”）、假設細化和替代視角。
2.?

合成且易于擴展：EasyARC 允許通過可配置的參數（如網格大小和難度概率）靈活地創建數據集。我們的數據集包括 5000 個訓練任務和 500 個評估任務，我們將與生成器一起發布。此外，還可以無縫集成新的發電機。
3.?

核查：由于該任務需要精確的輸出網格預測，因此評估非常簡單。這避免了對開放式 VQA 等代理的依賴，其中復雜的多步驟推理任務通常會犧牲可驗證性。
4.?

漸進難度級別：我們可以逐步調整任務難度，以在 RL 管道中提供結構化的學習信號，從而深入了解訓練動態。
5.?

多圖像推理：每個示例由多個 input-output 圖像對組成。模型必須正確地關聯對，關注它們的轉換，描述它們，并相應地進行概括。

這些特性使 EasyARC 特別適合強化學習（RL）管道，其中基本問題數據集的難度分布至關重要。

3SoTA 自動柜員機的評估

在本節中，我們展示了我們對 SoTA 自動柜車在 EasyARC 基準測試中的性能的發現。我們評估了閉源模型，如 Claude 3.7 Sonnet 和 GPT4o-mini，以及小型和大型開源模型，如 QVQ-72B-Preview、Qwen2.5-VL-7B-Inform 和 Gemma3-27B-Instruct。我們將輸入輸出網格的堆疊圖像以及描述任務的文本提示傳遞給所有模型。由于預算限制，我們使用 0.5 的低溫并從每個模型中收集 1 個樣本。盡管我們的基準測試設計得非常簡單，但我們發現除了 Claude 3.7 Sonnet 之外的所有模型在這項任務上都表現出較弱的性能，得分低于 %20。我們在附錄中分享了這個提示。

Refer to caption

圖 3：EasyARC 上自動立體貨柜的成功率

我們無法廣泛評估 OpenAI o 系列模型，因為截至我們撰寫本文時，API 訪問不允許圖像。通過我們的人工評估，我們預計 o3-mini 的得分介于 Claude 3.7 Sonnet 和 GPT4o-mini 之間。

3.1故障模式

為了更好地了解 EasyARC 上自動柜員機面臨的挑戰，我們手動分析了它們的輸出。

3.2Claude 能看到什么？

Claude 3.7 Sonnet 是唯一一個展示一定程度的真正視覺推理的模型。為了分析其局限性，我們按問題類別細分其成功率。

Refer to caption

圖 4：Claude 3.7 的題型成功率。

為了有意義地解釋此圖，回想一下，每個類別都包含分別從簡單、中等和困難級別以 0.5、0.35 和 0.15 的概率采樣的問題。我們觀察到，該模型在 Counting Cells 方面最困難，這需要精確計算特定顏色的連通分量。相比之下，它在 Drop One Color 和 Dominant Side 上的表現要好得多，前者只是標識缺失的顏色，后者確定圖像的哪一側決定輸出顏色。

這些結果表明，該模型感知到圖像的“模糊”表示，即捕獲高級特征，同時缺少精細細節。值得注意的是，它的大部分成功都來自簡單的任務;一旦引入 Noise 或映射變得更加復雜，其性能就會下降。這凸顯了其泛化能力超越簡單模式識別的根本局限性。

3.3任務分析：細胞計數

下面，我們提供了一個 Counting Cells 任務的示例輸入輸出示例，其中模型只需找到少數顏色的最大連通分量，并計算該分量中的單元格數。所有模型，包括最成功的 Claude 3.7 十四行詩，都未能理解這種轉變。

圖 5：用于計數單元格任務的輸入-輸出示例

該模型通常確定輸出應該是少數顏色的，這允許它解決此任務的簡單版本。但是，模型無法“更長時間”地查看圖像，以意識到它應該找到并計算最大的連通分量。這種失敗表明可能需要對圖像進行測試時計算，因為模型僅依賴訓練示例來推斷轉換規則，而不是逐步處理圖像。

3.4任務分析：交叉/星形

雖然許多測試模型成功地解決了 Cross/Star 任務，但我們確定了兩種值得注意的故障模式。

第一種失效模式與模型無法精確定位對象（如單元、行、列和對角線）有關。具體來說，模型通常無法識別高亮顯示的單元格用作轉換的錨點。這種限制似乎源于兩個潛在的瓶頸：一方面，視覺組件可能難以在單元格在輸入中的位置與結果行在輸出中的位置之間建立直接對應關系。另一方面，如果模型能夠以自然語言提取每個網格的精確位置信息（而不是直接直觀地比較），它可能會緩解這個問題;然而，我們的研究結果表明，它也缺乏這種能力。

第二種失效模式涉及對角線結構的生成。即使模型正確識別了變換規則和對角線的方向（例如，右上角），它也經常無法完全擴展對角線。在許多情況下，模型只完成錨點之后對角線的上半部分，而忽略了前一部分。此外，一些模型在錯誤的位置生成對角線，盡管它正確地闡明了它應該錨定在給定的輸入單元格上。這些發現表明，該模型難以有效地跨模態集成信息，具體來說，就是將空間知識從視覺輸入轉移到語言推理，然后將其正確應用于輸出網格。

3.5QVQ-72B-Preview 推理模型分析

QVQ-72B-Preview 是唯一一個使用強化學習進行訓練的推理模型，以類似于 OpenAI 的 o 系列模型來解決我們基準測試中的問題。當我們查看模型的輸出時，我們意識到模型有一個清晰的推理模式：即使模型應該進行視覺推理，它也遵循：

1.?

將輸入輸出圖像提取為文本。
2.?

進行基于文本的推理來解決問題。

盡管正確提取圖像對于解決任務是必要的，但我們也希望模型將視覺和語言理解混合在一起，而不是僅將圖像用于提取目的。我們推測這是在 Geometry3k 等數據集上訓練的模型的產物[11]提取并解決問題即可獲得獎勵。相反，EasyARC 提供了一個基準，其中 VLM 必須與圖像交互并進行一些真正的視覺推理，而不僅僅是提取。

4結論

我們推出了 EasyARC，這是第一個旨在評估視覺語言模型中真實視覺推理的基準測試。與專注于視覺提取的現有基準測試不同，EasyARC 需要多步驟推理、假設形成和迭代驗證。我們的結果表明，最先進的自動立體貨柜甚至難以完成簡單的 EasyARC 任務，凸顯了視覺認知方面的根本差距。憑借其可擴展的數據生成和結構化難度級別，EasyARC 為研究視覺推理中的測試時間縮放和強化學習策略提供了一個有價值的測試平臺。我們發布數據集和評估代碼，以促進這一方向的進一步研究。