IsoBench:多模態基礎模型性能的基準測試與優化

隨著多模態基礎模型的快速發展，如何準確評估這些模型在不同輸入模態下的性能成為了一個重要課題。本文提出了IsoBench，一個基準數據集，旨在通過提供多種同構（isomorphic）表示形式的問題，來測試和評估多模態基礎模型在數學、科學、算法和游戲等領域的表現。通過IsoBench發現，盡管人類傾向于偏好視覺表示，但當前的多模態模型在處理文本輸入時的性能普遍優于圖像輸入。此外，本文還介紹了兩種提升模型性能的提示技術：IsoCombination和IsoScratchPad，旨在通過結合不同輸入表示或在視覺和文本表示之間進行轉換來提高模型的推理能力。

Figure 1探討了多模態基礎模型是否平等地處理每種模態。它展示了一個模型在接收圖像表示或與之同構的文本表示時的不同響應。例如，在上面的圖中，只有文本表示的響應是正確的IsoBench擴展了這樣的示例到四個領域（數學、科學、算法、游戲），發現許多流行的多模態基礎模型普遍傾向于文本。

IsoBench

IsoBench作為一個多領域的基準測試數據集，其設計初衷是為了全面評估多模態基礎模型在處理各種類型問題時的性能。它包含了超過1630個精心挑選的樣本，這些樣本廣泛覆蓋了離散和應用數學、物理、化學以及國際象棋等不同領域。這樣的設計使得IsoBench能夠為研究者提供一個廣泛的測試平臺，用以衡量和比較模型在不同認知任務上的表現。

在IsoBench中，每個樣本都至少提供了兩種形式的表示：一種是視覺表示，另一種或多種是文本表示。視覺表示通常以圖像的形式呈現，例如函數的曲線圖、化學結構圖或國際象棋的棋盤布局。與此相對應，文本表示則以文字形式提供相同的信息，這可能包括函數的數學表達式、化學方程式或棋局的代數表示。重要的是，這些文本表示與視覺表示是同構的，也就是說，它們在邏輯和信息上是等價的，這保證了研究者可以公正地評估模型處理不同模態輸入的能力。

IsoBench的設計巧妙之處在于，它允許研究者直接比較模型在接收相同信息但以不同形式表達時的性能差異。這種比較對于理解多模態模型如何處理和整合來自不同模態的信息至關重要。例如，研究者可以觀察到模型在解析文本描述的數學問題時是否比直接從圖像中提取信息更為準確。同樣，在化學領域，模型是否能夠從分子結構圖中正確地識別出相關信息，與它處理文本描述的能力相比如何，這些都是IsoBench能夠回答的問題。

IsoBench的這種設計還有助于揭示模型可能存在的偏好或偏見。例如，如果模型在處理文本輸入時的性能普遍優于圖像輸入，這可能表明當前的多模態模型在視覺信息處理方面存在局限，或者模型的訓練過程中對文本數據的依賴性更強。通過這樣的分析，研究者可以更深入地了解模型的內部工作機制，并據此對模型進行改進。

IsoBench的構建涉及以下幾個步驟：

數學：包括連續數學問題的圖像、LATEX和代碼文本表示。IsoBench數據集的構建是一個精心設計的過程，旨在全面評估多模態基礎模型在不同領域的表現。它涵蓋了數學問題，這不僅包括了函數的圖像表示，還包含了使用LATEX格式和代碼形式的文本表示。圖像表示通過matplotlib生成，確保了函數的關鍵屬性在視覺上清晰可見。LATEX和代碼文本表示則提供了函數的精確數學定義，使得模型可以通過解析這些文本來理解函數的性質。
游戲：國際象棋游戲的圖形棋盤、代數布局、PGN和FEN文本表示。在游戲領域，尤其是國際象棋，IsoBench通過圖形棋盤、代數布局、PGN（便攜式游戲符號）和FEN（Forsyth-Edwards符號）等多種形式來表示棋局。圖形棋盤以圖像格式展示，而代數布局、PGN和FEN則以文本形式提供，這些文本表示形式能夠使模型以不同的方式理解和處理棋局信息。
算法：圖算法問題的圖像、LATEX數學表達和故事描述文本表示。對于算法問題，IsoBench采用了圖像、LATEX數學表達和故事描述文本這三種表示方式。圖像表示利用networkx包以隨機風格展示圖，而LATEX表示則使用鄰接矩陣作為圖的數學表示。故事描述文本則將圖問題以故事的形式呈現，例如將圖連通性問題描述為判斷兩個城市之間是否可以通過駕駛到達。
科學：科學問題的圖像和文本表示，后者由人工編寫，以確保與圖像內容的同構性。在科學問題方面，IsoBench包括了圖像和文本兩種表示形式。圖像表示為每個樣本提供了文本問題、選項以及附加的圖表，以提供額外的上下文信息。文本表示則是由人工編寫的，描述了每個圖表的內容，同時避免引入額外的推理或超出圖表所展示的信息，確保了與圖像內容的同構性。

Figure 2介紹了IsoBench包含的四個主要領域：數學函數、科學問題、圖算法和棋類游戲。對于每個領域，都有兩個或三個子任務。IsoBench中的所有示例都提供了一個圖像表示和幾個與之同構的文本表示。

性能分析

性能分析的核心目的在于比較模型在接收相同信息的不同表示形式時的性能差異，尤其是視覺表示與文本表示之間的差異。通過對IsoBench數據集中的樣本進行測試，研究者發現了一個有趣的現象：盡管人類在認知過程中通常更傾向于視覺信息，顯示出所謂的“圖片優勢效應”，但參與測試的多模態模型卻表現出了與人類完全相反的傾向。

這些模型在處理文本提示時的性能明顯優于圖像提示。例如，在IsoBench的測試中，Claude-3 Opus模型在圖像輸入下的表現比文本輸入低了28.7個百分點，顯示出在圖像理解方面的明顯不足。同樣，GPT-4 Turbo和Gemini Pro也展現出了類似的趨勢，分別在圖像輸入下比文本輸入低18.7個百分點和14.9個百分點。這一發現指出了當前多模態模型在圖像處理能力上的局限性，同時也表明了模型在文本理解方面的相對優勢。

Table 1展示了IsoBench的評估結果。列出了不同的主題（科學、數學、算法、游戲）和模型（如GPT-4 Turbo、Gemini Pro、Claude-3 Opus等），并展示了在處理圖像和文本表示時的準確率。圖像與文本表示之間的準確率差距可達到28.7%。

這些結果對于理解多模態基礎模型的內部工作機制具有重要意義。它們提示研究者，盡管這些模型被稱為“多模態”，但它們在處理不同模態信息時可能并沒有實現平衡，而是存在一定的偏好。這種偏好可能源于模型訓練過程中數據的不平衡，或者是模型架構本身對于文本信息的處理更為優化。

這些發現還為改進多模態模型提供了方向。研究者可以考慮通過調整模型的訓練策略或改進模型架構來減少這種性能差異，從而使模型在處理視覺信息時能夠達到與文本信息相似的性能水平。例如，可以通過增加圖像模態的訓練樣本或改進圖像特征的提取和融合機制來提高模型的視覺理解能力。

IsoCombination and IsoScratchPad

為了應對多模態基礎模型在處理不同輸入模態時表現出的性能差異，研究者們提出了IsoCombination（IsoCB）和IsoScratchPad（IsoSP）兩種創新的方法。這些方法旨在通過不同的策略來提高模型對視覺和文本輸入的理解和處理能力，從而縮小它們在性能上的差距。

IsoCombination和IsoScratchPad兩種方法的說明。IsoCB將所有用戶提供的表示結合在一起，為一個基礎模型構建一個統一的提示。IsoSP是一個兩步提示方法，首先讓基礎模型描述一個圖像，然后使用這個文本描述作為給定任務的唯一表示。

IsoCombination (IsoCB)

IsoCombination（IsoCB）方法的核心思想是將多種同構表示形式同時提供給模型，這樣做的目的是讓模型能夠從不同的信息表達中提取和整合知識，以期望能夠獲得比單一模態輸入更好的性能。例如，在處理圖算法問題時，IsoCB方法通過結合圖像表示和文本表示（如LATEX或故事描述），使得模型能夠更全面地理解問題的本質。實踐證明，這種方法能夠有效地提高模型的性能，與單一最佳表示相比，性能提升最高可達9.4個百分點。這表明，多模態輸入的聯合效應能夠顯著促進模型在某些復雜任務上的表現。

IsoScratchPad (IsoSP)

與IsoCB的直接聯合不同，IsoScratchPad（IsoSP）采用的是一種分兩步的提示策略。IsoSP首先要求模型接收并處理視覺表示，然后將其轉換為文本格式，這一步驟就像是在草稿本上做筆記一樣，將視覺信息“翻譯”成文本信息。接下來，模型利用這個生成的文本表示來完成特定的任務，如預測輸出。這種方法特別適合于那些需要從視覺信息中提取關鍵細節并進行深入分析的任務。例如，在科學問題領域，IsoSP方法能夠顯著提高模型的性能，與直接使用圖像表示相比，性能提升最多可達14.4個百分點。這證明了通過將視覺信息轉換為文本信息，可以更好地激發和利用模型的文本處理能力。

Table 6 提供了IsoCombination（IsoCB）和IsoScratchPad（IsoSP）兩種方法的性能分析結果。詳細展示了這兩種方法在不同領域（如最大流問題、連通性、物理問答、化學問答等）對模型性能提升的影響。在表格中，最佳方法的性能用紅色突出顯示，而與僅使用圖像提示相比的性能提升則用綠色標示。

IsoCombination（IsoCB）方法通過將所有提供的同構表示結合起來，構建一個統一的提示輸入給模型。這種方法利用了不同表示形式之間的互補性，以期望模型能夠更全面地理解問題。根據Table 6中的結果，IsoCB在多個任務上相對于僅使用圖像提示的性能有了顯著提升。例如，在處理最大流問題時，IsoCB將性能從36.7%提升到了65.6%，顯示出了28.9個百分點的顯著提高。

IsoScratchPad（IsoSP）方法則采用了一個兩步提示策略。首先，模型接收包含視覺元素的提示，并將其轉換為文本描述；然后，使用這個文本描述作為唯一的輸入來完成任務。IsoSP方法的優勢在于，它允許模型利用其在文本處理上的強項，同時通過自身的描述過程更深入地理解視覺信息。根據Table 6中的數據，IsoSP同樣在多個領域相對于圖像提示表現出了性能提升，例如在化學問答任務中，IsoSP的性能從69.3%提升到了88.0%，提高了18.7個百分點。

值得注意的是，對于某些特定領域，IsoCombination（IsoCB）不僅改善了圖像提示的性能，還進一步改善了文本提示的性能。這意味著在某些情況下，結合多種表示形式的IsoCB方法甚至比單一的最佳文本提示表現得更好，這表明IsoCB在促進模型性能方面具有潛在的額外優勢。

IsoCB和IsoSP這兩種方法的提出，不僅展示了通過創新的提示技術和輸入策略來提高多模態模型性能的可能性，也為未來多模態人工智能的發展提供了新的思路。通過這些方法的應用和進一步的優化，可以期待多模態基礎模型在處理多樣化輸入時將變得更加均衡和高效。這對于推動多模態人工智能技術在更廣泛領域的應用具有重要意義。IsoBench的建立不僅為理解多模態模型的能力提供了一個測試平臺，也為未來多模態人工智能的發展提供了重要的參考和指導。

論文鏈接：https://arxiv.org/abs/2404.01266