本文也是LLM系列相關文章,針對《MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models》的翻譯。
MME:一個多模態大型語言模型的綜合評估基準
- 摘要
- 1 引言
- 2 MME評估套件
- 3 實驗
- 4 分析
- 5 結論
摘要
多模態大語言模型(MLLM)依靠強大的LLM來執行多模態任務,在最近的研究中顯示出驚人的涌現能力,例如基于圖像寫詩。然而,這些案例研究很難完全反映MLLM的表現,缺乏全面的評估。在本文中,我們填補了這一空白,提出了第一個MLLM評估基準MME。它測量了總共14個子任務的感知和認知能力。為了避免直接使用公共數據集進行評估可能導致的數據泄露,指令-答案對的注釋都是手動設計的。簡潔的指令設計使我們能夠公平地比較MLLM,而不是在提示工程中苦苦掙扎。此外,有了這樣的指示,我們也可以很容易地進行定量統計。在我們的MME上,共對12種先進的MLLM進行了全面評估,這不僅表明現有的MLLM仍有很大的改進空間,而且揭示了后續模型優化的潛在方向。
1 引言
2 MME評估套件
3 實驗
4 分析
我們總結了四個在很大程度上影響MLLMs性能的常見問題。第一個問題是沒有遵循指令。盡管我們采用了非常簡潔的指令設計,但也有MLLM可以自由回答,而不是遵循指令。例如,如圖4的第一行所示,指令聲稱“請回答是或否”,但MLLM只做了一個聲明性表達式。如果在生成的語言的開頭沒有出現“是”或“否”,則判斷模型做出了錯誤的回答。我們認為,一個好的MLLM(尤其是在指令調整之后)應該能夠遵循這樣一個簡單的指令,這在日常生活中也很常見。
第二個問題是缺乏認識。如圖4的第二行所示,MLLM錯誤識別了第一張圖像中香蕉的數量,并誤讀了第二張圖像中的字符,導致了錯誤的答案。我們注意到,感知的表現容易受到指令的細微差別的影響,因為同一圖像的兩個指令只在一個詞上不同,但會導致完全不同甚至矛盾的感知結果。
第三個問題是缺乏推理。在圖4的第三行中,我們可以從紅色文本中看到,MLLM已經知道第一個圖像不是辦公場所,但仍然給出了“是”的錯誤答案。類似地,在第二張圖像中,MLLM計算出了正確的算術結果,但最終給出了錯誤的答案。這些現象表明,在MLLM的推理過程中,邏輯鏈是斷裂的。添加CoT提示,例如“讓我們一步一步思考” ,可能會產生更好的結果。我們期待著進一步深入的研究。
第四個問題是遵循指令的對象幻覺,如圖4第四行所示。當指令包含未出現在圖像中的對象的描述時,MLLM將假設該對象存在,并最終給出“是”的答案。如表1、表2和表3所示,這種不斷回答“是”的情況導致大約50%的準確度和大約0的準確度。這表明迫切需要抑制幻覺,社區應該考慮生成答案的可靠性。
5 結論
本文提出了第一個MLLM評估基準MME,它在任務類型、數據源、指令設計和定量統計方面具有四個不同的特點。我們在MME上評估了12種先進的MLLMs,實驗結果表明仍有很大的改進空間。我們還總結了實驗結果中提出的常見問題,為MLLM的發展提供了有價值的指導。