MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

本文也是LLM系列相關文章，針對《MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models》的翻譯。

MME:一個多模態大型語言模型的綜合評估基準

摘要
1 引言
2 MME評估套件
3 實驗
4 分析
5 結論

摘要

多模態大語言模型（MLLM）依靠強大的LLM來執行多模態任務，在最近的研究中顯示出驚人的涌現能力，例如基于圖像寫詩。然而，這些案例研究很難完全反映MLLM的表現，缺乏全面的評估。在本文中，我們填補了這一空白，提出了第一個MLLM評估基準MME。它測量了總共14個子任務的感知和認知能力。為了避免直接使用公共數據集進行評估可能導致的數據泄露，指令-答案對的注釋都是手動設計的。簡潔的指令設計使我們能夠公平地比較MLLM，而不是在提示工程中苦苦掙扎。此外，有了這樣的指示，我們也可以很容易地進行定量統計。在我們的MME上，共對12種先進的MLLM進行了全面評估，這不僅表明現有的MLLM仍有很大的改進空間，而且揭示了后續模型優化的潛在方向。

1 引言

2 MME評估套件

3 實驗

4 分析

我們總結了四個在很大程度上影響MLLMs性能的常見問題。第一個問題是沒有遵循指令。盡管我們采用了非常簡潔的指令設計，但也有MLLM可以自由回答，而不是遵循指令。例如，如圖4的第一行所示，指令聲稱“請回答是或否”，但MLLM只做了一個聲明性表達式。如果在生成的語言的開頭沒有出現“是”或“否”，則判斷模型做出了錯誤的回答。我們認為，一個好的MLLM（尤其是在指令調整之后）應該能夠遵循這樣一個簡單的指令，這在日常生活中也很常見。
第二個問題是缺乏認識。如圖4的第二行所示，MLLM錯誤識別了第一張圖像中香蕉的數量，并誤讀了第二張圖像中的字符，導致了錯誤的答案。我們注意到，感知的表現容易受到指令的細微差別的影響，因為同一圖像的兩個指令只在一個詞上不同，但會導致完全不同甚至矛盾的感知結果。
第三個問題是缺乏推理。在圖4的第三行中，我們可以從紅色文本中看到，MLLM已經知道第一個圖像不是辦公場所，但仍然給出了“是”的錯誤答案。類似地，在第二張圖像中，MLLM計算出了正確的算術結果，但最終給出了錯誤的答案。這些現象表明，在MLLM的推理過程中，邏輯鏈是斷裂的。添加CoT提示，例如“讓我們一步一步思考” ，可能會產生更好的結果。我們期待著進一步深入的研究。
第四個問題是遵循指令的對象幻覺，如圖4第四行所示。當指令包含未出現在圖像中的對象的描述時，MLLM將假設該對象存在，并最終給出“是”的答案。如表1、表2和表3所示，這種不斷回答“是”的情況導致大約50%的準確度和大約0的準確度。這表明迫切需要抑制幻覺，社區應該考慮生成答案的可靠性。

5 結論

本文提出了第一個MLLM評估基準MME，它在任務類型、數據源、指令設計和定量統計方面具有四個不同的特點。我們在MME上評估了12種先進的MLLMs，實驗結果表明仍有很大的改進空間。我們還總結了實驗結果中提出的常見問題，為MLLM的發展提供了有價值的指導。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/42702.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/42702.shtml
英文地址，請注明出處：http://en.pswp.cn/news/42702.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！