MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

本文也是LLM系列相關文章,針對《MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models》的翻譯。

MME:一個多模態大型語言模型的綜合評估基準

  • 摘要
  • 1 引言
  • 2 MME評估套件
  • 3 實驗
  • 4 分析
  • 5 結論

摘要

多模態大語言模型(MLLM)依靠強大的LLM來執行多模態任務,在最近的研究中顯示出驚人的涌現能力,例如基于圖像寫詩。然而,這些案例研究很難完全反映MLLM的表現,缺乏全面的評估。在本文中,我們填補了這一空白,提出了第一個MLLM評估基準MME。它測量了總共14個子任務的感知和認知能力。為了避免直接使用公共數據集進行評估可能導致的數據泄露,指令-答案對的注釋都是手動設計的。簡潔的指令設計使我們能夠公平地比較MLLM,而不是在提示工程中苦苦掙扎。此外,有了這樣的指示,我們也可以很容易地進行定量統計。在我們的MME上,共對12種先進的MLLM進行了全面評估,這不僅表明現有的MLLM仍有很大的改進空間,而且揭示了后續模型優化的潛在方向。

1 引言

2 MME評估套件

3 實驗

4 分析

我們總結了四個在很大程度上影響MLLMs性能的常見問題。第一個問題是沒有遵循指令。盡管我們采用了非常簡潔的指令設計,但也有MLLM可以自由回答,而不是遵循指令。例如,如圖4的第一行所示,指令聲稱“請回答是或否”,但MLLM只做了一個聲明性表達式。如果在生成的語言的開頭沒有出現“是”或“否”,則判斷模型做出了錯誤的回答。我們認為,一個好的MLLM(尤其是在指令調整之后)應該能夠遵循這樣一個簡單的指令,這在日常生活中也很常見。
第二個問題是缺乏認識。如圖4的第二行所示,MLLM錯誤識別了第一張圖像中香蕉的數量,并誤讀了第二張圖像中的字符,導致了錯誤的答案。我們注意到,感知的表現容易受到指令的細微差別的影響,因為同一圖像的兩個指令只在一個詞上不同,但會導致完全不同甚至矛盾的感知結果。
第三個問題是缺乏推理。在圖4的第三行中,我們可以從紅色文本中看到,MLLM已經知道第一個圖像不是辦公場所,但仍然給出了“是”的錯誤答案。類似地,在第二張圖像中,MLLM計算出了正確的算術結果,但最終給出了錯誤的答案。這些現象表明,在MLLM的推理過程中,邏輯鏈是斷裂的。添加CoT提示,例如“讓我們一步一步思考” ,可能會產生更好的結果。我們期待著進一步深入的研究。
第四個問題是遵循指令的對象幻覺,如圖4第四行所示。當指令包含未出現在圖像中的對象的描述時,MLLM將假設該對象存在,并最終給出“是”的答案。如表1、表2和表3所示,這種不斷回答“是”的情況導致大約50%的準確度和大約0的準確度。這表明迫切需要抑制幻覺,社區應該考慮生成答案的可靠性。

5 結論

本文提出了第一個MLLM評估基準MME,它在任務類型、數據源、指令設計和定量統計方面具有四個不同的特點。我們在MME上評估了12種先進的MLLMs,實驗結果表明仍有很大的改進空間。我們還總結了實驗結果中提出的常見問題,為MLLM的發展提供了有價值的指導。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/42702.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/42702.shtml
英文地址,請注明出處:http://en.pswp.cn/news/42702.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Java-運算符和控制語句(上)(基于c語言的補充)

算術運算符 關于求余 不管分子,分母是正還是負,對于分母,直接取正;對于分子若有負號,則先提取出來;剩下兩個正的分子分母運算;最后,若剛才的分子有負號,對最后的結果添加…

Java版 招投標系統簡介 招投標系統源碼 java招投標系統 招投標系統功能設計tbms

? 項目說明 隨著公司的快速發展,企業人員和經營規模不斷壯大,公司對內部招采管理的提升提出了更高的要求。在企業里建立一個公平、公開、公正的采購環境,最大限度控制采購成本至關重要。符合國家電子招投標法律法規及相關規范,以…

scala中json4s 使用詳解

預備知識 json4s的數據結構AST (Abstract Syntax Tree)。 sealed abstract class JValue case object JNothing extends JValue // zero for JValue case object JNull extends JValue case class JString(s: String) extends JValue case class JDouble(num: Double) extend…

arcgis--坐標系

1、arcgis中,投影坐標系的y坐標一定是7位數,X坐標有兩種:6位和8位。 6位:省略帶號,這是中央經線形式的投影坐標,一般投影坐標中會帶CM字樣;8位:包括帶號,一般投影坐標中…

數字化時代,數據倉庫和商業智能BI系統演進的五個階段

數字化在逐漸成熟的同時,社會上也對數字化的性質有了進一步認識。當下,數字化除了前邊提到的將復雜的信息、知識轉化為可以度量的數字、數據,在將其轉化為二進制代碼,引入計算機內部,建立數據模型,統一進行…

一鍵搭訕以及打招呼設置(swift)

項目描述:用戶通過打招呼設置錄制打招呼語音,添加打招呼文字,首頁feed頁面展示sayhi的小動畫,點開可查看將要搭訕的列表,選擇想要搭訕的用戶以及搭訕的文字和語音,也可隨機選擇文案、語音,未通過…

CAS 一些隱藏的知識,您了解嗎

目錄 ConcurrentHashMap 一定是線程安全的嗎 CAS 機制的注意事項 使用java 并行流 ,您要留意了 ConcurrentHashMap 在JDK1.8中ConcurrentHashMap 內部使用的是數組加鏈表加紅黑樹的結構,通過CASvolatile或synchronized的方式來保證線程安全的,這些原理…

TikTok或將于8月底關閉半閉環、速賣通或將推出“半托管”模式

《出海周報》是運營壇為外貿企業主和外貿人獨家打造的重要資訊欄目,聚焦企業出海、海外市場動態、海外監管政策等方面,以簡捷的方式,提升讀者獲取資訊的效率。 接下來運營壇為大家帶來第15期出海周報,快來看看這周國內外市場發生了…

C++--紅黑樹

1.什么是紅黑樹 紅黑樹,是一種二叉搜索樹,但在每個結點上增加一個存儲位表示結點的顏色,可以是Red或Black。 通過對任何一條從根到葉子的路徑上各個結點著色方式的限制,紅黑樹確保沒有一條路徑會比其他路徑長出倆倍,因…

jdbc 使用rewriteBatchedStatements=true后,報錯

jdbc 使用rewriteBatchedStatementstrue后,報錯了 rewriteBatchedStatementstrue解釋 rewriteBatchedStatementstrue是一個配置選項,它影響MySQL JDBC驅動程序的行為。JDBC是Java數據庫連接的標準。當你使用Java程序連接MySQL數據庫時,你需要…

秋招面經——結合各方面試經驗

Mysql mysql事務 共享鎖與排他鎖 共享鎖:允許一個事務去讀一行,阻止其他事務獲得相同數據集的排他鎖。(讀都允許讀,但我在讀不允許你去改) 排他鎖:允許一個事務去讀一行,阻止其他事務獲得相同…

UVA 10006 埃氏篩法+快速冪

本題目使用費馬定理時&#xff0c;我隨機定義了10個數字&#xff0c;循環用費馬小定理判斷&#xff0c;數組中的值不用和我的相同&#xff0c;隨機即可。 #include <iostream> using namespace std; typedef unsigned long long ll; bool isPrime[65007]; ll a[10]; voi…

【Unity細節】Unity中的層級LayerMask

&#x1f468;?&#x1f4bb;個人主頁&#xff1a;元宇宙-秩沅 hallo 歡迎 點贊&#x1f44d; 收藏? 留言&#x1f4dd; 加關注?! 本文由 秩沅 原創 &#x1f636;?&#x1f32b;?收錄于專欄&#xff1a;unity細節和bug &#x1f636;?&#x1f32b;?優質專欄 ?【…

Mybatis Plus中使用LambdaQueryWrapper進行分頁以及模糊查詢對比傳統XML方式進行分頁

傳統的XML分頁以及模糊查詢操作 傳統的XML方式只能使用limit以及offset進行分頁&#xff0c;通過判斷name和bindState是否為空&#xff0c;不為空則拼接條件。 List<SanitationCompanyStaff> getSanitationStaffInfo(Param("name") String name,Param("bi…

前端---需要了解瀏覽器相關知識--瀏覽器請求服務器資源---緩存

知識點1: 掘金1&#xff1a;瀏覽器緩存 掘金2 :瀏覽器緩存 一、瀏覽器緩存 請求&#xff08;靜態資源 &#xff5c; 動態資源&#xff09; 一、緩存是什么&#xff1f; 如果沒有緩存的機制 每次都要重新請求靜態資源 1.從網絡上的下載時間&#xff0c;肯定大于從硬盤里讀的…

【S32K 進階之旅】S32K 芯片的解鎖

在使用 S32K1xx MCU 的過程中&#xff0c;因為某些不當操作導致芯片被鎖、加密的情況偶有發生&#xff0c;在此總結一篇如何解鎖芯片的文檔&#xff0c;希望能夠幫到有需要的人。 1. S32K 芯片被鎖的現象及原因分析1&#xff09;在S32K 系列 MCU 開發和生產過程中&#xff…

mac os M1 安裝并啟動 postgreSQL 的問題

Homebrew 安裝 postgreSQL brew install postgresql啟動 brew services start postgresql但報錯&#xff1a; uninitialized constant Homebrew::Service::System解決方案 brew doctor按照 brew doctor 中的建議進行操作&#xff0c;如果不行&#xff0c;如下&#xff1a; h…

常用系統命令

重定向 cat aa.txt > bbb.txt 將輸出定向到bbb.txt cat aaa.txt >> bbb.txt 輸出并追加查看進程 ps ps -ef 顯示所有進程 例?&#xff1a;ps -ef | grep mysql |&#xff1a;管道符 kill pid 結束進程&#xff0c; 如 kill 3732&#xff1b;根據進程名結束進程可以先…

Qt使用qml(QtLocation)顯示地圖

一、qt版本和QtLocation模塊版本確認 如果qt版本過低的話是沒有QtLocation模塊的&#xff0c;我的版本如下 構建工具版本如下 二、qml代碼編寫 1、工程中添加模塊 首先在工程中添加模塊quickwidgets positioning location 2、添加資源文件 3、在資源文件中添加qml文件 …

Jenkins改造—nginx配置鑒權

先kill掉8082的端口進程 netstat -natp | grep 8082 kill 10256 1、下載nginx nginx安裝 EPEL 倉庫中有 Nginx 的安裝包。如果你還沒有安裝過 EPEL&#xff0c;可以通過運行下面的命令來完成安裝 sudo yum install epel-release 輸入以下命令來安裝 Nginx sudo yum inst…