多模態大語言模型arxiv論文略讀(三十一)

請添加圖片描述

From GPT-4 to Gemini and Beyond: Assessing the Landscape of MLLMs on Generalizability, Trustworthiness and Causality through Four Modalities

?? 論文標題:From GPT-4 to Gemini and Beyond: Assessing the Landscape of MLLMs on Generalizability, Trustworthiness and Causality through Four Modalities
?? 論文作者:Chaochao Lu, Chen Qian, Guodong Zheng, Hongxing Fan, Hongzhi Gao, Jie Zhang, Jing Shao, Jingyi Deng, Jinlan Fu, Kexin Huang, Kunchang Li, Lijun Li, Limin Wang, Lu Sheng, Meiqi Chen, Ming Zhang, Qibing Ren, Sirui Chen, Tao Gui, Wanli Ouyang, Yali Wang, Yan Teng, Yaru Wang, Yi Wang, Yinan He, Yingchun Wang, Yixu Wang, Yongting Zhang, Yu Qiao, Yujiong Shen, Yurong Mou, Yuxi Chen, Zaibin Zhang, Zhelun Shi, Zhenfei Yin, Zhipin Wang
?? 研究機構: Shanghai AI Laboratory, National University of Singapore, Nanjing University, Beihang University, Fudan University, Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences
?? 問題背景:多模態大型語言模型(MLLMs)在生成合理響應方面展現了令人印象深刻的能力,尤其是在處理多模態內容時。然而,盡管OpenAI的GPT-4和Google的Gemini等最強大的模型已被部署,這些模型在實際應用中的表現仍未能完全滿足公眾的期望。研究指出,MLLMs在泛化能力、可信度和因果推理能力方面存在不足,這些不足限制了它們在各種下游多模態應用中的可靠性。
?? 研究動機:為了縮小當前MLLMs性能與公眾期望之間的差距,研究團隊通過定性研究,評估了近期專有和開源MLLMs在文本、代碼、圖像和視頻四種模態下的泛化能力、可信度和因果推理能力。研究旨在提高MLLMs的透明度,為未來的多模態應用提供更可靠的模型。
?? 方法簡介:研究團隊評估了閉源的GPT-4和Gemini,以及6個開源的LLMs和MLLMs。評估基于232個手動設計的案例,這些案例涵蓋了四種模態(文本、代碼、圖像、視頻)和三個屬性(泛化能力、可信度、因果推理能力)。研究團隊通過12個評分(4種模態×3個屬性)總結了定性結果,揭示了14個有助于理解MLLMs能力和局限性的實證發現。
?? 實驗設計:實驗設計了不同模態的輸入,包括文本、代碼、圖像和視頻,以及不同類型的評估任務,如數學能力、多語言能力、推理能力、角色扮演能力、創意寫作能力、領域知識熟悉度等。此外,研究還評估了模型在安全性、可靠性、魯棒性、道德性、數據保護、公平性和合法性等方面的性能。通過這些評估,研究團隊全面分析了不同模型在各種條件下的表現,為提高MLLMs的可靠性和安全性提供了有價值的見解。

Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA

?? 論文標題:Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA
?? 論文作者:Yue Fan, Jing Gu, Kaiwen Zhou, Qianqi Yan, Shan Jiang, Ching-Chen Kuo, Xinze Guan, Xin Eric Wang
?? 研究機構: University of California, Santa Cruz、eBay
?? 問題背景:多面板圖像,如網頁截圖、海報等,廣泛存在于日常生活中,通過不同的布局組合多個子圖來有效傳達信息。隨著多模態大型語言模型(MLLMs)的發展,理解和處理多面板圖像的能力變得尤為重要。然而,現有的研究和基準測試主要集中在單面板圖像上,而多面板圖像的理解對MLLMs來說仍然是一個挑戰。
?? 研究動機:盡管人類在處理多面板圖像時幾乎能達到99%的準確率,但現有的MLLMs在處理多面板圖像時表現不佳。為了評估和理解MLLMs在多面板圖像理解上的能力,研究團隊提出了MultipanelVQA基準,旨在全面評估MLLMs在多面板圖像理解上的表現,并通過合成數據集分析影響模型性能的各種因素。
?? 方法簡介:研究團隊構建了MultipanelVQA基準,包含6,600個問題-答案-多面板圖像的三元組,旨在評估MLLMs在多面板圖像理解上的能力。該基準包括真實世界數據和合成數據兩個子集,其中合成數據集通過自動化腳本生成,確保了多面板圖像屬性的均勻分布,如子圖數量、大小和布局復雜性等。
?? 實驗設計:研究團隊在MultipanelVQA基準上評估了八個流行的MLLMs,包括開源模型和專有模型。實驗設計了三種不同風格的問題,分別評估模型在識別多面板圖像內容、特定子圖內容和視覺定位上的能力。此外,研究團隊還通過合成數據集進行了詳細的錯誤分析,以探究影響模型性能的各種因素,如子圖內容、布局、背景和視覺文本提示等。

Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception

?? 論文標題:Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception
?? 論文作者:Junyang Wang, Haiyang Xu, Jiabo Ye, Ming Yan, Weizhou Shen, Ji Zhang, Fei Huang, Jitao Sang
?? 研究機構: Beijing Jiaotong University、Alibaba Group
?? 問題背景:基于多模態大語言模型(MLLM)的移動設備代理正在成為一種流行的應用。然而,現有的MLLM,包括最先進的GPT-4V,仍然缺乏足夠的視覺感知能力,無法作為有效的代理來操作移動設備。此外,現有的解決方案依賴于應用程序的XML文件或移動系統的元數據,這限制了它們在不同移動操作系統環境中的適應性。
?? 研究動機:為了解決現有方法對底層文件的依賴問題,研究團隊提出了Mobile-Agent,一個具有視覺感知能力的自主移動設備代理。Mobile-Agent通過視覺感知工具,僅使用移動設備的屏幕截圖就能準確地定位操作位置,從而實現了在不同移動操作系統環境中的高度適應性,無需特定系統的定制。
?? 方法簡介:Mobile-Agent框架包括最先進的MLLM GPT-4V、文本檢測模塊和圖標檢測模塊。通過這些工具,Mobile-Agent能夠準確地識別和定位應用程序界面中的視覺和文本元素。基于感知到的視覺上下文,Mobile-Agent能夠自主規劃和分解復雜的操作任務,并通過一系列步驟完成任務。此外,研究團隊還引入了自我反思方法,以提高代理在遇到錯誤時的自我糾正能力。
?? 實驗設計:為了全面評估Mobile-Agent的性能,研究團隊引入了Mobile-Eval基準測試,該基準測試涵蓋了10個常用的移動應用程序,并設計了不同難度級別的指令。實驗結果表明,Mobile-Agent在指令完成率和操作準確性方面表現出色,即使在復雜的多應用程序操作中也能成功完成任務。

LLaVA-MoLE: Sparse Mixture of LoRA Experts for Mitigating Data Conflicts in Instruction Finetuning MLLMs

?? 論文標題:LLaVA-MoLE: Sparse Mixture of LoRA Experts for Mitigating Data Conflicts in Instruction Finetuning MLLMs
?? 論文作者:Shaoxiang Chen, Zequn Jie, Lin Ma
?? 研究機構: Meituan Inc.
?? 問題背景:多模態大語言模型(MLLMs)在多種任務中表現出色,但當混合來自不同領域的指令數據時,數據沖突問題會導致特定任務的性能下降。例如,當將文檔和生物醫學數據與通用多任務數據混合時,模型在通用多任務基準上的性能顯著下降。
?? 研究動機:為了解決數據沖突問題,研究團隊提出了一種稀疏的LoRA專家混合(Sparse Mixture of LoRA Experts, MoLE)方法,用于指令微調MLLMs。該方法通過在Transformer層中引入多個LoRA專家,并根據輸入令牌的特征選擇最合適的專家,從而擴展模型處理多領域數據的能力。
?? 方法簡介:研究團隊在LLaVA-1.5的基礎上,通過在每個Transformer層的MLP中引入多個LoRA專家,并使用路由函數選擇每個令牌最合適的專家,提出了LLaVA-MoLE模型。每個令牌僅激活一個專家,從而保持了與原始LoRA方法相近的訓練和推理成本。
?? 實驗設計:實驗在多個數據集上進行,包括通用多任務、文檔和生物醫學領域的數據。實驗設計了不同的數據混合配置,以評估模型在不同條件下的性能。結果表明,LLaVA-MoLE在混合數據集上不僅解決了數據沖突問題,還在多個基準測試中取得了優于基線模型的性能。

EarthGPT: A Universal Multi-modal Large Language Model for Multi-sensor Image Comprehension in Remote Sensing Domain

?? 論文標題:EarthGPT: A Universal Multi-modal Large Language Model for Multi-sensor Image Comprehension in Remote Sensing Domain
?? 論文作者:Wei Zhang, Miaoxin Cai, Tong Zhang, Yin Zhuang, Xuerui Mao
?? 研究機構: 北京理工大學、IEEE會員
?? 問題背景:多模態大語言模型(MLLMs)在自然圖像領域的視覺和視覺-語言任務中表現出色。然而,由于自然圖像與遙感(RS)圖像之間的顯著差異,如成像條件、環境、尺度和物體視角,MLLMs在RS領域的應用仍處于初級階段。現有的RS MLLMs,如RSGPT和GeoChat,雖然在某些任務上有所進展,但仍然存在局限性,如任務特定性、多傳感器模態支持不足等。
?? 研究動機:為了填補這一空白,本文提出了一種名為EarthGPT的多模態大語言模型,旨在統一處理多傳感器RS圖像的多種解釋任務。EarthGPT通過構建大規模多模態RS指令跟隨數據集MMRS-1M,解決了現有MLLMs在RS領域專業知識不足的問題,促進了RS領域MLLMs的發展。
?? 方法簡介:研究團隊提出了三個關鍵技術:1)視覺增強感知機制,通過混合多種視覺骨干網絡來提取粗粒度和細粒度的視覺信息;2)跨模態互理解方法,通過直接連接視覺特征和語言特征來生成多模態輸入,增強視覺-語言對齊;3)統一指令調優方法,通過在新構建的MMRS-1M數據集上進行偏差調優,使模型能夠統一處理多種RS任務。
?? 實驗設計:在多個RS數據集上進行了廣泛的實驗,包括場景分類、圖像描述、區域級描述、視覺問答(VQA)、視覺定位和目標檢測等任務。實驗結果表明,EarthGPT在大多數RS任務中超越了現有的專業模型和MLLMs,特別是在圖像描述、VQA和視覺定位任務中表現突出。此外,EarthGPT在開放集推理任務中也表現出色,如零樣本場景分類和目標檢測。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/902200.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/902200.shtml
英文地址,請注明出處:http://en.pswp.cn/news/902200.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

基于Matlab求解矩陣電容等效容值

1需求 仿真測試8*10階舉證電容等效容值。 2模型搭建 2.1打開simscape 在打開simulink之后打開simscape庫,Simscape庫位置如下 2.2搭建模型 在庫中尋找需要的元件搭建電路。 2.2.1基本元件 電阻電容電感等基礎器件,搭建電路之后需要對其進行幅值&…

【C++】 —— 筆試刷題day_22

一、添加字符 題目解析 這道題,給定兩個字符串A和B,字符串A的長度要小于B的長度; 現在我們要對A字符串添加字符,使得A字符串長度等于B字符串的長度,并且要求對應位置的字母盡量相等,然后求出來不相等的字符…

錯誤: 找不到或無法加載主類 HelloWorld,cmd窗口,java命令,提示

錯誤: 找不到或無法加載主類 HelloWorld 解決辦法 檢查classpath是否 .; 開頭的

手撕LLM(五):從源碼出發,探索多模態VL模型的推理全流程

前面我們分享了關于大語言模型的相關技術,包括前向推理、LoRa掛載、MoE模型、模型預訓練等;后續還是會基于MiniMindLM模型繼續分享關于大語言模型的SFT指令微調、LoRa微調、基于人類偏好的強化學習微調以及模型蒸餾相關的技術,請大家持續關注…

關于隔離2:ADC芯片

ADC可以稱作是模擬芯片領域的明珠。作為一種關鍵器件,ADC設計難度大,專利墻高,所以國內一直處于追趕的狀態。近年來,國產ADC發展極為迅速,逐漸在各項參數上趕上了國際主流水準。 模擬數字轉換器ADC連接著現實模擬世界…

【MySQL】前綴索引、索引下推、訪問方法,自適應哈希索引

最左前綴原則 對于INDEX(name, age)來說最左前綴可以是聯合索引的最左N個字段, 也可以是字符串索引的最左M個字符。 SELECT * FROM t WHERE name LIKE 張%其效果和單獨創建一個INDEX(name)的效果是一樣的若通過調整索引字段的順序, 可以少維護一個索引樹, 那么這個順序就是需要…

【Oracle專欄】Oracle中的虛擬列

Oracle相關文檔,希望互相學習,共同進步 風123456789~-CSDN博客 1.背景 在EXP方式導出時,發現 出現如下提示 EXP-00107: virtual column 不支持,因此采用expdp方式導出。于是本文針對oracle虛擬列進行簡單介紹。 2. 相…

Nacos深度剖析與實踐應用之-配置中心

📹 簡介 在微服務架構中,配置管理是至關重要的基礎能力。Nacos作為阿里巴巴開源的一體化動態服務發現、配置管理和服務管理平臺,其配置中心模塊提供了統一配置管理、動態配置推送、多環境支持等核心能力。相比傳統配置文件方式,Na…

gma 2.1.4 (2025.04.18) | GmaGIS V0.0.1a3 更新日志

安裝 gma 2.1.4 pip install gma2.1.4網盤下載: 鏈接:https://pan.baidu.com/s/1P0nmZUPMJaPEmYgixoL2QQ?pwd1pc8 提取碼:1pc8 注意:此版本沒有Linux版! 編譯gma的Linux虛擬機沒有時間修復,本期Linux版繼…

在 Node.js 中設置響應的 MIME 類型

在 Node.js 中設置響應的 MIME 類型是為了讓瀏覽器正確解析服務器返回的內容,比如 HTML、CSS、圖片、JSON 等。我們通常通過設置響應頭中的 Content-Type 字段來完成。 ? 一、什么是 MIME 類型(Content-Type)? MIME(…

SRS transcode支持 h264_nvenc 硬件解碼方案

文章目錄 SRS transcode支持 h264_nvenc 硬件解碼方案1、修改文件2、重新編譯3、使用 SRS transcode支持 h264_nvenc 硬件解碼方案 SRS 是開源的流媒體服務,但在使用 GPU 服務器時,想要通過硬件加速,目前官方是不支持的,所以簡單…

數字系統與編碼

1. 數字系統(Number Systems) 1.1 常見數字系統 系統基數符號集示例應用場景二進制20, 11010計算機底層電路、數據存儲八進制80-717Unix文件權限(如chmod 755)十進制100-942日常計算十六進制160-9, A-F0x1F內存地址、顏色編碼&a…

【PyTorch】訓練時跟OOM相關的提示信息

1. RuntimeError: CUDA error: CUBLAS_STATUS_NOT_INITIALIZED when calling cublasCreate(handle)

基于maven-jar-plugin打造一款自動識別主類的maven打包插件

🧑 博主簡介:CSDN博客專家,歷代文學網(PC端可以訪問:https://literature.sinhy.com/#/?__c1000,移動端可微信小程序搜索“歷代文學”)總架構師,15年工作經驗,精通Java編…

多態的主要好處與不足

多態是面向對象編程的核心特性之一,它通過方法重寫、接口實現等方式實現“同一操作作用于不同對象時產生不同行為”。以下是多態的主要好處與不足: 多態的好處 1. 提高代碼靈活性和擴展性 開閉原則支持:新增子類時,無需修改現有…

excel解析圖片pdf附件不怕

背景 工作中肯定會有導入excel還附帶圖片附件的下面是我解析的excel,支持圖片、pdf、壓縮文件實現 依次去解析excel,看看也沒有附件,返回的格式是Map,key是第幾行,value是附件list附件格式都被解析成pdf格式Reader.jav…

python爬蟲 線程,進程,協程

0x00 線程 線程是一個執行單位,是在一個進程里面的,是共享進程里面的提供的內存等資源,使用多個線程時和使用多個進程相比,多個線程使用的內存等資源較少。進程像一座“房子”(獨立資源),線程是…

ES|QL,知道嗎,專為搜索而生 —— 推出評分和語義搜索

作者:來自 Elastic Ioana Tagirta 在 Elasticsearch 8.18 和 9.0 中,ES|QL 支持評分、語義搜索以及更多的 match 函數配置選項,還有一個新的 KQL 函數。 使用 ES|QL 搜索 在 Elasticsearch 8.18 和 9.0 中,ES|QL 增加了一系列新功…

MIT6.S081-lab4

MIT6.S081-lab4 注:本篇lab的前置知識在《MIT6.S081-lab3前置》 1. RISC-V assembly 第一個問題 Which registers contain arguments to functions? For example, which register holds 13 in main’s call to printf? 我們先來看看main干了什么: …

一文總結通信電路中LC諧振回路中各公式以及對深入解讀品質因數Q

目錄 前言 一、基本公式總結 1.并聯諧振回路 2.串聯諧振回路 二、淺談品質因數 1.衡量諧振回路能量存儲與能量損耗之比的無量綱參數,用于描述諧振電路的頻率選擇性 2.當受到振蕩驅動力時,諧振腔的中心頻率與其帶寬的比值 3.為什么諧振時電容上的…