多模態大語言模型arxiv論文略讀(三十八)

請添加圖片描述

Tables as Texts or Images: Evaluating the Table Reasoning Ability of LLMs and MLLMs

?? 論文標題:Tables as Texts or Images: Evaluating the Table Reasoning Ability of LLMs and MLLMs
?? 論文作者:Naihao Deng, Zhenjie Sun, Ruiqi He, Aman Sikka, Yulong Chen, Lin Ma, Yue Zhang, Rada Mihalcea
?? 研究機構: University of Michigan、University of Cambridge、Westlake University
?? 問題背景:近年來,大型語言模型(LLMs)在各種自然語言處理(NLP)任務中表現出色。然而,這些模型在處理結構化數據,如表格數據時的表現,尚未得到充分探索。表格數據因其系統化的信息組織方式,在醫療診斷、虛擬個人助手、客戶關系管理等多個應用中扮演著重要角色。因此,評估LLMs在處理表格數據時的表現,對于優化這些模型的應用具有重要意義。
?? 研究動機:盡管已有研究探討了LLMs在不同任務中的表現,但它們在處理表格數據時的有效性仍是一個相對未被探索的領域。本研究旨在系統地評估LLMs在處理表格數據時的表現,特別是通過不同的提示策略和數據格式,來探究文本和圖像表示對LLMs性能的影響。此外,研究還探討了不同提示方法對LLMs處理表格相關任務的影響,以期為優化LLMs在表格數據處理中的應用提供有價值的見解。
?? 方法簡介:研究團隊通過構建一個包含多種表格表示方法的數據集,系統地評估了五種文本表示和三種圖像表示對LLMs性能的影響。實驗中使用了六種不同的LLMs,包括GPT-3.5、GPT-4、GeminiPro和Llama-2的不同版本。研究還比較了不同的提示策略,如普通提示、鏈式思考提示和專家提示,以評估這些策略對模型性能的影響。
?? 實驗設計:實驗在六個公開數據集上進行,涵蓋了表格相關的任務,如問答、事實核查和表格到文本的生成。實驗設計了不同的表格表示方法(如純文本、帶括號的文本、JSON格式等)和圖像表示方法(如原始圖像、列顏色高亮、行顏色高亮等),以及不同的提示策略,以全面評估模型在不同條件下的表現。研究發現,圖像表示有時可以顯著提高LLMs的性能,尤其是在涉及復雜推理的任務中。此外,不同的提示策略對模型性能的影響也很大,特別是專家提示在某些模型上表現尤為突出。

The Revolution of Multimodal Large Language Models: A Survey

?? 論文標題:The Revolution of Multimodal Large Language Models: A Survey
?? 論文作者:Davide Caffagni, Federico Cocchi, Luca Barsellotti, Nicholas Moratelli, Sara Sarto, Lorenzo Baraldi, Lorenzo Baraldi, Marcella Cornia, Rita Cucchiara
?? 研究機構: University of Modena and Reggio Emilia, Italy; University of Pisa, Italy; IIT-CNR, Italy
?? 問題背景:隨著大規模語言模型(LLMs)的成功,研究者們開始將這些模型擴展到多模態領域,開發出多模態大規模語言模型(MLLMs)。這些模型能夠無縫集成視覺和文本模態,提供對話界面和指令跟隨能力。本文綜述了近期基于視覺的MLLMs,分析了它們的架構選擇、多模態對齊策略和訓練技術,并在多種任務上進行了詳細分析,包括視覺定位、圖像生成和編輯、視覺理解及特定領域的應用。
?? 研究動機:本文旨在提供一個全面的MLLMs綜述,涵蓋模型的架構、訓練方法和任務性能,為未來的研究和發展奠定基礎。與現有綜述相比,本文特別關注視覺定位、圖像生成和編輯等關鍵領域,并詳細描述了每個MLLM的主要組件,如視覺編碼器和特定的LLM。此外,本文還提供了模型性能和硬件需求的比較分析,填補了現有研究的空白。
?? 方法簡介:研究團隊通過分析MLLMs的視覺編碼器、適配器模塊和訓練數據,探討了這些模型如何實現視覺和文本模態的有效連接。視覺編碼器通常基于預訓練的Vision Transformer模型,而適配器模塊則包括線性層、MLP、Q-Former和額外的交叉注意力層等。訓練方法包括單階段和兩階段訓練,其中兩階段訓練首先對視覺特征進行對齊,然后增強多模態對話能力。
?? 實驗設計:研究團隊在多個公開數據集上進行了實驗,包括Conceptual Captions 3M (CC3M)、LAION和COYO-700M等,這些數據集提供了大規模的圖像-文本對,用于模型的預訓練和優化。實驗評估了不同MLLMs在視覺定位、圖像生成和編輯等任務上的性能,并比較了它們的計算需求和性能表現。

Model Composition for Multimodal Large Language Models

?? 論文標題:Model Composition for Multimodal Large Language Models
?? 論文作者:Chi Chen, Yiyang Du, Zheng Fang, Ziyue Wang, Fuwen Luo, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Maosong Sun, Yang Liu
?? 研究機構: 清華大學計算機科學與技術系、清華大學人工智能產業研究院、阿里巴巴智能計算研究所、上海人工智能實驗室、江蘇語言能力協同創新中心
?? 問題背景:多模態大語言模型(Multimodal Large Language Models, MLLMs)在處理多種模態輸入方面取得了快速進展。然而,現有的方法通常依賴于聯合訓練配對的多模態指令數據,這不僅資源密集,而且難以擴展到新的模態。此外,現有的多模態模型在處理多種模態輸入時,性能往往受限于模態特定指令數據的缺乏。
?? 研究動機:為了克服現有方法的局限性,研究團隊提出了一種新的范式——多模態大語言模型的模型組合(Model Composition for MLLMs)。該方法通過組合現有的MLLMs,無需額外訓練即可繼承每個原始模型的模態理解能力,從而創建一個能夠處理多種模態輸入的多功能模型。研究旨在探索這種組合方法的可行性,并評估其在多模態任務中的性能。
?? 方法簡介:研究團隊提出了兩種模型組合框架:NaiveMC和DAMC。NaiveMC通過直接重用模態特定編碼器并合并大語言模型(LLM)參數,實現多模態模型的組合。DAMC進一步引入了參數解耦和自適應調整機制,以減少參數干擾并優化組合模型的性能。此外,研究團隊還構建了MCUB基準,用于評估模型在處理多種模態輸入時的綜合理解能力。
?? 實驗設計:研究在多個數據集上進行了實驗,包括音頻-視覺問答(MUSIC-AVQA、AVQA)、3D對象分類(ModelNet40、Objaverse)以及MCUB基準。實驗設計了不同模態輸入的組合(如視頻+圖像、視頻+音頻、視頻+圖像+音頻等),以全面評估模型在不同任務中的表現。實驗結果表明,DAMC在所有任務和模態組合中均表現出最佳性能,顯著優于其他基線方法。

How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts

?? 論文標題:How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts
?? 論文作者:Yusu Qian, Haotian Zhang, Yinfei Yang, Zhe Gan
?? 研究機構: Apple
?? 問題背景:多模態大語言模型(Multimodal Large Language Models, MLLMs)在處理視覺和語言任務方面取得了顯著進展,但這些模型在處理提示中的欺騙信息時仍存在顯著的脆弱性,容易產生幻覺響應。當前的研究主要集中在減少幻覺,尤其是在生成長文本時,但對模型在面對提示中的欺騙信息時的魯棒性研究較少。
?? 研究動機:為了填補這一研究空白,研究團隊構建了一個新的基準測試MAD-Bench,旨在系統地評估MLLMs在處理提示中的欺騙信息時的性能。通過這一基準測試,研究團隊希望揭示MLLMs在面對欺騙信息時的脆弱性,并探索提高模型魯棒性的方法。
?? 方法簡介:研究團隊構建了MAD-Bench,該基準測試包含1000個圖像-提示對,分為五個欺騙類別,如不存在的對象、對象數量、對象屬性、場景理解和文本識別。研究團隊使用GPT-4o作為評估工具,對19個不同的MLLMs進行了評估,包括15個開源模型和4個最先進的專有系統。
?? 實驗設計:實驗設計了不同類型的欺騙提示,包括對象數量的錯誤描述、不存在的對象、對象屬性的錯誤描述、場景理解的錯誤描述和文本識別的錯誤描述。研究團隊通過GPT-4o自動評估模型的響應,并通過人工檢查驗證了自動評估的準確性。實驗結果表明,GPT-4V在所有模型中表現最佳,但在某些情況下仍會失敗。此外,研究團隊提出了一種簡單的方法,通過在提示中添加額外的段落來鼓勵模型在回答問題前進行更仔細的思考,這種方法在多個模型上顯著提高了性能。

CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models

?? 論文標題:CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models
?? 論文作者:Fuwen Luo, Chi Chen, Zihao Wan, Zhaolu Kang, Qidong Yan, Yingjie Li, Xiaolong Wang, Siyu Wang, Ziyue Wang, Xiaoyue Mi, Peng Li, Ning Ma, Maosong Sun, Yang Liu
?? 研究機構: Tsinghua University, Institute for AI Industry Research (AIR), Shanghai Artificial Intelligence Laboratory, Jiangsu Collaborative Innovation Center for Language Competence, Northwest Minzu University, Jilin University, Institute of Computing Technology, Chinese Academy of Sciences
?? 問題背景:多模態大語言模型(Multimodal Large Language Models, MLLMs)在結合視覺和語言的多種任務中展現了顯著的成果。然而,現有的大多數基準測試未能考慮在某些情況下,圖像需要在更廣泛的上下文中進行解釋。這導致了模型在上下文依賴的視覺理解能力上的評估不足。
?? 研究動機:為了評估MLLMs在上下文依賴的視覺理解能力上的表現,研究團隊提出了一個新的基準測試——CODIS(COntext-Dependent Image diSambiguation)。CODIS旨在評估模型使用自由文本形式提供的上下文來增強視覺理解的能力,以彌補現有基準測試的不足。
?? 方法簡介:CODIS利用視覺問答(VQA)格式,每個圖像包含內在的模糊性,需要額外的上下文才能解決。每個圖像-問題對都提供了兩個自由文本形式的上下文,這些上下文雖然細微不同,但會導致對圖像的不同解釋和不同的答案。研究團隊精心策劃了所有圖像、問題和上下文,以確保高質量和多樣性。
?? 實驗設計:研究團隊評估了14個廣泛使用的MLLMs在CODIS上的表現,使用了兩個評估指標:成對準確率(Accp)和查詢準確率(Accq)。Accp要求模型對一對查詢的回答都正確才能得分,而Accq則對每個單獨的正確回答進行評分。實驗結果表明,MLLMs在上下文依賴的視覺理解能力上顯著低于人類表現,特別是在識別關鍵上下文線索和提取相關視覺特征方面存在困難。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/80667.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/80667.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/80667.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

聊聊Spring AI Alibaba的YuQueDocumentReader

序 本文主要研究一下Spring AI Alibaba的YuQueDocumentReader YuQueDocumentReader community/document-readers/spring-ai-alibaba-starter-document-reader-yuque/src/main/java/com/alibaba/cloud/ai/reader/yuque/YuQueDocumentReader.java public class YuQueDocument…

OCR定制識別:解鎖文字識別的無限可能

OCR 定制識別是什么? OCR,即光學字符識別(Optical Character Recognition) ,它就像是一個神奇的 “文字翻譯器”,能把圖片里的文字轉化成計算機可編輯的文本。比如,你掃描一份紙質文檔成圖片&am…

麒麟系統(基于Ubuntu)上使用Qt編譯時遇到“type_traits文件未找到”的錯誤

在麒麟系統(基于Ubuntu)上使用Qt編譯時遇到“type_traits文件未找到”的錯誤,通常是由于C標準庫頭文件缺失或項目配置問題導致的。以下是逐步解決方案: 1. 安裝C標準庫和開發工具 確保系統已安裝完整的開發工具鏈和標準庫&#…

服務器上安裝node

1.安裝 下載安裝包 https://nodejs.org/en/download 解壓安裝包 將安裝包上傳到/opt/software目錄下 cd /opt/software tar -xzvf node-v16.14.2-linux-x64.tar.gz 將解壓的文件夾移動到安裝目錄(/opt/nodejs)下 mv /opt/software/node-v16.14.2-linux-x64 /opt/nodejs …

Vue3 + Vite + TS,使用 ExcelJS導出excel文檔,生成水印,添加背景水印,dom轉圖片,插入圖片,全部代碼

Vue3 Vite TS,使用 ExcelJS導出excel文檔,生成水印,添加背景水印,dom轉圖片,插入圖片,全部代碼 ExcelJS生成文檔并導出導出表頭其他函數 生成水印設置文檔的背景水印dom 轉圖片插入圖片全部代碼 ExcelJS 讀取&#…

devops自動化容器化部署

devops 一、簡單案例體驗gitlabrunner部署靜態文件二、devops企業級部署方案1、流程圖2、依賴工具3、流程圖4、主機規劃5、安裝工具軟件1、安裝git2、安裝gitlab3、安裝jenkins-server4、安裝harbor5、安裝web-server,也就是部署服務的機子,需要安裝dock…

高級 SQL 技巧:提升數據處理能力的實用方法

在數據驅動的時代,SQL 作為操作和管理關系型數據庫的標準語言,其重要性不言而喻。基礎的 SQL 語句能滿足日常的數據查詢需求,但在處理復雜業務邏輯、進行數據分析和優化數據庫性能時,就需要掌握一些高級 SQL 技巧。這些技巧不僅能提高查詢效率,還能實現復雜的數據處理任務…

21.disql命令登錄達夢數據庫,查詢并操作數據庫

目錄 1.連接達夢數據庫 1.1 windows或linux系統 步驟(1):打開終端窗口 步驟(2):進入夢數據庫安裝目錄下的 bin 文件夾 步驟(3):用disql命令進行登錄 1.2 docker部署…

N8N MACOS本地部署流程避坑指南

最近n8n很火,就想在本地部署一個,嘗嘗鮮,看說明n8n是開源軟件,可以在本地部署,于是就嘗試部署了下,大概用了1個多小時,把相關的過程記錄一下: 1、基礎軟件包 abcXu-MacBook-m2-Air…

qt之開發大恒usb3.0相機一

1.在大恒相機給的sample里沒有看見qt開發的demo. 第一步先運行c sdk中中的demo,看了下代碼,大恒使用的UI框架是MFC.然后 vs2022編譯。運行結果 第一步,先用qt進行坐下頁面布局,如下圖(保存圖片的地方做了些更改&#…

leetcode-枚舉

枚舉 3200. 三角形的最大高度 題目 給你兩個整數 red 和 blue,分別表示紅色球和藍色球的數量。你需要使用這些球來組成一個三角形,滿足第 1 行有 1 個球,第 2 行有 2 個球,第 3 行有 3 個球,依此類推。 每一行的球必…

DeepSeek智能時空數據分析(三):專業級地理數據可視化賞析-《杭州市國土空間總體規劃(2021-2035年)》

序言:時空數據分析很有用,但是GIS/時空數據庫技術門檻太高 時空數據分析在優化業務運營中至關重要,然而,三大挑戰仍制約其發展:技術門檻高,需融合GIS理論、SQL開發與時空數據庫等多領域知識;空…

如何用WordPress AI插件自動生成SEO文章,提升網站流量?

1. 為什么你需要一個WordPress AI文章生成插件? 每天手動寫文章太耗時?SEO優化總是不達標?WordPress AI插件能幫你24小時自動生成原創內容,從關鍵詞挖掘到智能排版,全程無需人工干預。 痛點:手動寫作效率低…

鼠標指定范圍內隨機點擊

鼠標指定范圍內隨機點擊 點贊神器 將鼠標移動到相應位置后按F5 F6鍵,設置點擊范圍, F8開始,ESC中止。 有些直播有點贊限制,例如某音,每小時限制3千次,可以設置1200毫秒,3000次。 軟件截圖&#…

數據庫設置外鍵的作用

數據庫外鍵(Foreign Key)是關系型數據庫中用于建立表與表之間關聯關系的重要約束,其核心作用是確保數據的一致性、完整性和關聯性。以下是外鍵的主要作用及相關說明: 1. 建立表間關聯關系 外鍵通過引用另一張表的主鍵&#xff0…

發幣流程是什么,需要多少成本?

這是一個專注于Web3相關開發的賬號,具體會講解步驟以及開發方案 偶爾會有科普,有興趣的可以點右上角關注一下 發幣(發行數字貨幣)的流程通常涉及技術實現、法律合規、經濟模型設計等多個環節,以下是關鍵步驟的簡要說明…

測試常用的Linux系統指令詳解

為什么測試工程師需要掌握Linux命令? 在現代軟件測試領域,約75%的服務端應用運行在Linux環境中,能夠熟練使用Linux命令的測試工程師,其工作效率比僅依賴GUI工具的測試人員高出40%以上。本文將系統介紹測試工作中最實用的Linux命令…

Java學習手冊:Web 安全基礎

一、常見 Web 安全威脅 在 Web 開發中,安全問題至關重要。以下是一些常見的 Web 安全威脅: 1. SQL 注入 SQL 注入是一種攻擊方式,攻擊者通過在輸入字段中插入惡意的 SQL 代碼,從而操縱數據庫。例如,假設有一個登錄表…

游戲引擎學習第246天:將 Worker 上下文移到主線程創建

回顧并為今天的工作做準備 關于GPU驅動bug的問題,目前本地機器上沒有復現。如果有問題,昨天的測試就應該已經暴露出來了。當前演示的是游戲的過場動畫,運行正常,使用的是硬件渲染。 之前使用軟件渲染時沒有遇到太多問題&#xff…

2025.4.26總結

今天把馬良老師的《職場十二法則》看完后,感觸極大,這們課程就是一場職場啟蒙課。 雖然看過不少關于職場的書籍,但大多數是關于職場進階,方法方面的。并沒有解答“面對未來二三十年的職場生涯,我該怎么去看待自己的工…