多模態大語言模型arxiv論文略讀（三十八）

請添加圖片描述

Tables as Texts or Images: Evaluating the Table Reasoning Ability of LLMs and MLLMs

?? 論文標題：Tables as Texts or Images: Evaluating the Table Reasoning Ability of LLMs and MLLMs
?? 論文作者：Naihao Deng, Zhenjie Sun, Ruiqi He, Aman Sikka, Yulong Chen, Lin Ma, Yue Zhang, Rada Mihalcea
?? 研究機構: University of Michigan、University of Cambridge、Westlake University
?? 問題背景：近年來，大型語言模型（LLMs）在各種自然語言處理（NLP）任務中表現出色。然而，這些模型在處理結構化數據，如表格數據時的表現，尚未得到充分探索。表格數據因其系統化的信息組織方式，在醫療診斷、虛擬個人助手、客戶關系管理等多個應用中扮演著重要角色。因此，評估LLMs在處理表格數據時的表現，對于優化這些模型的應用具有重要意義。
?? 研究動機：盡管已有研究探討了LLMs在不同任務中的表現，但它們在處理表格數據時的有效性仍是一個相對未被探索的領域。本研究旨在系統地評估LLMs在處理表格數據時的表現，特別是通過不同的提示策略和數據格式，來探究文本和圖像表示對LLMs性能的影響。此外，研究還探討了不同提示方法對LLMs處理表格相關任務的影響，以期為優化LLMs在表格數據處理中的應用提供有價值的見解。
?? 方法簡介：研究團隊通過構建一個包含多種表格表示方法的數據集，系統地評估了五種文本表示和三種圖像表示對LLMs性能的影響。實驗中使用了六種不同的LLMs，包括GPT-3.5、GPT-4、GeminiPro和Llama-2的不同版本。研究還比較了不同的提示策略，如普通提示、鏈式思考提示和專家提示，以評估這些策略對模型性能的影響。
?? 實驗設計：實驗在六個公開數據集上進行，涵蓋了表格相關的任務，如問答、事實核查和表格到文本的生成。實驗設計了不同的表格表示方法（如純文本、帶括號的文本、JSON格式等）和圖像表示方法（如原始圖像、列顏色高亮、行顏色高亮等），以及不同的提示策略，以全面評估模型在不同條件下的表現。研究發現，圖像表示有時可以顯著提高LLMs的性能，尤其是在涉及復雜推理的任務中。此外，不同的提示策略對模型性能的影響也很大，特別是專家提示在某些模型上表現尤為突出。

The Revolution of Multimodal Large Language Models: A Survey

?? 論文標題：The Revolution of Multimodal Large Language Models: A Survey
?? 論文作者：Davide Caffagni, Federico Cocchi, Luca Barsellotti, Nicholas Moratelli, Sara Sarto, Lorenzo Baraldi, Lorenzo Baraldi, Marcella Cornia, Rita Cucchiara
?? 研究機構: University of Modena and Reggio Emilia, Italy; University of Pisa, Italy; IIT-CNR, Italy
?? 問題背景：隨著大規模語言模型（LLMs）的成功，研究者們開始將這些模型擴展到多模態領域，開發出多模態大規模語言模型（MLLMs）。這些模型能夠無縫集成視覺和文本模態，提供對話界面和指令跟隨能力。本文綜述了近期基于視覺的MLLMs，分析了它們的架構選擇、多模態對齊策略和訓練技術，并在多種任務上進行了詳細分析，包括視覺定位、圖像生成和編輯、視覺理解及特定領域的應用。
?? 研究動機：本文旨在提供一個全面的MLLMs綜述，涵蓋模型的架構、訓練方法和任務性能，為未來的研究和發展奠定基礎。與現有綜述相比，本文特別關注視覺定位、圖像生成和編輯等關鍵領域，并詳細描述了每個MLLM的主要組件，如視覺編碼器和特定的LLM。此外，本文還提供了模型性能和硬件需求的比較分析，填補了現有研究的空白。
?? 方法簡介：研究團隊通過分析MLLMs的視覺編碼器、適配器模塊和訓練數據，探討了這些模型如何實現視覺和文本模態的有效連接。視覺編碼器通常基于預訓練的Vision Transformer模型，而適配器模塊則包括線性層、MLP、Q-Former和額外的交叉注意力層等。訓練方法包括單階段和兩階段訓練，其中兩階段訓練首先對視覺特征進行對齊，然后增強多模態對話能力。
?? 實驗設計：研究團隊在多個公開數據集上進行了實驗，包括Conceptual Captions 3M (CC3M)、LAION和COYO-700M等，這些數據集提供了大規模的圖像-文本對，用于模型的預訓練和優化。實驗評估了不同MLLMs在視覺定位、圖像生成和編輯等任務上的性能，并比較了它們的計算需求和性能表現。

Model Composition for Multimodal Large Language Models

?? 論文標題：Model Composition for Multimodal Large Language Models
?? 論文作者：Chi Chen, Yiyang Du, Zheng Fang, Ziyue Wang, Fuwen Luo, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Maosong Sun, Yang Liu
?? 研究機構: 清華大學計算機科學與技術系、清華大學人工智能產業研究院、阿里巴巴智能計算研究所、上海人工智能實驗室、江蘇語言能力協同創新中心
?? 問題背景：多模態大語言模型（Multimodal Large Language Models, MLLMs）在處理多種模態輸入方面取得了快速進展。然而，現有的方法通常依賴于聯合訓練配對的多模態指令數據，這不僅資源密集，而且難以擴展到新的模態。此外，現有的多模態模型在處理多種模態輸入時，性能往往受限于模態特定指令數據的缺乏。
?? 研究動機：為了克服現有方法的局限性，研究團隊提出了一種新的范式——多模態大語言模型的模型組合（Model Composition for MLLMs）。該方法通過組合現有的MLLMs，無需額外訓練即可繼承每個原始模型的模態理解能力，從而創建一個能夠處理多種模態輸入的多功能模型。研究旨在探索這種組合方法的可行性，并評估其在多模態任務中的性能。
?? 方法簡介：研究團隊提出了兩種模型組合框架：NaiveMC和DAMC。NaiveMC通過直接重用模態特定編碼器并合并大語言模型（LLM）參數，實現多模態模型的組合。DAMC進一步引入了參數解耦和自適應調整機制，以減少參數干擾并優化組合模型的性能。此外，研究團隊還構建了MCUB基準，用于評估模型在處理多種模態輸入時的綜合理解能力。
?? 實驗設計：研究在多個數據集上進行了實驗，包括音頻-視覺問答（MUSIC-AVQA、AVQA）、3D對象分類（ModelNet40、Objaverse）以及MCUB基準。實驗設計了不同模態輸入的組合（如視頻+圖像、視頻+音頻、視頻+圖像+音頻等），以全面評估模型在不同任務中的表現。實驗結果表明，DAMC在所有任務和模態組合中均表現出最佳性能，顯著優于其他基線方法。

How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts

?? 論文標題：How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts
?? 論文作者：Yusu Qian, Haotian Zhang, Yinfei Yang, Zhe Gan
?? 研究機構: Apple
?? 問題背景：多模態大語言模型（Multimodal Large Language Models, MLLMs）在處理視覺和語言任務方面取得了顯著進展，但這些模型在處理提示中的欺騙信息時仍存在顯著的脆弱性，容易產生幻覺響應。當前的研究主要集中在減少幻覺，尤其是在生成長文本時，但對模型在面對提示中的欺騙信息時的魯棒性研究較少。
?? 研究動機：為了填補這一研究空白，研究團隊構建了一個新的基準測試MAD-Bench，旨在系統地評估MLLMs在處理提示中的欺騙信息時的性能。通過這一基準測試，研究團隊希望揭示MLLMs在面對欺騙信息時的脆弱性，并探索提高模型魯棒性的方法。
?? 方法簡介：研究團隊構建了MAD-Bench，該基準測試包含1000個圖像-提示對，分為五個欺騙類別，如不存在的對象、對象數量、對象屬性、場景理解和文本識別。研究團隊使用GPT-4o作為評估工具，對19個不同的MLLMs進行了評估，包括15個開源模型和4個最先進的專有系統。
?? 實驗設計：實驗設計了不同類型的欺騙提示，包括對象數量的錯誤描述、不存在的對象、對象屬性的錯誤描述、場景理解的錯誤描述和文本識別的錯誤描述。研究團隊通過GPT-4o自動評估模型的響應，并通過人工檢查驗證了自動評估的準確性。實驗結果表明，GPT-4V在所有模型中表現最佳，但在某些情況下仍會失敗。此外，研究團隊提出了一種簡單的方法，通過在提示中添加額外的段落來鼓勵模型在回答問題前進行更仔細的思考，這種方法在多個模型上顯著提高了性能。

CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models

?? 論文標題：CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models
?? 論文作者：Fuwen Luo, Chi Chen, Zihao Wan, Zhaolu Kang, Qidong Yan, Yingjie Li, Xiaolong Wang, Siyu Wang, Ziyue Wang, Xiaoyue Mi, Peng Li, Ning Ma, Maosong Sun, Yang Liu
?? 研究機構: Tsinghua University, Institute for AI Industry Research (AIR), Shanghai Artificial Intelligence Laboratory, Jiangsu Collaborative Innovation Center for Language Competence, Northwest Minzu University, Jilin University, Institute of Computing Technology, Chinese Academy of Sciences
?? 問題背景：多模態大語言模型（Multimodal Large Language Models, MLLMs）在結合視覺和語言的多種任務中展現了顯著的成果。然而，現有的大多數基準測試未能考慮在某些情況下，圖像需要在更廣泛的上下文中進行解釋。這導致了模型在上下文依賴的視覺理解能力上的評估不足。
?? 研究動機：為了評估MLLMs在上下文依賴的視覺理解能力上的表現，研究團隊提出了一個新的基準測試——CODIS（COntext-Dependent Image diSambiguation）。CODIS旨在評估模型使用自由文本形式提供的上下文來增強視覺理解的能力，以彌補現有基準測試的不足。
?? 方法簡介：CODIS利用視覺問答（VQA）格式，每個圖像包含內在的模糊性，需要額外的上下文才能解決。每個圖像-問題對都提供了兩個自由文本形式的上下文，這些上下文雖然細微不同，但會導致對圖像的不同解釋和不同的答案。研究團隊精心策劃了所有圖像、問題和上下文，以確保高質量和多樣性。
?? 實驗設計：研究團隊評估了14個廣泛使用的MLLMs在CODIS上的表現，使用了兩個評估指標：成對準確率（Accp）和查詢準確率（Accq）。Accp要求模型對一對查詢的回答都正確才能得分，而Accq則對每個單獨的正確回答進行評分。實驗結果表明，MLLMs在上下文依賴的視覺理解能力上顯著低于人類表現，特別是在識別關鍵上下文線索和提取相關視覺特征方面存在困難。