多模態大語言模型arxiv論文略讀（八十七）

在這里插入圖片描述

MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning

?? 論文標題：MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning
?? 論文作者：Xiangyu Zhao, Xiangtai Li, Haodong Duan, Haian Huang, Yining Li, Kai Chen, Hua Yang
?? 研究機構: Shanghai Jiaotong University, Shanghai AI Laboratory, S-Lab, Nanyang Technological University
?? 問題背景：多模態大語言模型（MLLMs）在各種視覺理解任務中取得了顯著進展。然而，大多數這些模型受限于處理低分辨率圖像，這限制了它們在需要詳細視覺信息的感知任務中的有效性。研究團隊提出了MG-LLaVA，通過引入多粒度視覺流（包括低分辨率、高分辨率和對象中心特征）來增強模型的視覺處理能力。
?? 研究動機：現有的MLLMs在處理低分辨率圖像時表現不佳，尤其是在識別小對象方面。為了克服這一限制，研究團隊設計了MG-LLaVA，該模型通過整合高分辨率視覺編碼器和對象級特征，顯著提高了模型的感知能力和視覺理解能力。
?? 方法簡介：MG-LLaVA的架構包括兩個關鍵組件：（1）多粒度視覺流框架，用于提取不同分辨率和粒度的視覺特征，并有效整合這些特征以確保無縫交互；（2）大型語言模型，用于生成連貫且上下文相關的響應。研究團隊通過引入卷積門融合網絡（Conv-Gate Fusion）來整合低分辨率和高分辨率特征，并通過區域對齊（RoI Align）提取對象級特征。
?? 實驗設計：研究團隊在多個公開數據集上進行了廣泛的實驗，包括視覺-語言感知（VLP）和視頻理解任務。實驗設計了不同參數規模的語言編碼器（從3.8B到34B），以全面評估MG-LLaVA的性能。實驗結果表明，MG-LLaVA在多個基準測試中顯著優于現有的MLLMs，尤其是在多模態感知和視覺問答任務中表現出色。

MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries?

?? 論文標題：MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries?
?? 論文作者：Xirui Li, Hengguang Zhou, Ruochen Wang, Tianyi Zhou, Minhao Cheng, Cho-Jui Hsieh
?? 研究機構: University of California, LA, University of Maryland, Pennsylvania State University, University of California, LA
?? 問題背景：多模態大語言模型（Multimodal Large Language Models, MLLMs）在多種任務中展現了卓越的能力，尤其是在視覺-語言理解和生成任務中。然而，研究發現，這些模型在處理某些視覺刺激時，會表現出過度敏感的行為，即在面對無害查詢時，模型可能會錯誤地拒絕處理，這種行為類似于人類的認知扭曲。
?? 研究動機：現有的研究已經揭示了MLLMs在處理某些視覺刺激時的過度敏感問題。為了進一步理解這一現象，并探索其背后的原因，研究團隊開發了多模態過度敏感基準（MOSSBench），旨在系統地評估MLLMs在面對不同類型的視覺刺激時的過度敏感程度，為未來的安全機制改進提供有價值的見解。
?? 方法簡介：研究團隊提出了一種系統的方法，通過構建MOSSBench，來評估MLLMs在處理不同類型的視覺刺激時的過度敏感行為。MOSSBench包含300個高質量的圖像-文本對，涵蓋了多種日常場景，這些場景被分為三類：夸大風險、否定傷害和反直覺解釋。這些樣本經過人工和模型的雙重篩選，確保其真實性和無害性。
?? 實驗設計：研究團隊在20個不同的MLLMs上進行了大規模的實證研究，包括主要的閉源模型（如GPT、Gemini、Claude）和開源模型（如IDEFICS-9b-Instruct、Qwen-VL、InternLMXComposer2等）。實驗設計了不同類型的視覺刺激，并評估了模型在處理這些刺激時的拒絕率。此外，研究團隊還構建了一個對比集，通過引入明確的惡意內容來評估模型的安全機制。
?? 主要發現：

過度敏感在當前的MLLMs中普遍存在，尤其是最先進的閉源模型，如Claude 3 Opus（web）和Gemini Advanced，其平均拒絕率分別高達76.33%和63.67%。
安全性更高的模型往往更加過度敏感，這表明增加安全性可能會無意中提高模型的謹慎性和保守性。
不同類型的視覺刺激會影響模型推理過程中的不同階段，如感知、意圖推理和安全判斷。

MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval

?? 論文標題：MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval
?? 論文作者：Weitong Cai, Jiabo Huang, Shaogang Gong, Hailin Jin, Yang Liu
?? 研究機構: Queen Mary University of London、Adobe Research、WICT, Peking University
?? 問題背景：視頻時刻檢索（Video Moment Retrieval, VMR）旨在根據自然語言查詢在未剪輯的長視頻中定位特定的時間段。現有方法通常因訓練注釋不足而受限，即句子通常只與視頻內容的一部分匹配，且詞匯多樣性有限。這種模態不平衡問題導致了視覺和文本信息的不完全對齊，限制了跨模態對齊知識的學習，從而影響模型的泛化能力。
?? 研究動機：為了緩解模態不平衡問題，研究團隊提出了一種基于多模態大語言模型（MLLM）的視頻敘述方法，通過生成與視頻內容相關的豐富文本描述，增強視覺和文本信息的對齊，提高視頻時刻檢索的準確性和泛化能力。
?? 方法簡介：研究團隊提出了一種名為文本增強對齊（Text-Enhanced Alignment, TEA）的新框架。該框架利用MLLM作為視頻敘述者，生成與視頻時間戳對齊的結構化文本段落，以增強視覺和文本信息的語義完整性和多樣性。通過視頻-敘述知識增強模塊和段落-查詢并行交互模塊，TEA能夠生成更具有區分性的語義增強視頻表示，從而提高跨模態對齊的精度和模型的泛化能力。
?? 實驗設計：研究團隊在兩個流行的VMR基準數據集上進行了廣泛的實驗，驗證了TEA方法的有效性和泛化能力。實驗設計包括生成與視頻時間戳對齊的結構化文本段落，通過多模態注意力機制進行視頻-敘述知識增強，以及通過段落-查詢并行交互模塊進行單模態視頻-查詢對齊。實驗結果表明，TEA在多個評估指標上均優于現有方法，顯著提高了視頻時刻檢索的性能。

LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference

?? 論文標題：LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference
?? 論文作者：Zhongwei Wan, Ziang Wu, Che Liu, Jinfa Huang, Zhihong Zhu, Peng Jin, Longyue Wang, Li Yuan
?? 研究機構: The Ohio State University、Peking University、Imperial College London、Tencent AI Lab
?? 問題背景：多模態大型語言模型（MLLMs）在處理長上下文多模態輸入時面臨顯著的計算資源挑戰，尤其是多模態鍵值（KV）緩存的快速增長，導致內存和時間效率的下降。與僅處理文本的單模態大型語言模型（LLMs）不同，MLLMs的KV緩存包含來自多個圖像的表示及其時空關系，以及相關的文本上下文。這種多模態KV緩存的特點使得傳統的LLMs KV緩存優化方法不再適用，且目前尚無針對這一挑戰的解決方案。
?? 研究動機：現有的KV緩存優化方法主要集中在文本模態上，而忽略了多模態KV緩存中圖像和文本之間的交互。為了提高多模態長上下文任務的效率，研究團隊提出了一種新的方法LOOK-M，旨在通過壓縮KV緩存來減少內存使用，同時保持或提高模型性能。
?? 方法簡介：LOOK-M是一種無需微調的高效框架，專門針對多模態長上下文場景下的KV緩存壓縮。該方法通過在提示預填充階段優先保留文本KV對，并基于注意力權重動態地排除不重要的圖像KV對，來實現KV緩存的壓縮。此外，為了保持全局上下文信息，LOOK-M還引入了多種合并策略，將被排除的KV對合并到保留的KV對中，以減少潛在的幻覺和上下文不一致問題。
?? 實驗設計：研究團隊在四個最近的MLLM骨干模型（LLaVA-v1.5-7B/13B、MobileVLM-v2、InternVL-v1.5）上進行了實驗，涵蓋了MileBench基準中的多個多模態長上下文任務，包括時間多圖像任務、語義多圖像任務、針在草堆任務和圖像檢索任務。實驗結果表明，LOOK-M在固定KV緩存預算下，實現了最小的性能下降，并將模型推理解碼延遲提高了1.3倍至1.5倍，同時將KV緩存內存占用減少了80%至95%。

A Refer-and-Ground Multimodal Large Language Model for Biomedicine

?? 論文標題：A Refer-and-Ground Multimodal Large Language Model for Biomedicine
?? 論文作者：Xiaoshuang Huang, Haifeng Huang, Lingdong Shen, Yehui Yang, Fangxin Shang, Junwei Liu, Jia Liu
?? 研究機構: Baidu Inc, Beijing、China Agricultural University、Institute of Automation, Chinese Academy of Sciences (CASIA)
?? 問題背景：盡管多模態大語言模型（MLLMs）在視覺語言任務中取得了顯著進展，但在生物醫學領域，這些模型的能力仍存在顯著差距，尤其是在指代和定位（referring and grounding）方面。當前缺乏專門針對生物醫學圖像的指代和定位數據集，這限制了模型在該領域的應用和發展。
?? 研究動機：為了填補這一空白，研究團隊開發了Med-GRIT-270k數據集，該數據集包含27萬個問題-回答對，涵蓋了8種不同的醫學成像模態。此外，團隊還提出了BiRD模型，這是一個專門針對生物醫學領域的多模態大語言模型，旨在提高模型在指代和定位任務中的表現。
?? 方法簡介：研究團隊通過從醫學分割數據集中采樣大規模的生物醫學圖像-掩碼對，并利用chatGPT生成指令數據集，構建了Med-GRIT-270k數據集。BiRD模型基于Qwen-VL模型進行多任務指令學習，以適應生物醫學領域的特定需求。
?? 實驗設計：研究團隊在Med-GRIT-270k數據集的測試集上進行了廣泛的實驗，評估了BiRD模型在視覺定位（VG）、指代對象分類（ROC）、指代描述（RC）和醫學圖像分析（MIA）等任務中的表現。實驗結果表明，隨著訓練數據規模的增加，模型在所有任務上的表現均有顯著提升，特別是在Dermoscopy模態上表現尤為突出。