MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning
?? 論文標題:MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning
?? 論文作者:Xiangyu Zhao, Xiangtai Li, Haodong Duan, Haian Huang, Yining Li, Kai Chen, Hua Yang
?? 研究機構: Shanghai Jiaotong University, Shanghai AI Laboratory, S-Lab, Nanyang Technological University
?? 問題背景:多模態大語言模型(MLLMs)在各種視覺理解任務中取得了顯著進展。然而,大多數這些模型受限于處理低分辨率圖像,這限制了它們在需要詳細視覺信息的感知任務中的有效性。研究團隊提出了MG-LLaVA,通過引入多粒度視覺流(包括低分辨率、高分辨率和對象中心特征)來增強模型的視覺處理能力。
?? 研究動機:現有的MLLMs在處理低分辨率圖像時表現不佳,尤其是在識別小對象方面。為了克服這一限制,研究團隊設計了MG-LLaVA,該模型通過整合高分辨率視覺編碼器和對象級特征,顯著提高了模型的感知能力和視覺理解能力。
?? 方法簡介:MG-LLaVA的架構包括兩個關鍵組件:(1)多粒度視覺流框架,用于提取不同分辨率和粒度的視覺特征,并有效整合這些特征以確保無縫交互;(2)大型語言模型,用于生成連貫且上下文相關的響應。研究團隊通過引入卷積門融合網絡(Conv-Gate Fusion)來整合低分辨率和高分辨率特征,并通過區域對齊(RoI Align)提取對象級特征。
?? 實驗設計:研究團隊在多個公開數據集上進行了廣泛的實驗,包括視覺-語言感知(VLP)和視頻理解任務。實驗設計了不同參數規模的語言編碼器(從3.8B到34B),以全面評估MG-LLaVA的性能。實驗結果表明,MG-LLaVA在多個基準測試中顯著優于現有的MLLMs,尤其是在多模態感知和視覺問答任務中表現出色。
MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries?
?? 論文標題:MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries?
?? 論文作者:Xirui Li, Hengguang Zhou, Ruochen Wang, Tianyi Zhou, Minhao Cheng, Cho-Jui Hsieh
?? 研究機構: University of California, LA, University of Maryland, Pennsylvania State University, University of California, LA
?? 問題背景:多模態大語言模型(Multimodal Large Language Models, MLLMs)在多種任務中展現了卓越的能力,尤其是在視覺-語言理解和生成任務中。然而,研究發現,這些模型在處理某些視覺刺激時,會表現出過度敏感的行為,即在面對無害查詢時,模型可能會錯誤地拒絕處理,這種行為類似于人類的認知扭曲。
?? 研究動機:現有的研究已經揭示了MLLMs在處理某些視覺刺激時的過度敏感問題。為了進一步理解這一現象,并探索其背后的原因,研究團隊開發了多模態過度敏感基準(MOSSBench),旨在系統地評估MLLMs在面對不同類型的視覺刺激時的過度敏感程度,為未來的安全機制改進提供有價值的見解。
?? 方法簡介:研究團隊提出了一種系統的方法,通過構建MOSSBench,來評估MLLMs在處理不同類型的視覺刺激時的過度敏感行為。MOSSBench包含300個高質量的圖像-文本對,涵蓋了多種日常場景,這些場景被分為三類:夸大風險、否定傷害和反直覺解釋。這些樣本經過人工和模型的雙重篩選,確保其真實性和無害性。
?? 實驗設計:研究團隊在20個不同的MLLMs上進行了大規模的實證研究,包括主要的閉源模型(如GPT、Gemini、Claude)和開源模型(如IDEFICS-9b-Instruct、Qwen-VL、InternLMXComposer2等)。實驗設計了不同類型的視覺刺激,并評估了模型在處理這些刺激時的拒絕率。此外,研究團隊還構建了一個對比集,通過引入明確的惡意內容來評估模型的安全機制。
?? 主要發現:
- 過度敏感在當前的MLLMs中普遍存在,尤其是最先進的閉源模型,如Claude 3 Opus(web)和Gemini Advanced,其平均拒絕率分別高達76.33%和63.67%。
- 安全性更高的模型往往更加過度敏感,這表明增加安全性可能會無意中提高模型的謹慎性和保守性。
- 不同類型的視覺刺激會影響模型推理過程中的不同階段,如感知、意圖推理和安全判斷。
MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval
?? 論文標題:MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval
?? 論文作者:Weitong Cai, Jiabo Huang, Shaogang Gong, Hailin Jin, Yang Liu
?? 研究機構: Queen Mary University of London、Adobe Research、WICT, Peking University
?? 問題背景:視頻時刻檢索(Video Moment Retrieval, VMR)旨在根據自然語言查詢在未剪輯的長視頻中定位特定的時間段。現有方法通常因訓練注釋不足而受限,即句子通常只與視頻內容的一部分匹配,且詞匯多樣性有限。這種模態不平衡問題導致了視覺和文本信息的不完全對齊,限制了跨模態對齊知識的學習,從而影響模型的泛化能力。
?? 研究動機:為了緩解模態不平衡問題,研究團隊提出了一種基于多模態大語言模型(MLLM)的視頻敘述方法,通過生成與視頻內容相關的豐富文本描述,增強視覺和文本信息的對齊,提高視頻時刻檢索的準確性和泛化能力。
?? 方法簡介:研究團隊提出了一種名為文本增強對齊(Text-Enhanced Alignment, TEA)的新框架。該框架利用MLLM作為視頻敘述者,生成與視頻時間戳對齊的結構化文本段落,以增強視覺和文本信息的語義完整性和多樣性。通過視頻-敘述知識增強模塊和段落-查詢并行交互模塊,TEA能夠生成更具有區分性的語義增強視頻表示,從而提高跨模態對齊的精度和模型的泛化能力。
?? 實驗設計:研究團隊在兩個流行的VMR基準數據集上進行了廣泛的實驗,驗證了TEA方法的有效性和泛化能力。實驗設計包括生成與視頻時間戳對齊的結構化文本段落,通過多模態注意力機制進行視頻-敘述知識增強,以及通過段落-查詢并行交互模塊進行單模態視頻-查詢對齊。實驗結果表明,TEA在多個評估指標上均優于現有方法,顯著提高了視頻時刻檢索的性能。
LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference
?? 論文標題:LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference
?? 論文作者:Zhongwei Wan, Ziang Wu, Che Liu, Jinfa Huang, Zhihong Zhu, Peng Jin, Longyue Wang, Li Yuan
?? 研究機構: The Ohio State University、Peking University、Imperial College London、Tencent AI Lab
?? 問題背景:多模態大型語言模型(MLLMs)在處理長上下文多模態輸入時面臨顯著的計算資源挑戰,尤其是多模態鍵值(KV)緩存的快速增長,導致內存和時間效率的下降。與僅處理文本的單模態大型語言模型(LLMs)不同,MLLMs的KV緩存包含來自多個圖像的表示及其時空關系,以及相關的文本上下文。這種多模態KV緩存的特點使得傳統的LLMs KV緩存優化方法不再適用,且目前尚無針對這一挑戰的解決方案。
?? 研究動機:現有的KV緩存優化方法主要集中在文本模態上,而忽略了多模態KV緩存中圖像和文本之間的交互。為了提高多模態長上下文任務的效率,研究團隊提出了一種新的方法LOOK-M,旨在通過壓縮KV緩存來減少內存使用,同時保持或提高模型性能。
?? 方法簡介:LOOK-M是一種無需微調的高效框架,專門針對多模態長上下文場景下的KV緩存壓縮。該方法通過在提示預填充階段優先保留文本KV對,并基于注意力權重動態地排除不重要的圖像KV對,來實現KV緩存的壓縮。此外,為了保持全局上下文信息,LOOK-M還引入了多種合并策略,將被排除的KV對合并到保留的KV對中,以減少潛在的幻覺和上下文不一致問題。
?? 實驗設計:研究團隊在四個最近的MLLM骨干模型(LLaVA-v1.5-7B/13B、MobileVLM-v2、InternVL-v1.5)上進行了實驗,涵蓋了MileBench基準中的多個多模態長上下文任務,包括時間多圖像任務、語義多圖像任務、針在草堆任務和圖像檢索任務。實驗結果表明,LOOK-M在固定KV緩存預算下,實現了最小的性能下降,并將模型推理解碼延遲提高了1.3倍至1.5倍,同時將KV緩存內存占用減少了80%至95%。
A Refer-and-Ground Multimodal Large Language Model for Biomedicine
?? 論文標題:A Refer-and-Ground Multimodal Large Language Model for Biomedicine
?? 論文作者:Xiaoshuang Huang, Haifeng Huang, Lingdong Shen, Yehui Yang, Fangxin Shang, Junwei Liu, Jia Liu
?? 研究機構: Baidu Inc, Beijing、China Agricultural University、Institute of Automation, Chinese Academy of Sciences (CASIA)
?? 問題背景:盡管多模態大語言模型(MLLMs)在視覺語言任務中取得了顯著進展,但在生物醫學領域,這些模型的能力仍存在顯著差距,尤其是在指代和定位(referring and grounding)方面。當前缺乏專門針對生物醫學圖像的指代和定位數據集,這限制了模型在該領域的應用和發展。
?? 研究動機:為了填補這一空白,研究團隊開發了Med-GRIT-270k數據集,該數據集包含27萬個問題-回答對,涵蓋了8種不同的醫學成像模態。此外,團隊還提出了BiRD模型,這是一個專門針對生物醫學領域的多模態大語言模型,旨在提高模型在指代和定位任務中的表現。
?? 方法簡介:研究團隊通過從醫學分割數據集中采樣大規模的生物醫學圖像-掩碼對,并利用chatGPT生成指令數據集,構建了Med-GRIT-270k數據集。BiRD模型基于Qwen-VL模型進行多任務指令學習,以適應生物醫學領域的特定需求。
?? 實驗設計:研究團隊在Med-GRIT-270k數據集的測試集上進行了廣泛的實驗,評估了BiRD模型在視覺定位(VG)、指代對象分類(ROC)、指代描述(RC)和醫學圖像分析(MIA)等任務中的表現。實驗結果表明,隨著訓練數據規模的增加,模型在所有任務上的表現均有顯著提升,特別是在Dermoscopy模態上表現尤為突出。