多模態大語言模型arxiv論文略讀(八十七)

在這里插入圖片描述

MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning

?? 論文標題:MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning
?? 論文作者:Xiangyu Zhao, Xiangtai Li, Haodong Duan, Haian Huang, Yining Li, Kai Chen, Hua Yang
?? 研究機構: Shanghai Jiaotong University, Shanghai AI Laboratory, S-Lab, Nanyang Technological University
?? 問題背景:多模態大語言模型(MLLMs)在各種視覺理解任務中取得了顯著進展。然而,大多數這些模型受限于處理低分辨率圖像,這限制了它們在需要詳細視覺信息的感知任務中的有效性。研究團隊提出了MG-LLaVA,通過引入多粒度視覺流(包括低分辨率、高分辨率和對象中心特征)來增強模型的視覺處理能力。
?? 研究動機:現有的MLLMs在處理低分辨率圖像時表現不佳,尤其是在識別小對象方面。為了克服這一限制,研究團隊設計了MG-LLaVA,該模型通過整合高分辨率視覺編碼器和對象級特征,顯著提高了模型的感知能力和視覺理解能力。
?? 方法簡介:MG-LLaVA的架構包括兩個關鍵組件:(1)多粒度視覺流框架,用于提取不同分辨率和粒度的視覺特征,并有效整合這些特征以確保無縫交互;(2)大型語言模型,用于生成連貫且上下文相關的響應。研究團隊通過引入卷積門融合網絡(Conv-Gate Fusion)來整合低分辨率和高分辨率特征,并通過區域對齊(RoI Align)提取對象級特征。
?? 實驗設計:研究團隊在多個公開數據集上進行了廣泛的實驗,包括視覺-語言感知(VLP)和視頻理解任務。實驗設計了不同參數規模的語言編碼器(從3.8B到34B),以全面評估MG-LLaVA的性能。實驗結果表明,MG-LLaVA在多個基準測試中顯著優于現有的MLLMs,尤其是在多模態感知和視覺問答任務中表現出色。

MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries?

?? 論文標題:MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries?
?? 論文作者:Xirui Li, Hengguang Zhou, Ruochen Wang, Tianyi Zhou, Minhao Cheng, Cho-Jui Hsieh
?? 研究機構: University of California, LA, University of Maryland, Pennsylvania State University, University of California, LA
?? 問題背景:多模態大語言模型(Multimodal Large Language Models, MLLMs)在多種任務中展現了卓越的能力,尤其是在視覺-語言理解和生成任務中。然而,研究發現,這些模型在處理某些視覺刺激時,會表現出過度敏感的行為,即在面對無害查詢時,模型可能會錯誤地拒絕處理,這種行為類似于人類的認知扭曲。
?? 研究動機:現有的研究已經揭示了MLLMs在處理某些視覺刺激時的過度敏感問題。為了進一步理解這一現象,并探索其背后的原因,研究團隊開發了多模態過度敏感基準(MOSSBench),旨在系統地評估MLLMs在面對不同類型的視覺刺激時的過度敏感程度,為未來的安全機制改進提供有價值的見解。
?? 方法簡介:研究團隊提出了一種系統的方法,通過構建MOSSBench,來評估MLLMs在處理不同類型的視覺刺激時的過度敏感行為。MOSSBench包含300個高質量的圖像-文本對,涵蓋了多種日常場景,這些場景被分為三類:夸大風險、否定傷害和反直覺解釋。這些樣本經過人工和模型的雙重篩選,確保其真實性和無害性。
?? 實驗設計:研究團隊在20個不同的MLLMs上進行了大規模的實證研究,包括主要的閉源模型(如GPT、Gemini、Claude)和開源模型(如IDEFICS-9b-Instruct、Qwen-VL、InternLMXComposer2等)。實驗設計了不同類型的視覺刺激,并評估了模型在處理這些刺激時的拒絕率。此外,研究團隊還構建了一個對比集,通過引入明確的惡意內容來評估模型的安全機制。
?? 主要發現:

  1. 過度敏感在當前的MLLMs中普遍存在,尤其是最先進的閉源模型,如Claude 3 Opus(web)和Gemini Advanced,其平均拒絕率分別高達76.33%和63.67%。
  2. 安全性更高的模型往往更加過度敏感,這表明增加安全性可能會無意中提高模型的謹慎性和保守性。
  3. 不同類型的視覺刺激會影響模型推理過程中的不同階段,如感知、意圖推理和安全判斷。

MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval

?? 論文標題:MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval
?? 論文作者:Weitong Cai, Jiabo Huang, Shaogang Gong, Hailin Jin, Yang Liu
?? 研究機構: Queen Mary University of London、Adobe Research、WICT, Peking University
?? 問題背景:視頻時刻檢索(Video Moment Retrieval, VMR)旨在根據自然語言查詢在未剪輯的長視頻中定位特定的時間段。現有方法通常因訓練注釋不足而受限,即句子通常只與視頻內容的一部分匹配,且詞匯多樣性有限。這種模態不平衡問題導致了視覺和文本信息的不完全對齊,限制了跨模態對齊知識的學習,從而影響模型的泛化能力。
?? 研究動機:為了緩解模態不平衡問題,研究團隊提出了一種基于多模態大語言模型(MLLM)的視頻敘述方法,通過生成與視頻內容相關的豐富文本描述,增強視覺和文本信息的對齊,提高視頻時刻檢索的準確性和泛化能力。
?? 方法簡介:研究團隊提出了一種名為文本增強對齊(Text-Enhanced Alignment, TEA)的新框架。該框架利用MLLM作為視頻敘述者,生成與視頻時間戳對齊的結構化文本段落,以增強視覺和文本信息的語義完整性和多樣性。通過視頻-敘述知識增強模塊和段落-查詢并行交互模塊,TEA能夠生成更具有區分性的語義增強視頻表示,從而提高跨模態對齊的精度和模型的泛化能力。
?? 實驗設計:研究團隊在兩個流行的VMR基準數據集上進行了廣泛的實驗,驗證了TEA方法的有效性和泛化能力。實驗設計包括生成與視頻時間戳對齊的結構化文本段落,通過多模態注意力機制進行視頻-敘述知識增強,以及通過段落-查詢并行交互模塊進行單模態視頻-查詢對齊。實驗結果表明,TEA在多個評估指標上均優于現有方法,顯著提高了視頻時刻檢索的性能。

LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference

?? 論文標題:LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference
?? 論文作者:Zhongwei Wan, Ziang Wu, Che Liu, Jinfa Huang, Zhihong Zhu, Peng Jin, Longyue Wang, Li Yuan
?? 研究機構: The Ohio State University、Peking University、Imperial College London、Tencent AI Lab
?? 問題背景:多模態大型語言模型(MLLMs)在處理長上下文多模態輸入時面臨顯著的計算資源挑戰,尤其是多模態鍵值(KV)緩存的快速增長,導致內存和時間效率的下降。與僅處理文本的單模態大型語言模型(LLMs)不同,MLLMs的KV緩存包含來自多個圖像的表示及其時空關系,以及相關的文本上下文。這種多模態KV緩存的特點使得傳統的LLMs KV緩存優化方法不再適用,且目前尚無針對這一挑戰的解決方案。
?? 研究動機:現有的KV緩存優化方法主要集中在文本模態上,而忽略了多模態KV緩存中圖像和文本之間的交互。為了提高多模態長上下文任務的效率,研究團隊提出了一種新的方法LOOK-M,旨在通過壓縮KV緩存來減少內存使用,同時保持或提高模型性能。
?? 方法簡介:LOOK-M是一種無需微調的高效框架,專門針對多模態長上下文場景下的KV緩存壓縮。該方法通過在提示預填充階段優先保留文本KV對,并基于注意力權重動態地排除不重要的圖像KV對,來實現KV緩存的壓縮。此外,為了保持全局上下文信息,LOOK-M還引入了多種合并策略,將被排除的KV對合并到保留的KV對中,以減少潛在的幻覺和上下文不一致問題。
?? 實驗設計:研究團隊在四個最近的MLLM骨干模型(LLaVA-v1.5-7B/13B、MobileVLM-v2、InternVL-v1.5)上進行了實驗,涵蓋了MileBench基準中的多個多模態長上下文任務,包括時間多圖像任務、語義多圖像任務、針在草堆任務和圖像檢索任務。實驗結果表明,LOOK-M在固定KV緩存預算下,實現了最小的性能下降,并將模型推理解碼延遲提高了1.3倍至1.5倍,同時將KV緩存內存占用減少了80%至95%。

A Refer-and-Ground Multimodal Large Language Model for Biomedicine

?? 論文標題:A Refer-and-Ground Multimodal Large Language Model for Biomedicine
?? 論文作者:Xiaoshuang Huang, Haifeng Huang, Lingdong Shen, Yehui Yang, Fangxin Shang, Junwei Liu, Jia Liu
?? 研究機構: Baidu Inc, Beijing、China Agricultural University、Institute of Automation, Chinese Academy of Sciences (CASIA)
?? 問題背景:盡管多模態大語言模型(MLLMs)在視覺語言任務中取得了顯著進展,但在生物醫學領域,這些模型的能力仍存在顯著差距,尤其是在指代和定位(referring and grounding)方面。當前缺乏專門針對生物醫學圖像的指代和定位數據集,這限制了模型在該領域的應用和發展。
?? 研究動機:為了填補這一空白,研究團隊開發了Med-GRIT-270k數據集,該數據集包含27萬個問題-回答對,涵蓋了8種不同的醫學成像模態。此外,團隊還提出了BiRD模型,這是一個專門針對生物醫學領域的多模態大語言模型,旨在提高模型在指代和定位任務中的表現。
?? 方法簡介:研究團隊通過從醫學分割數據集中采樣大規模的生物醫學圖像-掩碼對,并利用chatGPT生成指令數據集,構建了Med-GRIT-270k數據集。BiRD模型基于Qwen-VL模型進行多任務指令學習,以適應生物醫學領域的特定需求。
?? 實驗設計:研究團隊在Med-GRIT-270k數據集的測試集上進行了廣泛的實驗,評估了BiRD模型在視覺定位(VG)、指代對象分類(ROC)、指代描述(RC)和醫學圖像分析(MIA)等任務中的表現。實驗結果表明,隨著訓練數據規模的增加,模型在所有任務上的表現均有顯著提升,特別是在Dermoscopy模態上表現尤為突出。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/82269.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/82269.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/82269.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

塔能節能平板燈:點亮蘇州某零售工廠節能之路

在蘇州某零售工廠的運營成本中,照明能耗占據著一定比例。為降低成本、提升能源利用效率,該工廠與塔能科技攜手,引入塔能節能平板燈,開啟了精準節能之旅,并取得了令人矚目的成效。 一、工廠照明能耗困境 蘇州該零售工廠…

數據庫事務的四大特性(ACID)

一、前言 在現代數據庫系統中,事務(Transaction)是確保數據一致性和完整性的重要機制。事務的四大特性——原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)…

8 種快速易用的Python Matplotlib數據可視化方法

你是否曾經面對一堆復雜的數據,卻不知道如何讓它們變得直觀易懂?別慌,Python 的 Matplotlib 庫是你數據可視化的最佳伙伴!它簡單易用、功能強大,能將枯燥的數字變成引人入勝的圖表。無論是學生、數據分析師還是程序員&…

springboot 控制層調用業務邏輯層,注入報錯,無法自動裝配 解決辦法

報錯: 解決:愿意是業務邏輯層,即service層的具體實現類沒有加注解Service導致的,加上解決了!!

如何提高獨立服務器的安全性?

獨立服務器相對于其它服務器來說,整體的硬件設備都是獨立的同時還有著強大的服務器性能,其中CPU設備能夠決定著服務器的運算能力,所以獨立服務器的安全性受到企業格外的重視,嚴重的話會給企業造成巨大的資金損失。 那么&#xff0…

關于 Web 風險點原理與利用:6. 邏輯風險點

一、分類: 1.1 越權訪問 **越權訪問(Authorization Bypass)**是指:攻擊者繞過了權限控制機制,訪問或操作了非其權限范圍內的資源或功能。 換句話說,系統該攔你沒攔,你就越權成功了。 1.1.1 …

分布式緩存:ZSET → MGET 跨槽(cross‐slot)/ 并發 GET解決思路

文章目錄 緩存全景圖Pre問題描述解決思路一、管道(Pipelining)替代多線程二、使用 Hash Tag 保證數據同槽三、用 Hash 結構一次性批量取值四、把數據直接存進 ZSET(或用 RedisJSON) 小結 緩存全景圖 Pre 分布式緩存:緩…

開發AR導航助手:ARKit+Unity+Mapbox全流程實戰教程

引言 在增強現實技術飛速發展的今天,AR導航應用正逐步改變人們的出行方式。本文將手把手教你使用UnityARKitMapbox開發跨平臺AR導航助手,實現從虛擬路徑疊加到空間感知的完整技術閉環。通過本教程,你將掌握: AR空間映射與場景理…

助力 FPGA 國產化,ALINX 攜多款方案亮相深圳、廣州“紫光同創 FPGA 技術研討會”

5 月中旬,一年一度的紫光同創技術研討會系列活動正式拉開帷幕,相繼在深圳、廣州帶來 FPGA 技術交流盛宴。 ALINX 作為紫光同創官方合作伙伴,長期助力推動 FPGA 國產化應用發展,此次攜多款基于 Kosmo-2 系列產品開發的方案 demo 亮…

LeetCode 1040.移動石子直到連續II

在 X 軸上有一些不同位置的石子。給定一個整數數組 stones 表示石子的位置。 如果一個石子在最小或最大的位置,稱其為 端點石子。每個回合,你可以將一顆 端點石子 拿起并移動到一個未占用的位置,使得該石子不再是一顆 端點石子。 值得注意的…

梯度優化提示詞:精準引導AI分類

基于梯度優化的提示詞工程方法,通過迭代調整提示詞的嵌入向量,使其能夠更有效地引導模型做出正確分類。 數據形式 訓練數據 train_data 是一個列表,每個元素是一個字典,包含兩個鍵: text: 需要分類的文本描述label: 對應的標簽(“沖動"或"理性”)示例數據: …

JavaWeb:SpringBoot配置優先級詳解

3種配置 打包插件 命令行 優先級 SpringBoot的配置優先級決定了不同配置源之間的覆蓋關系,遵循高優先級配置覆蓋低優先級的原則。以下是詳細的優先級排序及配置方法說明: 一、配置優先級從高到低排序 1.命令行參數 優先級最高,通過keyvalu…

使用CentOS部署本地DeekSeek

一、查看服務器的操作系統版本 cat /etc/centos-release二、下載并安裝ollama 1、ollama下載地址: Releases ollama/ollama GitHubGet up and running with Llama 3.3, DeepSeek-R1, Phi-4, Gemma 3, Mistral Small 3.1 and other large language models. - Re…

Matplotlib 后端與事件循環

前言:很多時候,matplot跑出來的是這種靜態非交互的,如果想要可以交互,就得設定一個后端,例如 matplotlib.use(TkAgg)Matplotlib 后端 (Backend) Matplotlib 的設計理念是能夠以多種方式輸出圖形,無論是顯…

【JAVA】中文我該怎么排序?

📘 Java 中文排序教學文檔(基于 Collator) 🧠 目錄 概述Java 中字符串排序的默認行為為什么需要 Collator使用 Collator 進行中文排序升序 vs 降序排序自定義對象字段排序多字段排序示例總結對比表附錄:完整代碼示例 …

k8s-NetworkPolicy

在 Kubernetes 中,NetworkPolicy 是一種資源對象,用于定義 Pod 之間的網絡通信策略。它允許你控制哪些 Pod 可以相互通信,以及如何通信。通過使用 NetworkPolicy,可以實現更細粒度的網絡訪問控制,增強集群的安全性。 1…

LAN(局域網)和WAN(廣域網)

你的問題非常清晰!我來用一個直觀的比喻實際拓撲圖幫你徹底理解LAN(局域網)和WAN(廣域網)如何協同工作,以及路由器在其中的位置。你可以把整個網絡想象成一座城市: 1. 比喻:城市交通…

idea 插件開發自動發布到 nexus 私服中(腳本實例)

如下腳本內容為 idea 插件開發項目中的 build.gradle.kts 文件示例,其中自定了 updatePluginsXmlToNexus 和 uploadPluginToNexus 兩個任務,一個用來自動修改 nexus 中的配置文件,一個用來自動將當前插件打包后的 zip 文件上傳到 nexus 私服中…

SpringBoot-11-基于注解和XML方式的SpringBoot應用場景對比

文章目錄 1 基于注解的方式1.1 @Mapper1.2 @select1.3 @insert1.4 @update1.5 @delete2 基于XML的方式2.1 namespace2.2 resultMap2.3 select2.4 insert2.5 update2.6 delete3 service和controller3.1 service3.2 controller4 注解和xml的選擇如果SQL簡單且項目規模較小,推薦使…

C++復習核心精華

一、內存管理與智能指針 內存管理是C區別于其他高級語言的關鍵特性,掌握好它就掌握了C的靈魂。 1. 原始指針與內存泄漏 先來看看傳統C的內存管理方式: void oldWay() {int* p new int(42); // 分配內存// 如果這里發生異常或提前return&#xff0c…