多模態大語言模型arxiv論文略讀(148)

在這里插入圖片描述

A Comprehensive Survey and Guide to Multimodal Large Language Models in Vision-Language Tasks

?? 論文標題:A Comprehensive Survey and Guide to Multimodal Large Language Models in Vision-Language Tasks
?? 論文作者:Chia Xin Liang, Pu Tian, Caitlyn Heqi Yin, Yao Yua, Wei An-Hou, Li Ming, Tianyang Wang, Ziqian Bi, Ming Liu
?? 研究機構: JTB Technology Corp.、Stockton University、University of Wisconsin-Madison、AppCubic USA、Nomad Sustaintech LTD、Georgia Institute of Technology、University of Liverpool、Indiana University、Purdue University
?? 問題背景:多模態大型語言模型(Multimodal Large Language Models, MLLMs)在視覺-語言任務中迅速發展,這些模型能夠整合文本、圖像、視頻和音頻等多種數據類型,實現跨模態理解和生成。MLLMs在視覺故事講述、內容創作、跨模態檢索和增強無障礙性等多個領域展現出巨大的應用潛力。
?? 研究動機:盡管MLLMs在多個領域取得了顯著進展,但它們在模型架構、可擴展性、跨模態學習、模型魯棒性和可靠性、解釋性和倫理考慮等方面仍面臨諸多挑戰。研究團隊通過全面的調查和案例分析,旨在探討這些挑戰,并為未來的MLLMs發展提供理論框架和實踐指導。
?? 方法簡介:研究團隊通過文獻綜述和案例研究,系統地分析了MLLMs的架構、訓練方法、應用領域以及面臨的挑戰。研究涵蓋了從基礎概念到具體應用的各個方面,包括模型的訓練策略、跨模態任務的處理、模型的魯棒性和解釋性等。
?? 實驗設計:研究團隊在多個實際應用案例中評估了MLLMs的性能,包括圖像生成、代碼生成、搜索和信息檢索、多模態助手和聊天機器人、視頻分析和生成、音頻和語音處理、機器人和具身AI等。通過詳細的案例分析,研究團隊探討了MLLMs在不同應用場景中的表現和潛在問題。

Learning from Feedback: Semantic Enhancement for Object SLAM Using Foundation Models

?? 論文標題:Learning from Feedback: Semantic Enhancement for Object SLAM Using Foundation Models
?? 論文作者:Jungseok Hong, Ran Choi, John J. Leonard
?? 研究機構: MIT CSAIL
?? 問題背景:當前的語義同時定位與建圖(Semantic SLAM)系統在處理語義相似的物體時存在困難,尤其是在雜亂的室內環境中。這些系統通常只能提供通用的標簽(如“鞋”),導致相似的物體被融合成單一的地標。此外,錯誤的地標和物體檢測器的固有偏差也是維持地圖一致性的重要挑戰。
?? 研究動機:為了克服這些挑戰,研究團隊提出了一種新的SLAM系統——SEO-SLAM,該系統利用視覺-語言模型(VLM)和多模態大語言模型(MLLM)來增強物體級別的語義映射。SEO-SLAM通過生成更具體和描述性的開放詞匯物體標簽、同時糾正導致錯誤地標的因素,并動態更新多類混淆矩陣,從而提高了語義映射的準確性和魯棒性。
?? 方法簡介:SEO-SLAM系統集成了圖像標記、基于標簽的定位和分割模型,以實現描述性的開放詞匯物體檢測和地標語義信息的細化。該系統利用MLLM生成更描述性的地標標簽,并通過MLLM的反饋更新多類預測混淆矩陣,識別重復地標。具體來說,系統通過將3D地標投影到當前相機幀上,生成每個地標的邊界框,并將這些邊界框疊加到當前的RGB圖像上,形成復合圖像。MLLM通過評估這些復合圖像來識別消失的物體、糾正錯誤標簽的物體,并選擇最合適的地標標簽。
?? 實驗設計:研究團隊在六個包含日常物體的室內環境數據集上進行了實驗,這些數據集根據物體數量分為小(約10個)、中(約20個)和大(約30個)三類。實驗評估了地標語義準確性、錯誤地標數量和絕對姿態誤差(APE)。實驗結果表明,SEO-SLAM在語義準確性和地標估計數量方面均優于其他方法,尤其是在處理復雜環境中的相似物體時表現出色。

CapeLLM: Support-Free Category-Agnostic Pose Estimation with Multimodal Large Language Models

?? 論文標題:CapeLLM: Support-Free Category-Agnostic Pose Estimation with Multimodal Large Language Models
?? 論文作者:Junho Kim, Hyungjin Chung, Byung-Hoon Kim
?? 研究機構: EverEx, KAIST, Yonsei University
?? 問題背景:傳統的類別特定姿態估計(Category-Specific Pose Estimation, CSP)主要集中在訓練模型以識別單一類別(如人類、車輛或動物)的關鍵點。然而,這些模型無法處理未見過的類別和關鍵點。類別無關姿態估計(Category-Agnostic Pose Estimation, CAPE)旨在通過利用輸入圖像和一組支持數據來預測新類別對象的關鍵點位置。然而,支持數據的使用存在固有的局限性,如依賴于支持圖像和關鍵點注釋,導致模型性能受支持數據質量的影響。
?? 研究動機:為了克服傳統CAPE方法的局限性,研究團隊提出了一種新的方法CapeLLM,該方法利用多模態大語言模型(Multimodal Large Language Model, MLLM)進行支持圖像無關的CAPE。通過僅使用查詢圖像和詳細的文本描述作為輸入,CapeLLM能夠預測未見過類別對象的關鍵點位置,從而提高了模型的泛化能力和魯棒性。
?? 方法簡介:CapeLLM結合了一個預訓練的視覺編碼器和一個大語言模型(LLM)。視覺編碼器用于提取圖像特征,而LLM則用于處理文本描述并生成關鍵點坐標。研究團隊定義了各類別關鍵點的名稱和描述,并將其轉換為適合CAPE的指令格式。通過這種方式,CapeLLM能夠在沒有支持圖像的情況下,僅依賴查詢圖像和文本描述來預測關鍵點位置。
?? 實驗設計:研究團隊在MP-100基準數據集上進行了實驗,該數據集包含100個類別和約20,000張圖像。實驗設計了不同的訓練策略,包括將關鍵點分組為固定大小的單元,并允許圖像重復以確保所有關鍵點在訓練中都被覆蓋。實驗結果表明,CapeLLM在1-shot設置下超越了現有的5-shot性能,達到了新的最先進水平。

Zer0-Jack: A Memory-efficient Gradient-based Jailbreaking Method for Black-box Multi-modal Large Language Models

?? 論文標題:Zer0-Jack: A Memory-efficient Gradient-based Jailbreaking Method for Black-box Multi-modal Large Language Models
?? 論文作者:Tiejin Chen, Kaishen Wang, Hua Wei
?? 研究機構: Arizona State University, USA
?? 問題背景:多模態大語言模型(MLLMs)在處理文本和圖像輸入方面表現出色,但這些模型的安全性引起了廣泛關注。研究發現,通過精心設計的提示,可以“越獄”這些模型,使其生成有害內容。現有的越獄方法主要依賴于梯度方法,這些方法在白盒設置下表現良好,但在黑盒設置下效果不佳,因為黑盒模型不提供內部參數訪問權限。
?? 研究動機:現有的越獄方法在黑盒設置下效果有限,因為這些方法通常依賴于轉移攻擊,即在白盒模型上生成惡意輸入,然后應用于黑盒模型,但這種方法的攻擊成功率較低。為了克服這一挑戰,研究團隊提出了一種新的方法——Zer0-Jack,該方法利用零階優化技術直接生成惡意圖像輸入,以攻擊黑盒MLLMs,顯著降低了內存使用量,并提高了攻擊成功率。
?? 方法簡介:Zer0-Jack利用零階優化技術,通過估計梯度而不訪問模型參數,來生成能夠繞過安全機制的惡意圖像輸入。為了減少高維輸入的估計誤差,Zer0-Jack優化圖像的特定部分,而不是整個圖像,從而顯著降低了內存使用量。具體來說,Zer0-Jack使用了SPSA-P方法,即在每個迭代中僅擾動圖像的一個小塊(patch),并根據估計的梯度更新該小塊。
?? 實驗設計:研究團隊在三個公開數據集上進行了實驗,包括Harmful Behaviors Multi-modal Dataset和MM-SafetyBench-T。實驗評估了Zer0-Jack在不同模型上的攻擊成功率,并與現有的白盒和轉移攻擊方法進行了比較。實驗結果表明,Zer0-Jack在黑盒設置下能夠達到與白盒方法相當的攻擊成功率,例如在MiniGPT-4上使用Harmful Behaviors Multi-modal Dataset時,Zer0-Jack的攻擊成功率達到95%。此外,Zer0-Jack還能夠直接攻擊商業MLLMs,如GPT-4o。

Is Cognition consistent with Perception? Assessing and Mitigating Multimodal Knowledge Conflicts in Document Understanding

?? 論文標題:Is Cognition consistent with Perception? Assessing and Mitigating Multimodal Knowledge Conflicts in Document Understanding
?? 論文作者:Zirui Shao, Chuwei Luo, Zhaoqing Zhu, Hangdi Xing, Zhi Yu, Qi Zheng, Jiajun Bu
?? 研究機構: 浙江大學、阿里巴巴集團
?? 問題背景:多模態大語言模型(MLLMs)在文檔理解等多模態任務中展現了顯著的能力。然而,這些模型在感知(perception)和認知(cognition)之間經常面臨沖突。例如,在文檔視覺問答(VQA)任務中,模型可能生成與OCR識別的視覺內容不匹配的答案,這表明模型在“看到”和“理解”之間存在內在連接的困難。
?? 研究動機:當前的MLLMs在感知和認知之間存在顯著的沖突,這些沖突不僅影響模型的性能,還降低了模型的可解釋性。為了系統地評估這些沖突,并提出有效的緩解方法,研究團隊定義了認知與感知知識沖突(Cognition and Perception, C&P knowledge conflicts),并評估了現有MLLMs在這方面的表現。
?? 方法簡介:研究團隊提出了一種新的方法——多模態知識一致性微調(Multimodal Knowledge Consistency Fine-tuning),該方法通過三個階段的微調任務來提高模型在認知和感知任務之間的一致性。具體包括:感知一致性任務、認知一致性任務和C&P連接任務。這些任務旨在確保任務內部的一致性,并建立認知和感知知識之間的內在聯系。
?? 實驗設計:實驗在六個公開的文檔理解數據集上進行,包括DocVQA、DeepForm、KLC、FUNSD、ChartQA和WTQ。實驗評估了模型在認知任務一致性、感知任務一致性和C&P一致性方面的表現。結果表明,多模態知識一致性微調方法顯著提高了所有測試模型的C&P一致性,尤其是在Qwen-VL-Chat、InternVL2-2b和InternVL2-8b等模型上表現尤為明顯。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/912854.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/912854.shtml
英文地址,請注明出處:http://en.pswp.cn/news/912854.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

關于.net core開發的實體所有注解詳解

以下是對 .NET Core 開發中實體類(用于數據模型)和 Web API 控制器/方法(用于定義接口)常用注解屬性(Attributes)的詳細說明與示例,涵蓋數據驗證、API 行為控制、序列化、Swagger/OpenAPI 文檔生…

【安全工具】SQLMap 使用詳解:從基礎到高級技巧

目錄 簡介 一、安裝與基礎配置 1. 安裝方法 2. 基本語法 二、基礎掃描技術 1. 簡單檢測 2. 指定參數掃描 3. 批量掃描 三、信息收集 1. 獲取數據庫信息 2. 獲取當前數據庫 3. 獲取數據庫用戶 4. 獲取數據庫版本 四、數據提取技術 1. 列出所有表 2. 提取表數據 …

Redis大Key拆分實戰指南:從問題定位到落地優化

引言 最近在項目里遇到一個棘手問題:生產環境的Redis突然變“卡”了!查詢延遲從幾毫秒飆升到幾百毫秒,監控面板顯示某個節點CPU使用率飆到90%。排查半天才發現,原來是某個用戶訂單的Hash Key太大了——單Key存了100多萬個訂單字段…

RabbitMQ簡單消息發送

RabbitMQ簡單消息發送 簡單代碼實現RabbitMQ消息發送 需要的依賴 <!--rabbitmq--><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-amqp</artifactId><version>x.x.x</version>&l…

【閱讀筆記】基于雙邊濾波改進的空域濾波算法

一、雙邊濾波空域濾波算法 雙邊濾波是一種典型的非線性濾波算法。基于高斯濾波&#xff0c;雙邊濾波利用強度的變化來保存邊緣信息&#xff0c;解決了邊緣模糊在視覺觀感上認為重要信息丟失的問題。雙邊濾波的濾波效果主要取決于兩個參數&#xff1a;兩個像素的空間鄰近性和灰…

華為交換機堆疊與集群技術深度解析附帶腳本

一、引言 在企業園區網、數據中心等網絡場景中&#xff0c;為了提升網絡的可靠性、擴展性和管理效率&#xff0c;華為交換機提供了堆疊&#xff08;Stack&#xff09;和集群&#xff08;CSS&#xff0c;Cluster Switch System &#xff09;技術。這兩種技術能夠將多臺物理交換…

Python網絡爬蟲(十三)- 數據解析模塊 BeautifulSoup

1、BS4簡介 BeautifulSoup(簡稱 BS4) 是一個用于解析 HTML 和 XML 文檔的 Python 第三方庫。它能夠從網頁或其他 HTML/XML 格式的文本中提取數據,并將其轉換為結構化的對象,方便開發者快速定位、提取和操作所需信息。它的核心功能是通過解析器將無序的標記語言轉換為樹形結…

如何使用 Pytorch Lightning 啟用早停機制

【PL 基礎】如何啟用早停機制 摘要1. on_train_batch_start()2. EarlyStopping Callback 摘要 本文介紹了兩種在 PyTorch Lightning 中實現早停機制的方法。第一種是通過重寫on_train_batch_start()方法手動控制訓練流程&#xff1b;第二種是使用內置的EarlyStopping回調&#…

深入理解前綴和與差分算法及其C++實現

前綴和與差分是算法競賽和編程中非常重要的兩種技巧&#xff0c;它們能夠高效地處理區間查詢和區間更新問題。本文將詳細介紹這兩種算法的原理、應用場景以及C實現。 一、前綴和算法 1.1 前綴和的基本概念 前綴和&#xff08;Prefix Sum&#xff09;是一種預處理技術&#x…

HugeGraph【部署】Linux單機部署

注: hugegraph從版本 1.5.0 開始&#xff0c;需要 Java11 運行時環境 一、安裝JDK11 1.下載JDK11 https://www.oracle.com/java/technologies/downloads/#java11 2.解壓縮包 tar -zxvf jdk-11.0.27_linux-x64_bin.tar.gz 3.修改/etc/profile環境變量 export JAVA_HOME/usr…

C++異步編程里避免超時機制

C標準庫中時鐘&#xff08;Clock&#xff09; 這段內容主要介紹了C標準庫中**時鐘&#xff08;Clock&#xff09;**的概念和分類&#xff0c;以及它們在時間測量中的作用。以下是關鍵信息的解讀&#xff1a; 一、時鐘的核心特性 C中的時鐘是一個類&#xff0c;提供以下四個基…

npm install安裝不成功(node:32388)怎么解決?

如果在執行 npm install 時出現問題&#xff0c;尤其是 node:32388 相關的錯誤&#xff0c;這通常意味著某些依賴或配置出了問題。這里有一些常見的解決方法&#xff0c;你可以嘗試&#xff1a; 1. 清除 npm 緩存 有時候&#xff0c;npm 緩存問題會導致安裝失敗。你可以清除 …

Ubuntu-18.04-bionic 的apt的/etc/apt/sources.list 更換國內鏡像軟件源 筆記250702

Ubuntu-18.04-bionic 的apt的/etc/apt/sources.list更換國內鏡像軟件源 筆記250702 為 Ubuntu 18.04 LTS&#xff08;代號 Bionic Beaver&#xff09;更換 /etc/apt/sources.list 為國內鏡像源 備份/etc/apt/sources.list文件 sudo cp -a /etc/apt/sources.list /etc/apt/sou…

【運維系列】【ubuntu22.04】安裝GitLab

一.下載安裝文件 rootgitlab:~# wget https://packages.gitlab.com/gitlab/gitlab-ce/packages/el/9/gitlab-ce-17.4.0-ce.0.el9.x86_64.rpm二.執行安裝腳本 2.1 先執行安裝前的命令 rootgitlab:~# apt install -y perl-interpreter rootgitlab:~# apt install -y openssh-s…

Cisco ASA防火墻查看ACL的條目數量

這里顯示的條目數量為ACE, ACE是啥&#xff1f; ACE全稱&#xff1a; access-list entry ACE指的是ACL條目展開后的數量&#xff0c; 啥叫展開&#xff1f; 示例&#xff1a; access-list out-in extend permit tcp80&443 host 1.1.1.1 host 2.2.2.2這種配置是占1條&#…

npm install安裝的node_modules是什么

node_modules 是一個由 npm&#xff08;Node Package Manager&#xff09;管理的文件夾&#xff0c;存放著你的 Node.js 項目中所有安裝的依賴包。當你運行 npm install 時&#xff0c;npm 會根據你的項目中 package.json 文件中的依賴配置&#xff0c;下載并安裝相應的包到 no…

【實時Linux實戰系列】實時Linux項目的部署與維護

在實時 Linux 項目的開發過程中&#xff0c;開發階段的工作僅僅是開始&#xff0c;生產環境中的部署與維護同樣至關重要。實時 Linux 系統廣泛應用于工業自動化、航空航天、智能交通等對實時性和穩定性要求極高的領域。例如&#xff0c;在工業自動化中&#xff0c;實時系統的部…

Go并發模式精要:掌握Goroutine與Channel的實戰藝術

在現代軟件開發中&#xff0c;有效利用并發能力已成為提升系統性能的關鍵。Go語言憑借其原生的Goroutine和Channel機制&#xff0c;為開發者提供了優雅的并發解決方案。本文將深入解析Go并發編程的核心模式與最佳實踐。 一、并發基石&#xff1a;Goroutine與Channel // 輕量級…

第29篇:Linux審計系統深度解析:基于OpenEuler 24.03的實踐指南

Linux審計系統深度解析&#xff1a;基于OpenEuler 24.03的實踐指南 文章目錄 Linux審計系統深度解析&#xff1a;基于OpenEuler 24.03的實踐指南一、Linux審計系統核心概念與組件架構1.1 審計系統核心組件詳解1. auditd守護進程&#xff1a;日志持久化引擎2. auditctl命令行工具…

Linux 啟動過程流程圖--ARM版

以下是ARM版本Linux啟動過程的超詳細樹狀圖&#xff0c;涵蓋硬件上電到應用程序交互的全流程&#xff0c;并包含關鍵函數調用鏈及源碼位置&#xff0c;適用于系統開發與調試場景&#xff1a; ARM Linux啟動全流程&#xff08;含函數調用鏈&#xff09; ARM Linux啟動流程&…