多模態大語言模型arxiv論文略讀(152)

在這里插入圖片描述

VidComposition: Can MLLMs Analyze Compositions in Compiled Videos?

?? 論文標題:VidComposition: Can MLLMs Analyze Compositions in Compiled Videos?
?? 論文作者:Yunlong Tang, Junjia Guo, Hang Hua, Susan Liang, Mingqian Feng, Xinyang Li, Rui Mao, Chao Huang, Jing Bi, Zeliang Zhang, Pooyan Fazli, Chenliang Xu
?? 研究機構: University of Rochester, Arizona State University
?? 問題背景:多模態大語言模型(MLLMs)在理解多模態內容方面取得了顯著進展,尤其是在視頻內容分析方面。然而,現有的評估基準主要關注抽象的視頻理解,缺乏對視頻組成(即視覺元素如何在高度編排的視頻中結合和互動)的詳細評估。
?? 研究動機:為了填補這一空白,研究團隊引入了VidComposition,這是一個新的基準,旨在評估MLLMs在理解視頻組成方面的能力。通過使用精心策劃的編排視頻和電影級別的注釋,VidComposition涵蓋了982個視頻和1706個多項選擇題,涉及攝像技巧、角色理解、敘事理解、場景感知和制作分析等多個方面。
?? 方法簡介:研究團隊構建了一個包含982個編排視頻和1706個多項選擇題的數據集,這些題目涵蓋了視頻組成的五個主要方面:攝像技巧分析、角色理解、敘事理解、場景感知和制作分析。每個方面包括多個子任務,如鏡頭運動感知、鏡頭大小感知、鏡頭角度感知、情感感知、動作感知等。
?? 實驗設計:研究團隊在VidComposition數據集上評估了33個開源和專有MLLMs的性能,包括27個開源模型和6個專有模型。實驗設計了多個任務,如攝像技巧分析、角色理解、敘事理解、場景感知和制作分析,以全面評估模型在不同任務上的表現。實驗結果揭示了當前MLLMs在理解復雜編排視頻組成方面的顯著性能差距,為未來的模型改進提供了有價值的見解。

Multilingual Large Language Models: A Systematic Survey

?? 論文標題:Multilingual Large Language Models: A Systematic Survey
?? 論文作者:Shaolin Zhu, Supryadi, Shaoyang Xu, Haoran Sun, Leiyu Pan, Menglong Cui, Jiangcun Du, Renren Jin, António Branco, Deyi Xiong
?? 研究機構: TJUNLP Lab, College of Intelligence and Computing, Tianjin University、NLX, Department of Informatics, University of Lisbon
?? 問題背景:多語言大型語言模型(MLLMs)不僅能夠跨語言理解和生成語言,而且代表了人工智能的重要進展。隨著全球化的加深,語言技術的發展和對多語言理解的追求加速了。然而,MLLMs在處理語言多樣性時面臨諸多挑戰,特別是在處理非英語和低資源語言時。
?? 研究動機:盡管許多調查研究探討了MLLMs的具體方面,如訓練數據、架構或應用,但對MLLMs的多語言能力、局限性和挑戰的全面考察仍然不足。此外,與負責任的人工智能相關的關鍵問題,如公平性和毒性,也未得到充分解決。本調查旨在填補這一空白,提供對MLLMs研究的全面綜述。
?? 方法簡介:研究團隊提出了一種系統的分類方法,將MLLMs的研究領域分為六個基本且相互關聯的領域:多語言數據、神經架構選擇、預訓練和微調方法、評估方法、可解釋性技術以及實際應用。通過這一分類方法,研究團隊詳細分析了MLLMs的架構、訓練數據、預訓練目標、微調策略、評估方法、可解釋性技術及其在不同領域的應用。
?? 實驗設計:研究團隊在多個公開數據集上進行了實驗,包括多語言預訓練數據集和多語言對齊數據集。實驗設計了不同的訓練目標(如掩碼語言建模和翻譯語言建模)和微調技術(如指令微調和偏好微調),以全面評估MLLMs在不同任務中的表現。此外,研究還探討了多語言評估基準和數據集,以及如何使用MLLMs本身作為評估工具。

MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis

?? 論文標題:MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis
?? 論文作者:Yingjie Zhou, Zicheng Zhang, Jiezhang Cao, Jun Jia, Yanwei Jiang, Farong Wen, Xiaohong Liu, Xiongkuo Min, Guangtao Zhai
?? 研究機構: Shanghai Jiaotong University, Harvard Medical School, PengCheng Laboratory
?? 問題背景:當前,人工智能(AI)在多個領域展示了顯著的能力,特別是在人機交互(HCI)、具身智能和虛擬數字人的設計與動畫中,AI理解和表達情感的能力變得越來越重要。然而,AI是否能夠準確解讀人類情感仍然是一個關鍵挑戰。現有的AI模型主要分為生成模型和多模態大語言模型(MLLMs),這些模型在情感分析方面的能力需要進一步評估。
?? 研究動機:為了評估生成模型和MLLMs在情感分析方面的能力,研究團隊引入了MEMO-Bench,這是一個全面的基準測試,包含7,145張由12個文本到圖像(T2I)模型生成的肖像圖像,每張圖像代表六種不同情感之一。MEMO-Bench不僅評估了T2I模型的情感生成能力,還評估了MLLMs的情感理解能力,特別是從粗粒度到細粒度的情感分析。
?? 方法簡介:研究團隊構建了一個包含7,145張情感生成圖像的大型數據集MEMO-Bench,這些圖像由12個T2I模型生成,每種情感使用100個不同的提示。此外,研究團隊還設計了一個漸進式的情感評估方法,從粗粒度的情感分類到細粒度的情感強度分析,以全面評估MLLMs的情感理解能力。
?? 實驗設計:實驗在三個維度上進行了評估:情感類別、情感強度和圖像質量。15名男性和14名女性志愿者參與了主觀標注,評估了7,145張圖像。實驗結果表明,現有的T2I模型在生成積極情感方面表現較好,但在生成消極情感方面存在局限。MLLMs在粗粒度情感分類方面表現較好,但在細粒度情感分析方面仍存在不足。

CCExpert: Advancing MLLM Capability in Remote Sensing Change Captioning with Difference-Aware Integration and a Foundational Dataset

?? 論文標題:CCExpert: Advancing MLLM Capability in Remote Sensing Change Captioning with Difference-Aware Integration and a Foundational Dataset
?? 論文作者:Zhiming Wang, Mingze Wang, Sheng Xu, Yanjing Li, Baochang Zhang
?? 研究機構: Beihang University
?? 問題背景:遙感圖像變化描述(RSICC)旨在生成自然語言描述,解釋多時相遙感圖像之間的地表變化,包括變化對象的類別、位置和動態。當前方法雖然嘗試利用多模態大語言模型(MLLMs)的長序列理解和推理能力,但缺乏全面的數據支持,這些方法往往改變了MLLMs的核心特征傳輸路徑,破壞了模型的內在知識,限制了其在RSICC中的潛力。
?? 研究動機:為了增強MLLMs在RSICC領域的性能,同時盡可能保留MLLMs的內在知識結構,研究團隊提出了一種新的模型CCExpert。該模型通過數據驅動的持續預訓練和專門設計的模塊,顯式增強視覺上下文特征,從而加強MLLMs在RSICC領域的表現。
?? 方法簡介:CCExpert基于先進的多模態大模型框架,設計了一個差異感知集成模塊(Difference-aware Integration Module),用于捕捉多尺度的雙時相圖像差異,并將其整合到原始圖像特征中,從而提高差異特征的表示能力。此外,研究團隊構建了一個大規模的CC-Foundation數據集,包含200,000對遙感圖像和1.2百萬個描述,以提供豐富的數據支持。最后,通過三階段的訓練過程,確保差異注入模塊與現有的多模態大模型深度集成。
?? 實驗設計:實驗在LEVIR-CC等多個公開數據集上進行,評估了CCExpert在不同條件下的表現。實驗設計了多種因素(如圖像對的復雜度、變化區域的顯著性等),以及不同類型的評估目標(如準確性、魯棒性等),以全面評估模型的性能。實驗結果表明,CCExpert在LEVIR-CC基準測試中取得了顯著的性能提升,S?m = 81.80,顯著超越了現有的最先進方法。

MAIRA-Seg: Enhancing Radiology Report Generation with Segmentation-Aware Multimodal Large Language Models

?? 論文標題:MAIRA-Seg: Enhancing Radiology Report Generation with Segmentation-Aware Multimodal Large Language Models
?? 論文作者:Harshita Sharma, Valentina Salvatelli, Shaury Srivastav, Kenza Bouzid, Shruthi Bannur, Daniel C. Castro, Maximilian Ilse, Sam Bond-Taylor, Mercy Prasanna Ranjit, Fabian Falck, Fernando Pérez-García, Anton Schwaighofer, Hannah Richardson, Maria Teodora Wetscherek, Stephanie L. Hyland, Javier Alvarez-Valle
?? 研究機構: Microsoft Health Futures, Cambridge, UK; Microsoft Research India; Department of Radiology, University of Cambridge and Cambridge University Hospitals NHS Foundation Trust, Cambridge, UK
?? 問題背景:放射學報告生成涉及從醫學影像中自動生成自由文本的初步報告。當前的多模態大語言模型(MLLMs)在胸部X光(CXR)報告生成中表現出色,但這些模型通常忽略了與圖像一起整合像素級輸入,這限制了它們基于區域和細粒度的圖像解釋能力。在生物醫學領域,單個醫學影像可能包含多個細微的發現、復雜的結構和相關的上下文,這些都代表了感興趣的區域(ROI)。這一差距為通過整合分割掩碼來增強MLLMs的輸出提供了機會。
?? 研究動機:研究團隊提出了一種新的框架MAIRA-Seg,該框架利用來自語義醫學圖像分割的細粒度掩碼特征,與CXR輸入圖像一起生成初步的放射學報告。通過在MLLMs的輸入中整合像素級知識,研究旨在提高模型的像素級視覺理解和增強生成的放射學報告的質量和準確性。
?? 方法簡介:研究團隊首先訓練了結構特定的專家模型,用于分割多個CXR結構。這些模型生成的分割掩碼作為偽標簽輸入到MLLM中進行訓練或推理。掩碼與圖像編碼器特征一起用于訓練基于Osprey架構的分割令牌提取器,該提取器為每個單獨的掩碼生成兩個額外的分割令牌(掩碼令牌和空間令牌)。研究團隊探索了將這些令牌整合到大型語言模型(LLM)輸入中的方法,并使用可用的掩碼信息動態增強輸入提示,而無需生成新的指令調優數據集來訓練MLLM。
?? 實驗設計:研究團隊在公開的MIMIC-CXR數據集上進行了實驗,評估了MAIRA-Seg在單視圖和多視圖輸入下的性能。實驗設計了不同的分割令牌整合方法,包括直接連接所有圖像和分割令牌、在圖像令牌基礎上連接分割令牌,以及為圖像中的每個結構使用單獨的分割令牌。研究團隊還進行了在線掩碼感知提示,使用輸入掩碼信息(即當存在正向掩碼時的結構名稱)和相應的分割令牌,以快速原型化,而無需生成新的指令調優數據集來訓練MLLM。實驗結果表明,MAIRA-Seg在多個評估指標上優于非分割基線模型。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/88065.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/88065.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/88065.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

基于AR和SLAM技術的商場智能導視系統技術原理詳解

本文面對室內定位算法工程師、智慧商場系統開發者、對VR/AR應用開發感興趣的技術人員,解決如何通過SLAMAR技術破解大型商場室內導航的空間認知壁壘,實現沉浸式導覽,本文提供完整技術方案與代碼實現。 如需獲取商場智能導視系統解決方案請前往…

Debezium日常分享系列之:認識Debezium Operator

Debezium日常分享系列之:認識Debezium Operator什么是Debezium OperatorDebezium Operator 的工作原理Debezium Operator 的優點Debezium Operator 使用場景Debezium Operator 的關鍵組件部署Debezium OperatorDebezium Operator 的使用什么是Debezium Operator De…

POSIX信號量,環形隊列

是一種進程間或線程間同步機制,用于控制多個線程/進程對共享資源的訪問,避免并發沖突。可以看作是一個計數器,通過對計數器的操作(PV操作)實現同步P操作(原子性):--,將信…

Python Day6

浙大疏錦行 Python Day6 內容: 描述性統計(可視化分析)單特征可視化(連續、離散)特征與標簽可視化特征與特征可視化 代碼: # TODO: 描述性統計 import pandas as pd import numpy as np import seaborn…

ESP32與樹莓派C++、Rust開發實戰

C++語言在ESP32、樹莓派實例 以下是關于C++語言在ESP32、樹莓派等硬件設備上的開發實例匯總,涵蓋常見應用場景和代碼示例。 ESP32開發實例 LED控制(GPIO操作) 使用ESP32的GPIO控制LED燈,示例代碼基于Arduino框架: #include <Arduino.h> const int ledPin = 2; …

Jedis 原生之道:Redis 命令 Java 實現指南(一)

Hi~&#xff01;這里是奮斗的明志&#xff0c;很榮幸您能閱讀我的文章&#xff0c;誠請評論指點&#xff0c;歡迎歡迎 ~~ &#x1f331;&#x1f331;個人主頁&#xff1a;奮斗的明志 &#x1f331;&#x1f331;所屬專欄&#xff1a;Redis &#x1f4da;本系列文章為個人學習筆…

飛算 JavaAI 開發助手:深度學習驅動下的 Java 全鏈路智能開發新范式

飛算 JavaAI 開發助手&#xff1a;深度學習驅動下的 Java 全鏈路智能開發新范式 文章目錄飛算 JavaAI 開發助手&#xff1a;深度學習驅動下的 Java 全鏈路智能開發新范式前言飛算 JavaAI IDEA插件下載、注冊、使用智能引導操作流程Java Chat智能工作流程操作流程智能問答操作流…

Spring Boot 核心特性與版本演進解析

深度解讀自動配置原理、版本差異與 3.x 的顛覆性變革 一、Spring Boot 的核心理念與迭代主線 Spring Boot 用兩大核心武器重構了 Java 開發范式&#xff1a; 嵌入式容器&#xff1a;終結了 “war 包 Tomcat 配置地獄”&#xff0c;讓 java -jar 成為生產級部署的標準姿勢自動…

React Tailwind css 大前端考試、問卷響應式模板

功能概述 基于 React 和 Tailwind CSS 開發的在線大前端知識考試系統。頁面設計簡潔美觀&#xff0c;交互流暢&#xff0c;適合前端開發者、學習者進行自我測試和知識鞏固。系統內置多道涵蓋 React、CSS、JavaScript、HTTP 等前端核心知識點的題目&#xff0c;支持單選與多選題…

【前端】手寫代碼匯總

近期更新完&#xff0c;后面不定期更新&#xff0c;建議關注收藏點贊。 目錄快排手寫防抖節流數組扁平化&#xff08;要求使用 reduce 方法&#xff09;數組filter實現手寫一個加載圖片的函數 loadImage手寫Promise then手寫 Promise.All手寫 Promise.race手寫allsettled手寫us…

基于MATLAB 的心電信號去噪

基于Matlab的心電信號去噪 generate.m , 3450 genR.m , 953 genU.m , 891 get_obs.m , 957 CHANGELOG , 11185 find_localobs.m , 2312 fmain.m , 2272

git branch -a 還有一些已經刪除了的分支

如何處理已經刪除的遠程跟蹤分支1、刪除遠程跟蹤分支如果你確定某個遠程跟蹤分支不再需要&#xff0c;你可以使用 git branch -d -r 命令來刪除它。例如&#xff0c;要刪除名為 origin/test 的遠程跟蹤分支&#xff0c;你可以使用&#xff1a;git branch -d -r origin/test2、更…

軟件反調試(4)- 基于IsDebuggerPresent的檢測

反調原理 該檢測方式使用 IsDebuggerPresent 或者 CheckRemoteDebuggerPresent 函數&#xff0c;這兩個函數都是 kernel32.dll 中實現的 對于 IsDebuggerPresent 函數&#xff0c;如果返回值為 TRUE&#xff0c;那么表示當前進程在調試器上下文中運行 CheckRemoteDebuggerPrese…

翻譯《The Old New Thing》- Windows 媒體目錄中 onestop.mid 文件的故事

Whats the story of the onestop.mid file in the Media directory? - The Old New Thinghttps://devblogs.microsoft.com/oldnewthing/20130212-00/?p5263 如果你查看你的C:\Windows\Media文件夾&#xff0c;會發現一個名為onestop的MIDI文件。這個奇怪的小MIDI文件背后有什…

【方案】前端UI布局的絕技,響應式布局,多端適配

大家好&#xff0c;歡迎來到停止重構的頻道。本期討論網頁UI布局。網頁UI布局是前端開發中占比較多的部分&#xff0c;做完網頁布局也就差不多完成了一半的工作。本期視頻&#xff0c;我們不再討論基礎的UI布局。我們希望滿足響應式布局&#xff0c;一份代碼適配PC/平板/手機等…

【鄭大二年級信安小學期】Day4上午:Bool盲注時間盲注堆疊查詢post注入HTTP頭部注入ua字段

目錄 0 錄制文件 1 SQL注入-布爾盲注 1.1 布爾盲注優缺點 1.2 先看一下第八關嗯頁面特征 1.3 步驟 1.4 常用函數 1.5 判斷是否字符型 1.6 判斷閉合 1.7 查詢庫名 1.8 查詢數據表 1.9 獲取字段名 1.10 獲取數據 1.11 布爾盲注缺陷 2 時間盲注 2.1 基礎知識 2.2 判…

如何設計一個“真正可復用”的前端組件?

&#x1f9f1; 如何設計一個“真正可復用”的前端組件&#xff1f;&#x1f527; 一個按鈕可以寫10次&#xff0c;也可以封裝一次復用全場&#xff1b;組件是前端的積木&#xff0c;而設計模式才是組裝它們的說明書。你真的在寫“可復用”組件嗎&#xff1f;&#x1f9e0; 什么…

AlpineLinux安裝RabbitMQ及其管理界面

AlpineLinux安裝RabbitMQ及其管理界面 本文以 alpine linux 的 3.21版本為例,演示對于 RabbitMQ 在Linux 下的安裝,其他發行版本大同小異。主要是包管理軟件的命令區別,以及在線倉庫提供的 RabbitMQ 版本差異而已。 (一)安裝 Erlang 因為 RabbitMQ 是用 Erlang 語言編寫…

3S技術+ArcGIS/ENVI全流程實戰:水文、氣象、災害、生態、環境及衛生等領域應用

系統梳理3S技術的核心理論與實戰應用&#xff0c;涵蓋ArcGIS與ENVI軟件操作、空間數據管理、地圖投影轉換、遙感影像解譯、DEM地形分析、空間插值建模等關鍵技能&#xff0c;并結合農業、氣象、生態、災害等跨學科案例&#xff0c;提供從數據獲取到高級可視化的完整解決方案。無…

彈窗中el+table,二次打開彈窗,選擇列會攜帶第一次選擇的數據

1第一次打開彈窗選擇的數據&#xff0c;正確&#xff0c;然后關閉彈窗再次打開彈窗&#xff0c;重新選擇&#xff0c;第二次的數據&#xff0c;錯誤在打開彈窗/關閉彈窗等位置全部做了置空處理&#xff0c;以下是代碼&#xff1a;最后的原因是&#xff1a;el-dailog 自帶緩存&a…