多模態大語言模型arxiv論文略讀(五十六)

請添加圖片描述

DesignQA: A Multimodal Benchmark for Evaluating Large Language Models’ Understanding of Engineering Documentation

?? 論文標題:DesignQA: A Multimodal Benchmark for Evaluating Large Language Models’ Understanding of Engineering Documentation
?? 論文作者:Anna C. Doris, Daniele Grandi, Ryan Tomich, Md Ferdous Alam, Mohammadmehdi Ataei, Hyunmin Cheong, Faez Ahmed
?? 研究機構: Massachusetts Institute of Technology (MIT), Autodesk Research, MIT Motorsports
?? 問題背景:當前的大型語言模型(LLMs)和多模態大型語言模型(MLLMs)在處理各種任務時表現出色,尤其是在工程設計領域。然而,這些模型在處理復雜的技術文檔時仍存在局限性,尤其是在理解多模態信息(如文本、CAD圖像和工程圖紙)方面。為了評估這些模型在工程設計任務中的表現,研究團隊開發了DesignQA,這是一個新的多模態基準,旨在評估MLLMs在理解和應用工程設計要求方面的能力。
?? 研究動機:盡管MLLMs在某些工程設計任務中表現出色,但它們在處理復雜的技術文檔時仍面臨挑戰,如從文檔中提取相關規則、識別CAD圖像中的技術組件以及分析工程圖紙。為了更好地理解這些模型的局限性,并為未來的改進提供方向,研究團隊開發了DesignQA,以全面評估MLLMs在工程設計任務中的表現。
?? 方法簡介:研究團隊構建了DesignQA基準,該基準包含1451個問題,基于Formula SAE 2024規則文檔和MIT Motorsports團隊提供的CAD模型和測試數據。DesignQA分為三個部分:規則提取(Rule Extraction)、規則理解(Rule Comprehension)和規則遵守(Rule Compliance),每個部分進一步細分為具體的任務。此外,DesignQA還包含自動評估指標,以確保評估的客觀性和可重復性。
?? 實驗設計:研究團隊使用DesignQA基準評估了多個最先進的MLLMs,包括GPT-4o、GPT-4、Gemini-1.0、Claude-Opus和LLaVA-1.5。實驗設計了不同的任務,如規則提取、規則理解和規則遵守,以全面評估模型在處理多模態信息和復雜技術文檔時的能力。實驗結果表明,盡管這些模型在某些任務上表現良好,但在提取規則、識別CAD圖像中的技術組件和分析工程圖紙等方面仍存在顯著困難。這些發現強調了開發更強大的多模態模型的必要性,以更好地處理工程設計任務中的多模態信息。

LaVy: Vietnamese Multimodal Large Language Model

?? 論文標題:LaVy: Vietnamese Multimodal Large Language Model
?? 論文作者:Chi Tran, Huong Le Thanh
?? 研究機構: Hanoi University of Science and Technology
?? 問題背景:盡管大型語言模型(LLMs)和多模態大型語言模型(MLLMs)在自然語言處理任務中展現了卓越的能力,但越南語多模態資源的缺乏限制了越南語MLLMs的發展。高質量的多模態數據集對于訓練和評估MLLMs至關重要,因為這些模型需要整合視覺和文本信息來有效執行多模態任務。
?? 研究動機:為了解決越南語多模態資源的缺乏問題,并促進越南語多模態語言理解的研究,研究團隊介紹了LaVy,這是首個越南語MLLM,并且在越南視覺語言任務中達到了最先進的性能。此外,研究團隊還提出了LaVy-Bench基準,用于評估MLLMs在越南視覺語言任務中的理解能力。
?? 方法簡介:LaVy基于LlaVA架構構建,包括視覺編碼器、MLP投影器和語言模型三個主要組件。研究團隊通過翻譯和精煉、以及合成數據的方法,構建了一個包含708K圖像-字幕對的預訓練數據集和166K高質量指令的微調數據集。訓練過程分為預訓練和微調兩個階段,分別優化跨模態投影器和整個模型。
?? 實驗設計:實驗使用了Vistral 7B作為語言模型的骨干,并使用CLIP大型視覺編碼器。預訓練階段使用708K字幕數據集訓練1個epoch,微調階段使用166K指令數據集訓練1個epoch。評估時,使用貪婪解碼生成模型的響應。LaVy在零樣本視覺問答(VQA)和野外基準測試中表現出色,顯著優于多語言基線模型mBLIP。

On Speculative Decoding for Multimodal Large Language Models

?? 論文標題:On Speculative Decoding for Multimodal Large Language Models
?? 論文作者:Mukul Gagrani, Raghavv Goel, Wonseok Jeon, Junyoung Park, Mingu Lee, Christopher Lott
?? 研究機構: Qualcomm AI Research
?? 問題背景:多模態大型語言模型(MLLMs)在推理過程中由于其大型語言模型(LLMs)的主干結構,面臨內存帶寬瓶頸和自回歸生成的問題,導致推理速度緩慢。本文探討了通過投機解碼(speculative decoding)來提高MLLMs推理效率的方法,特別是針對LLaVA 7B模型。
?? 研究動機:現有的研究主要集中在單模態LLMs的投機解碼上,而針對多模態模型的研究較少。本文旨在填補這一空白,通過實驗驗證投機解碼在多模態模型中的應用效果,特別是探索語言模型作為草案模型在不考慮圖像信息時的性能。
?? 方法簡介:研究團隊提出了一種使用較小的語言模型作為草案模型的投機解碼方法,該方法可以繞過圖像令牌及其相關處理組件。此外,還構建了一個包含圖像適配器的小型LLaVA草案模型,以評估其在不同任務中的表現。
?? 實驗設計:實驗在三個不同的任務上進行,包括LLaVA Instruct 150K數據集上的圖像問答、COCO數據集上的圖像描述生成以及ScienceQA數據集上的科學問題回答。實驗設計了不同階段訓練和微調的草案模型,評估了不同草案模型在不同任務中的性能,特別是內存限制下的加速比、塊效率和生成速率。

TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models

?? 論文標題:TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models
?? 論文作者:Ya-Qi Yu, Minghui Liao, Jihao Wu, Yongxin Liao, Xiaoyu Zheng, Wei Zeng
?? 研究機構: Huawei Inc.
?? 問題背景:多模態大語言模型(Multimodal Large Language Models, MLLMs)在多種多模態任務中展現了卓越的能力。然而,大多數現有的MLLMs并不適合處理文檔導向的任務,這些任務需要細粒度的圖像感知和信息壓縮。文檔圖像理解能力作為MLLMs的核心能力之一,對于實現基于MLLM的智能手機應用代理、富文本輔助閱讀等前沿應用至關重要。然而,文檔圖像具有高分辨率和高信息密度的特點,這給MLLMs帶來了兩個主要挑戰:實現文檔內容的細粒度視覺感知和高效壓縮文檔圖像信息。
?? 研究動機:盡管先前的工作在解決上述困難方面取得了一定進展,但在細粒度視覺感知和文檔信息壓縮方面仍有改進空間。此外,大多數當前的MLLMs難以在通用能力和文檔能力之間取得平衡。為了解決這些問題,研究團隊提出了TextHawk,旨在探索高效的細粒度感知方法,同時保持MLLMs的通用能力。
?? 方法簡介:TextHawk通過設計四個專用組件來實現其目標。首先,提出了一種重采樣和重新排列(ReSampling and ReArrangement, ReSA)模塊,以減少文檔文本的冗余并降低計算成本。其次,引入了可擴展的位置嵌入(Scalable Positional Embeddings, SPEs),以保持不同圖像大小的可擴展性。第三,采用查詢提案網絡(Query Proposal Network, QPN)在不同子圖像中動態初始化查詢。最后,設計了多級交叉注意力(Multi-Level Cross-Attention, MLCA)機制,以捕捉文檔圖像的層次結構和語義關系,增強細粒度視覺感知能力。
?? 實驗設計:研究團隊在多個基準數據集上進行了廣泛的實驗,包括通用和文檔導向的MLLM基準。實驗結果表明,TextHawk在文檔基準和通用基準上均取得了最先進的結果,展示了其在細粒度視覺感知和通用視覺語言能力方面的優越性。此外,研究團隊還通過Gemini Pro豐富了多模態文檔數據,以緩解指令調優數據不足的問題。

UNIAA: A Unified Multi-modal Image Aesthetic Assessment Baseline and Benchmark

?? 論文標題:UNIAA: A Unified Multi-modal Image Aesthetic Assessment Baseline and Benchmark
?? 論文作者:Zhaokun Zhou, Qiulin Wang, Bin Lin, Yiwei Su, Rui Chen, Xin Tao, Amin Zheng, Li Yuan, Pengfei Wan, Di Zhang
?? 研究機構: 北京大學深圳研究生院、快手科技
?? 問題背景:圖像美學評估(Image Aesthetic Assessment, IAA)是計算機視覺中的一個重要任務,旨在評估圖像的攝影技術和藝術手法。然而,現有的IAA方法通常局限于單一數據集或任務,限制了其通用性和廣泛應用。此外,當前的IAA方法與人類美學過程的對齊度不高,且缺乏標準化的數據格式,難以在統一架構下進行訓練。
?? 研究動機:為了更好地與人類美學對齊,研究團隊提出了一種統一的多模態圖像美學評估框架(UNIAA),包括一個多模態大語言模型(MLLM)UNIAA-LLaVA和一個全面的基準UNIAA-Bench。該框架旨在整合不同來源和格式的美學數據,并在多個美學子任務中取得良好效果。
?? 方法簡介:研究團隊采用LLaVA架構,并通過美學視覺指令調優數據進一步微調,以獲得UNIAA-LLaVA。為了構建調優數據,研究團隊提出了一種低成本的IAA數據集轉換范式(IDCP),將現有的IAA數據集轉換為適合MLLM微調的格式。UNIAA-LLaVA通過視覺編碼器的視覺感知和LLM的記憶能力,展示了強大的學習和與人類美學對齊的能力。
?? 實驗設計:研究團隊構建了UNIAA-Bench,從感知、描述和評估三個維度全面評估MLLM的美學能力。UNIAA-Bench包括三個部分:感知部分包含5354個多項選擇題,描述部分包含501個專家標注的長文本,評估部分包含4個主流的IAA數據集。實驗結果表明,UNIAA-LLaVA在所有層次的UNIAA-Bench上都表現出競爭力,尤其是在美學感知方面,甚至接近初級人類水平。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/80128.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/80128.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/80128.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Docker 渡渡鳥鏡像同步站 使用教程

Docker 渡渡鳥鏡像同步站 使用教程 🚀 介紹 Docker.aityp.com(渡渡鳥鏡像同步站)是一個專注于為國內開發者提供 Docker 鏡像加速和同步服務的平臺。它通過同步官方鏡像源(如 Docker Hub、GCR、GHCR 等),為…

Unity:AddTorque()(增加旋轉力矩)

目錄 什么是 AddTorque()? 第一性原理出發:什么是 Torque(力矩)? Torque 公式 Unity 中 AddTorque 的工作原理 參數屬性 🔍 Linear Drag(線性阻力) 線性阻力模擬的現實情況&…

async/await的另一種食用方法

在JavaScript/TypeScript的異步編程中,async/await讓我們的代碼看起來更像是同步的,極大地提高了可讀性。然而,錯誤處理仍然是一個需要仔細考慮的問題。今天我要分享一種優雅的錯誤處理模式,它能讓你的異步代碼更加簡潔。 傳統tr…

計算機網絡 - stp生成樹實驗

【實驗假設】 我們使用 Cisco Packet Tracer 或類似的模擬軟件,或物理的 Cisco 交換機。 交換機初始為默認配置(或已通過 write erase 和 reload 清除配置)。 PC 已配置 IP 地址如下(示例): PC0: 192.168…

淺析 Spring 中 FactoryBean 的實現與使用

淺析 Spring 中 FactoryBean 的實現與使用 一、FactoryBean核心機制剖析二、高級應用場景與實戰三、框架級應用案例解析四、FactoryBean常見面試題 一、FactoryBean核心機制剖析 1. 本質與雙重角色 FactoryBean是Spring容器中用于定制化對象創建的核心接口(org.spri…

vue3 element-plus 輸入框回車跳轉頁面問題處理

問題描述&#xff1a; 當頁面搜索條件只有一個的情況下&#xff0c;輸入框不管有沒有值&#xff0c;回車后會跳轉頁面 解決辦法&#xff0c;給表單添加 submit.prevent <el-form ref"ruleForm" :model"search" label-width"120px" class&qu…

(51單片機)LCD展示動畫(延時函數)(LCD1602教程)

前言&#xff1a; 前面我們說過&#xff0c;之前LCD1602模塊有點難&#xff0c;但是現在&#xff0c;我們通過幾遍博客的學習&#xff0c;今天來講一下LCD1602的原理 演示視頻&#xff1a; LCD1602流動 源代碼&#xff1a; main.c #include <STC89C5xRC.H> #include &q…

深入了解 OpenIddict:實現 OAuth 2.0 和 OpenID Connect 協議的 .NET 庫

在現代 Web 開發中&#xff0c;身份驗證和授權是安全性的重要組成部分。隨著對安全性的要求不斷增加&#xff0c;OAuth 2.0 和 OpenID Connect&#xff08;OIDC&#xff09;協議已經成為許多應用程序的標準身份驗證方式。而 OpenIddict&#xff0c;作為一個用于實現 OAuth 2.0 …

【C++游戲引擎開發】第30篇:物理引擎(Bullet)—軟體動力學系統

一、軟體動力學理論體系 1.1 連續體力學基礎 1.1.1 變形梯度張量 物體運動可描述為映射函數: x = ? ( X , t ) \mathbf{x} = \phi(\mathbf{X},t) x

Android Compose 層疊布局(ZStack、Surface)源碼深度剖析(14)

Android Compose 層疊布局&#xff08;ZStack、Surface&#xff09;源碼深度剖析 一、引言 在 Android 應用開發領域&#xff0c;用戶界面&#xff08;UI&#xff09;的設計與實現一直是至關重要的環節。隨著技術的不斷演進&#xff0c;Android Compose 作為一種全新的聲明式…

性能優化實踐:內存優化技巧

性能優化實踐&#xff1a;內存優化技巧 在Flutter應用開發中&#xff0c;內存優化是提升應用性能的關鍵環節之一。本文將從實戰角度深入探討Flutter內存優化的各種技巧&#xff0c;幫助你構建高性能的Flutter應用。 一、內存分析工具使用 1. DevTools內存分析器 啟動DevTool…

2025-05-07 Unity 網絡基礎8——UDP同步異步通信

文章目錄 1 UDP 概述1.1 通信流程1.2 TCP 與 UDP1.3 UDP 分包1.4 UDP 黏包 2 同步通信2.1 服務端2.2 客戶端2.3 測試 3 異步通信3.1 Bgin / End 方法3.2 Async 方法 1 UDP 概述 1.1 通信流程 ? 客戶端和服務端的流程如下&#xff1a; 創建套接字 Socket。用 Bind() 方法將套…

如何減少鎖競爭并細化鎖粒度以提高 Rust 多線程程序的性能?

在并發編程中&#xff0c;鎖&#xff08;Lock&#xff09;是一種常用的同步機制&#xff0c;用于保護共享數據免受多個線程同時訪問造成的競態條件&#xff08;Race Condition&#xff09;。然而&#xff0c;不合理的鎖使用會導致嚴重的性能瓶頸&#xff0c;特別是在高并發場景…

AGV智能搬運機器人:富唯智能引領工業物流高效變革

在智能制造與工業4.0深度融合的今天&#xff0c;物流環節的高效與精準已成為企業核心競爭力的關鍵。富唯智能憑借其自主研發的AGV智能搬運機器人&#xff0c;以創新技術重塑工業物流標準&#xff0c;助力企業實現降本增效的跨越式發展。 一、技術突破&#xff1a;精準導航與智能…

K8s 資源分類

K8s 資源分類圖譜 內置資源的分類 1、工作負載相關&#xff1a; Pod&#xff1a;最小的部署單元&#xff0c;包含一個或多個容器。 Deployment&#xff1a;管理無狀態應用的副本和滾動更新。 StatefulSet&#xff1a;適用于有狀態應用&#xff08;如數據庫&#xff09;&#…

VLM-AD:通過視覺語言模型監督實現端到端自動駕駛

《VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision》2024年12月發表&#xff0c;來自Cruise和美國東北大學的論文。 人類駕駛員依靠常識推理來駕馭多樣化和動態的現實世界場景。現有的端到端&#xff08;E2E&#xff09;自動駕駛&#xff0…

目標檢測中的損失函數(三) | SIoU WIoUv1 WIoUv2 WIoUv3

&#x1f680;該系列將會持續整理和更新BBR相關的問題&#xff0c;如有錯誤和不足懇請大家指正&#xff0c;歡迎討論&#xff01;&#xff01;&#xff01; SCYLLA-IoU&#xff08;SIoU&#xff09;來自掛在2022年arxiv上的文章&#xff1a;《SIoU Loss: More Powerful Learnin…

http Status 400 - Bbad request 網站網頁經常報 HTTP 400 錯誤,清緩存后就好了的原因

目錄 一、HTTP 400 錯誤的常見成因(一)問題 URL(二)緩存與 Cookie 異常(三)請求頭信息錯誤(四)請求體數據格式不正確(五)文件尺寸超標(六)請求方法不當二、清緩存為何能奏效三、其他可以嘗試的解決辦法(一)重新檢查 URL(二)暫時關閉瀏覽器插件(三)切換網絡環…

【DeepMLF】具有可學習標記的多模態語言模型,用于情感分析中的深度融合

這是一篇我完全看不懂的論文,寫的好晦澀,適合唬人,所以在方法部分我以大白話為主 abstract 在多模態情感分析(MSA)中,多模態融合已經得到了廣泛的研究,但融合深度和多模態容量分配的作用還沒有得到充分的研究。在這項工作中,我們將融合深度、可擴展性和專用多模容量作…

【ASP.net】在Windows 11上安裝IIS并測試C# Web項目的踩坑實錄

摘要 多年未接觸.NET技術棧的田辛老師&#xff0c;最近因項目需求重新搭建測試環境。本文記錄了Windows 11環境下安裝IIS服務的全過程&#xff0c;以及一個讓開發者抓狂的“空白頁面”問題的解決方案。 1. 基礎環境配置 工欲善其事&#xff0c;必先利其器。本次環境搭建選擇…