多模態大語言模型arxiv論文略讀(八十八)

在這里插入圖片描述

MammothModa: Multi-Modal Large Language Model

?? 論文標題:MammothModa: Multi-Modal Large Language Model
?? 論文作者:Qi She, Junwen Pan, Xin Wan, Rui Zhang, Dawei Lu, Kai Huang
?? 研究機構: ByteDance, Beijing, China
?? 問題背景:多模態大型語言模型(MLLMs)在理解視覺輸入并生成語言方面表現出色,廣泛應用于圖像描述、視覺問答和視頻分析等領域。然而,這些模型在處理高分辨率和長時間視覺輸入時,仍面臨有效結合復雜語言理解的挑戰。
?? 研究動機:為了克服現有MLLMs的局限,研究團隊設計了MammothModa,通過三個關鍵設計洞察來提升模型性能:1) 整合視覺能力同時保持復雜的語言理解;2) 擴展上下文窗口以處理高分辨率和長時間視覺特征;3) 使用高質量的雙語數據集減少視覺幻覺。
?? 方法簡介:MammothModa的架構包括三個主要組件:高分辨率輸入的視覺編碼器和視覺合并模塊、投影層,以及帶有視覺注意力專家(VE)和共享幀位置ID的大型語言模型(LLM)。視覺合并模塊通過平均池化減少特征圖的大小,而共享幀位置ID則通過為每個視頻幀分配共享的位置編碼來避免位置插值問題。
?? 實驗設計:研究團隊在多個公開數據集上進行了實驗,包括視覺語言理解(VLP)和圖像到圖像(I2I)任務。實驗設計了不同的動態分割方法、視覺合并窗口大小和幀位置ID的使用,以評估模型在不同條件下的性能。實驗結果表明,MammothModa在多個基準測試中表現出色,特別是在處理高分辨率圖像和長時間視頻時,顯著提高了效率和性能。

CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs

?? 論文標題:CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs
?? 論文作者:Zirui Wang, Mengzhou Xia, Luxi He, Howard Chen, Yitao Liu, Richard Zhu, Kaiqu Liang, Xindi Wu, Haotian Liu, Sadhika Malladi, Alexis Chevalier, Sanjeev Arora, Danqi Chen
?? 研究機構: Princeton Language and Intelligence (PLI), Princeton University, University of Wisconsin, Madison, The University of Hong Kong
?? 問題背景:當前的多模態大語言模型(Multimodal Large Language Models, MLLMs)在處理現實世界任務時表現出色,尤其是在分析科學論文或財務報告中的圖表理解方面。然而,現有的評估基準往往過于簡化和同質化,導致對模型性能的過度樂觀估計。研究表明,即使在圖表或問題稍作修改的情況下,開源模型的性能也可能大幅下降,最高可達34.5%。
?? 研究動機:為了更準確地評估MLLMs的圖表理解能力,研究團隊提出了CharXiv,這是一個包含2,323個自然、具有挑戰性和多樣性的圖表的全面評估套件。CharXiv旨在通過提供更現實和忠實的評估標準,促進未來對MLLMs圖表理解的研究。
?? 方法簡介:CharXiv的數據集從arXiv論文中手動挑選了8個主要學科的圖表,確保了圖表的視覺多樣性和復雜性。數據集包括兩種類型的問題:描述性問題(涉及基本圖表信息的提取和聚合)和推理問題(涉及復雜的視覺和數值推理)。所有問題和答案都經過人工專家的精心挑選和驗證,確保了數據集的高質量。
?? 實驗設計:研究團隊評估了13個開源模型和11個專有模型在CharXiv上的表現,特別是在描述性和推理問題上的表現。實驗結果揭示了開源模型和專有模型之間存在顯著的性能差距,尤其是在推理問題上,最強的專有模型GPT-4o的準確率為47.1%,而最強的開源模型InternVL Chat V1.5的準確率僅為29.2%。所有模型的表現都遠低于人類的80.5%。此外,研究還對模型在不同類型任務和圖表上的表現進行了細粒度分析,揭示了現有MLLMs在圖表理解方面的弱點。

DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming

?? 論文標題:DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming
?? 論文作者:Jiaxin Zhang, Wentao Yang, Songxuan Lai, Zecheng Xie, Lianwen Jin
?? 研究機構: 華南理工大學、華為云
?? 問題背景:當前的多模態大語言模型(MLLMs)在視覺文檔理解(VDU)任務中面臨重大挑戰,主要由于文檔圖像的高分辨率、密集文本和復雜布局。這些特性要求MLLMs具備高度的細節感知能力。雖然提高輸入分辨率可以改善細節感知能力,但也會導致視覺標記序列變長,增加計算成本,并對模型處理長上下文的能力構成壓力。
?? 研究動機:為了應對這些挑戰,研究團隊提出了DocKylin,這是一種以文檔為中心的MLLM,通過在像素和標記級別進行視覺內容瘦身,減少VDU場景中的標記序列長度。研究旨在通過引入自適應像素瘦身(APS)和動態標記瘦身(DTS)模塊,提高模型的性能和效率。
?? 方法簡介:研究團隊提出了一種系統的方法,通過構建自適應像素瘦身(APS)預處理模塊,利用梯度信息識別并消除文檔圖像中的冗余區域,減少冗余像素的比例,提高計算效率。此外,團隊還引入了一種基于雙中心聚類的動態標記瘦身(DTS)方法,高效地從大量視覺標記中過濾出信息標記,生成更緊湊的視覺序列。
?? 實驗設計:實驗在多個公開數據集上進行,包括DocVQA、InfoVQA、ChartQA、FUNSD、SROIE和POIE等。實驗設計了不同因素的變化,如輸入圖像的分辨率、文本密度和布局復雜性,以全面評估DocKylin在不同條件下的表現。實驗結果表明,DocKylin在多個VDU基準測試中表現出色,顯著優于現有的方法。

Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding

?? 論文標題:Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding
?? 論文作者:Yue Fan, Lei Ding, Ching-Chen Kuo, Shan Jiang, Yang Zhao, Xinze Guan, Jie Yang, Yi Zhang, Xin Eric Wang
?? 研究機構: University of California, Santa Cruz、eBay Inc.、Cybever
?? 問題背景:當前,圖形用戶界面(GUI)在數字設備的交互中占據核心地位,越來越多的努力被投入到構建各種GUI理解模型中。然而,這些努力大多忽略了基于用戶指示點的屏幕閱讀任務(Screen Point-and-Read, ScreenPR),這一任務對于輔助技術尤為重要,能夠為視覺障礙用戶提供有價值的幫助。
?? 研究動機:為了應對ScreenPR任務的挑戰,研究團隊開發了Tree-of-Lens (ToL) 代理,利用先進的多模態大語言模型(MLLMs)的泛化能力,處理來自不同領域的GUI截圖,并根據用戶指示的屏幕上的任意點生成自然語言描述。ToL代理不僅描述了指示區域的內容,還詳細說明了屏幕布局,從而幫助用戶全面理解界面并避免歧義。
?? 方法簡介:研究團隊提出了ToL接地機制,通過構建層次布局樹(Hierarchical Layout Tree)來表示截圖的層次結構。該樹的節點代表不同尺度的區域,通過訓練的GUI區域檢測模型自動提取局部和全局區域,形成層次布局樹。然后,根據興趣區域選擇目標路徑,生成不同視野寬度的鏡頭作為視覺提示,模擬人類逐步細化的注意力過程,以生成內容和布局描述。
?? 實驗設計:研究團隊在新提出的ScreenPR基準上評估了ToL代理,該基準包括來自網頁、移動和操作系統GUI的650張截圖,手動標注了1,500個目標點和區域。實驗設計了多種評估指標,包括人類評價和自動循環一致性評價,以全面評估ToL代理在內容和布局描述上的準確性和抗干擾能力。實驗結果表明,ToL代理在內容和布局描述的準確性上分別比基線模型提高了15%和30%以上。此外,ToL代理還被應用于移動GUI導航任務中,展示了其在識別執行路徑中不正確動作方面的實用性。

HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale

?? 論文標題:HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale
?? 論文作者:Junying Chen, Chi Gui, Ruyi Ouyang, Anningzhe Gao, Shunian Chen, Guiming Hardy Chen, Xidong Wang, Ruifei Zhang, Zhenyang Cai, Ke Ji, Guangjun Yu, Xiang Wan, Benyou Wang
?? 研究機構: 深圳大數據研究院、香港中文大學(深圳)、深圳國家健康數據研究院
?? 問題背景:多模態大語言模型(MLLMs)如GPT-4V在醫療應用中表現出有限的性能,尤其是在缺乏特定于醫療領域的視覺知識方面。盡管存在一些高質量的小規模醫療視覺知識數據集,但擴展這些數據集面臨隱私和許可問題。現有方法利用PubMed的大規模去標識化醫療圖像-文本對,但數據噪聲問題仍然影響模型性能。
?? 研究動機:為了提高醫療多模態模型的性能,研究團隊提出了一種新的方法,通過利用“非盲”多模態大語言模型(MLLMs)來重新格式化PubMed的圖像-文本對,以減少數據噪聲并生成更高質量的醫療視覺問答(VQA)數據集。該方法旨在提高模型的醫療多模態能力,并為未來的醫療多模態研究提供高質量的數據資源。
?? 方法簡介:研究團隊從PubMed中篩選出高質量的醫療圖像-文本對,并使用GPT-4V作為“非盲”重新格式化工具,生成了包含130萬個醫療VQA樣本的PubMedVision數據集。該數據集通過多種對話場景和任務類型(如對齊VQA和指令調優VQA)來增強模型的多模態能力。
?? 實驗設計:研究團隊在多個基準測試上進行了實驗,包括醫療VQA基準、多模態基準MMMU Health & Medicine軌道以及傳統醫療影像任務。實驗結果表明,使用PubMedVision數據集訓練的模型在多個醫療多模態任務上顯著優于現有的開源模型。特別是,HuatuoGPT-Vision在多個醫療多模態基準測試中表現出色,顯著提升了模型的醫療多模態能力。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/906712.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/906712.shtml
英文地址,請注明出處:http://en.pswp.cn/news/906712.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

svn遷移到git保留記錄和Python字符串格式化 f-string的進化歷程

svn遷移到git保留記錄 and Python字符串格式化(二): f-string的進化歷程 在將項目從SVN遷移到Git時,保留完整的版本歷史記錄非常重要。下面是詳細的步驟和工具,可以幫助你完成這一過程: 安裝Git和SVN工具 首先&#…

springboot配置mysql druid連接池,以及連接池參數解釋

文章目錄 前置配置方式參數解釋 前置 springboot 項目javamysqldruid 連接池 配置方式 在 springboot 的 application.yml 中配置基本方式 # Druid 配置(Spring Boot YAML 格式) spring:datasource:url: jdbc:mysql://localhost:3306/testdb?useSSL…

vue實現高亮文字效果——advanced-mark.js

組件介紹-advanced-mark.js: advanced-mark.js 是一個用于 Vue 的高亮文字組件,它可以幫助你在文本中高亮顯示指定的關鍵詞或短語。 組件地址:https://angezid.github.io/advanced-mark.js/doc-v2/getting-started.html 主要功能&#xff1…

DC30V/2.5A同步降壓芯片SL1581 輸入24V降壓5V 12V2A電流

在工業自動化、汽車電子等領域,24V 電源系統向 5V/12V 雙軌供電的需求日益增長。針對這一痛點,森利威爾電子重磅推出 DC30V/2.5A 同步降壓芯片 SL1581,憑借卓越的性能和創新設計,為工程師提供高可靠性、高性價比的電源解決方案。 …

React 第四十四節Router中 usefetcher的使用詳解及注意事項

前言 useFetcher 是 React Router 中一個強大的鉤子,用于在不觸發頁面導航的情況下執行數據加載(GET)或提交(POST)。 一、useFetcher 應用場景: 1、后臺數據預加載(如鼠標懸停時加載數據&…

Jmeter(三) - 測試計劃(Test Plan)的元件

1.簡介 上一篇已經教你如何通過JMeter來創建一個測試計劃(Test Plan),那么這一篇我們就將JMeter啟動起來,創建一個測試計劃(Test plan),給大家介紹一下測試計劃(Test Plan&#xff…

應屆本科生簡歷制作指南

一、找一個專業的簡歷模板 首先,你需要訪問 Overleaf 的官方網站,也就是Overleaf, Online LaTeX Editor,進入頁面后,點擊注冊按鈕,按照提示填寫相關信息來創建一個屬于自己的賬號,通常需要填寫用戶名、郵箱…

[Spring Boot]整合Java Mail實現Outlook發送郵件

日常開發過程中,我們經常需要使用到郵件發送任務,比方說驗證碼的發送、日常信息的通知等。日常比較常用的郵件發送方包括:163、QQ等,本文主要講解Outlook SMTP的開啟方式、OutLook STARTTTL的配置、如何通過JavaMail來實現電子郵件的發送等。 Outlook作為微軟提供的企業電子…

【YOLOs-CPP-圖像分類部署】03-解決報錯

完整項目鏈接 點擊here下載! 上一篇問題 經過上一篇博客,我們得到了一個粗略版(會報錯)的項目。如何解決異常報錯呢? 我把問題在github上對作者進行了提問,但是2天后,依然沒有回復。 怎么辦呢?只能自己調試代碼了。 修改代碼 經過大量調試,修改了YOLO11CLASS.h…

Dockers Compose常用指令介紹

Dockers Compose常用指令 1、常用指令介紹 1.1、version 指令 頂級一級指令,指定 compose 指定文件格式版本 version: "3.8" services: 不同版本支持的功能不同。常用版本有 ‘2’, ‘3’, ‘3.8’ 等。 1.2、services 指令 頂級一級指令&#xff0…

謝飛機的Spring WebFlux面試之旅:從基礎到深入

謝飛機的Spring WebFlux面試之旅:從基礎到深入 面試場景:謝飛機的WebFlux面試 面試官:你好,謝飛機,請介紹一下你自己。 謝飛機:您好,我是一名有三年開發經驗的Java程序員,熟悉Spr…

Mysql增量備份與恢復

1.練習數據增量備份 增量備份:備份上次備份后,新產生的數據。 PERCONA Xtrabackup是一款強大的在線熱備份工具,備份過程中不鎖庫表,適合生產環境。支持完全備份與恢復、增量備份與恢復、差異備份與恢復。 安裝Xtrabackup 150、…

GStreamer (三)常?插件

常?插件 1、Source1.1、filesrc1.2. videotestsrc1.3. v4l2src1.4. rtspsrc和rtspclientsink 2、 Sink2.1. filesink2.2. fakesink2.3. xvimagesink2.4. kmssink2.5. waylandsink2.6. rkximagesink2.7. fpsdisplaysink 3 、視頻推流/拉流3.1. 本地推流/拉流3.1.1 USB攝像頭3.1…

Spring Boot與Kafka集成實踐:實現高效消息隊列

Spring Boot與Kafka集成實踐 引言 在現代分布式系統中,消息隊列是實現異步通信和解耦的重要組件。Apache Kafka作為一種高性能、分布式的消息隊列系統,被廣泛應用于大數據和實時數據處理場景。本文將介紹如何在Spring Boot項目中集成Kafka,…

Linux PXE批量裝機+無人值守技術(自動化裝機)

目錄 PXE所需條件 服務端所需服務 客戶端所需功能 1.準備系統安裝rpm倉庫 (1)安裝vsftpd服務 (2)啟動并設置開機自啟 (3)準備yum倉庫文件 2.安裝配置dhcpd服務 (1)安裝dhcoo軟件包 (2)配置dhcp服務 (3)啟動并設置開機自啟 3.部署TFTP服務 (1)安裝軟…

linux_cmake的筆記

include_directories()的使用 今天在運行一個cmakelist.txt如下所示時候,發現一個問題: cmake_minimum_required(VERSION 3.28) project(l_trajectoryError CXX) option(USE_UBUNTU_20 "Set to ON if you are using Ubuntu 20.04" OFF) find…

論文略讀:If Multi-Agent Debate is the Answer, What is the Question?

202502 arxiv 1 intro 多智能體辯論(Multi-Agent Debate, MAD):通過讓多個智能體在大模型推理時展開多輪辯論,可提升生成內容的事實準確性和推理質量 但論文認為,目前多智能體辯論在大多數情況下不敵簡單的單智能體方…

使用RUST在Arduino上進行編程(MacOS,mega板)

近年來,RUST成為了嵌入式編程的熱門語言,本文通過實現(1)LED閃燈,以及(2)在console(終端)實現“Hello Rust World”兩項功能來完成實操的入門。 深入學習可以參考RUST語言…

(15)關于窗體的右鍵菜單的學習與使用,這關系到了信號與事件 event

(1)起因來源于 4.11 的老師講的例題,標準的,規范的使用右鍵菜單的代碼及參考資料如下: (2) 接著脫離上面的那個復雜的環境,用簡單的例子測試一下 : 說明老師講的都是對…

C 語言學習筆記(指針4)

內容提要 指針 函數指針與指針函數二級指針 指針 函數指針與指針函數 函數指針 定義 函數指針本質上是指針,是一個指向函數的指針。函數都有一個入口地址,所謂指向函數的指針,就是指向函數的入口地址。(這里的函數名就代表…