多模態大語言模型arxiv論文略讀(九十八)

在這里插入圖片描述

Accelerating Pre-training of Multimodal LLMs via Chain-of-Sight

?? 論文標題:Accelerating Pre-training of Multimodal LLMs via Chain-of-Sight
?? 論文作者:Ziyuan Huang, Kaixiang Ji, Biao Gong, Zhiwu Qing, Qinglong Zhang, Kecheng Zheng, Jian Wang, Jingdong Chen, Ming Yang
?? 研究機構: Ant Group、Huazhong University of Science and Technology
?? 問題背景:當前的多模態大語言模型(Multimodal Large Language Models, MLLMs)在視覺-語言任務中展現了卓越的能力,如圖像描述、視覺問答和視覺定位。然而,隨著數據量的增加,模型的預訓練時間顯著延長,成為進一步研究和應用的主要障礙。傳統的MLLMs在預訓練階段處理大量的視覺token,導致計算成本高昂,且預訓練時間過長。
?? 研究動機:為了減少預訓練時間,同時不犧牲模型性能,研究團隊提出了Chain-of-Sight,一種視覺-語言橋接模塊。該模塊通過多尺度視覺重采樣器和復合token擴展策略,顯著減少了預訓練階段所需的視覺token數量,從而加速預訓練過程。
?? 方法簡介:Chain-of-Sight的核心機制是多尺度視覺重采樣器,該重采樣器能夠生成多尺度的視覺token。通過在預訓練階段減少視覺token的數量,并在微調階段擴展token數量,Chain-of-Sight能夠在保持或提升模型性能的同時,顯著加速預訓練過程。具體來說,該方法在預訓練階段使用少量的視覺token,而在微調階段通過分辨率擴展和窗口擴展策略,將token數量增加到原來的16倍。
?? 實驗設計:研究團隊在多個視覺-語言基準數據集上進行了實驗,包括圖像描述、視覺問答和文本識別任務。實驗結果表明,Chain-of-Sight不僅能夠將預訓練時間減少約73%,而且在多個任務上達到了與使用全部視覺token的模型相當或更好的性能。此外,通過進一步擴展token數量,模型的性能還可以進一步提升。

UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models

?? 論文標題:UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models
?? 論文作者:Liu Qi, He Yongyi, Lian Defu, Zheng Zhi, Xu Tong, Liu Che, Chen Enhong
?? 研究機構: 中國科學技術大學 & 國家認知智能重點實驗室
?? 問題背景:多模態實體鏈接(Multimodal Entity Linking, MEL)是一項關鍵任務,旨在將多模態上下文中的模糊提及鏈接到多模態知識庫中的實體。現有的方法過于復雜,且忽視了視覺語義信息,導致在處理文本模糊性、冗余和噪聲圖像等問題時性能嚴重下降。大型語言模型(LLMs)和多模態大型語言模型(MLLMs)的出現為解決這些問題提供了新的思路。
?? 研究動機:盡管LLMs在許多數據任務中表現出色,但它們在處理多模態實體鏈接任務時仍面臨挑戰,如有效融合視覺和文本上下文、缺乏領域特定知識等。為了克服這些挑戰,研究團隊提出了一個統一的框架UniMEL,旨在利用LLMs和MLLMs處理多模態實體鏈接任務。
?? 方法簡介:UniMEL框架通過以下方式增強實體鏈接任務:1) 使用MLLMs處理提及的圖像和上下文信息,提取更深層次的語義關系;2) 使用LLMs的總結能力生成簡潔的實體描述;3) 使用嵌入模型檢索和重新排序候選實體;4) 通過微調LLMs的少量參數來選擇最終的實體。
?? 實驗設計:在三個公開的多模態實體鏈接數據集上進行了實驗,包括Richpedia、WikiMEL和Wikidiverse。實驗設計了不同的模塊,如LLMs和MLLMs的增強、檢索增強和多選選擇,以全面評估UniMEL在不同條件下的表現。實驗結果表明,UniMEL在這些數據集上取得了最先進的性能。

INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model

?? 論文標題:INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model
?? 論文作者:Yiwei Ma, Zhibin Wang, Xiaoshuai Sun, Weihuang Lin, Qiang Zhou, Jiayi Ji, Rongrong Ji
?? 研究機構: Xiamen University (XMU)
?? 問題背景:多模態大語言模型(Multimodal Large Language Models, MLLMs)在各種任務中展現了卓越的能力,但其視覺編碼器的二次復雜度限制了輸入圖像的分辨率。現有的方法通過將高分辨率圖像裁剪為較小的子圖像來處理這一問題,但這些方法在捕捉全局上下文和局部細節方面存在不足。
?? 研究動機:為了克服現有方法的局限性,研究團隊提出了一種新的MLLM框架——INF-LLaVA,旨在有效處理高分辨率圖像,同時保持全局和局部信息的完整性。
?? 方法簡介:INF-LLaVA引入了兩個創新組件:雙視角裁剪模塊(Dual-perspective Cropping Module, DCM)和雙視角增強模塊(Dual-perspective Enhancement Module, DEM)。DCM確保每個子圖像從局部和全局視角包含連續的詳細信息和全面的信息。DEM通過局部和全局特征的相互增強,使模型能夠有效處理高分辨率圖像。
?? 實驗設計:研究團隊在多個基準數據集上進行了廣泛的消融研究和實驗,驗證了DCM和DEM的有效性。實驗結果表明,INF-LLaVA在處理高分辨率圖像時不僅性能優越,而且顯著優化了計算效率。

Harmonizing Visual Text Comprehension and Generation

?? 論文標題:Harmonizing Visual Text Comprehension and Generation
?? 論文作者:Zhen Zhao, Jingqun Tang, Binghong Wu, Chunhui Lin, Shu Wei, Hao Liu, Xin Tan, Zhizhong Zhang, Can Huang, Yuan Xie
?? 研究機構: East China Normal University, ByteDance
?? 問題背景:當前的多模態生成模型在視覺文本理解與生成任務中表現出色,但同時生成圖像和文本時,由于視覺和語言模態之間的固有不一致性,通常會導致性能下降。現有的方法通過模態特定的數據進行監督微調,需要不同的模型實例,這限制了模型的通用性和效率。
?? 研究動機:為了克服多模態生成中的模態不一致性問題,并實現單一模型實例中視覺和語言生成的統一,研究團隊提出了Slide-LoRA方法。該方法通過動態聚合模態特定和模態無關的LoRA專家,部分解耦多模態生成空間,從而在不顯著增加參數的情況下,提升模型的多模態生成能力。
?? 方法簡介:研究團隊提出了TextHarmony,一個統一且多功能的多模態生成模型,擅長理解和生成視覺文本。TextHarmony通過集成視覺編碼器、LLM和圖像解碼器,實現了文本和圖像的同步生成。為了緩解視覺和語言模態之間的不一致性,研究團隊提出了Slide-LoRA,該方法通過動態調整不同模態生成任務的參數空間,部分解耦多模態生成空間。此外,研究團隊還構建了一個高質量的圖像字幕數據集DetailedTextCaps-100K,以進一步提升視覺文本生成能力。
?? 實驗設計:研究團隊在多個基準數據集上進行了實驗,包括視覺文本理解任務(如DocVQA、TabFact、TextVQA等)和視覺文本生成任務(如AnyText-benchmark-EN、MARIOEval等)。實驗結果表明,TextHarmony在視覺文本理解任務上達到了與專門的文本理解模型相當的性能,在視覺文本生成任務上也表現出色。具體來說,TextHarmony在視覺文本理解任務上平均提升了2.5%,在視覺文本生成任務上平均提升了4.0%。

MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues

?? 論文標題:MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues
?? 論文作者:Liyun Zhang
?? 研究機構: Osaka University
?? 問題背景:現有的多模態大語言模型(MLLMs)在多模態情感識別任務中表現出色,能夠整合視覺、聲學和語言模態的信息來識別人類的情感狀態。然而,這些模型在捕捉微表情的時間動態和話語感知的時間段的上下文依賴性方面存在不足,限制了其在多模態情感識別任務中的有效性。
?? 研究動機:為了提高多模態情感識別的準確性和細致度,研究團隊提出了MicroEmo,一個時間敏感的MLLM,旨在關注面部微表情的時間動態和話語感知視頻片段的上下文依賴性。通過引入全局-局部注意力視覺編碼器和話語感知視頻Q-Former,MicroEmo能夠捕捉更細微和深層次的情感信息,提供更豐富和可靠的情感識別結果。
?? 方法簡介:研究團隊提出了兩個關鍵模塊:1) 全局-局部注意力視覺編碼器,整合全局幀級時間戳綁定圖像特征與局部面部特征的時間動態;2) 話語感知視頻Q-Former,通過生成每個話語段和整個視頻的視覺令牌序列來捕捉多尺度和上下文依賴性。
?? 實驗設計:研究團隊在新的Explainable Multimodal Emotion Recognition (EMER)任務上進行了初步的定性實驗,該任務利用多模態和多方面的線索以開放詞匯的方式預測情感。實驗結果表明,MicroEmo在捕捉細微情感變化方面優于現有方法,同時保持了上下文的準確性。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/85018.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/85018.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/85018.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

WEB安全--RCE--webshell HIDS bypass4

繼WEB安全--RCE--webshell HIDS bypass3的補充&#xff1a; 十三、時間開關 webshell&#xff1a; <?php ini_set("display_errors",1); function foo($test, $bar FSYSTEM) {echo $test . $bar; } $function new ReflectionFunction(foo); $q new ParseEr…

.NET 7 AOT 使用及 .NET 與 Go 語言互操作詳解

.NET 7 AOT 使用及 .NET 與 Go 語言互操作詳解 目錄 .NET 7 AOT 使用及 .NET 與 Go 語言互操作詳解 一、背景與技術概述 1.1 AOT 編譯技術簡介 1.2 Go 語言與 .NET 的互補性 二、.NET 7 AOT 編譯實踐 2.1 環境準備 2.2 創建 AOT 項目 2.3 AOT 編譯流程 2.4 調試信息處…

機器人--里程計

教程 輪式里程計視頻講解 里程計分類 ros--odometry 什么是里程計 里程計是一種利用從移動傳感器獲得的數據來估計物體位置隨時間的變化而改變的方法。該方法被用在許多機器人系統來估計機器人相對于初始位置移動的距離。 注意&#xff1a;里程計是一套算法&#xff0c;不…

云原生時代 Kafka 深度實踐:02快速上手與環境搭建

2.1 本地開發環境搭建 單機模式安裝 下載與解壓&#xff1a;前往Apache Kafka 官網&#xff0c;下載最新穩定版本的 Kafka 二進制包&#xff08;如kafka_2.13-3.6.0.tgz&#xff0c;其中2.13為 Scala 版本&#xff09;。解壓到本地目錄&#xff0c;例如/opt/kafka&#xff1a…

Vue Hook Store 設計模式最佳實踐指南

Vue Hook Store 設計模式最佳實踐指南 一、引言 在 Vue 3 組合式 API 與 TypeScript 普及的背景下&#xff0c;Hook Store 設計模式應運而生&#xff0c;它結合了 Vue 組合式 API 的靈活性與狀態管理的最佳實踐&#xff0c;為開發者提供了一種輕量級、可測試且易于維護的狀態…

無人機多人協同控制技術解析

一、運行方式 無人機多人點對點控制通常采用以下兩種模式&#xff1a; 1. 主從控制模式 指定一個主控用戶擁有最高優先級&#xff0c;負責飛行路徑規劃、緊急操作等關鍵指令&#xff1b;其他用戶作為觀察者&#xff0c;僅能查看實時畫面或提交輔助指令&#xff0c;需經主…

樹型表查詢方法 —— SQL遞歸

目錄 引言&#xff1a; 自鏈接查詢&#xff1a; 遞歸查詢&#xff1a; 編寫service接口實現&#xff1a; 引言&#xff1a; 看下圖&#xff0c;這是 course_category 課程分類表的結構&#xff1a; 這張表是一個樹型結構&#xff0c;通過父結點id將各元素組成一個樹。 我…

微服務難題?Nacos服務發現來救場

文章目錄 前言1.什么是服務發現2.Nacos 閃亮登場2.1 服務注冊2.2 服務發現 3.Nacos 的優勢3.1 簡單易用3.2 高可用3.3 動態配置 4.實戰演練4.1安裝 Nacos4.2 服務注冊與發現示例代碼&#xff08;以 Spring Boot 為例&#xff09; 總結 前言 大家好&#xff0c;我是沛哥兒。今天…

AStar低代碼平臺-腳本調用C#方法

修改報工表表單&#xff0c;右鍵定義彈出菜單&#xff0c;新增一個菜單項&#xff0c;并在點擊事件腳本中編寫調用腳本。 編譯腳本&#xff0c;然后在模塊代碼里面定義這個方法&#xff1a; public async Task<int> on_call_import(DataRow curRow) {PrintDataRow(cur…

python調用langchain實現RAG

一、安裝langchain 安裝依賴 python -m venv env.\env\Scripts\activatepip3 install langchainpip3 install langchain-corepip3 install langchain-openaipip3 install langchain-communitypip3 install dashscopepip3 install langchain_postgrespip3 install "psyc…

大學大模型教學:基于NC數據的全球氣象可視化解決方案

引言 氣象數據通常以NetCDF(Network Common Data Form)格式存儲,這是一種廣泛應用于科學數據存儲的二進制文件格式。在大學氣象學及相關專業的教學中,掌握如何讀取、處理和可視化NC數據是一項重要技能。本文將詳細介紹基于Python的NC數據處理與可視化解決方案,包含完整的代…

ORB-SLAM2學習筆記:ComputeKeyPointsOctTree分析過程記錄

ComputeKeyPointsOctTree是ORB特征提取器中計算關鍵點的部分&#xff0c;特別是使用八叉樹&#xff08;OctTree&#xff09;方法進行關鍵點分布。 首先&#xff0c;函數參數是vector<vector的引用allKeypoints&#xff0c;用來存儲各層的關鍵點。代碼開頭調整了allKeypoint…

LeetCode Hot100(多維動態規劃)

62. 不同路徑 比較板子的dp&#xff0c;實際上就是到達一個點有兩種方式&#xff0c;從上面來或者是左邊&#xff0c;加起來就可以了 class Solution {public int uniquePaths(int m, int n) {int [][]arr new int[m2][n2];arr[1][1]1;for(int i1;i<m;i){for(int j1;j<…

Oracle MOVE ONLINE 實現原理

Oracle MOVE ONLINE 實現原理 Oracle 的 MOVE ONLINE 操作是一種在線重組表的技術&#xff0c;允許在不中斷業務的情況下重新組織表數據。以下是其實現原理的詳細分析&#xff1a; 基本概念 MOVE ONLINE 是 Oracle 12c 引入的特性&#xff0c;用于替代傳統的 ALTER TABLE ..…

工作流長任務處置方案

以下是前后端協作處理長任務工作流的完整實現方案&#xff0c;結合技術選型與設計要點&#xff0c;以清晰結構呈現&#xff1a; 一、后端實現方案 異步任務隊列架構 ? 技術選型&#xff1a; ? 消息隊列&#xff1a;NATS&#xff08;輕量級&#xff09;或 RabbitMQ&#xf…

RabbitMQ仲裁隊列高可用架構解析

#作者&#xff1a;閆乾苓 文章目錄 概述工作原理1.節點之間的交互2.消息復制3.共識機制4.選舉領導者5.消息持久化6.自動故障轉移 集群環境節點管理仲裁隊列增加集群節點重新平衡仲裁隊列leader所在節點仲裁隊列減少集群節點 副本管理add_member 在給定節點上添加仲裁隊列成員&…

fingerprint2瀏覽器指紋使用記錄

我在uniapp-vue3-H5端使用的&#xff0c;記錄一下 抄的這里前端使用fingerprintjs2獲取瀏覽器指紋fingerprintjs2是通過設備瀏覽器信息獲取瀏覽器指紋的插件&#xff08; - 掘金 1、安裝依賴 npm i fingerprintjs2 -S2、抽成模塊文件&#xff0c;/utils/Fingerprint2.js 生成指…

深度學習面試八股簡略速覽

在準備深度學習面試時&#xff0c;你可能會感到有些不知所措。畢竟&#xff0c;深度學習是一個龐大且不斷發展的領域&#xff0c;涉及眾多復雜的技術和概念。但別擔心&#xff0c;本文將為你提供一份全面的指南&#xff0c;從基礎理論到實際應用&#xff0c;幫助你在面試中脫穎…

使用 Redis 作為向量數據庫

一、什么是向量數據庫&#xff1f; 向量&#xff08;Vector&#xff09;&#xff1a;在機器學習和 AI 中&#xff0c;向量是由一系列數字組成的序列&#xff0c;用于數值化地描述數據的特征或語義。文本、圖像、音頻等非結構化數據可以通過模型轉換成固定長度的向量。 向量數據…

變量的計算

不同類型變量之間的計算 數字型變量可以直接計算 在python中&#xff0c;數字型變量可以直接通過算術運算符計算bool型變量&#xff1a;True 對應數字1 &#xff1b;False 對應數字0、 字符串變量 使用 拼接字符串 使用 * 拼接指定倍數的相同字符串 變量的輸入&#xff1a;&…