多模態大語言模型arxiv論文略讀(155)

在這里插入圖片描述

Panther: Illuminate the Sight of Multimodal LLMs with Instruction-Guided Visual Prompts

?? 論文標題:Panther: Illuminate the Sight of Multimodal LLMs with Instruction-Guided Visual Prompts
?? 論文作者:Honglin Li, Yuting Gao, Chenglu Zhu, Jingdong Chen, Ming Yang, Lin Yang
?? 研究機構: Zhejiang University、Westlake University、Ant Group
?? 問題背景:多模態大語言模型(MLLMs)在視覺感知能力上迅速接近人類水平,但在處理細微圖像細節或精確定位小物體等任務上仍存在不足。現有方法主要通過部署多個視覺編碼器或處理高分辨率圖像來解決這些問題,但這些方法往往忽略了文本指令在改善視覺表示中的作用,導致在某些視覺中心任務中失去焦點,這種現象被研究者稱為“弱視”(Amblyopia)。
?? 研究動機:為了克服現有MLLMs中的“弱視”問題,研究團隊提出了一種新的框架——Panther,該框架通過將用戶指令轉化為視覺提示,指導視覺編碼器提取與指令相關的視覺特征,從而提高模型對用戶指令的響應能力和對目標對象的精確定位能力。
?? 方法簡介:Panther框架由三個核心模塊組成:Panther-VE(視覺編碼器)、Panther-Bridge(橋接模塊)和Panther-Decoder(解碼器)。Panther-VE通過輕量級文本編碼器將用戶指令轉化為文本嵌入,并通過多層感知器將其投影到視覺空間,生成指令感知的視覺提示。Panther-Bridge通過過濾冗余的視覺令牌,減少多輪對話中的計算成本。Panther-Decoder則通過交錯訓練模式,支持任何解碼器架構的LLMs。
?? 實驗設計:研究團隊在多個基準數據集上進行了實驗,包括視覺問答、指令跟隨和視覺中心任務。實驗結果驗證了Panther在視覺中心任務上的有效性,特別是在視覺問答和指令跟隨任務上表現突出。此外,通過與現有最先進的多模態模型進行比較,Panther在多個基準測試中表現出顯著的性能提升。

Separable Mixture of Low-Rank Adaptation for Continual Visual Instruction Tuning

?? 論文標題:Separable Mixture of Low-Rank Adaptation for Continual Visual Instruction Tuning
?? 論文作者:Ziqi Wang, Chang Che, Qi Wang, Yangyang Li, Zenglin Shi, Meng Wang
?? 研究機構: Hefei University of Technology, Tsinghua University, Academy of Cyber
?? 問題背景:視覺指令調優(Visual Instruction Tuning, VIT)使多模態大語言模型(Multimodal Large Language Models, MLLMs)能夠通過將任務框架為語言指令來有效處理各種視覺任務。在此基礎上,持續視覺指令調優(Continual Visual Instruction Tuning, CVIT)進一步擴展了MLLMs的能力,使其能夠增量學習新任務,適應不斷變化的功能需求。然而,現有的CVIT研究大多遵循傳統的持續學習范式,忽視了CVIT特有的挑戰,如視覺理解和指令跟隨能力的雙重災難性遺忘。
?? 研究動機:研究團隊發現,MLLMs在CVIT過程中不僅會忘記先前學習的視覺理解能力,還會隨著新任務的學習而逐漸喪失指令跟隨能力。為了解決這一問題,研究團隊提出了分離混合低秩適應(Separable Mixture of Low-Rank Adaptation, SMoLoRA)框架,通過分離路由策略,專門適應視覺理解和指令跟隨兩個領域,從而防止遺忘并提高性能。
?? 方法簡介:SMoLoRA框架通過兩個獨立的模塊——視覺理解模塊和指令跟隨模塊——實現分離路由。每個模塊根據輸入的視覺特征和指令信息動態選擇最合適的低秩適應(LoRA)塊,從而防止不同任務之間的干擾。此外,SMoLoRA還引入了自適應融合模塊,對分離路由后的結果進行加權融合,進一步提升模型的適應性和魯棒性。
?? 實驗設計:研究團隊構建了一個新的CVIT基準測試,不僅評估模型在標準任務上的準確性和遺忘情況,還評估了模型在未見過的任務上的泛化能力和處理多樣化指令的能力。實驗在多個公開數據集上進行,包括視覺問答(VQA)、圖像分類和圖像描述等任務。實驗結果表明,SMoLoRA在緩解雙重災難性遺忘、提高新任務的泛化能力和確保指令跟隨的魯棒性方面均優于現有方法。

Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models

?? 論文標題:Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models
?? 論文作者:Yuhao Dong, Zuyan Liu, Hai-Long Sun, Jingkang Yang, Winston Hu, Yongming Rao, Ziwei Liu
?? 研究機構: S-Lab (NTU), Tencent, Tsinghua University, Nanjing University
?? 問題背景:盡管大型語言模型(LLMs)和多模態大型語言模型(MLLMs)在多種任務中展現了強大的能力,但如何使這些模型具備人類級別的推理能力仍然是一個挑戰。特別是在視覺-語言任務中,缺乏高質量的長鏈推理數據和優化的訓練管道,限制了模型在復雜多模態任務中的推理能力。
?? 研究動機:現有的研究主要集中在通過長鏈推理增強LLMs的能力,但多模態LLMs在視覺推理方面的長鏈推理能力尚未得到充分探索。為了解決這一問題,研究團隊提出了Insight-V,旨在生成高質量的長鏈推理數據,并設計有效的訓練管道,以增強MLLMs的推理能力。
?? 方法簡介:研究團隊設計了一個兩步數據生成管道,包括逐步生成長鏈推理數據和多粒度評估系統,以確保數據質量。此外,還設計了一個多代理系統,將問題解決過程分解為推理和總結兩個階段,通過迭代DPO算法進一步優化推理質量。
?? 實驗設計:研究團隊在多個視覺-語言基準測試上評估了Insight-V的性能,包括視覺推理和一般圖像理解任務。實驗不僅驗證了Insight-V在視覺推理任務上的顯著性能提升,還展示了其在一般圖像理解任務中的穩定表現。通過與現有最先進的MLLMs進行比較,研究團隊證明了Insight-V的有效性和通用性。

LLaVA-MR: Large Language-and-Vision Assistant for Video Moment Retrieval

?? 論文標題:LLaVA-MR: Large Language-and-Vision Assistant for Video Moment Retrieval
?? 論文作者:Weiheng Lu, Jian Li, An Yu, Ming-Ching Chang, Shengpeng Ji, Min Xia
?? 研究機構: Peking University、Tencent Youtu、University at Albany、Zhejiang University
?? 問題背景:多模態大語言模型(MLLMs)在視覺感知、理解和推理任務中表現出色。然而,處理長視頻和精確時刻檢索仍然具有挑戰性,主要由于LLMs的上下文大小有限和粗略的幀提取方法。視頻時刻檢索(Video Moment Retrieval, MR)旨在根據自然語言查詢定位視頻中的特定時間片段,這要求模型能夠有效理解視頻內容并精確捕捉與查詢相關的瞬時細節。
?? 研究動機:現有的方法在處理長視頻時,由于依賴于幀級特征提取和預測頭的設計,導致理解能力有限和魯棒性不足。研究團隊提出了一種新的方法——大型語言和視覺助手用于時刻檢索(LLaVA-MR),旨在通過增強MLLMs的時間感知能力和捕捉長視頻中的關鍵瞬時信息,提高時刻檢索的精度。
?? 方法簡介:LLaVA-MR通過結合密集幀和時間編碼(DFTE)、信息幀選擇(IFS)和動態令牌壓縮(DTC)來優化MLLMs。DFTE用于提取細粒度的空間和時間特征,IFS用于捕捉短暫的視覺和運動模式,DTC用于減少序列長度同時保留關鍵信息。
?? 實驗設計:研究團隊在Charades-STA和QVHighlights兩個基準數據集上進行了實驗。實驗設計了不同的幀采樣數量、時間編碼方法、信息幀選擇策略和動態令牌壓縮方法,以全面評估模型在不同條件下的表現。實驗結果表明,LLaVA-MR在多個評估指標上均優于現有的11種最先進方法,特別是在QVHighlights數據集上,R1@0.5和mAP@0.5分別提高了1.82%和1.29%。

Evaluating and Advancing Multimodal Large Language Models in Ability Lens

?? 論文標題:Evaluating and Advancing Multimodal Large Language Models in Ability Lens
?? 論文作者:Feng Chen, Chenhui Gou, Jing Liu, Yang Yang, Zhaoyang Li, Jiyuan Zhang, Zhenbang Sun, Bohan Zhuang, Qi Wu
?? 研究機構: University of Adelaide、Monash University、The Australian National University、TikTok Australia、Zhejiang University
?? 問題背景:隨著多模態大語言模型(Multimodal Large Language Models, MLLMs)的快速發展,嚴格的評估變得至關重要,以提供進一步發展的指導。當前的感知基準測試(Perception Benchmarks)在問題類型、領域和評估指標上各有側重,導致評估結果存在顯著差異,難以全面評估模型的感知能力。此外,現有的基準測試主要關注模型的準確性,而忽視了模型在不同因素下的穩定性和一致性。
?? 研究動機:為了克服現有感知基準測試的局限性,研究團隊設計了一個統一的基準測試——AbilityLens,旨在全面評估MLLMs在六個關鍵感知能力上的表現,包括準確性與穩定性。通過AbilityLens,研究團隊能夠識別當前模型的優勢和劣勢,揭示開源與閉源模型之間的性能差距,并提出了一種簡單有效的模型合并方法,以緩解能力沖突導致的性能下降。
?? 方法簡介:研究團隊通過整合11個現有基準測試的數據,構建了包含12,000個測試樣本的AbilityLens。每個感知能力類型下都有超過1,000個測試樣本,確保了數據的多樣性和代表性。此外,研究團隊引入了基線校正,以消除不同問題類型對評估結果的影響,并通過加權和計算模型的總體準確性,以及通過計算子指標的標準差來評估模型的穩定性。
?? 實驗設計:研究團隊在14個最先進的MLLMs上進行了離線評估,包括不同模型大小和訓練數據的商業模型和開源模型。實驗結果不僅展示了模型在不同感知能力上的表現,還揭示了模型在訓練過程中的動態變化,特別是早期收斂和能力沖突現象。此外,研究團隊還提出了一種能力特定的模型合并方法(Ability-specific Model Merging, ASMM),通過線性插值合并不同訓練階段的模型,以增強特定能力,同時保持整體性能,顯著減少了計算成本。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/88386.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/88386.shtml
英文地址,請注明出處:http://en.pswp.cn/web/88386.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

SAP ERP與Oracle EBS對比,兩個ERP系統有什么區別?

據統計,2024年中國ERP軟件市場規模預計突破210億元,其中SAP和Oracle占據第一梯隊,共占國內ERP市場45%以上的份額,在高端市場尤其顯著。SAP和Oracle作為ERP行業的兩大巨頭,具體有什么區別呢?SAP是什么&#…

網絡安全之RCE分析與利用詳情

Gogs背景介紹Gogs(Go Git Service)是一款用Go語言編寫的輕量級、開源的Git倉庫托管系統。它的設計目標是讓搭建和維護Git服務變得簡單、快速,同時提供類似GitHub的功能,但對資源消耗更少,適合個人或者小型團隊使用&…

OpenCV圖片操作100例:從入門到精通指南(2)

接上篇,本文將繼續分享OpenCV實用技巧,涵蓋圖像處理、目標檢測、3D視覺等進階領域!六、圖像變換進階17. 圖像金字塔# 高斯金字塔下采樣 smaller cv2.pyrDown(img)# 高斯金字塔上采樣 larger cv2.pyrUp(img)用于多尺度圖像處理,構…

2、Connecting to Kafka

KafkaAdmin-請參閱配置主題ProducerFactory-請參閱發送消息ConsumerFactory-請參閱接收消息從2.5版本開始&#xff0c;每個版本都擴展了KafkaResourceFactory。這允許在運行時通過向引導服務器的配置中添加Supplier<String>來更改引導服務器&#xff1a;setBootstrapServ…

二進制部署CentOS8.5+Kubernetes1.33.2+Docker28.3.1高可用集群

Kubernetes 集群部署202507 本實驗主要軟件環境及資源如下&#xff1a; 二進制部署CentOS8.5Kubernetes1.33.2Docker28.3.1高可用集群 一、系統要求 ?Kubermetes 系統由一組可執行程序組成&#xff0c;用戶可以通過Kubernetes在GitHub 的項目網站下載編譯好的二進制文件或…

127. Java 泛型 - 泛型類與子類型

文章目錄127. Java 泛型 - 泛型類與子類型1. 泛型類和接口的子類型化示例&#xff1a;ArrayList 和 List2. 自定義泛型接口的子類型化示例&#xff1a;泛型接口的子類型解釋3. 泛型類和接口的類型參數4. 總結127. Java 泛型 - 泛型類與子類型 1. 泛型類和接口的子類型化 在 J…

內網服務器怎么設置公網遠程訪問? windows桌面連接和Linux自帶SSH外網異地跨網用完整步驟教程

沒有公網IP的本地主機跨網訪問是經常需要用到的網絡場景。要設置內網服務器在公網進行異地遠程訪問&#xff0c;需依次完成確保網絡連接正常、配置防火墻、啟用遠程訪問服務、和利用類似nat123內網映射外網打通等一系列步驟&#xff0c;以保障不同內網的遠程訪問的順利進行。一…

數據提取之bs4(BeautifuSoup4)模塊與Css選擇器

BeautifuSoup4from bs4 import BeautifulSoup創建對象 <class bs4.BeautifulSoup>soup BeautifulSoup(源碼, 解析器)bs4標簽種類&#xff08;1&#xff09;tag: 標簽print(soup.title, type(soup.title))&#xff08;2&#xff09;獲取標簽里面的文本內容, 可導航的字符…

CPP中的List

一.list的介紹&#xff1a;1.list是可以在常數范圍內在任意位置進行插入和刪除的序列式容器&#xff0c;并且該容器可以前后雙向迭代。2.list的底層是雙向鏈表結構&#xff0c;帶有哨兵位的頭結點 。3. list與forward_list非常相似&#xff1a;最主要的不同在于forward_list是單…

Ntfs!LfsUpdateLfcbFromRestart函數分析之Ntfs!LfsFindOldestClientLsn

第0部分&#xff1a;//// Find the oldest client Lsn. Use the last flushed Lsn as a starting point.//Lfcb->OldestLsn Lfcb->LastFlushedLsn;LfsFindOldestClientLsn( RestartArea,Add2Ptr( RestartArea, Lfcb->ClientArrayOffset, PLFS_CLIENT_RECORD ),&…

「日拱一碼」021 機器學習——特征工程

目錄 特征選擇 過濾法&#xff08;Filter Methods&#xff09; 方差選擇法 相關系數法 卡方檢驗 包裹法&#xff08;Wrapper Methods&#xff09; 遞歸特征消除&#xff08;RFE&#xff09; 嵌入法&#xff08;Embedded Methods&#xff09; L1正則化&#xff08;Lasso…

k8s:安裝 Helm 私有倉庫ChartMuseum、helm-push插件并上傳、安裝Zookeeper

ChartMuseum 是 Kubernetes 生態中用于存儲、管理和發布 Helm Charts 的開源系統&#xff0c;主要用于擴展 Helm 包管理器的功能 核心功能 ?集中存儲?&#xff1a;提供中央化倉庫存儲Charts&#xff0c;支持版本管理和權限控制。 ? ?跨集群部署?&#xff1a;支持多集群環境…

C++編程學習(第二天)

1、求a和b兩個數之和。#include <iostream> using namespace std;int main() {int a, b, sum; //定義變量a、b、sumcout << "請輸入第一個數字a: "; //打印需要顯示的字符串cin >> a; // >&…

毫米波雷達守護銀發安全:七彩喜跌倒檢測儀重構居家養老防線

在老齡化加速與獨居老人數量攀升的背景下&#xff0c;跌倒已成為威脅老年人生命安全的“隱形殺手”。七彩喜跌倒檢測儀以毫米波雷達技術為核心&#xff0c;通過“非接觸式監測智能預警”重塑居家安全防護體系&#xff0c;為銀發群體構建起全天候、無感化的數字守護網。技術突破…

面試復盤:節流中第二次觸發的事件?答錯補課

面試復盤&#xff1a;節流中第二次觸發的事件&#xff1f;答錯補課 背景描述 今天面試時被問到一個看似基礎但暗藏玄機的問題&#xff1a;“節流&#xff08;Throttle&#xff09;函數中&#xff0c;第二次觸發的那一幀事件是否會被丟掉&#xff1f;” 我基于對經典節流實現的…

Spark偽分布式集群搭建(Ubuntu系統)

環境準備 系統要求&#xff1a;Ubuntu 20.04/22.04 LTS 軟件版本&#xff1a; Hadoop 3.3.5 JDK 8 Spark-3.5.6-bin-hadoop3 硬件要求&#xff1a;至少4GB內存&#xff0c;20GB磁盤空間 以下是基于Ubuntu系統的Spark偽分布式集群搭建全流程。以Spark 3.5.6 Hadoop 3.3.…

【快手】數據挖掘面試題0001:查找連續三天登錄的用戶

文章大綱一、測試數據構建二、自連接方案三、窗口函數方案一張用戶表&#xff0c;uer_id&#xff0c;signin_date&#xff0c;大概是這么幾項&#xff0c;查找連續三天登錄的用戶。 比如說&#xff0c;1,2兩天登錄不是連續三天&#xff0c;456登錄為連續三天登錄&#xff0c;56…

簡說scp命令

簡單介紹 scp的全稱是&#xff1a;Secure Copy Protocol&#xff08;安全復制協議&#xff09;&#xff0c;是Linux中用于在網絡中安全傳輸文件的命令行工具。它基于SSH協議&#xff0c;用于在本地服務器和遠程服務器之間&#xff0c;或者兩臺遠程服務器之間復制文件或目錄。 s…

自動化測試解決方案Parasoft SOAtest無腳本UI測試實踐指南

傳統UI自動化測試常面臨技術門檻高、維護成本大、穩定性差等挑戰。尤其在頁面頻繁變更時&#xff0c;測試腳本的更新和維護會顯著降低測試效率。 自動化測試解決方案Parasoft SOAtest通過可視化操作和智能元素定位技術&#xff0c;無需編寫代碼&#xff0c;讓測試人員能夠像真…

vscode配置頭文件和編譯器

在 VS Code 中配置編譯器和頭文件路徑需要修改兩個核心文件&#xff1a;c_cpp_properties.json&#xff08;用于智能提示&#xff09;和 tasks.json&#xff08;用于構建&#xff09;。以下是詳細步驟&#xff1a; —### 1. 配置智能提示和頭文件路徑 (c_cpp_properties.json)作…