多模態大語言模型arxiv論文略讀(四十九)

請添加圖片描述

When Do We Not Need Larger Vision Models?

?? 論文標題:When Do We Not Need Larger Vision Models?
?? 論文作者:Baifeng Shi, Ziyang Wu, Maolin Mao, Xin Wang, Trevor Darrell
?? 研究機構: UC Berkeley、Microsoft Research
?? 問題背景:近年來,通過增加模型規模來獲得更強大的視覺表示已成為視覺模型預訓練的默認策略。然而,這種趨勢導致了對數十億參數的巨型模型的追求。本文探討了在視覺理解中,是否總是需要更大的模型來獲得更好的性能。
?? 研究動機:研究團隊提出了一種替代方法,即通過在多個圖像尺度上運行預訓練的較小模型(稱為“Scaling on Scales, S2”),來替代傳統的增加模型規模的方法。研究旨在展示S2在多種視覺任務中的性能,并探討其相對于模型規模擴展的優勢。
?? 方法簡介:研究團隊引入了S2-Wrapper,這是一種無需額外參數即可將任何預訓練的視覺模型擴展到多個圖像尺度的機制。S2-Wrapper通過將不同尺度的圖像分割成與預訓練時相同大小的子圖像,然后分別處理這些子圖像并合并特征,從而生成多尺度特征表示。
?? 實驗設計:研究在三個公開數據集上進行了實驗,包括圖像分類、語義分割和深度估計任務。實驗設計了不同尺度的圖像(如1x、2x、3x)以及不同模型大小(如base、large、huge/giant)的組合,以全面評估S2和模型規模擴展的性能。此外,研究還探討了S2在多模態語言模型(MLLMs)和機器人操作任務中的應用。結果表明,S2在許多情況下可以超越或匹配更大模型的性能,尤其是在需要詳細理解的任務中。

HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models

?? 論文標題:HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models
?? 論文作者:Wenqiao Zhang, Tianwei Lin, Jiang Liu, Fangxun Shu, Haoyuan Li, Lei Zhang, He Wanggui, Hao Zhou, Zheqi Lv, Hao Jiang, Juncheng Li, Siliang Tang, Yueting Zhuang
?? 研究機構: 浙江大學、上海科技大學、重慶大學、阿里巴巴集團、哈爾濱工業大學
?? 問題背景:多模態大語言模型(MLLMs)在處理下游多模態任務時表現出色,但現有的MLLMs通常采用靜態調優策略,這可能限制了模型在不同任務中的表現。當前的MLLMs通過靜態視覺-語言映射器將視覺特征轉換為類似文本的標記,從而實現靜態大語言模型(LLMs)理解視覺信息的能力。然而,這種靜態調優策略可能在不同下游多模態任務中表現不佳。
?? 研究動機:為了克服靜態調優策略的局限性,研究團隊提出了HyperLLaVA,通過動態調優投影器和LLM參數,結合動態視覺專家和語言專家,以提高MLLMs在不同多模態任務中的靈活性和性能。研究旨在通過動態參數生成,增強MLLMs在處理多樣化多模態任務時的適應性和表現。
?? 方法簡介:HyperLLaVA框架包括兩個主要部分:視覺專家(Visual Expert)和語言專家(Language Expert)。視覺專家通過HyperNetworks生成動態參數,根據視覺輸入自適應地調整投影器的輸出,從而更靈活地將視覺特征轉換為視覺標記。語言專家則通過中間層輸出作為語言引導,動態生成適應特定指令的特征,增強模型對用戶請求的理解和響應能力。
?? 實驗設計:研究團隊在多個公開數據集上進行了實驗,包括VQA-v2、GQA、VizWiz、SQAI、VQAT等視覺問答數據集,以及POPE、MME、MMBench、SEED-Bench等基準工具包。實驗設計了不同的模型配置,如僅使用視覺專家、僅使用語言專家、同時使用視覺和語言專家等,以評估不同配置下的模型性能。實驗結果表明,HyperLLaVA在多個基準測試中顯著超越了現有的MLLMs,特別是在視覺問答和多模態理解任務中表現突出。

VL-Mamba: Exploring State Space Models for Multimodal Learning

?? 論文標題:VL-Mamba: Exploring State Space Models for Multimodal Learning
?? 論文作者:Yanyuan Qiao, Zheng Yu, Longteng Guo, Sihan Chen, Zijia Zhao, Mingzhen Sun, Qi Wu, Jing Liu
?? 研究機構: 澳大利亞機器學習研究所(The University of Adelaide)、中國科學院自動化研究所、中國科學院大學人工智能學院
?? 問題背景:多模態大型語言模型(Multimodal Large Language Models, MLLMs)近年來受到了廣泛的關注,它們繼承了大型語言模型(LLMs)強大的語言表達和邏輯推理能力,通過整合視覺和文本信息,不僅增強了對視覺內容的理解,還為語言理解和生成提供了更全面的上下文。然而,由于Transformer架構的自注意力機制固有的計算復雜度,導致了高昂的計算開銷,尤其是在處理長序列時。
?? 研究動機:為了解決長序列建模的瓶頸問題,研究團隊提出了VL-Mamba,這是首個利用狀態空間模型(State Space Models, SSMs)解決多模態學習任務的工作。研究旨在探索SSMs在多模態學習中的應用潛力,提供一種不同于基于Transformer架構的多模態大型語言模型的新框架選項。
?? 方法簡介:研究團隊首先用預訓練的Mamba語言模型替換了基于Transformer的骨干語言模型,如LLama或Vicuna。然后,研究團隊探索了如何有效地將2D視覺選擇性掃描機制應用于多模態學習,并引入了一種新的多模態連接器(MultiModal Connector, MMC)架構,包括視覺選擇性掃描(Vision Selective Scan, VSS)模塊和兩個線性層,以增強2D因果建模的視覺序列。VSS模塊探索了兩種不同的掃描機制:雙向掃描機制(Bidirectional-Scan Mechanism, BSM)和交叉掃描機制(Cross-Scan Mechanism, CSM)。
?? 實驗設計:研究團隊在8個不同的多模態學習基準上進行了廣泛的實驗,包括VQA-v2、GQA、ScienceQA-IMG、TextVQA、POPE、MME、MMBench和MM-Vet。實驗結果表明,VL-Mamba在多個基準上取得了與現有多模態大型語言模型相當甚至更優的性能,尤其是在SQAI、VQAT和MME等任務上。盡管VL-Mamba的參數較少且訓練數據有限,但其性能與一些參數更多的模型相當,展示了利用狀態空間模型在多模態學習任務中的潛力。

RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition

?? 論文標題:RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition
?? 論文作者:Ziyu Liu, Zeyi Sun, Yuhang Zang, Wei Li, Pan Zhang, Xiaoyi Dong, Yuanjun Xiong, Dahua Lin, Jiaqi Wang
?? 研究機構: Wuhan University、Shanghai Jiao Tong University、The Chinese University of Hong Kong、Shanghai AI Laboratory、MThreads, Inc.、Nanyang Technological University
?? 問題背景:當前的視覺-語言模型(Vision-Language Models, VLMs)如CLIP在廣泛的視覺-語言理解任務中表現出色,但其在處理大規模詞匯或細粒度類別數據集時存在局限性。另一方面,多模態大語言模型(Multimodal Large Language Models, MLLMs)在處理細粒度類別時表現出色,但在處理大規模詞匯時面臨挑戰。這些模型在處理大規模詞匯和細粒度類別時的局限性限制了它們在實際應用中的性能。
?? 研究動機:為了克服CLIP和MLLMs在處理大規模詞匯和細粒度類別時的局限性,研究團隊提出了一種新的方法——RAR(Retrieving And Ranking Augmented),旨在增強MLLMs在少樣本/零樣本識別任務中的性能。RAR通過構建多模態檢索器,將外部知識動態地融入到模型的處理和生成流程中,從而提高模型的識別精度。
?? 方法簡介:RAR方法首先構建一個多模態檢索器,該檢索器創建并存儲視覺圖像和文本描述的多模態嵌入。在推理階段,RAR從外部記憶中檢索與輸入圖像最相似的前k個類別名稱,然后使用MLLMs對這些檢索到的候選結果進行排序,最終輸出預測結果。為了進一步提高MLLMs的排序性能,研究團隊探索了使用排名格式數據進行微調或上下文學習的方法。
?? 實驗設計:研究團隊在三個領域進行了實驗,包括:1)細粒度視覺識別(5個基準數據集),2)少樣本圖像識別(11個數據集),3)零樣本對象識別(2個對象檢測數據集,如V3Det)。實驗結果表明,RAR方法在少樣本學習任務中顯著提高了平均6.2%的性能,在零樣本對象識別任務中分別提高了6.4%和1.5%的性能。

Empowering Segmentation Ability to Multi-modal Large Language Models

?? 論文標題:Empowering Segmentation Ability to Multi-modal Large Language Models
?? 論文作者:Yuqi Yang, Peng-Tao Jiang, Jing Wang, Hao Zhang, Kai Zhao, Jinwei Chen, Bo Li
?? 研究機構: vivo Mobile Communication Co., Ltd.
?? 問題背景:多模態大型語言模型(MLLMs)能夠理解圖像-語言提示,并展現出令人印象深刻的推理能力。然而,現有的研究發現,當擴展MLLMs以具備分割能力時,模型的對話能力會顯著下降。這限制了MLLMs在實際應用中的多功能性。
?? 研究動機:為了克服這一挑戰,研究團隊提出了一種新的框架,旨在賦予MLLMs分割能力的同時,保持其原有的對話和推理能力。通過引入鏈式思維提示策略,研究團隊希望利用MLLMs的豐富知識,更精確地定位目標區域,從而提高分割模型的性能。
?? 方法簡介:研究團隊提出了LLaVASeg框架,該框架利用鏈式思維提示策略,指導MLLMs生成目標區域的抽象名稱和詳細的圖像特定視覺屬性。這些視覺屬性包括形狀、顏色和相對位置,用于提示下游分割模型。此外,研究團隊還提出了多尺度適配器,以融合提取的屬性與視覺特征。
?? 實驗設計:實驗在多個數據集上進行,包括語義分割數據集(如ADE20k、COCO-Stuff)、指代分割數據集(如RefCOCO、RefCOCO+、RefCOCOg)和推理分割數據集(如ReasonSeg)。實驗設計了不同的提示模板,以模擬鏈式思維提示的第一步。實驗結果表明,LLaVASeg在保持對話能力的同時,具備強大的分割能力。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/81011.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/81011.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/81011.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【深度學習與大模型基礎】第14章-分類任務與經典分類算法

Part 1:什么是分類任務? 1.1 分類就是“貼標簽” 想象你有一堆水果,有蘋果🍎、橘子🍊、香蕉🍌,你的任務是讓機器學會自動判斷一個新水果屬于哪一類——這就是分類(Classification&…

LeetCode 2906 統計最大元素出現至少K次的子數組(滑動窗口)

給出一個示例: 輸入:nums [1,3,2,3,3], k 2 輸出:6 解釋:包含元素 3 至少 2 次的子數組為:[1,3,2,3]、[1,3,2,3,3]、[3,2,3]、[3,2,3,3]、[2,3,3] 和 [3,3] 。該題也是一個比較簡單的滑動窗口的題目,但是…

使用 Spring Boot 進行開發

? 使用 Spring Boot 進行開發 ? 📌 本節將深入介紹如何高效使用 Spring Boot,涵蓋以下核心主題: 1?? 🔧 構建系統 深入了解 Spring Boot 的項目結構和依賴管理 2?? ?? 自動配置 探索 Spring Boot 的自動化配置機制和原…

Qt的WindowFlags窗口怎么選?

Qt.Dialog: 指示窗口是一個對話框,這通常會改變窗口的默認按鈕布局,并可能影響窗口框架的樣式。Qt.Popup: 指示窗口是一個彈出式窗口(例如菜單或提示),它通常是臨時的且沒有任務欄按鈕。Qt.Tool: 標識窗口作為一個工具…

Redis高可用架構全解析:主從復制、哨兵模式與集群實戰指南

Redis高可用架構全解析:主從復制、哨兵模式與集群實戰指南 引言 在分布式系統架構中,Redis作為高性能內存數據庫的標桿,其高可用與擴展性設計始終是開發者關注的焦點。本文將深入剖析Redis的三大核心機制——主從復制、哨兵模式與集群架構&…

音視頻之H.265/HEVC網絡適配層

H.265/HEVC系列文章: 1、音視頻之H.265/HEVC編碼框架及編碼視頻格式 2、音視頻之H.265碼流分析及解析 3、音視頻之H.265/HEVC預測編碼 4、音視頻之H.265/HEVC變換編碼 5、音視頻之H.265/HEVC量化 6、音視頻之H.265/HEVC環路后處理 7、音視頻之H.265/HEVC熵編…

element-plus(vue3)表單el-select下拉框的遠程分頁下拉觸底關鍵字搜索實現

一、基礎內核-自定義指令 1.背景 2.定義 3.使用 4.注意 當編輯時需要回顯,此時由于分頁導致可能匹配不到對應label文本顯示,此時可以這樣解決 二、升級使用-二次封裝組件 三、核心代碼 1.自定義指令 定義 ----------------selectLoadMoreDirective.…

大內存生產環境tomcat-jvm配置實踐

話不多講,奉上代碼,分享經驗,交流提高! 64G物理內存,8核CPU生產環境tomcat-jvm配置如下: JAVA_OPTS-server -XX:MaxMetaspaceSize4G -XX:ReservedCodeCacheSize2G -XX:UseG1GC -Xms48G -Xmx48G -XX:MaxGCPauseMilli…

C++函數模板基礎

1 函數模板 1.1 基礎介紹 函數模板是一種特殊的函數定義,它允許你創建通用的函數,這些函數可以處理多種不同的數據類型,而不需要為每種數據類型都編寫一個單獨的函數。 在 C++ 里,函數模板的格式包含模板聲明與函數定義兩部分,其基本格式如下: template <typename…

mangodb的數據庫與集合命令,文檔命令

MongoDB的下載安裝與啟動&#xff0c; 一、MongoDB下載安裝 1. 官網下載 打開官網&#xff1a;https://www.mongodb.com/try/download/community選擇&#xff1a; 版本&#xff08;Version&#xff09;&#xff1a;選最新版或者根據需要選舊版。平臺&#xff08;OS&#xff0…

flink端到端數據一致性

這里有一個注意點&#xff0c;就是flink端的精準一次 1.barrier對齊精準和一次非對齊精準一次 對比?? ??維度????Barrier 對齊的精準一次????Barrier 非對齊的精準一次????觸發條件??需等待所有輸入流的 Barrier 對齊后才能觸發檢查點 收到第一個 Barrier …

4月29號

級別越大,字體越小. CSS樣式控制: 例如把日期設為灰色字體

PHP代碼-服務器下載文件頁面編寫

內部環境的服務資源下載頁面有訪問需求&#xff0c;給開發和產品人員編寫一個簡潔的下載頁面提供資源下載。直接用nginxphp的形式去編寫了&#xff0c;這里提供展示index.php文件代碼如下&#xff1a; <?php // 配置常量 define(BASE_DIR, __DIR__); // 當前腳本所在目錄作…

MySQL基礎關鍵_001_認識

目 錄 一、概述 1.數據庫&#xff08;DB&#xff09;分類 &#xff08;1&#xff09;關系型數據庫 &#xff08;2&#xff09;非關系型數據庫 2.數據庫管理系統&#xff08;DBMS&#xff09; 3.SQL &#xff08;1&#xff09;說明 &#xff08;2&#xff09;分類 二、…

Shell、Bash 執行方式及./ 執行對比詳解

Shell、Bash 執行方式及./ 執行對比詳解 在 Linux 和 UNIX 系統的使用過程中&#xff0c;Shell 腳本是實現自動化任務、系統管理的重要工具。而在執行 Shell 腳本時&#xff0c;我們常常會用到bash命令以及./的執行方式&#xff0c;這兩種執行方式看似相似&#xff0c;實則存在…

P1494 [國家集訓隊] 小 Z 的襪子 Solution

Description 給定序列 a ( a 1 , a 2 , ? , a n ) a(a_1,a_2,\cdots,a_n) a(a1?,a2?,?,an?)&#xff0c;有 q q q 次查詢&#xff0c;每次查詢給定 ( l , r ) (l,r) (l,r). 你需要求出 2 ∑ i ≤ i < j ≤ r [ a i a j ] ( r ? l ) ( r ? l 1 ) \dfrac{2\sum…

解決vue3 路由query傳參刷新后數據丟失的問題

前言&#xff1a;在頁面刷新的時候&#xff0c;路由query數據會被清空&#xff0c;網上很多方法說query傳參可以實現&#xff0c;反正我是沒有實現 思路&#xff1a;將數據保存到本地&#xff0c;通過 “ &#xff1f;” 進行判斷是否有數據&#xff0c;頁面銷毀的時候刪除本地…

IIC小記

SCL 時鐘同步線&#xff0c;由主機發出。 當SCL為高電平&#xff08;邏輯1&#xff09;時是工作狀態&#xff0c;低電平&#xff08;邏輯0&#xff09;時是休息狀態。SCL可以控制通信的速度。 SDA 數據收發線 應答位&#xff1a;前八個工作區間是一個字節&#xff0c;在SCL…

Linux[開發工具]

vim(多模式編輯器) vim是一個多模式的編譯器!!命令模式是核心 vim 文件名 (數字)(進入編輯,光標處在第幾行) esc切換模式 shift; >:(:wq保存并退出) 命令模式: 鍵盤的輸入,默認被當做命令來看待 gg:光標快速定位到最開始 shiftgG:股那個表快速定位到最結尾 nshiftgG:光標…

hutools工具類中isNotEmpty與isNotBlank區分

基于以下兩種情況。在判斷的變量是String類型時&#xff0c; 判斷是否為空&#xff0c;推薦使用isNotBlank(). 1. isNotEmpty 不會驗證str中是否含有空字符串&#xff0c;而 isNotBlank方法會驗證 public static boolean isNotEmpty(CharSequence str) {return false isEmpty…