多模態大語言模型arxiv論文略讀(123)

在這里插入圖片描述

Enhancing Advanced Visual Reasoning Ability of Large Language Models

?? 論文標題:Enhancing Advanced Visual Reasoning Ability of Large Language Models
?? 論文作者:Zhiyuan Li, Dongnan Liu, Chaoyi Zhang, Heng Wang, Tengfei Xue, Weidong Cai
?? 研究機構: The University of Sydney
?? 問題背景:當前的視覺-語言模型(Vision-Language Models, VLMs)在視覺感知任務中表現出色,但在復雜的視覺推理任務中存在局限性。相反,大型語言模型(Large Language Models, LLMs)在文本推理方面表現出色,但缺乏視覺感知能力。為了彌補這一差距,研究團隊提出了一種新的方法,即復雜視覺推理大型語言模型(Complex Visual Reasoning Large Language Models, CVR-LLM),旨在結合VLMs的視覺感知能力和LLMs的推理能力。
?? 研究動機:現有的VLMs在復雜視覺推理任務中表現不佳,而LLMs雖然在文本推理方面強大,但缺乏視覺理解能力。為了克服這些局限,研究團隊提出了一種新的框架CVR-LLM,通過將圖像轉換為詳細的上下文感知描述,并利用LLMs的文本知識進行準確預測,從而提高模型在復雜視覺推理任務中的表現。
?? 方法簡介:研究團隊提出了一種雙循環自優化方法,用于生成上下文感知的圖像描述(Context-Aware Image Descriptions, CaID),并通過多模態上下文學習(Complex Visual Reasoning In-Context Learning, CVR-ICL)策略增強LLMs的上下文理解和推理能力。此外,研究團隊還引入了鏈式比較(Chain-of-Comparison, CoC)技術,用于系統地分析和量化不同預測結果的各個方面,以進行全面評估。
?? 實驗設計:研究團隊在五個復雜視覺推理任務的數據集上進行了實驗,包括WinoGAViL、Winoground、Whoops、VCR和NYCCC。實驗設計了不同的任務場景,以評估CVR-LLM在不同任務中的表現。實驗結果表明,CVR-LLM在所有五個任務中均達到了最先進的性能。此外,消融研究和比較分析進一步驗證了每個模塊的有效性和整個方法的優越性。

Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding

?? 論文標題:Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding
?? 論文作者:Yan Shu, Zheng Liu, Peitian Zhang, Minghao Qin, Junjie Zhou, Zhengyang Liang, Tiejun Huang, Bo Zhao
?? 研究機構: Shanghai Jiaotong University、Beijing Academy of Artificial Intelligence、Renmin University of China、Chinese Academy of Sciences、Beijing University of Posts and Telecommunications、Peking University
?? 問題背景:長視頻理解對當前的多模態大語言模型(MLLMs)提出了重大挑戰,主要由于這些模型的上下文長度有限,處理長視頻時計算和內存成本高昂。盡管一些現有方法試圖通過減少視覺編碼器生成的令牌數量來解決這一問題,但這些方法往往導致視覺信息的嚴重損失,限制了模型對長視頻的細粒度感知能力。
?? 研究動機:為了克服現有方法的局限性,研究團隊提出了一種新的長視頻理解方法——Video-XL。該方法利用MLLMs的內在鍵值(KV)稀疏化能力,通過引入視覺摘要令牌(VST)來生成長視頻的緊湊表示,旨在提高模型處理長視頻的能力,同時減少計算和內存成本。
?? 方法簡介:Video-XL通過VST模塊將視頻的不同區間壓縮為緊湊的KV表示,這些KV表示在后續編碼中作為代理,而其他視覺令牌的KV則被卸載,從而顯著減少了處理整個視頻的成本。此外,研究團隊還提出了動態壓縮策略,根據視頻不同部分的信息密度自定義壓縮粒度,以最小化信息損失。VST模塊通過指令微調進行訓練,采用課程學習和復合數據策劃方法,以克服訓練數據稀缺的問題。
?? 實驗設計:研究團隊在多個流行的長視頻理解基準上評估了Video-XL的性能,包括MLVU、Video-MME、VNBench、LongVideoBench等。實驗設計了不同壓縮比(如2×、4×、8×、16×)的變化,以及不同類型的視頻任務(如檢索、排序、計數等),以全面評估模型的壓縮質量和成本效益。實驗結果表明,Video-XL在多個基準上均表現出色,不僅在長視頻理解能力上超越了現有方法,還在高壓縮比下保持了高性能,同時實現了卓越的成本效益。

Multi-Modal Generative AI: Multi-modal LLM, Diffusion and Beyond

?? 論文標題:Multi-Modal Generative AI: Multi-modal LLM, Diffusion and Beyond
?? 論文作者:Hong Chen, Xin Wang, Yuwei Zhou, Bin Huang, Yipeng Zhang, Wei Feng, Houlun Chen, Zeyang Zhang, Siao Tang, Wenwu Zhu
?? 研究機構: Tsinghua University
?? 問題背景:多模態生成AI(Multi-modal Generative AI)近年來在學術界和工業界受到了越來越多的關注。特別是,大型語言模型(LLMs)和擴散模型(Diffusion Models)的出現,如OpenAI的GPT-4V和Sora,對多模態理解和生成產生了重大影響。GPT-4V通過生成相關文本實現了對視覺輸入的理解,而Sora則通過文本輸入生成視覺信號。這引發了是否可以建立一個統一的多模態生成模型,同時實現理解和生成的問題。
?? 研究動機:當前的多模態生成AI主要分為兩大類:多模態大型語言模型(MLLMs)和擴散模型。MLLMs如GPT-4V在多模態理解方面表現出色,而擴散模型如Sora在視覺生成方面表現出色。研究團隊旨在探討是否可以建立一個統一的多模態生成模型,以及該模型應采用自回歸還是擴散概率建模,以及應使用密集架構還是專家混合(MoE)架構來更好地支持生成和理解兩個目標。
?? 方法簡介:研究團隊首先對現有的MLLMs和多模態擴散模型進行了詳細的綜述,包括它們的概率建模過程、多模態架構設計和高級應用。然后,基于這些討論,提出了對統一多模態生成AI框架的見解,該框架旨在同時實現理解和生成。此外,研究團隊還總結了現有的大規模多模態數據集,以支持未來模型的預訓練。
?? 實驗設計:研究團隊在多個公開數據集上進行了實驗,包括圖像/視頻-語言任務。實驗設計了不同的因素(如模態交互策略、模型架構等),以全面評估模型在不同條件下的表現。研究團隊還提出了未來的研究方向,包括概率建模的選擇、模型架構的設計以及多模態數據集的構建等。

Detect, Describe, Discriminate: Moving Beyond VQA for MLLM Evaluation

?? 論文標題:Detect, Describe, Discriminate: Moving Beyond VQA for MLLM Evaluation
?? 論文作者:Manu Gaur, Darshan Singh S, Makarand Tapaswi
?? 研究機構: CVIT, IIIT Hyderabad
?? 問題背景:當前的多模態大語言模型(MLLMs)在圖像理解、視覺問答和指令跟隨等多模態任務中表現出色。然而,現有的評估基準存在強烈的語言偏見,無法準確評估這些模型的視覺理解能力。這促使研究團隊探索更視覺中心的模型評估方法。
?? 研究動機:現有的評估方法,如視覺問答(VQA),雖然能夠可靠地檢查模型的特定視覺能力,但通常通過多項選擇題的形式進行,這使得模型更容易選擇答案而非生成答案。為了更全面地評估MLLMs的細粒度視覺理解能力,研究團隊提出了一種新的評估框架,即D3(Detect, Describe, Discriminate),要求模型獨立檢測并描述兩個極其相似的圖像之間的細微差異。
?? 方法簡介:研究團隊構建了D3基準,包含247對高度相似的圖像,每對圖像僅在某個特定的視覺概念上有所不同。對于每對圖像,模型需要:(1) 檢測視覺差異;(2) 描述目標圖像,使其能夠區分干擾圖像。通過自檢索(self-retrieval)方法,評估模型生成的描述是否能夠準確地檢索到目標圖像。
?? 實驗設計:研究團隊在D3基準上評估了多個開源和閉源的MLLMs。實驗設計了不同的視覺差異點(如狀態、位置、場景、方向、相機視角和雜亂程度),以全面評估模型在不同條件下的表現。實驗結果表明,當前的MLLMs在捕捉細粒度視覺差異方面存在顯著困難,尤其是開源模型的表現甚至不如隨機猜測。

Visual Prompting in Multimodal Large Language Models: A Survey

?? 論文標題:Visual Prompting in Multimodal Large Language Models: A Survey
?? 論文作者:Junda Wu, Zhehao Zhang, Yu Xia, Xintong Li, Zhaoyang Xia, Aaron Chang, Tong Yu, Sungchul Kim, Ryan A. Rossi, Ruiyi Zhang, Subrata Mitra, Dimitris N. Metaxas, Lina Yao, Jingbo Shang, Julian McAuley
?? 研究機構: UC San Diego、Dartmouth College、Rutgers University、UC Los Angeles、Adobe Research、The University of New South Wales、CSIRO’s Data61
?? 問題背景:多模態大語言模型(Multimodal Large Language Models, MLLMs)通過增強預訓練的大語言模型(LLMs)的視覺能力,實現了對復雜多模態任務的視覺理解和推理。然而,傳統的文本提示方法在描述和指定視覺元素時存在局限性,導致視覺幻覺和語言偏差等問題。近年來,視覺提示方法作為一種新的范式出現,補充了文本提示,實現了對多模態輸入的更細粒度和像素級別的指令。
?? 研究動機:盡管視覺提示方法在增強MLLMs的視覺能力方面取得了成功,但一些研究表明,MLLMs可能會與視覺提示不一致,這主要是由于預訓練階段缺乏多樣化的視覺提示數據。這種不一致可能導致模型忽視或誤解某些視覺提示,從而引發幻覺問題。因此,本文旨在總結現有的視覺提示方法,探討如何通過模型訓練和上下文學習方法來對齊視覺提示與MLLMs的感知和推理能力,以實現更可控的組合推理。
?? 方法簡介:本文首次全面綜述了MLLMs中的視覺提示方法,包括視覺提示的分類、提示生成、組合推理和提示學習。文章詳細介紹了各種視覺提示生成技術,以及這些生成的提示如何用于引導MLLMs的視覺感知和推理,從而實現更可控的組合推理,幫助防止幻覺和語言偏差問題。
?? 實驗設計:本文沒有具體描述實驗設計,而是通過文獻綜述的方式,總結了現有的視覺提示方法在模型訓練、微調、指令調優和上下文學習中的應用,旨在解決模型對視覺提示的誤解問題,并提出策略以實現更可控的組合推理。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/85109.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/85109.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/85109.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【linux】Linux vs Android

文章目錄 1、聯系2、區別3、核心差異4、應用場景對比5、未來發展趨勢6、參考附錄——GNU 都說Android就是個裝了UI的Linux,可到底和Linux有什么關系呢? 1、聯系 內核基礎 共享Linux內核:安卓基于Linux內核構建,繼承了Linux的進程…

臺積電(TSMC)工藝庫命名規則

以標準單元庫tcb_n12ffcll_bwp_6t_20_p96_cpd_lvt_tt0p8v25c_hm_lvf_p_ccs舉例說明臺積電工藝庫命名規則。 文件名分段解析 字段含義補充說明tcbTSMC標準單元庫(TCBN = TSMC Cell Library, Base Node)通常用于標識基礎標準單元庫,區別于IO庫(tciobn)或模擬庫(tcap)。n1…

飛算 JavaAI 模塊化生成:重構效率與體驗的雙重升級

在 Java 老項目重構場景中,代碼生成的顆粒度與可控性直接影響開發效率。飛算 JavaAI 創新推出的模塊化智能生成機制,支持按接口、按模塊粒度觸發源碼生成,通過任務拆解與漸進式交付模式,為開發者提供更靈活的重構節奏控制&#xf…

硬件-DAY02(按鍵、中斷、定時器、蜂鳴器)

補充:1.變量前加code,從RAM區變成ROM區 2.三極管的原理就是PN結 3.裸機程序是單線程的,display時不能delay 一、獨立按鍵 1.高電平沒按,低電平按了 按鍵原理:輪詢方式(poll)-->以消耗大量CP…

前端頁面html開發案例入門實踐、超鏈接標簽、圖片標簽、常用站點

前端頁面html開發案例入門實踐 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>html案例</title> </head> <body><h1>web前端開發</h1><h2>HTML</h2><…

策略模式和模板方法模式的區別【面試題】

策略模式和模板方法模式的區別【面試題】 摘要&#xff1a; 策略模式和模板方法模式均屬于行為設計模式&#xff0c;但核心差異顯著。策略模式通過組合實現&#xff0c;支持運行時動態切換完整算法&#xff08;如支付方式切換&#xff09;&#xff0c;變化維度大&#xff1b;模…

從零打造前沿Web聊天室:消息系統

消息存儲系統 聊天室設計&#xff0c;消息存儲系統非常關鍵&#xff0c;因為一開始設計時使用MongoDB&#xff0c;所以后續使用schemma方式存儲。 后端架構&#xff1a;express MongoDB 消息插入策略 在 MongoDB 中設計聊天消息存儲時&#xff0c;插入策略的選擇會影響性能…

[7-01-03].第03節:環境搭建 - 集群架構

RabbitMQ學習大綱 一、使用集群的原因 1.基于以下原因&#xff0c;需要搭建一個 RabbitMQ 集群來解決實際問題 單機版的&#xff0c;無法滿足目前真實應用的要求。如果 RabbitMQ 服務器遇到內存崩潰、機器掉電或者主板故障等情況&#xff0c;會導致rabbitMQ無法提供服務單臺 R…

【vivado】時序分析之Latch pins with no clock

問題&#xff1a; vivado打開時序報告&#xff0c;如下圖 表示存在鎖存器Latch 解決方法&#xff1a; 查看代碼中是否存在狀態機的狀態沒有寫全&#xff0c;或者default中直接寫了null。

如何將 MX Linux 的垂直任務欄面板移到底部

MX Linux 因其速度和較低的資源消耗&#xff0c;比同類其他 Linux 系統更快地獲得了人氣。它默認帶有 Xfce 桌面環境&#xff0c;但任務欄在左側且是垂直的&#xff0c;這對一部分人來說真的非常不舒服且令人煩惱。如果你也有同感&#xff0c;并且也想將 MX Linux 的任務欄自定…

python debug 監控雙下劃線的變量顯示沒有此變量

名稱改寫&#xff08;Name Mangling&#xff09; 在Python中&#xff0c;如果你在類中定義一個屬性或方法時以雙下劃線開頭&#xff08;例如__attribute&#xff09;&#xff0c;Python會自動對其進行名稱改寫。名稱改寫實際上是在屬性或方法名前加上類名&#xff0c;以避免子…

list使用及模擬

01. list介紹 list是支持常數時間內任意位置插入刪除的序列容器,具備雙向迭代能力。其底層為雙向鏈表結構,各元素存于獨立節點,通過指針指向前后元素。與forward_list的主要區別:后者是單鏈表,僅支持單向迭代,結構更簡單高效。相比array、vector、deque等序列容器,list在…

NLP基礎與詞嵌入:讓AI理解文字(superior哥深度學習系列第13期)

13_NLP基礎與詞嵌入&#xff1a;讓AI理解文字 superior哥深度學習系列第十三篇 從像素到文字&#xff0c;從視覺到語言——讓AI跨越認知的橋梁 &#x1f3af; 前言&#xff1a;當AI學會"讀懂"文字 各位小伙伴們&#xff0c;歡迎來到superior哥深度學習系列的第十三篇…

【時時三省】(C語言基礎)關于變量的聲明和定義

山不在高&#xff0c;有仙則名。水不在深&#xff0c;有龍則靈。 ----CSDN 時時三省 可能有些人弄不清楚定義與聲明有什么區別&#xff0c;它們是否是一回事。有人認為聲明就是定義&#xff0c;有人認為只有賦了值的才是定義。在C語言的學習中&#xff0c;關于定義與聲明這兩個…

Java 時間處理指南:從“踩坑”到“填坑”實戰

&#x1f525;「炎碼工坊」技術彈藥已裝填&#xff01; 點擊關注 → 解鎖工業級干貨【工具實測|項目避坑|源碼燃燒指南】 場景問題&#xff1a;訂單處理系統的時間計算 假設你正在開發一個電商訂單系統&#xff0c;需要解決以下問題&#xff1a; 用戶下單后&#xff0c;需在…

基于Java的Excel列數據提取工具實現

摘要&#xff1a;本文介紹了一個使用Java語言開發的Excel列數據提取工具&#xff0c;該工具借助Apache POI庫實現對Excel文件的讀取與特定列數據提取功能。通過用戶輸入文件路徑與列名&#xff0c;程序可從指定Excel文件中提取相應列的數據并展示&#xff0c;同時詳細闡述了關鍵…

關于人工智能未來的趨勢

學而不思則罔 翻譯&#xff1a;使用深度學習、強化學習卻不用專家系統&#xff0c;就會產生幻覺。 思而不學則殆 翻譯&#xff1a;只有專家系統邏輯推理&#xff0c;但是不用大模型更新知識&#xff0c;就無法發展下去了。 因此&#xff0c;未來智能的范式應該是&#xff1a; …

Java八股文——MySQL「性能調優篇」

MySQL的EXPLAIN有什么作用&#xff1f; 面試官您好&#xff0c;EXPLAIN命令是我在進行SQL性能優化時&#xff0c;使用最頻繁、也最重要的一個工具。 它的核心作用可以一句話概括&#xff1a;模擬MySQL的查詢優化器來執行一條SQL語句&#xff0c;并向我們展示出它最終決定采用…

win打印機共享處理

win打印機共享處理 軟件鏈接 無法啟動Print Spooler服務錯誤193:0xc1的解決方案主要涉及修復服務依賴關系、清理打印緩存及修復系統文件?。該錯誤通常由系統文件損壞、注冊表配置異常或依賴服務未啟動導致&#xff0c;可通過以下步驟系統化解決。?? 解決方法&#xff1a;替換…

C++ map代碼練習 1、2、priority_queue基礎概念、對象創建、數據插入、獲取堆頂、出隊操作、大小操作,自定義結構、代碼練習 1 2

map代碼練習1&#xff0c;對應力扣 兩個數據的交集&#xff0c;代碼見下 class Solution { public:vector<int> intersect(vector<int>& nums1, vector<int>& nums2) {map<int, int> cnt;vector<int> ans;for(int i0; i<nums1.size(…