Enhancing Advanced Visual Reasoning Ability of Large Language Models
?? 論文標題:Enhancing Advanced Visual Reasoning Ability of Large Language Models
?? 論文作者:Zhiyuan Li, Dongnan Liu, Chaoyi Zhang, Heng Wang, Tengfei Xue, Weidong Cai
?? 研究機構: The University of Sydney
?? 問題背景:當前的視覺-語言模型(Vision-Language Models, VLMs)在視覺感知任務中表現出色,但在復雜的視覺推理任務中存在局限性。相反,大型語言模型(Large Language Models, LLMs)在文本推理方面表現出色,但缺乏視覺感知能力。為了彌補這一差距,研究團隊提出了一種新的方法,即復雜視覺推理大型語言模型(Complex Visual Reasoning Large Language Models, CVR-LLM),旨在結合VLMs的視覺感知能力和LLMs的推理能力。
?? 研究動機:現有的VLMs在復雜視覺推理任務中表現不佳,而LLMs雖然在文本推理方面強大,但缺乏視覺理解能力。為了克服這些局限,研究團隊提出了一種新的框架CVR-LLM,通過將圖像轉換為詳細的上下文感知描述,并利用LLMs的文本知識進行準確預測,從而提高模型在復雜視覺推理任務中的表現。
?? 方法簡介:研究團隊提出了一種雙循環自優化方法,用于生成上下文感知的圖像描述(Context-Aware Image Descriptions, CaID),并通過多模態上下文學習(Complex Visual Reasoning In-Context Learning, CVR-ICL)策略增強LLMs的上下文理解和推理能力。此外,研究團隊還引入了鏈式比較(Chain-of-Comparison, CoC)技術,用于系統地分析和量化不同預測結果的各個方面,以進行全面評估。
?? 實驗設計:研究團隊在五個復雜視覺推理任務的數據集上進行了實驗,包括WinoGAViL、Winoground、Whoops、VCR和NYCCC。實驗設計了不同的任務場景,以評估CVR-LLM在不同任務中的表現。實驗結果表明,CVR-LLM在所有五個任務中均達到了最先進的性能。此外,消融研究和比較分析進一步驗證了每個模塊的有效性和整個方法的優越性。
Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding
?? 論文標題:Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding
?? 論文作者:Yan Shu, Zheng Liu, Peitian Zhang, Minghao Qin, Junjie Zhou, Zhengyang Liang, Tiejun Huang, Bo Zhao
?? 研究機構: Shanghai Jiaotong University、Beijing Academy of Artificial Intelligence、Renmin University of China、Chinese Academy of Sciences、Beijing University of Posts and Telecommunications、Peking University
?? 問題背景:長視頻理解對當前的多模態大語言模型(MLLMs)提出了重大挑戰,主要由于這些模型的上下文長度有限,處理長視頻時計算和內存成本高昂。盡管一些現有方法試圖通過減少視覺編碼器生成的令牌數量來解決這一問題,但這些方法往往導致視覺信息的嚴重損失,限制了模型對長視頻的細粒度感知能力。
?? 研究動機:為了克服現有方法的局限性,研究團隊提出了一種新的長視頻理解方法——Video-XL。該方法利用MLLMs的內在鍵值(KV)稀疏化能力,通過引入視覺摘要令牌(VST)來生成長視頻的緊湊表示,旨在提高模型處理長視頻的能力,同時減少計算和內存成本。
?? 方法簡介:Video-XL通過VST模塊將視頻的不同區間壓縮為緊湊的KV表示,這些KV表示在后續編碼中作為代理,而其他視覺令牌的KV則被卸載,從而顯著減少了處理整個視頻的成本。此外,研究團隊還提出了動態壓縮策略,根據視頻不同部分的信息密度自定義壓縮粒度,以最小化信息損失。VST模塊通過指令微調進行訓練,采用課程學習和復合數據策劃方法,以克服訓練數據稀缺的問題。
?? 實驗設計:研究團隊在多個流行的長視頻理解基準上評估了Video-XL的性能,包括MLVU、Video-MME、VNBench、LongVideoBench等。實驗設計了不同壓縮比(如2×、4×、8×、16×)的變化,以及不同類型的視頻任務(如檢索、排序、計數等),以全面評估模型的壓縮質量和成本效益。實驗結果表明,Video-XL在多個基準上均表現出色,不僅在長視頻理解能力上超越了現有方法,還在高壓縮比下保持了高性能,同時實現了卓越的成本效益。
Multi-Modal Generative AI: Multi-modal LLM, Diffusion and Beyond
?? 論文標題:Multi-Modal Generative AI: Multi-modal LLM, Diffusion and Beyond
?? 論文作者:Hong Chen, Xin Wang, Yuwei Zhou, Bin Huang, Yipeng Zhang, Wei Feng, Houlun Chen, Zeyang Zhang, Siao Tang, Wenwu Zhu
?? 研究機構: Tsinghua University
?? 問題背景:多模態生成AI(Multi-modal Generative AI)近年來在學術界和工業界受到了越來越多的關注。特別是,大型語言模型(LLMs)和擴散模型(Diffusion Models)的出現,如OpenAI的GPT-4V和Sora,對多模態理解和生成產生了重大影響。GPT-4V通過生成相關文本實現了對視覺輸入的理解,而Sora則通過文本輸入生成視覺信號。這引發了是否可以建立一個統一的多模態生成模型,同時實現理解和生成的問題。
?? 研究動機:當前的多模態生成AI主要分為兩大類:多模態大型語言模型(MLLMs)和擴散模型。MLLMs如GPT-4V在多模態理解方面表現出色,而擴散模型如Sora在視覺生成方面表現出色。研究團隊旨在探討是否可以建立一個統一的多模態生成模型,以及該模型應采用自回歸還是擴散概率建模,以及應使用密集架構還是專家混合(MoE)架構來更好地支持生成和理解兩個目標。
?? 方法簡介:研究團隊首先對現有的MLLMs和多模態擴散模型進行了詳細的綜述,包括它們的概率建模過程、多模態架構設計和高級應用。然后,基于這些討論,提出了對統一多模態生成AI框架的見解,該框架旨在同時實現理解和生成。此外,研究團隊還總結了現有的大規模多模態數據集,以支持未來模型的預訓練。
?? 實驗設計:研究團隊在多個公開數據集上進行了實驗,包括圖像/視頻-語言任務。實驗設計了不同的因素(如模態交互策略、模型架構等),以全面評估模型在不同條件下的表現。研究團隊還提出了未來的研究方向,包括概率建模的選擇、模型架構的設計以及多模態數據集的構建等。
Detect, Describe, Discriminate: Moving Beyond VQA for MLLM Evaluation
?? 論文標題:Detect, Describe, Discriminate: Moving Beyond VQA for MLLM Evaluation
?? 論文作者:Manu Gaur, Darshan Singh S, Makarand Tapaswi
?? 研究機構: CVIT, IIIT Hyderabad
?? 問題背景:當前的多模態大語言模型(MLLMs)在圖像理解、視覺問答和指令跟隨等多模態任務中表現出色。然而,現有的評估基準存在強烈的語言偏見,無法準確評估這些模型的視覺理解能力。這促使研究團隊探索更視覺中心的模型評估方法。
?? 研究動機:現有的評估方法,如視覺問答(VQA),雖然能夠可靠地檢查模型的特定視覺能力,但通常通過多項選擇題的形式進行,這使得模型更容易選擇答案而非生成答案。為了更全面地評估MLLMs的細粒度視覺理解能力,研究團隊提出了一種新的評估框架,即D3(Detect, Describe, Discriminate),要求模型獨立檢測并描述兩個極其相似的圖像之間的細微差異。
?? 方法簡介:研究團隊構建了D3基準,包含247對高度相似的圖像,每對圖像僅在某個特定的視覺概念上有所不同。對于每對圖像,模型需要:(1) 檢測視覺差異;(2) 描述目標圖像,使其能夠區分干擾圖像。通過自檢索(self-retrieval)方法,評估模型生成的描述是否能夠準確地檢索到目標圖像。
?? 實驗設計:研究團隊在D3基準上評估了多個開源和閉源的MLLMs。實驗設計了不同的視覺差異點(如狀態、位置、場景、方向、相機視角和雜亂程度),以全面評估模型在不同條件下的表現。實驗結果表明,當前的MLLMs在捕捉細粒度視覺差異方面存在顯著困難,尤其是開源模型的表現甚至不如隨機猜測。
Visual Prompting in Multimodal Large Language Models: A Survey
?? 論文標題:Visual Prompting in Multimodal Large Language Models: A Survey
?? 論文作者:Junda Wu, Zhehao Zhang, Yu Xia, Xintong Li, Zhaoyang Xia, Aaron Chang, Tong Yu, Sungchul Kim, Ryan A. Rossi, Ruiyi Zhang, Subrata Mitra, Dimitris N. Metaxas, Lina Yao, Jingbo Shang, Julian McAuley
?? 研究機構: UC San Diego、Dartmouth College、Rutgers University、UC Los Angeles、Adobe Research、The University of New South Wales、CSIRO’s Data61
?? 問題背景:多模態大語言模型(Multimodal Large Language Models, MLLMs)通過增強預訓練的大語言模型(LLMs)的視覺能力,實現了對復雜多模態任務的視覺理解和推理。然而,傳統的文本提示方法在描述和指定視覺元素時存在局限性,導致視覺幻覺和語言偏差等問題。近年來,視覺提示方法作為一種新的范式出現,補充了文本提示,實現了對多模態輸入的更細粒度和像素級別的指令。
?? 研究動機:盡管視覺提示方法在增強MLLMs的視覺能力方面取得了成功,但一些研究表明,MLLMs可能會與視覺提示不一致,這主要是由于預訓練階段缺乏多樣化的視覺提示數據。這種不一致可能導致模型忽視或誤解某些視覺提示,從而引發幻覺問題。因此,本文旨在總結現有的視覺提示方法,探討如何通過模型訓練和上下文學習方法來對齊視覺提示與MLLMs的感知和推理能力,以實現更可控的組合推理。
?? 方法簡介:本文首次全面綜述了MLLMs中的視覺提示方法,包括視覺提示的分類、提示生成、組合推理和提示學習。文章詳細介紹了各種視覺提示生成技術,以及這些生成的提示如何用于引導MLLMs的視覺感知和推理,從而實現更可控的組合推理,幫助防止幻覺和語言偏差問題。
?? 實驗設計:本文沒有具體描述實驗設計,而是通過文獻綜述的方式,總結了現有的視覺提示方法在模型訓練、微調、指令調優和上下文學習中的應用,旨在解決模型對視覺提示的誤解問題,并提出策略以實現更可控的組合推理。