When Do We Not Need Larger Vision Models?
?? 論文標題:When Do We Not Need Larger Vision Models?
?? 論文作者:Baifeng Shi, Ziyang Wu, Maolin Mao, Xin Wang, Trevor Darrell
?? 研究機構: UC Berkeley、Microsoft Research
?? 問題背景:近年來,通過增加模型規模來獲得更強大的視覺表示已成為視覺模型預訓練的默認策略。然而,這種趨勢導致了對數十億參數的巨型模型的追求。本文探討了在視覺理解中,是否總是需要更大的模型來獲得更好的性能。
?? 研究動機:研究團隊提出了一種替代方法,即通過在多個圖像尺度上運行預訓練的較小模型(稱為“Scaling on Scales, S2”),來替代傳統的增加模型規模的方法。研究旨在展示S2在多種視覺任務中的性能,并探討其相對于模型規模擴展的優勢。
?? 方法簡介:研究團隊引入了S2-Wrapper,這是一種無需額外參數即可將任何預訓練的視覺模型擴展到多個圖像尺度的機制。S2-Wrapper通過將不同尺度的圖像分割成與預訓練時相同大小的子圖像,然后分別處理這些子圖像并合并特征,從而生成多尺度特征表示。
?? 實驗設計:研究在三個公開數據集上進行了實驗,包括圖像分類、語義分割和深度估計任務。實驗設計了不同尺度的圖像(如1x、2x、3x)以及不同模型大小(如base、large、huge/giant)的組合,以全面評估S2和模型規模擴展的性能。此外,研究還探討了S2在多模態語言模型(MLLMs)和機器人操作任務中的應用。結果表明,S2在許多情況下可以超越或匹配更大模型的性能,尤其是在需要詳細理解的任務中。
HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models
?? 論文標題:HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models
?? 論文作者:Wenqiao Zhang, Tianwei Lin, Jiang Liu, Fangxun Shu, Haoyuan Li, Lei Zhang, He Wanggui, Hao Zhou, Zheqi Lv, Hao Jiang, Juncheng Li, Siliang Tang, Yueting Zhuang
?? 研究機構: 浙江大學、上海科技大學、重慶大學、阿里巴巴集團、哈爾濱工業大學
?? 問題背景:多模態大語言模型(MLLMs)在處理下游多模態任務時表現出色,但現有的MLLMs通常采用靜態調優策略,這可能限制了模型在不同任務中的表現。當前的MLLMs通過靜態視覺-語言映射器將視覺特征轉換為類似文本的標記,從而實現靜態大語言模型(LLMs)理解視覺信息的能力。然而,這種靜態調優策略可能在不同下游多模態任務中表現不佳。
?? 研究動機:為了克服靜態調優策略的局限性,研究團隊提出了HyperLLaVA,通過動態調優投影器和LLM參數,結合動態視覺專家和語言專家,以提高MLLMs在不同多模態任務中的靈活性和性能。研究旨在通過動態參數生成,增強MLLMs在處理多樣化多模態任務時的適應性和表現。
?? 方法簡介:HyperLLaVA框架包括兩個主要部分:視覺專家(Visual Expert)和語言專家(Language Expert)。視覺專家通過HyperNetworks生成動態參數,根據視覺輸入自適應地調整投影器的輸出,從而更靈活地將視覺特征轉換為視覺標記。語言專家則通過中間層輸出作為語言引導,動態生成適應特定指令的特征,增強模型對用戶請求的理解和響應能力。
?? 實驗設計:研究團隊在多個公開數據集上進行了實驗,包括VQA-v2、GQA、VizWiz、SQAI、VQAT等視覺問答數據集,以及POPE、MME、MMBench、SEED-Bench等基準工具包。實驗設計了不同的模型配置,如僅使用視覺專家、僅使用語言專家、同時使用視覺和語言專家等,以評估不同配置下的模型性能。實驗結果表明,HyperLLaVA在多個基準測試中顯著超越了現有的MLLMs,特別是在視覺問答和多模態理解任務中表現突出。
VL-Mamba: Exploring State Space Models for Multimodal Learning
?? 論文標題:VL-Mamba: Exploring State Space Models for Multimodal Learning
?? 論文作者:Yanyuan Qiao, Zheng Yu, Longteng Guo, Sihan Chen, Zijia Zhao, Mingzhen Sun, Qi Wu, Jing Liu
?? 研究機構: 澳大利亞機器學習研究所(The University of Adelaide)、中國科學院自動化研究所、中國科學院大學人工智能學院
?? 問題背景:多模態大型語言模型(Multimodal Large Language Models, MLLMs)近年來受到了廣泛的關注,它們繼承了大型語言模型(LLMs)強大的語言表達和邏輯推理能力,通過整合視覺和文本信息,不僅增強了對視覺內容的理解,還為語言理解和生成提供了更全面的上下文。然而,由于Transformer架構的自注意力機制固有的計算復雜度,導致了高昂的計算開銷,尤其是在處理長序列時。
?? 研究動機:為了解決長序列建模的瓶頸問題,研究團隊提出了VL-Mamba,這是首個利用狀態空間模型(State Space Models, SSMs)解決多模態學習任務的工作。研究旨在探索SSMs在多模態學習中的應用潛力,提供一種不同于基于Transformer架構的多模態大型語言模型的新框架選項。
?? 方法簡介:研究團隊首先用預訓練的Mamba語言模型替換了基于Transformer的骨干語言模型,如LLama或Vicuna。然后,研究團隊探索了如何有效地將2D視覺選擇性掃描機制應用于多模態學習,并引入了一種新的多模態連接器(MultiModal Connector, MMC)架構,包括視覺選擇性掃描(Vision Selective Scan, VSS)模塊和兩個線性層,以增強2D因果建模的視覺序列。VSS模塊探索了兩種不同的掃描機制:雙向掃描機制(Bidirectional-Scan Mechanism, BSM)和交叉掃描機制(Cross-Scan Mechanism, CSM)。
?? 實驗設計:研究團隊在8個不同的多模態學習基準上進行了廣泛的實驗,包括VQA-v2、GQA、ScienceQA-IMG、TextVQA、POPE、MME、MMBench和MM-Vet。實驗結果表明,VL-Mamba在多個基準上取得了與現有多模態大型語言模型相當甚至更優的性能,尤其是在SQAI、VQAT和MME等任務上。盡管VL-Mamba的參數較少且訓練數據有限,但其性能與一些參數更多的模型相當,展示了利用狀態空間模型在多模態學習任務中的潛力。
RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition
?? 論文標題:RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition
?? 論文作者:Ziyu Liu, Zeyi Sun, Yuhang Zang, Wei Li, Pan Zhang, Xiaoyi Dong, Yuanjun Xiong, Dahua Lin, Jiaqi Wang
?? 研究機構: Wuhan University、Shanghai Jiao Tong University、The Chinese University of Hong Kong、Shanghai AI Laboratory、MThreads, Inc.、Nanyang Technological University
?? 問題背景:當前的視覺-語言模型(Vision-Language Models, VLMs)如CLIP在廣泛的視覺-語言理解任務中表現出色,但其在處理大規模詞匯或細粒度類別數據集時存在局限性。另一方面,多模態大語言模型(Multimodal Large Language Models, MLLMs)在處理細粒度類別時表現出色,但在處理大規模詞匯時面臨挑戰。這些模型在處理大規模詞匯和細粒度類別時的局限性限制了它們在實際應用中的性能。
?? 研究動機:為了克服CLIP和MLLMs在處理大規模詞匯和細粒度類別時的局限性,研究團隊提出了一種新的方法——RAR(Retrieving And Ranking Augmented),旨在增強MLLMs在少樣本/零樣本識別任務中的性能。RAR通過構建多模態檢索器,將外部知識動態地融入到模型的處理和生成流程中,從而提高模型的識別精度。
?? 方法簡介:RAR方法首先構建一個多模態檢索器,該檢索器創建并存儲視覺圖像和文本描述的多模態嵌入。在推理階段,RAR從外部記憶中檢索與輸入圖像最相似的前k個類別名稱,然后使用MLLMs對這些檢索到的候選結果進行排序,最終輸出預測結果。為了進一步提高MLLMs的排序性能,研究團隊探索了使用排名格式數據進行微調或上下文學習的方法。
?? 實驗設計:研究團隊在三個領域進行了實驗,包括:1)細粒度視覺識別(5個基準數據集),2)少樣本圖像識別(11個數據集),3)零樣本對象識別(2個對象檢測數據集,如V3Det)。實驗結果表明,RAR方法在少樣本學習任務中顯著提高了平均6.2%的性能,在零樣本對象識別任務中分別提高了6.4%和1.5%的性能。
Empowering Segmentation Ability to Multi-modal Large Language Models
?? 論文標題:Empowering Segmentation Ability to Multi-modal Large Language Models
?? 論文作者:Yuqi Yang, Peng-Tao Jiang, Jing Wang, Hao Zhang, Kai Zhao, Jinwei Chen, Bo Li
?? 研究機構: vivo Mobile Communication Co., Ltd.
?? 問題背景:多模態大型語言模型(MLLMs)能夠理解圖像-語言提示,并展現出令人印象深刻的推理能力。然而,現有的研究發現,當擴展MLLMs以具備分割能力時,模型的對話能力會顯著下降。這限制了MLLMs在實際應用中的多功能性。
?? 研究動機:為了克服這一挑戰,研究團隊提出了一種新的框架,旨在賦予MLLMs分割能力的同時,保持其原有的對話和推理能力。通過引入鏈式思維提示策略,研究團隊希望利用MLLMs的豐富知識,更精確地定位目標區域,從而提高分割模型的性能。
?? 方法簡介:研究團隊提出了LLaVASeg框架,該框架利用鏈式思維提示策略,指導MLLMs生成目標區域的抽象名稱和詳細的圖像特定視覺屬性。這些視覺屬性包括形狀、顏色和相對位置,用于提示下游分割模型。此外,研究團隊還提出了多尺度適配器,以融合提取的屬性與視覺特征。
?? 實驗設計:實驗在多個數據集上進行,包括語義分割數據集(如ADE20k、COCO-Stuff)、指代分割數據集(如RefCOCO、RefCOCO+、RefCOCOg)和推理分割數據集(如ReasonSeg)。實驗設計了不同的提示模板,以模擬鏈式思維提示的第一步。實驗結果表明,LLaVASeg在保持對話能力的同時,具備強大的分割能力。