Panther: Illuminate the Sight of Multimodal LLMs with Instruction-Guided Visual Prompts
?? 論文標題:Panther: Illuminate the Sight of Multimodal LLMs with Instruction-Guided Visual Prompts
?? 論文作者:Honglin Li, Yuting Gao, Chenglu Zhu, Jingdong Chen, Ming Yang, Lin Yang
?? 研究機構: Zhejiang University、Westlake University、Ant Group
?? 問題背景:多模態大語言模型(MLLMs)在視覺感知能力上迅速接近人類水平,但在處理細微圖像細節或精確定位小物體等任務上仍存在不足。現有方法主要通過部署多個視覺編碼器或處理高分辨率圖像來解決這些問題,但這些方法往往忽略了文本指令在改善視覺表示中的作用,導致在某些視覺中心任務中失去焦點,這種現象被研究者稱為“弱視”(Amblyopia)。
?? 研究動機:為了克服現有MLLMs中的“弱視”問題,研究團隊提出了一種新的框架——Panther,該框架通過將用戶指令轉化為視覺提示,指導視覺編碼器提取與指令相關的視覺特征,從而提高模型對用戶指令的響應能力和對目標對象的精確定位能力。
?? 方法簡介:Panther框架由三個核心模塊組成:Panther-VE(視覺編碼器)、Panther-Bridge(橋接模塊)和Panther-Decoder(解碼器)。Panther-VE通過輕量級文本編碼器將用戶指令轉化為文本嵌入,并通過多層感知器將其投影到視覺空間,生成指令感知的視覺提示。Panther-Bridge通過過濾冗余的視覺令牌,減少多輪對話中的計算成本。Panther-Decoder則通過交錯訓練模式,支持任何解碼器架構的LLMs。
?? 實驗設計:研究團隊在多個基準數據集上進行了實驗,包括視覺問答、指令跟隨和視覺中心任務。實驗結果驗證了Panther在視覺中心任務上的有效性,特別是在視覺問答和指令跟隨任務上表現突出。此外,通過與現有最先進的多模態模型進行比較,Panther在多個基準測試中表現出顯著的性能提升。
Separable Mixture of Low-Rank Adaptation for Continual Visual Instruction Tuning
?? 論文標題:Separable Mixture of Low-Rank Adaptation for Continual Visual Instruction Tuning
?? 論文作者:Ziqi Wang, Chang Che, Qi Wang, Yangyang Li, Zenglin Shi, Meng Wang
?? 研究機構: Hefei University of Technology, Tsinghua University, Academy of Cyber
?? 問題背景:視覺指令調優(Visual Instruction Tuning, VIT)使多模態大語言模型(Multimodal Large Language Models, MLLMs)能夠通過將任務框架為語言指令來有效處理各種視覺任務。在此基礎上,持續視覺指令調優(Continual Visual Instruction Tuning, CVIT)進一步擴展了MLLMs的能力,使其能夠增量學習新任務,適應不斷變化的功能需求。然而,現有的CVIT研究大多遵循傳統的持續學習范式,忽視了CVIT特有的挑戰,如視覺理解和指令跟隨能力的雙重災難性遺忘。
?? 研究動機:研究團隊發現,MLLMs在CVIT過程中不僅會忘記先前學習的視覺理解能力,還會隨著新任務的學習而逐漸喪失指令跟隨能力。為了解決這一問題,研究團隊提出了分離混合低秩適應(Separable Mixture of Low-Rank Adaptation, SMoLoRA)框架,通過分離路由策略,專門適應視覺理解和指令跟隨兩個領域,從而防止遺忘并提高性能。
?? 方法簡介:SMoLoRA框架通過兩個獨立的模塊——視覺理解模塊和指令跟隨模塊——實現分離路由。每個模塊根據輸入的視覺特征和指令信息動態選擇最合適的低秩適應(LoRA)塊,從而防止不同任務之間的干擾。此外,SMoLoRA還引入了自適應融合模塊,對分離路由后的結果進行加權融合,進一步提升模型的適應性和魯棒性。
?? 實驗設計:研究團隊構建了一個新的CVIT基準測試,不僅評估模型在標準任務上的準確性和遺忘情況,還評估了模型在未見過的任務上的泛化能力和處理多樣化指令的能力。實驗在多個公開數據集上進行,包括視覺問答(VQA)、圖像分類和圖像描述等任務。實驗結果表明,SMoLoRA在緩解雙重災難性遺忘、提高新任務的泛化能力和確保指令跟隨的魯棒性方面均優于現有方法。
Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models
?? 論文標題:Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models
?? 論文作者:Yuhao Dong, Zuyan Liu, Hai-Long Sun, Jingkang Yang, Winston Hu, Yongming Rao, Ziwei Liu
?? 研究機構: S-Lab (NTU), Tencent, Tsinghua University, Nanjing University
?? 問題背景:盡管大型語言模型(LLMs)和多模態大型語言模型(MLLMs)在多種任務中展現了強大的能力,但如何使這些模型具備人類級別的推理能力仍然是一個挑戰。特別是在視覺-語言任務中,缺乏高質量的長鏈推理數據和優化的訓練管道,限制了模型在復雜多模態任務中的推理能力。
?? 研究動機:現有的研究主要集中在通過長鏈推理增強LLMs的能力,但多模態LLMs在視覺推理方面的長鏈推理能力尚未得到充分探索。為了解決這一問題,研究團隊提出了Insight-V,旨在生成高質量的長鏈推理數據,并設計有效的訓練管道,以增強MLLMs的推理能力。
?? 方法簡介:研究團隊設計了一個兩步數據生成管道,包括逐步生成長鏈推理數據和多粒度評估系統,以確保數據質量。此外,還設計了一個多代理系統,將問題解決過程分解為推理和總結兩個階段,通過迭代DPO算法進一步優化推理質量。
?? 實驗設計:研究團隊在多個視覺-語言基準測試上評估了Insight-V的性能,包括視覺推理和一般圖像理解任務。實驗不僅驗證了Insight-V在視覺推理任務上的顯著性能提升,還展示了其在一般圖像理解任務中的穩定表現。通過與現有最先進的MLLMs進行比較,研究團隊證明了Insight-V的有效性和通用性。
LLaVA-MR: Large Language-and-Vision Assistant for Video Moment Retrieval
?? 論文標題:LLaVA-MR: Large Language-and-Vision Assistant for Video Moment Retrieval
?? 論文作者:Weiheng Lu, Jian Li, An Yu, Ming-Ching Chang, Shengpeng Ji, Min Xia
?? 研究機構: Peking University、Tencent Youtu、University at Albany、Zhejiang University
?? 問題背景:多模態大語言模型(MLLMs)在視覺感知、理解和推理任務中表現出色。然而,處理長視頻和精確時刻檢索仍然具有挑戰性,主要由于LLMs的上下文大小有限和粗略的幀提取方法。視頻時刻檢索(Video Moment Retrieval, MR)旨在根據自然語言查詢定位視頻中的特定時間片段,這要求模型能夠有效理解視頻內容并精確捕捉與查詢相關的瞬時細節。
?? 研究動機:現有的方法在處理長視頻時,由于依賴于幀級特征提取和預測頭的設計,導致理解能力有限和魯棒性不足。研究團隊提出了一種新的方法——大型語言和視覺助手用于時刻檢索(LLaVA-MR),旨在通過增強MLLMs的時間感知能力和捕捉長視頻中的關鍵瞬時信息,提高時刻檢索的精度。
?? 方法簡介:LLaVA-MR通過結合密集幀和時間編碼(DFTE)、信息幀選擇(IFS)和動態令牌壓縮(DTC)來優化MLLMs。DFTE用于提取細粒度的空間和時間特征,IFS用于捕捉短暫的視覺和運動模式,DTC用于減少序列長度同時保留關鍵信息。
?? 實驗設計:研究團隊在Charades-STA和QVHighlights兩個基準數據集上進行了實驗。實驗設計了不同的幀采樣數量、時間編碼方法、信息幀選擇策略和動態令牌壓縮方法,以全面評估模型在不同條件下的表現。實驗結果表明,LLaVA-MR在多個評估指標上均優于現有的11種最先進方法,特別是在QVHighlights數據集上,R1@0.5和mAP@0.5分別提高了1.82%和1.29%。
Evaluating and Advancing Multimodal Large Language Models in Ability Lens
?? 論文標題:Evaluating and Advancing Multimodal Large Language Models in Ability Lens
?? 論文作者:Feng Chen, Chenhui Gou, Jing Liu, Yang Yang, Zhaoyang Li, Jiyuan Zhang, Zhenbang Sun, Bohan Zhuang, Qi Wu
?? 研究機構: University of Adelaide、Monash University、The Australian National University、TikTok Australia、Zhejiang University
?? 問題背景:隨著多模態大語言模型(Multimodal Large Language Models, MLLMs)的快速發展,嚴格的評估變得至關重要,以提供進一步發展的指導。當前的感知基準測試(Perception Benchmarks)在問題類型、領域和評估指標上各有側重,導致評估結果存在顯著差異,難以全面評估模型的感知能力。此外,現有的基準測試主要關注模型的準確性,而忽視了模型在不同因素下的穩定性和一致性。
?? 研究動機:為了克服現有感知基準測試的局限性,研究團隊設計了一個統一的基準測試——AbilityLens,旨在全面評估MLLMs在六個關鍵感知能力上的表現,包括準確性與穩定性。通過AbilityLens,研究團隊能夠識別當前模型的優勢和劣勢,揭示開源與閉源模型之間的性能差距,并提出了一種簡單有效的模型合并方法,以緩解能力沖突導致的性能下降。
?? 方法簡介:研究團隊通過整合11個現有基準測試的數據,構建了包含12,000個測試樣本的AbilityLens。每個感知能力類型下都有超過1,000個測試樣本,確保了數據的多樣性和代表性。此外,研究團隊引入了基線校正,以消除不同問題類型對評估結果的影響,并通過加權和計算模型的總體準確性,以及通過計算子指標的標準差來評估模型的穩定性。
?? 實驗設計:研究團隊在14個最先進的MLLMs上進行了離線評估,包括不同模型大小和訓練數據的商業模型和開源模型。實驗結果不僅展示了模型在不同感知能力上的表現,還揭示了模型在訓練過程中的動態變化,特別是早期收斂和能力沖突現象。此外,研究團隊還提出了一種能力特定的模型合并方法(Ability-specific Model Merging, ASMM),通過線性插值合并不同訓練階段的模型,以增強特定能力,同時保持整體性能,顯著減少了計算成本。