MLLMs-Augmented Visual-Language Representation Learning
?? 論文標題:MLLMs-Augmented Visual-Language Representation Learning
?? 論文作者:Yanqing Liu, Kai Wang, Wenqi Shao, Ping Luo, Yu Qiao, Mike Zheng Shou, Kaipeng Zhang, Yang You
?? 研究機構: National University of Singapore、OpenGVLab (Shanghai AI Laboratory)、The University of Hong Kong
?? 問題背景:視覺-語言預訓練在圖像-文本檢索、圖像分類、視覺問答和圖像標題生成等多模態任務中取得了顯著成功,這主要歸功于大規模圖像-文本數據集的可用性。然而,這些數據集中存在大量噪聲和不匹配的圖像-文本對,嚴重影響了視覺-語言表示學習的效果。盡管有研究嘗試通過預訓練模型識別和移除不匹配的對,但這種方法會減少訓練對的數量,從而影響模型性能。
?? 研究動機:現有的方法在移除不匹配的圖像-文本對時,雖然減少了噪聲,但也減少了訓練數據量,導致性能下降。最近的研究表明,可以利用大型語言模型(LLMs)和多模態大型語言模型(MLLMs)來重寫和增強圖像標題,以提高數據質量,但這些方法引入了模型的固有偏差。因此,研究團隊提出了一種利用多個MLLMs生成多樣化標題的方法,旨在提高視覺-語言表示學習的性能,同時減少模型的固有偏差。
?? 方法簡介:研究團隊提出了一種利用多個MLLMs生成多樣化標題的方法,通過“文本剪切”技術來控制生成標題的長度,減少模型幻覺和單調語言風格的影響。具體來說,團隊首先使用多個MLLMs為每個圖像生成多個標題,然后通過“文本剪切”技術將生成的標題長度調整為與原始標題相同,最后將原始標題和生成的標題一起用于標準的視覺-語言預訓練。
?? 實驗設計:研究團隊在多個公開數據集上進行了實驗,包括CC3M、CC12M和YFCC15M。實驗評估了在零樣本和微調設置下,使用CLIP和BLIP模型進行圖像-文本檢索和圖像分類的性能。實驗結果表明,該方法在零樣本和微調設置下均顯著提高了模型的性能,特別是在圖像-文本檢索任務中,零樣本設置下的R@1指標提高了16.8%至46.1%。此外,該方法在圖像分類任務中也取得了顯著的性能提升,平均提高了13.4%。
CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation
?? 論文標題:CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation
?? 論文作者:Zineng Tang, Ziyi Yang, Mahmoud Khademi, Yang Liu, Chenguang Zhu, Mohit Bansal
?? 研究機構: UC Berkeley、Microsoft Azure AI、Zoom、UNC Chapel Hill
?? 問題背景:多模態生成領域近年來取得了顯著進展,如從用戶提供的提示生成高保真圖像、視頻、音頻和音樂樣本。然而,當前的多模態生成模型(MGM)在零樣本細粒度和復雜用戶控制、多輪指令跟隨以及多模態輸入理解方面仍面臨挑戰。這些問題限制了模型在特定任務上的表現,如通過“類比”設置復制或轉移編輯效果,以及主題驅動的生成。
?? 研究動機:為了克服上述挑戰,研究團隊提出了CoDi-2,一個能夠處理任意模態輸入并生成任意模態輸出的多模態大型語言模型(MLLM)。CoDi-2不僅能夠理解復雜的多模態交錯指令,還能在多輪對話中保持響應的一致性和忠實性,從而實現編輯、推理和組合任務等。
?? 方法簡介:CoDi-2通過將所有模態映射到語言空間,并通過編碼器和同步解碼器將這些模態連接到大型語言模型(LLM),從而處理多模態輸入。在生成過程中,MLLM自回歸地預測輸出模態的特征,這些特征隨后被輸入到(同步的)擴散模型中。這種端到端的任意模態生成框架使CoDi-2能夠進行復雜的推理,理解并生成多種模態,支持多樣化的任務,如模仿、編輯、組合創作等。
?? 實驗設計:研究團隊構建了一個大規模的生成數據集,涵蓋了文本、視覺和音頻的在上下文中的多模態指令。實驗設計了多種任務,包括音頻融合和編輯、圖像生成與復雜組合、使用上下文示例、復雜推理以及理解和生成視頻。這些任務在零樣本和少樣本提示設置下展示了強大的能力,證明了系統的適應性和在不同場景下的穩健性能。
Merlin:Empowering Multimodal LLMs with Foresight Minds
?? 論文標題:Merlin:Empowering Multimodal LLMs with Foresight Minds
?? 論文作者:En Yu, Liang Zhao, Yana Wei, Jinrong Yang, Dongming Wu, Lingyu Kong, Haoran Wei, Tiancai Wang, Zheng Ge, Xiangyu Zhang, Wenbing Tao
?? 研究機構: 華中科技大學、北京理工大學、中國科學院大學、上海科技大學、MEGVII Technology
?? 問題背景:現有的多模態大語言模型(Multimodal Large Language Models, MLLMs)在圖像理解和邏輯推理方面表現出顯著潛力,但它們在基于當前圖像觀察預測未來事件方面存在不足。即使提供了額外的觀察,如多幀序列,這些模型仍然難以充分分析和推斷特定目標的行為,如預測物體運動或交互。
?? 研究動機:為了彌補現有MLLMs在預測未來事件方面的不足,研究團隊提出了一種新的方法,通過建模未來來賦予MLLMs“預見能力”。該方法旨在通過軌跡建模,使模型能夠理解時空動態,并基于當前觀察進行復雜的未來推理。
?? 方法簡介:研究團隊提出了兩種訓練方法:1) Foresight Pre-Training (FPT),通過因果建模多幀圖像中的軌跡,使模型能夠從初始觀察預測整個軌跡;2) Foresight Instruction-Tuning (FIT),通過結合軌跡建模,使模型能夠基于預測的軌跡進行未來事件的推理。這兩種方法共同構建了一個統一的MLLM,稱為Merlin,能夠處理單張圖像或多幀視頻的輸入,并進行復雜的未來推理。
?? 實驗設計:研究團隊在多個公開數據集上進行了實驗,包括物體檢測、物體跟蹤、視覺關系理解等任務。實驗設計了多種任務,如多幀圖像的軌跡預測和未來事件的推理,以全面評估Merlin的性能。實驗結果表明,Merlin在未來的推理和視覺理解任務中表現出色,顯著超越了現有的基線模型。
RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback
?? 論文標題:RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback
?? 論文作者:Tianyu Yu, Yuan Yao, Haoye Zhang, Taiwen He, Yifeng Han, Ganqu Cui, Jinyi Hu, Zhiyuan Liu, Hai-Tao Zheng, Maosong Sun, Tat-Seng Chua
?? 研究機構: Tsinghua University、National University of Singapore
?? 問題背景:多模態大語言模型(MLLMs)在多模態理解、推理和交互方面展現了顯著的能力。然而,這些模型普遍存在嚴重的幻覺問題,即生成與關聯圖像事實不符的文本,這使得MLLMs在現實世界中(尤其是在高風險應用中)不可信賴。
?? 研究動機:研究團隊提出RLHF-V框架,通過從細粒度校正的人類反饋中對MLLMs的行為進行對齊,以增強模型的可信度。該框架旨在解決現有MLLMs行為與人類偏好不一致的問題,特別是減少模型生成的幻覺。
?? 方法簡介:RLHF-V框架包括兩個關鍵創新:(1)在數據層面,收集以細粒度段落級校正形式的人類反饋,直接糾正模型輸出中的幻覺部分,提供清晰、密集和細粒度的人類偏好,以及最優響應。(2)在方法層面,提出密集直接偏好優化(DDPO),這是一種新的DPO變體,通過監督學習方式直接優化策略模型,以減少幻覺。
?? 實驗設計:研究團隊在五個基準數據集上進行了實驗,評估了RLHF-V在減少幻覺和提高模型可信度方面的效果。實驗結果表明,使用1.4k偏好數據,RLHF-V顯著降低了基礎MLLM的物體幻覺率34.8%,優于使用10k偏好數據訓練的LLaVA-RLHF。此外,RLHF-V在防止由過度泛化引起的幻覺方面表現出比GPT-4V更好的魯棒性。
CLAMP: Contrastive LAnguage Model Prompt-tuning
?? 論文標題:CLAMP: Contrastive LAnguage Model Prompt-tuning
?? 論文作者:Piotr Teterwak, Ximeng Sun, Bryan A. Plummer, Kate Saenko, Ser-Nam Lim
?? 研究機構: Boston University、University of Central Florida
?? 問題背景:大型語言模型(LLMs)在多種機器學習任務中展現出強大的通用接口能力。最近的研究通過少量的指令調優數據,將LLMs適應于視覺任務,如圖像描述、視覺問答和視覺聊天。然而,這些多模態LLMs(mLLMs)在圖像分類任務中的表現卻遠不如專門的模型,如CLIP。盡管LLMs擁有豐富的世界知識,但在零樣本圖像分類任務中的表現卻令人失望。
?? 研究動機:研究團隊旨在探索現代LLMs是否可以通過適應來執行基本的視覺任務,如圖像分類。研究發現,生成式訓練目標(如生成式描述和指令調優)不足以支持有效的分類任務。因此,研究團隊提出了一種新的方法,通過對比學習目標對LLMs進行參數高效的微調,以增強其分類能力。
?? 方法簡介:研究團隊提出了Contrastive LAnguage Model Prompt-tuning (CLAMP)方法,通過使用對比學習目標對LLMs進行微調,以替代對比視覺-語言模型中的文本編碼器。CLAMP通過學習輸出注意力池化、只讀提示和低秩更新(LoRA)來對LLM進行微調,從而在保持生成能力的同時提高分類性能。
?? 實驗設計:研究團隊在24個零樣本圖像分類數據集上進行了實驗,包括細粒度數據集(如Stanford Cars和Aircraft)、自然但具有挑戰性的數據集(如EuroSAT和ImageNet)以及合成數據(如Kitti)。實驗結果表明,CLAMP在零樣本分類任務上顯著優于現有的mLLMs和對比視覺-語言模型(LiT),尤其是在概念覆蓋率較低的數據集上。此外,CLAMP還保留了LLMs的生成能力,展示了其作為通用模型的潛力。