多模態大語言模型arxiv論文略讀(十九)

請添加圖片描述

MLLMs-Augmented Visual-Language Representation Learning

?? 論文標題:MLLMs-Augmented Visual-Language Representation Learning
?? 論文作者:Yanqing Liu, Kai Wang, Wenqi Shao, Ping Luo, Yu Qiao, Mike Zheng Shou, Kaipeng Zhang, Yang You
?? 研究機構: National University of Singapore、OpenGVLab (Shanghai AI Laboratory)、The University of Hong Kong
?? 問題背景:視覺-語言預訓練在圖像-文本檢索、圖像分類、視覺問答和圖像標題生成等多模態任務中取得了顯著成功,這主要歸功于大規模圖像-文本數據集的可用性。然而,這些數據集中存在大量噪聲和不匹配的圖像-文本對,嚴重影響了視覺-語言表示學習的效果。盡管有研究嘗試通過預訓練模型識別和移除不匹配的對,但這種方法會減少訓練對的數量,從而影響模型性能。
?? 研究動機:現有的方法在移除不匹配的圖像-文本對時,雖然減少了噪聲,但也減少了訓練數據量,導致性能下降。最近的研究表明,可以利用大型語言模型(LLMs)和多模態大型語言模型(MLLMs)來重寫和增強圖像標題,以提高數據質量,但這些方法引入了模型的固有偏差。因此,研究團隊提出了一種利用多個MLLMs生成多樣化標題的方法,旨在提高視覺-語言表示學習的性能,同時減少模型的固有偏差。
?? 方法簡介:研究團隊提出了一種利用多個MLLMs生成多樣化標題的方法,通過“文本剪切”技術來控制生成標題的長度,減少模型幻覺和單調語言風格的影響。具體來說,團隊首先使用多個MLLMs為每個圖像生成多個標題,然后通過“文本剪切”技術將生成的標題長度調整為與原始標題相同,最后將原始標題和生成的標題一起用于標準的視覺-語言預訓練。
?? 實驗設計:研究團隊在多個公開數據集上進行了實驗,包括CC3M、CC12M和YFCC15M。實驗評估了在零樣本和微調設置下,使用CLIP和BLIP模型進行圖像-文本檢索和圖像分類的性能。實驗結果表明,該方法在零樣本和微調設置下均顯著提高了模型的性能,特別是在圖像-文本檢索任務中,零樣本設置下的R@1指標提高了16.8%至46.1%。此外,該方法在圖像分類任務中也取得了顯著的性能提升,平均提高了13.4%。

CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation

?? 論文標題:CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation
?? 論文作者:Zineng Tang, Ziyi Yang, Mahmoud Khademi, Yang Liu, Chenguang Zhu, Mohit Bansal
?? 研究機構: UC Berkeley、Microsoft Azure AI、Zoom、UNC Chapel Hill
?? 問題背景:多模態生成領域近年來取得了顯著進展,如從用戶提供的提示生成高保真圖像、視頻、音頻和音樂樣本。然而,當前的多模態生成模型(MGM)在零樣本細粒度和復雜用戶控制、多輪指令跟隨以及多模態輸入理解方面仍面臨挑戰。這些問題限制了模型在特定任務上的表現,如通過“類比”設置復制或轉移編輯效果,以及主題驅動的生成。
?? 研究動機:為了克服上述挑戰,研究團隊提出了CoDi-2,一個能夠處理任意模態輸入并生成任意模態輸出的多模態大型語言模型(MLLM)。CoDi-2不僅能夠理解復雜的多模態交錯指令,還能在多輪對話中保持響應的一致性和忠實性,從而實現編輯、推理和組合任務等。
?? 方法簡介:CoDi-2通過將所有模態映射到語言空間,并通過編碼器和同步解碼器將這些模態連接到大型語言模型(LLM),從而處理多模態輸入。在生成過程中,MLLM自回歸地預測輸出模態的特征,這些特征隨后被輸入到(同步的)擴散模型中。這種端到端的任意模態生成框架使CoDi-2能夠進行復雜的推理,理解并生成多種模態,支持多樣化的任務,如模仿、編輯、組合創作等。
?? 實驗設計:研究團隊構建了一個大規模的生成數據集,涵蓋了文本、視覺和音頻的在上下文中的多模態指令。實驗設計了多種任務,包括音頻融合和編輯、圖像生成與復雜組合、使用上下文示例、復雜推理以及理解和生成視頻。這些任務在零樣本和少樣本提示設置下展示了強大的能力,證明了系統的適應性和在不同場景下的穩健性能。

Merlin:Empowering Multimodal LLMs with Foresight Minds

?? 論文標題:Merlin:Empowering Multimodal LLMs with Foresight Minds
?? 論文作者:En Yu, Liang Zhao, Yana Wei, Jinrong Yang, Dongming Wu, Lingyu Kong, Haoran Wei, Tiancai Wang, Zheng Ge, Xiangyu Zhang, Wenbing Tao
?? 研究機構: 華中科技大學、北京理工大學、中國科學院大學、上海科技大學、MEGVII Technology
?? 問題背景:現有的多模態大語言模型(Multimodal Large Language Models, MLLMs)在圖像理解和邏輯推理方面表現出顯著潛力,但它們在基于當前圖像觀察預測未來事件方面存在不足。即使提供了額外的觀察,如多幀序列,這些模型仍然難以充分分析和推斷特定目標的行為,如預測物體運動或交互。
?? 研究動機:為了彌補現有MLLMs在預測未來事件方面的不足,研究團隊提出了一種新的方法,通過建模未來來賦予MLLMs“預見能力”。該方法旨在通過軌跡建模,使模型能夠理解時空動態,并基于當前觀察進行復雜的未來推理。
?? 方法簡介:研究團隊提出了兩種訓練方法:1) Foresight Pre-Training (FPT),通過因果建模多幀圖像中的軌跡,使模型能夠從初始觀察預測整個軌跡;2) Foresight Instruction-Tuning (FIT),通過結合軌跡建模,使模型能夠基于預測的軌跡進行未來事件的推理。這兩種方法共同構建了一個統一的MLLM,稱為Merlin,能夠處理單張圖像或多幀視頻的輸入,并進行復雜的未來推理。
?? 實驗設計:研究團隊在多個公開數據集上進行了實驗,包括物體檢測、物體跟蹤、視覺關系理解等任務。實驗設計了多種任務,如多幀圖像的軌跡預測和未來事件的推理,以全面評估Merlin的性能。實驗結果表明,Merlin在未來的推理和視覺理解任務中表現出色,顯著超越了現有的基線模型。

RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback

?? 論文標題:RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback
?? 論文作者:Tianyu Yu, Yuan Yao, Haoye Zhang, Taiwen He, Yifeng Han, Ganqu Cui, Jinyi Hu, Zhiyuan Liu, Hai-Tao Zheng, Maosong Sun, Tat-Seng Chua
?? 研究機構: Tsinghua University、National University of Singapore
?? 問題背景:多模態大語言模型(MLLMs)在多模態理解、推理和交互方面展現了顯著的能力。然而,這些模型普遍存在嚴重的幻覺問題,即生成與關聯圖像事實不符的文本,這使得MLLMs在現實世界中(尤其是在高風險應用中)不可信賴。
?? 研究動機:研究團隊提出RLHF-V框架,通過從細粒度校正的人類反饋中對MLLMs的行為進行對齊,以增強模型的可信度。該框架旨在解決現有MLLMs行為與人類偏好不一致的問題,特別是減少模型生成的幻覺。
?? 方法簡介:RLHF-V框架包括兩個關鍵創新:(1)在數據層面,收集以細粒度段落級校正形式的人類反饋,直接糾正模型輸出中的幻覺部分,提供清晰、密集和細粒度的人類偏好,以及最優響應。(2)在方法層面,提出密集直接偏好優化(DDPO),這是一種新的DPO變體,通過監督學習方式直接優化策略模型,以減少幻覺。
?? 實驗設計:研究團隊在五個基準數據集上進行了實驗,評估了RLHF-V在減少幻覺和提高模型可信度方面的效果。實驗結果表明,使用1.4k偏好數據,RLHF-V顯著降低了基礎MLLM的物體幻覺率34.8%,優于使用10k偏好數據訓練的LLaVA-RLHF。此外,RLHF-V在防止由過度泛化引起的幻覺方面表現出比GPT-4V更好的魯棒性。

CLAMP: Contrastive LAnguage Model Prompt-tuning

?? 論文標題:CLAMP: Contrastive LAnguage Model Prompt-tuning
?? 論文作者:Piotr Teterwak, Ximeng Sun, Bryan A. Plummer, Kate Saenko, Ser-Nam Lim
?? 研究機構: Boston University、University of Central Florida
?? 問題背景:大型語言模型(LLMs)在多種機器學習任務中展現出強大的通用接口能力。最近的研究通過少量的指令調優數據,將LLMs適應于視覺任務,如圖像描述、視覺問答和視覺聊天。然而,這些多模態LLMs(mLLMs)在圖像分類任務中的表現卻遠不如專門的模型,如CLIP。盡管LLMs擁有豐富的世界知識,但在零樣本圖像分類任務中的表現卻令人失望。
?? 研究動機:研究團隊旨在探索現代LLMs是否可以通過適應來執行基本的視覺任務,如圖像分類。研究發現,生成式訓練目標(如生成式描述和指令調優)不足以支持有效的分類任務。因此,研究團隊提出了一種新的方法,通過對比學習目標對LLMs進行參數高效的微調,以增強其分類能力。
?? 方法簡介:研究團隊提出了Contrastive LAnguage Model Prompt-tuning (CLAMP)方法,通過使用對比學習目標對LLMs進行微調,以替代對比視覺-語言模型中的文本編碼器。CLAMP通過學習輸出注意力池化、只讀提示和低秩更新(LoRA)來對LLM進行微調,從而在保持生成能力的同時提高分類性能。
?? 實驗設計:研究團隊在24個零樣本圖像分類數據集上進行了實驗,包括細粒度數據集(如Stanford Cars和Aircraft)、自然但具有挑戰性的數據集(如EuroSAT和ImageNet)以及合成數據(如Kitti)。實驗結果表明,CLAMP在零樣本分類任務上顯著優于現有的mLLMs和對比視覺-語言模型(LiT),尤其是在概念覆蓋率較低的數據集上。此外,CLAMP還保留了LLMs的生成能力,展示了其作為通用模型的潛力。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/75823.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/75823.shtml
英文地址,請注明出處:http://en.pswp.cn/web/75823.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

[LeetCode 45] 跳躍游戲2 (Ⅱ)

題面: LeetCode 45 跳躍游戲2 數據范圍: 1 ≤ n u m s . l e n g t h ≤ 1 0 4 1 \le nums.length \le 10^4 1≤nums.length≤104 0 ≤ n u m s [ i ] ≤ 1000 0 \le nums[i] \le 1000 0≤nums[i]≤1000 題目保證可以到達 n u m s [ n ? 1 ] nums[…

前端面試寶典---閉包

閉包介紹 使用閉包: 在函數內聲明一個變量,避免外部訪問在該函數內再聲明一個函數訪問上述變量(閉包)返回函數內部的函數使用完畢建議閉包函數null;譯放內存 function createCounter() {let count 0;return function () {coun…

GPT4O畫圖玩法案例,不降智,非dalle

網址如下: 玩法1:吉卜力(最火爆) 提示詞:請將附件圖片轉化為「吉卜力」風格,尺寸不變 玩法2:真人繪制 提示詞:創作一張圖片,比例4:3,一個20歲的中國女孩…

4.12~4.14【Q】cv homework6

我正在寫GAMES101作業6,在這段代碼中,我十分想知道inline Intersection Triangle::getIntersection(Ray ray) 是由哪個函數,哪段代碼調用的?什么是Inline?詳細解釋,越細節越好 我正在寫GAMES101作業6&…

MATLAB雙目標定

前言: 現在有許多雙目攝像頭在出廠時以及標定好,用戶拿到手后可以直接使用,但也有些雙目攝像頭在出廠時并沒有標定。因而這個時候就需要自己進行標定。本文主要介紹基于matlab工具箱的自動標定方式來對雙目相機進行標定。 1、MATLAB工具箱標…

visual studio 常用的快捷鍵(已經熟悉的就不記錄了)

以下是 Visual Studio 中最常用的快捷鍵分類整理,涵蓋代碼編輯、調試、導航等核心場景: 一、生成與編譯 ?生成解決方案 Ctrl Shift B 一鍵編譯整個解決方案,檢查編譯錯誤(最核心的生成操作)?編譯當前文件 Ctrl F…

Sass @import rules are deprecated and will be removed in Dart Sass 3.0.0.

今天寫項目的時候碰到一個報錯,在網上查找到了解決方法,這里備份一下。防止下次再次遇到 原文章鏈接:Sass import rules are deprecated and will be removed in Dart Sass 3.0.0. 報錯內容如下: Deprecation Warning: Sass i…

【QT】QWidget 概述與核心屬性(API)

🌈 個人主頁:Zfox_ 🔥 系列專欄:Qt 目錄 一:🔥 控件概述 🦋 控件體系的發展階段 二:🔥 QWidget 核心屬性 🦋 核心屬性概覽🦋 用件可用&#xff08…

Redis 在處理并發請求時,如何保證高效性和數據一致性

1. 單線程模型(核心命令處理) 單線程優勢:Redis 的核心命令處理是單線程的(基于內存操作,避免多線程競爭),所有命令按順序執行,天然避免了多線程的鎖競爭和上下文切換開銷。非阻塞 …

flutter-Text等組件出現雙層黃色下劃線的問題

文章目錄 1. 現象2. 原因3. 解決方法 1. 現象 這天我正在寫Flutter項目的頁面功能,突然發現我的 Text 文字出現了奇怪的樣式,具體如下: 文字下面出現了雙層黃色下劃線文字的空格變得很大,文字的間距也變得很大 我百思不得其解&a…

cursor+高德MCP:制作一份旅游攻略

高德開放平臺 | 高德地圖API (amap.com) 1.注冊成為開發者 2.進入控制臺選擇應用管理----->我的應用 3.新建應用 4.點擊添加Key 5.在高德開發平臺找到MCP的文檔 6.按照快速接入的步驟,進行操作 一定要按照最新版的cursor, 如果之前已經安裝舊的版本卸載掉重新安…

使用 IP 代理改 IP 后注意事項如何防封號

在使用一鍵換IP軟件輔助網絡營銷賬號切換時,需注意以下關鍵事項以確保賬號安全并降低封號風險。 一、IP有效性及質量驗證 確保更換的IP地址有效且質量高,低質量或失效的IP可能導致賬號存活時間縮短。優先選擇動態住宅IP(如“兔子IP代理”提…

qt designer 創建窗體選擇哪種屏幕大小

1. 新建窗體時選擇QVGA還是VGA 下面這個圖展示了區別 這里我還是選擇默認,因為沒有特殊需求,只是在PC端使用

數據可視化 —— 折線圖應用(大全)

一、導入需要的庫 # Matplotlib 是 Python 最常用的繪圖庫,pyplot 提供了類似 MATLAB 的繪圖接口 import matplotlib.pyplot as plt import numpy as np import pandas as pd 二、常用的庫函數 plt.plot(x軸,y軸):plot()是畫折線圖的函數。 plt.xlabe…

ubuntu 20.04 安裝源碼編譯 ros humble過程

公司要兼容ros1還需要ros2 這個時候不得不使用ubuntu20.04 安裝 humble 但實際上在20.04上安裝humble是需要在源碼編譯的。 根據這個帖子 https://blog.csdn.net/m0_62353836/article/details/129730981 重寫一份,以應對無法下載的問題 系統配置 #檢查是否為UTF-8編碼,是則跳…

CVPR‘25 SOTA——GoalFlow論文精讀

1)第一遍___粗讀 Q: 這篇論文試圖解決什么問題? A: 這篇論文提出了一個名為 GoalFlow 的端到端自動駕駛方法,旨在解決自動駕駛場景中高質量多模態軌跡生成的問題。具體而言,它試圖解決以下問題: 軌跡選擇的復雜性&am…

關于 CSDN的C知道功能模塊 的詳細解析,包括 新增的AI搜索(可選深度思考) 和 智能體功能 的具體說明及對比分析

以下是關于 CSDN的C知道功能模塊 的詳細解析,包括 新增的AI搜索(可選深度思考) 和 智能體功能 的具體說明及對比分析: 一、C知道核心功能模塊詳解(基礎功能) (參考前文內容,此處略…

forms實現快讀閱讀器

forms實現快讀閱讀器 主要功能包括: ??1.文本自動分塊顯示??:按設定的速度逐詞顯示文本內容。 ??2.閱讀控制??:開始/停止按鈕以及回車鍵控制。 ??3.界面自定義??:包括字體、顏色(前景色和背景色&#xff…

PowerBI 條形圖顯示數值和百分比

數據表: 三個度量值 銷售額 VAR Sales SUM(銷量表[銷售量]) RETURNIF(ISBLANK(sales), 0, sales) //希望Y軸顯示所有產品(沒有記錄顯示0)就加這個代碼,不希望顯示就不加//注意, 因為Y軸顯示的產品,會被篩選,所以用ALLSELECTED來獲取當前篩…

python: audioFlux XXCC 提取梅爾頻率倒譜系數 MFCC

承上一篇:python:audioFlux 使用教程 XXCC: 倒譜系數,支持所有頻譜類型. 可以提取梅爾頻率倒譜系數(MFCC) Cepstrum coefficients, supports all spectrum types. 以下是使用 audioflux 庫中 XXCC 類計算倒譜系數…