多模態大語言模型arxiv論文略讀(七十八)

在這里插入圖片描述

AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction

?? 論文標題:AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction
?? 論文作者:Zhen Xing, Qi Dai, Zejia Weng, Zuxuan Wu, Yu-Gang Jiang
?? 研究機構: Fudan University、Microsoft Research Asia
?? 問題背景:文本引導的視頻預測(TVP)任務涉及根據初始幀和指令預測未來的視頻幀,具有廣泛的應用,如虛擬現實、機器人技術和內容創作。然而,現有的TVP方法在幀一致性和時間穩定性方面存在挑戰,主要原因是視頻數據集的規模有限。研究團隊觀察到,預訓練的圖像到視頻擴散模型(Image2Video diffusion models)具有良好的視頻動態先驗,但缺乏文本控制。因此,將這些模型轉移到特定領域應用,并注入指令控制以生成可控視頻,是一個有意義且具有挑戰性的任務。
?? 研究動機:現有的TVP方法雖然在創意生成方面表現出色,但由于視頻數據集規模有限,導致生成的視頻在一致性和穩定性方面表現不佳。研究團隊旨在通過將預訓練的圖像到視頻擴散模型轉移到特定領域應用,并注入文本控制,來提高視頻生成的質量和可控性。
?? 方法簡介:研究團隊提出了一種多模態大語言模型(MLLM)來預測未來視頻的狀態,并設計了雙查詢變壓器(DQFormer)架構,將文本和視覺條件整合為多條件(MCondition),以指導視頻預測。此外,還開發了長期和短期時間適配器以及空間適配器,以快速將通用視頻擴散模型轉移到特定場景,同時保持較低的訓練成本。
?? 實驗設計:研究團隊在四個主流TVP數據集上進行了實驗,包括Something Something V2、Epic Kitchen-100、Bridge Data和UCF-101。實驗設計了不同的條件(如初始幀、文本指令)和適配器(如時間適配器、空間適配器),以評估模型在不同條件下的表現。實驗結果表明,該方法在多個數據集上的表現顯著優于現有技術,特別是在Fréchet Video Distance (FVD)指標上,相比之前的最先進方法提高了超過50%。

Eyeballing Combinatorial Problems: A Case Study of Using Multimodal Large Language Models to Solve Traveling Salesman Problems

?? 論文標題:Eyeballing Combinatorial Problems: A Case Study of Using Multimodal Large Language Models to Solve Traveling Salesman Problems
?? 論文作者:Mohammed Elhenawy, Ahmed Abdelhay, Taqwa I. Alhadidi, Huthaifa I Ashqar, Shadi Jaradat, Ahmed Jaber, Sebastien Glaser, Andry Rakotonirainy
?? 研究機構: Queensland University of Technology, Minia University, Al-Ahliyya Amman University, Arab American University, Columbia University, Budapest University of Technology and Economics
?? 問題背景:多模態大型語言模型(Multimodal Large Language Models, MLLMs)在處理多種模態數據(如文本、圖像和音頻)方面表現出色。這些模型利用了廣泛的知識,能夠在幾乎沒有特定訓練樣本的情況下解決復雜問題,這在少樣本和零樣本學習場景中得到了驗證。本文探討了MLLMs通過分析二維平面上點分布的圖像來“直觀”解決旅行商問題(TSP)的能力。
?? 研究動機:盡管大型語言模型(LLMs)在文本任務中表現出色,但在理解和處理其他類型的數據時往往遇到困難。MLLMs通過結合多種模態數據,克服了純文本模型的局限性,為處理多樣化數據類型提供了可能。本研究旨在探索MLLMs在解決組合優化問題,特別是TSP中的視覺推理能力,以及不同上下文學習技術對其性能的影響。
?? 方法簡介:研究團隊設計了一系列實驗,包括零樣本、少樣本、自集成和自精煉零樣本評估,以測試MLLMs在解決TSP時的表現。實驗中,模型被要求僅通過視覺分析來生成TSP的解決方案,并通過自集成和自精煉策略來提高解決方案的質量。
?? 實驗設計:實驗使用了包含不同數量點的旅程數據集,每個旅程由一系列獨特的二維點組成。實驗設計了不同規模的問題(5、10、15、20個點),并使用了零樣本、少樣本、自集成和自精煉方法來評估模型的性能。此外,研究還分析了模型在處理不同問題規模時的幻覺(如錯誤的節點ID和不完整的路線)情況,以及自集成和自精煉方法對減少這些幻覺的影響。

MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models

?? 論文標題:MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models
?? 論文作者:Yichi Zhang, Yao Huang, Yitong Sun, Chang Liu, Zhe Zhao, Zhengwei Fang, Yifan Wang, Huanran Chen, Xiao Yang, Xingxing Wei, Hang Su, Yinpeng Dong, Jun Zhu
?? 研究機構: 清華大學、北京航空航天大學、上海交通大學、RealAI、廣州黃埔區琶洲實驗室
?? 問題背景:盡管多模態大語言模型(MLLMs)在多種任務中表現出色,但它們在可信度方面仍面臨重大挑戰,包括事實性錯誤、有害輸出、隱私泄露等問題。當前對MLLMs可信度的評估研究有限,缺乏全面的評估框架,無法提供深入的見解以指導未來的改進。
?? 研究動機:為了促進基礎模型的可信度,開發全面和標準化的評估基準是必不可少的。雖然已有許多研究評估了大語言模型(LLMs)的可信度,但針對MLLMs的評估框架仍然缺乏。此外,多模態的特性引入了新的風險,如對對抗性圖像攻擊的敏感性、圖像中的有毒內容以及通過視覺上下文進行的越獄等。因此,研究團隊建立了MultiTrust,旨在全面評估MLLMs在五個主要方面的可信度:事實性、安全性、魯棒性、公平性和隱私性。
?? 方法簡介:研究團隊提出了一個更深入的評估策略,通過考慮多模態風險和視覺輸入對基礎LLMs性能的跨模態影響,來評估MLLMs的可信度。為此,他們設計了32個不同的任務,包括對現有多模態任務的改進、將文本任務擴展到多模態場景以及新的風險評估方法。研究團隊還構建了豐富的數據集,其中大部分數據集是基于現有數據集改進或通過數據合成(如Stable Diffusion、GPT-4V)和手動收集新提出的。
?? 實驗設計:研究團隊在21個現代MLLMs(4個專有模型和17個開源模型)上進行了大規模實驗,以確保模型的廣泛覆蓋和架構的多樣性。實驗設計涵蓋了多種任務類型,包括多模態任務、跨模態任務、判別任務和生成任務,旨在全面評估模型在不同場景下的基本性能和實際意義。實驗結果揭示了MLLMs在可信度方面的一些先前未被探索的問題和風險,強調了多模態特性帶來的復雜性,并指出了提高模型可靠性的必要性。

Needle In A Multimodal Haystack

?? 論文標題:Needle In A Multimodal Haystack
?? 論文作者:Weiyun Wang, Shuibo Zhang, Yiming Ren, Yuchen Duan, Tiantong Li, Shuo Liu, Mengkang Hu, Zhe Chen, Kaipeng Zhang, Lewei Lu, Xizhou Zhu, Ping Luo, Yu Qiao, Jifeng Dai, Wenqi Shao, Wenhai Wang
?? 研究機構: Fudan University, OpenGVLab, Shanghai AI Laboratory, Tsinghua University, The Chinese University of Hong Kong, Nanjing University, SenseTime Research, The University of Hong Kong
?? 問題背景:隨著多模態大語言模型(Multimodal Large Language Models, MLLMs)的快速發展,其評估方法也日益全面。然而,理解長多模態內容作為實際應用的基礎能力,仍然未得到充分探索。當前的多模態模型在處理長上下文多模態文檔時面臨挑戰,主要受限于上下文窗口大小的限制,以及缺乏適當的評估基準。
?? 研究動機:現有的多模態模型在處理長上下文多模態文檔時表現不佳,主要原因是上下文窗口大小的限制。此外,缺乏適當的評估基準也是限制多模態模型在長上下文理解方面發展的關鍵因素。為了填補這一空白,研究團隊構建了第一個專門用于評估多模態模型長文檔理解能力的基準——MM-NIAH(Needle In A Multimodal Haystack)。
?? 方法簡介:研究團隊通過將OBELICS中的交錯圖像-文本序列連接起來,構建了包含1k到72k圖像和文本標記的長上下文文檔,作為“多模態干草堆”。然后,研究團隊在這些文檔中插入了不同類型的關鍵信息(“針”),包括文本針和圖像針。MM-NIAH包含三種任務類型:檢索、計數和推理。每種任務都要求模型根據文檔中的關鍵信息回答問題。
?? 實驗設計:研究團隊在MM-NIAH基準上評估了9個先進的多模態大語言模型,包括開源和閉源模型。實驗設計了不同上下文長度和針深度的分布,以全面評估模型在不同條件下的表現。實驗結果表明,現有模型在處理圖像針時的表現顯著低于處理文本針時的表現,且大多數模型在處理長上下文多模態文檔時表現不佳。

Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions

?? 論文標題:Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions
?? 論文作者:Renjie Pi, Jianshu Zhang, Jipeng Zhang, Rui Pan, Zhekai Chen, Tong Zhang
?? 研究機構: The Hong Kong University of Science and Technology (HKUST)、Wuhan University、Zhejiang University、University of Illinois Urbana-Champaign
?? 問題背景:當前的圖像描述數據集主要來源于網絡抓取的圖像-文本對和人工標注的數據集。網絡抓取的數據集雖然規模龐大,但質量低下且噪聲多;而人工標注的數據集雖然質量較高,但缺乏細節且成本高昂。這些限制突顯了需要更高效和可擴展的方法來生成準確和詳細的圖像描述。
?? 研究動機:高質量的圖像描述對于提高多模態大語言模型(MLLMs)在圖像理解、文本到圖像生成和文本-圖像檢索等任務中的性能至關重要。然而,現有的圖像描述數據集往往缺乏細節且容易產生幻覺。因此,研究團隊提出了一種自動框架——圖像文本化(Image Textualization, IT),旨在利用現有的多模態大語言模型和多個視覺專家模型,以協作方式生成高質量的圖像描述。
?? 方法簡介:研究團隊提出的圖像文本化框架(IT)包括三個階段:1) 整體文本化(Holistic Textualization):利用MLLM生成參考描述,提供基本結構;2) 視覺細節文本化(Visual Detail Textualization):利用視覺專家模型提取細粒度的物體信息,并識別參考描述中的幻覺內容;3) 文本化重述(Textualized Recaptioning):利用大型語言模型(LLMs)的高級理解和推理能力,基于前兩個階段的文本化信息生成準確且詳細的描述。
?? 實驗設計:研究團隊構建了三個基準測試集(DID-Bench、D2I-Bench和LIN-Bench),從多個方面評估生成的圖像描述的質量。實驗驗證了IT框架生成的描述在多個基準測試集上的表現,并通過微調MLLMs驗證了生成數據對模型性能的提升。此外,研究團隊還進行了語言評估和數據集的統計分析。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/83664.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/83664.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/83664.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

優化 Spring Boot 應用啟動性能的實踐指南

1. 引言 Spring Boot 以其“開箱即用”的特性深受開發者喜愛,但隨著項目復雜度的增加,應用的啟動時間也可能會變得較長。對于云原生、Serverless 等場景而言,快速啟動是一個非常關鍵的指標。 2. 分析啟動過程 2.1 啟動階段概述 Spring Boot 的啟動流程主要包括以下幾個階…

Ubuntu下配置VScode出現#include錯誤請更新includePath的解決方法

首先Ubuntu新手小白一定要先安裝g,安裝方法是: 在桌面右鍵打開終端,輸入:sudo apt-get install g 安裝好g之后,在vscode終端輸入:g -v -E -x c - 輸出這些路徑,復制 如果還存在顯示cout不存在的…

【背包dp】小結

背包問題總結 一、什么是背包問題? 定義:給定一個容量為 W 的背包和 n 件物品,每件物品有一個重量 w[i] 和價值 v[i],要求選擇若干物品放入背包,在不超過容量的前提下,使總價值最大。 背包問題本質是&am…

濟南國網數字化培訓班學習筆記-第三組-1-電力通信傳輸網認知

電力通信傳輸網認知 電力通信基本情況 傳輸介質 傳輸介質類型(導引與非導引) 導引傳輸介質,如電纜、光纖; 非導引傳輸介質,如無線電波; 傳輸介質的選擇影響信號傳輸質量 信號傳輸模式(單工…

代碼隨想錄算法訓練營第六十四天| 圖論9—卡碼網47. 參加科學大會,94. 城市間貨物運輸 I

每日被新算法方式轟炸的一天,今天是dijkstra(堆優化版)以及Bellman_ford ,嘗試理解中,屬于是只能照著代碼大概說一下在干嘛。 47. 參加科學大會 https://kamacoder.com/problempage.php?pid1047 dijkstra&#xff08…

upload-labs通關筆記-第8關 文件上傳之點繞過

目錄 一、點繞過原理 二、deldot()函數 三、源碼分析 四、滲透實戰 1、構建腳本test8.php 2、打開靶場 3、bp開啟攔截 4、點擊上傳 5、bp攔截 6、后綴名增加點 7、發包并獲取腳本地址 8、訪問腳本 本文通過《upload-labs靶場通關筆記系列》來進行upload-labs靶場的滲…

Spring Web MVC————入門(3)

今天我們來一個大練習,我們要實現一個登錄界面,登錄進去了先獲取到登錄人信息,可以選擇計算器和留言板兩個功能,另外我們是學后端的,對于前端我們會些基礎的就行了,知道ajax怎么用,知道怎么關聯…

PhpStudy | PhpStudy 工具安裝 —— Windows 系統安裝 PhpStudy

🌟想了解這個工具的其它相關筆記?看看這個:[網安工具] 服務器環境配置工具 —— PhpStudy 使用手冊 筆者備注:Windows 中安裝 PhpStudy 屬于傻瓜式安裝,本文只是為了體系完善而發。 在前面的章節中,筆者簡…

K230 ISP:一種新的白平衡標定方法

第一次遇見需要利用光譜響應曲線進行白平衡標定的方法。很好奇是如何利用光譜響應曲線進行白平衡標定的。 參考資料參考:K230 ISP圖像調優指南 K230 介紹 嘉楠科技 Kendryte 系列 AIoT 芯片中的最新一代 AIoT SoC K230 芯片采用全新的多核異構單元加速計算架構&a…

通俗解釋Transformer在處理序列問題高效的原因(個人理解)

Transformer出現的背景 CNN 的全局關聯缺陷卷積神經網絡(CNN)通過多層堆疊擴大感受野,但在自然語言處理中存在本質局限: 局部操作的語義割裂:每個卷積核僅處理固定窗口(如 3-5 詞),…

Java 多線程基礎:Thread 類核心用法詳解

一、線程創建 1. 繼承 Thread 類(傳統寫法) class MyThread extends Thread { Override public void run() { System.out.println("線程執行"); } } // 使用示例 MyThread t new MyThread(); t.start(); 缺點:Java 單…

Django 中時區的理解

背景 設置時區為北京時間 TIME_ZONE ‘Asia/Shanghai’ # 啟用時區支持 USE_TZ True 這樣設置的作用 前端 (實際上前端el-date-picker 顯示的是當地時區的時間) Element組件轉換后,我們是東八區,前端傳給后端的時間為&…

C# 深入理解類(成員常量)

成員常量 成員常量類似前一章所述的局部常量,只是它們被聲明在類聲明中而不是方法內,如下面的 示例: 與局部常量類似,用于初始化成員肯量的值在編譯時必須是可計算的,而且通常是一個預定 義簡單類型或由它們組成的表達…

【深度學習】#12 計算機視覺

主要參考學習資料: 《動手學深度學習》阿斯頓張 等 著 【動手學深度學習 PyTorch版】嗶哩嗶哩跟李沐學AI 目錄 目標檢測錨框交并比(IoU)錨框標注真實邊界框分配偏移量計算損失函數 非極大值抑制預測 多尺度目標檢測單發多框檢測(S…

MCP實戰:在扣子空間用扣子工作流MCP,一句話生成兒童故事rap視頻

扣子最近迎來重要更新,支持將扣子工作流一鍵發布成MCP,在扣子空間里使用。 這個功能非常有用,因為我有很多業務工作流是在扣子平臺上做的,兩者打通之后,就可以在扣子空間里直接通過對話方式調用扣子工作流了&#xff0…

Redis學習打卡-Day3-分布式ID生成策略、分布式鎖

分布式 ID 當單機 MySQL 已經無法支撐系統的數據量時,就需要進行分庫分表(推薦 Sharding-JDBC)。在分庫之后, 數據遍布在不同服務器上的數據庫,數據庫的自增主鍵已經沒辦法滿足生成的主鍵全局唯一了。這個時候就需要生…

LabVIEW光譜信號仿真與數據處理

在光譜分析領域,LabVIEW 憑借其圖形化編程、豐富函數庫及強大數據處理能力,成為高效工具。本案例將介紹如何利用 LabVIEW 仿真光譜信號,并對實際采集的光譜數據進行處理,涵蓋信號生成、數據采集、濾波、分析及顯示等環節。 ? 一…

nginx相關面試題30道

一、基礎概念與核心特性 1. 什么是 Nginx?它的主要用途有哪些? 答案: Nginx 是一款高性能的開源 Web 服務器、反向代理服務器及負載均衡器,基于事件驅動的異步非阻塞架構,擅長處理高并發場景。 主要用途:…

數據庫實驗報告 數據定義操作 3

實驗報告(第3次) 實驗名稱 數據定義操作 實驗時間 10月12日1-2節 一、實驗內容 1、本次實驗是用sql語句創建庫和表,語句是固定的,要求熟記這些sql語句。 二、源程序及主…

霍夫圓變換全面解析(OpenCV)

文章目錄 一、霍夫圓變換基礎1.1 霍夫圓變換概述1.2 圓的數學表達與參數化 二、霍夫圓變換算法實現2.1 標準霍夫圓變換算法流程2.2 參數空間的表示與優化 三、關鍵參數解析3.1 OpenCV中的HoughCircles參數3.2 參數調優策略 四、Python與OpenCV實現參考4.1 基本實現代碼4.2 改進…