【LLM多模態】綜述Visual Instruction Tuning towards General-Purpose Multimodal Model

note

文章目錄

  • note
  • 論文
  • 1. 論文試圖解決什么問題
  • 2. 這是否是一個新的問題
  • 3. 這篇文章要驗證一個什么科學假設
  • 4. 有哪些相關研究?如何歸類?誰是這一課題在領域內值得關注的研究員?
  • 5. 論文中提到的解決方案之關鍵是什么?
  • 6. 論文中的實驗是如何設計的?
  • 7. 用于定量評估的數據集是什么?代碼有沒有開源?
  • 8. 論文中的實驗及結果有沒有很好地支持需要驗證的科學假設?
  • 9. 這篇論文到底有什么貢獻?
  • 10. 下一步呢?有什么工作可以持續深入?
  • Reference

論文

在這里插入圖片描述
新加坡-南洋理工大學發的paper,2023年12月
我們還是從十大問題分析這篇論文,但由于是綜述,可能沒有實驗環節詳細的部分。

1. 論文試圖解決什么問題

  • 一篇關于Visual Instruction Tuning 視覺指令微調任務的綜述,Visual Instruction Tuning是為了讓多模態LLM擁有指令遵循能力
  • 文章介紹傳統CV局限性(需要針對不同任務訓練不同模型,缺乏交互能力),如下圖左側

在這里插入圖片描述

  • 文章從三方面介紹Visual Instruction Tuning的發展過程:單語言(英語)到多語言、圖片輸入從單一到多元(從圖片到視頻/3D圖像等)、任務復雜化(從基本的圖片分類到VQA視覺問答、圖像生成等難任務)

在這里插入圖片描述

2. 這是否是一個新的問題

去年年底到今年,類似的綜述還是不少的。

3. 這篇文章要驗證一個什么科學假設

4. 有哪些相關研究?如何歸類?誰是這一課題在領域內值得關注的研究員?

相關的視覺微調 公開數據集如下,大部分是GPT3.5或者GPT4構造的,而且多輪對話的visual SFT數據還不少:
在這里插入圖片描述

5. 論文中提到的解決方案之關鍵是什么?

在這里插入圖片描述
跟進一步,視覺微調的主流過程,基于預訓練的LLM,將視覺特征token化冰對齊到語言空間中,利用語言模型得到多模態LLM的輸出:
在這里插入圖片描述

6. 論文中的實驗是如何設計的?

是綜述,沒實驗。

7. 用于定量評估的數據集是什么?代碼有沒有開源?

用于多模態視覺微調的評估數據集:

  • VQAv2:Visual Question Answering(視覺問答)數據集,廣泛用于評估模型在理解圖像內容并回答問題方面的能力。
  • GQA:Graphic Question Answering數據集,包含復雜的視覺問答任務,測試模型的視覺推理能力。
  • OKVQA:Open-ended Knowledge Visual Question Answering數據集,需要外部知識來回答視覺問題,評估模型結合視覺和知識推理的能力。
  • OCR-VQA:Optical Character Recognition Visual Question Answering數據集,測試模型在圖像中識別和理解文本的能力。
  • A-OKVQA:Augmented OKVQA數據集,擴展了OKVQA,包含更多樣的問答對,測試模型在多種情境下的知識推理能力。
  • MSCOCO:Microsoft Common Objects in Context數據集,包含豐富的圖像標注信息,廣泛用于圖像識別和分割任務。
  • TextCaps:數據集專注于圖像字幕生成,測試模型在理解圖像內容并生成自然語言描述方面的能力。
  • RefCOCO、RefCOCO+、RefCOCOg:ReferIt Game數據集的變體,用于評估模型在圖像中定位指定對象的能力。
  • Visual Genome:包含圖像、區域標注和關系描述的數據集,廣泛用于視覺問答和圖像理解任務。
  • Flickr30K:包含豐富的圖像及其描述的數據集,用于評估圖像字幕生成和圖像理解。
  • VizWiz:數據集包含盲人用戶拍攝的圖像和相關問題,用于評估模型在處理實際場景和用戶生成內容方面的能力。
  • ScienceQA:針對科學領域的問答數據集,測試模型在結合視覺和科學知識回答問題方面的能力。

8. 論文中的實驗及結果有沒有很好地支持需要驗證的科學假設?

略,綜述沒實驗。

9. 這篇論文到底有什么貢獻?

這篇綜述對Visual Instruction Tuning進行了任務分類:

(1)Discriminative判別式任務:
在這里插入圖片描述

  • 圖像分類(Image Classification):利用可學習的[CLS]token表示全局圖像特征,計算[CLS] token和提示tokens之間的相似性,如下圖
    在這里插入圖片描述

  • 語義分割(Image Segmentation):常規的語義分割是像素級別的分類任務,LISA模型是根據復雜的query生成分割掩碼,理解query并在圖像中找到對應的區域(比如找到下面的維C最多的食物并標記),所以這里模型最終生成一張圖。
    在這里插入圖片描述

  • 目標檢測(Object Detection):下圖是visionLLM的做法,提出一個指令感知圖像分詞器(Instruction-Aware Image Tokenizer)有效理解和解析視覺輸入,總之是讓LLM最終回答出query指向目標的上下左右坐標。VisionLLM 在 COCO 數據集上的目標檢測任務中實現了超過 60% 的平均精度(mAP),這與特定于檢測的模型相當。

在這里插入圖片描述

  • 視覺定位(Visual Grounding)

(2)生成式任務:

  • 圖像生成
  • 圖像編輯

(3)復雜推理任務:

  • Image Captioning:圖像描述,可以用如MiniGPT-4、Clever Flamingo等模型
  • Visual Question Answering:即VQA視覺問答,可以用如MiniGPT-v2、instructBLIP等模型
  • Visual Assistant:視覺助手,可以用如LLaVA、Qwen-VL(多任務預訓練數據很好)等模型

在這里插入圖片描述

(4)視頻學習的微調:視頻理解、視頻生成、視頻字幕生成等
在這里插入圖片描述
如video-chatgpt模型(如下),視頻具有時序特性,Video-ChatGPT使用預訓練的視頻編碼器將視頻分割成多個幀,并提取每一幀的視覺特征。這些視覺特征再經過時序編碼,生成包含時序信息的特征向量。用戶可以對視頻進行提問:
在這里插入圖片描述

(5)文檔學習的視覺微調:
在這里插入圖片描述
如mPLUG-DocOwl模型:
在這里插入圖片描述

(6)3D Vision Learning的視覺微調:包括depth estimation, 3D reconstruction(3D重建), object recognition, and scene comprehension(場景理解)等具體任務。

10. 下一步呢?有什么工作可以持續深入?

  • 增強模型在視覺和語言之間的對齊能力
  • 動態場景理解:比如視頻、實時流媒體的多模態輸入
  • 用于幫助藝術家、設計師進行圖像、視頻編輯;用于教育領域等

Reference

[1] Visual Instruction Tuning towards General-Purpose Multimodal Model: A Survey

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/19656.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/19656.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/19656.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

隨想錄 Day45 1049. 最后一塊石頭的重量 II 494. 目標和 474.一和零

隨想錄 Day45 1049. 最后一塊石頭的重量 II 494. 目標和 474.一和零 1049. 最后一塊石頭的重量 II 題目鏈接 有一堆石頭,用整數數組 stones 表示。其中 stones[i] 表示第 i 塊石頭的重量。 每一回合,從中選出任意兩塊石頭,然后將它們一起…

帶你學習Mybatis之Mybatis全局配置文件

Mybatis全局配置文件 <?xml version"1.0" encoding"UTF-8"?><configuration> <!-- 配置 --> <properties/> <!-- 屬性 --> <settings/> <!-- 設置 --> <typeAliases/> <!-- 類型別名 -->…

車載以太網的未來:OPEN Alliance下17個技術委員會的最新進展與行業影響(下)

從上篇介紹來看&#xff0c;TC1-TC8大多數處于暫停或完成狀態。而TC9-TC17在2023年都有不同程度的進展&#xff0c;讓我們繼續探索藏在其中的車載以太網的發展和挑戰。 TC9 Automotive Ethernet Channel & Components&#xff08;in progress&#xff09; TC9的目標是為通…

[初始計算機]——計算機網絡的基本概念和發展史及OSI參考模型

&#x1f3e1;作者主頁&#xff1a;點擊&#xff01; &#x1f916;網絡通信基礎TCP/IP專欄&#xff1a;點擊&#xff01; ??創作時間&#xff1a;2024年5月30日11點59分 &#x1f004;?文章質量&#xff1a;96分 ? 目錄 &#x1f310;計算機網絡概述 &#x1f4af;…

opencv是什么?它有什么功能和特性?它值不值得我們去學習?我們該如何去學習呢?

1.opencv是什么&#xff1f; OpenCV&#xff08;Open Source Computer Vision Library&#xff09;是一個開源的計算機視覺庫&#xff0c;旨在提供一系列豐富的圖像處理和計算機視覺算法&#xff0c;以及用于構建實時圖像處理和機器視覺應用程序的開發工具。它最初由英特爾開發…

使用QT可視化操作信號與槽函數詳解

新書上架~&#x1f447;全國包郵奧~ python實用小工具開發教程http://pythontoolsteach.com/3 歡迎關注我&#x1f446;&#xff0c;收藏下次不迷路┗|&#xff40;O′|┛ 嗷~~ 目錄 一、引言 二、QT信號與槽機制概述 三、實際操作步驟 四、案例演示 五、總結 一、引言 在…

中國養生保健元宇宙-探索養生保健新領域

在全球化和科技迅速發展的今天&#xff0c;元宇宙作為一種全新的互聯網應用和社會形態&#xff0c;正逐步滲透到人們生活的各個方面。特別是在養生保健領域&#xff0c;中國的元宇宙概念正在引領一場革命&#xff0c;將古老的養生智慧與現代科技完美融合&#xff0c;為人們打造…

單片機建立自己的庫文件(1)

文章目錄 前言一、代碼模塊化是什么&#xff1f;二、使用步驟1.以LCD1602作為例子2.將LCD1602 相關的代碼抽取到另外一個文件中 三、調用LCD1602.h1.新建一個工程項目&#xff0c;將LCD1602.h添加到工程中2.在主函數上加入 #include <LCD1602.h> 總結 前言 提示&#xf…

進口鋁合金電動隔膜泵

進口鋁合金電動隔膜泵是一種高效、可靠的工業泵&#xff0c;其特點、性能與應用廣泛&#xff0c;以下是對其的詳細分析&#xff1a; 特點 材質與結構&#xff1a; 采用鋁合金材料制造&#xff0c;具有良好的耐腐蝕性和輕量化特點。鋁合金材質使得泵體結構緊湊、輕便&#xff…

svg實現一個圓形以及方形的環形進度條

1. svg實現圓形進度條 效果圖&#xff1a; 1. 寫個假接口&#xff1a; let res {curLegendList: [{ progress: "87", name: "進度1",color:"#00fe41" },{ progress: "66", name: "進度2" ,color:"orange"},{ p…

gitlab服務器遷移(親測有效)

描述&#xff1a;最近公司遷移gitlab&#xff0c;我沒有遷移過&#xff0c;經過網上查找資料最終完成遷移&#xff0c;途中也遇到挺多坑和兩個問題&#xff0c;希望能幫到你。 新服務器安裝gitlab 注意&#xff1a;新服務器gitlab版本也需要和舊版本一致。 首先查看原Gitlab…

基于Python實現地震數據可視化的設計與實現

基于Python實現地震數據可視化的設計與實現 “Design and Implementation of Earthquake Data Visualization using Python” 完整下載鏈接:基于Python實現地震數據可視化的設計與實現 文章目錄 基于Python實現地震數據可視化的設計與實現摘要第一章 引言1.1 研究背景1.2 研究…

RabbitMQ(三)SpringBoot整合,可靠性投遞,死信隊列,延遲隊列,消費端限流,消息超時

文章目錄 整合Springboot概述消費者生產者 消息可靠性投遞故障原因解決方案生產者端消息確認機制&#xff08;故障情況1&#xff09;故障情況2解決方案故障情況3解決方案 消費端限流概念 消息超時概念隊列層面&#xff1a;配置隊列過期消息本身&#xff1a;配置消息過期 死信隊…

C++中的虛函數和純虛函數

目錄 摘要 虛函數&#xff08;Virtual Functions&#xff09; 定義 用法 純虛函數&#xff08;Pure Virtual Functions&#xff09; 定義 用法 需要避開的坑 總結 摘要 在C中&#xff0c;我們經常會在開發中使用到虛函數&#xff08;Virtual Functions&#xff09;和…

如何有效屏蔽手機上的騷擾電話20240530

如何有效屏蔽手機上的騷擾電話 引言 最近&#xff0c;我的手機經常接到954開頭的7位數字座機電話&#xff0c;這些騷擾電話讓我非常困擾。由于我經常點外賣&#xff0c;無法屏蔽所有陌生號碼&#xff0c;因此需要一個既能屏蔽特定前綴的騷擾電話&#xff0c;又不影響日常生活…

英偉達(NVIDIA)H100性能及應用場景

英偉達H100是一款性能強大的GPU芯片&#xff0c;其關鍵性能參數和應用領域可以歸納如下&#xff1a; 一、性能參數 架構&#xff1a;H100采用了新一代的Hopper架構&#xff0c;擁有高達1.8萬億次/秒的張量處理能力和高達840 TFLOPS的FP8張量性能。CUDA核心數&#xff1a;H100…

STM32學習和實踐筆記(33):待機喚醒實驗

1.STM32待機模式介紹 很多單片機具有低功耗模式&#xff0c;比如MSP430、STM8L等&#xff0c;我們的STM32也不例外。默認情況下&#xff0c;系統復位或上電復位后&#xff0c;微控制器進入運行模式。在運行模式下&#xff0c;HCLK 為CPU提供時鐘&#xff0c;并執行程序代碼。這…

kafka學習筆記06

Kafka數據存儲流程和log日志講解 講解分布式應用核心CAP知識 Kafka數據可靠性保證原理之副本機制Replica介紹《上》 Kafka數據可靠性保證原理之副本機制Replica介紹《下》 Kafka數據可靠性保證原理之ISR機制講解 Kafka的HighWatermark的作用你知道多少

暑期來臨,AI智能視頻分析方案筑牢防溺水安全屏障

隨著夏季暑期的來臨&#xff0c;未成年人溺水事故頻發。傳統的防溺水方式往往依賴于人工巡邏和警示標識的設置&#xff0c;但這種方式存在人力不足、反應速度慢等局限性。近年來&#xff0c;隨著視頻監控智能分析技術的不斷發展&#xff0c;其在夏季防溺水中的應用也日益凸顯出…

ubuntu22 搭建nginx高可用集群(VIP(keepalived) + 負載均衡)

#在所有節點安裝nginx #ps: 如果要使用tcp流轉發&#xff1a;需用二進制包安裝 make編譯時加入stream流的參數。 推薦直接安裝openresty【默認支持stream等nginx模塊&#xff0c;還附帶了很多常用的lua庫】 apt install -y net-tools sudo apt install -y nginx vim /etc/…