ALBEF/BLIP/BLIP2/Instruct BLIP/X Instruct BLIP

ALBEF

研究動機

ALBEF之前的一些方式, 視覺分支基本都是基于 dector的方式(檢出目標框),如下圖所示,由于大量的數據沒有標框,因此視覺預訓練的受限于dector的檢測方式。
在這里插入圖片描述

創新點

能不能不再采用dector的方式訓練視覺分支模型,ALBEF采用了一種新的方式,能夠在信息融合之前就對齊圖文的特征,即Align Before Fuse

網絡結構

  1. image encoder : ViT
  2. text encoder: BERT
  3. multimodal encoder : 通過 CrossAttention進行模態之間的融合
  4. Momentum Encoder : 輸出軟分布,有助于過濾圖文不太匹配的噪聲數據 .(不理解的可以看下何凱明的MoCo系列)
    在這里插入圖片描述

損失函數

通過設計ITC(Image-Text Contrastive) Loss,強制在融合之前對齊特征。 通過設計兩個下游任務,圖文匹配(Image Text Match,ITM)和 完形填空(Masked Language Modeling, MLM)進行多模態模型的融合。
關鍵設計??:在融合前加入??圖像-文本對比損失(ITC)??,強制單模態編碼器生成的表示在語義空間對齊(類似CLIP)

BLIP

研究動機

  1. 對于只有encoder結構的模型,無法做生成(因為沒有生成任務)
  2. 對于 encoder-decoder結構的模型,可以做生成但是不能做檢索這種理解式的任務。
  3. 網絡上的圖文對包含很多噪聲,可能并不是真正的匹配圖文對。

網絡結構

如圖所示,相對于 ALBEF結構,增加了一個decoder的模塊,并且把完形填空任務換成了句子生成的任務(Language Model,LM), 并且把Cross Attention換成了Causal Attention,即從Bert形式換成了GPT的形式, 這樣就可以進行生成了。 所以現在整個網絡結構既有理解又有生成任務,做到了理解和生成的架構統一。
在這里插入圖片描述

數據策略

在這里插入圖片描述

BLIP2

研究動機

當前的大模型都是基于 大量數據和大模型參數量下進行訓練的, 訓練的很慢,能不能改善一下提高訓練效率呢?
如果把 image encoder 和 text encoder都凍住不進行更新的話,這倆時間的gap可能會比較大,BLIP2在這兩者之間加了一個 小的transformer的結構,即Q-Former,達到了四兩撥千斤的效果。

網絡結構

如圖所示, 這兩個框分別表示理解任務和生成任務
在這里插入圖片描述
第一階段Representation Learning
扮演了理解任務,即表征學習階段, 通過一個 可學習Query和txt作為輸入,通過設計 ITC,ITM ,ITGT(基于圖像的文本生成)任務,把視覺特征和語言特征對齊,得到學習好的Query (學好后包含了對齊到語言空間的視覺信息)
在這里插入圖片描述
在這里插入圖片描述

第二階段Generation Learning
把學習好的Query輸入到 Decoder中,做生成任務。
在這里插入圖片描述

Instruct BLIP

參考鏈接:
https://www.bilibili.com/video/BV15vsueME7J?spm_id_from=333.788.videopod.sections&vd_source=a671b6c09bdc87f50b8d9fbbf85c6245

研究動機

核心問題?:傳統視覺-語言模型(如BLIP-2)在響應復雜指令時表現局限
(例如:“which picture shows the pizza inside the oven?” 需同時理解空間關系與對象狀態)
?關鍵痛點?:
視覺特征與語言指令語義割裂?:凍結的Image Encoder無法感知任務需求
靜態提示輸入:LLM接收的視覺特征與當前指令無關

網絡結構

在這里插入圖片描述
?視覺特征提取?
圖像輸入預訓練且凍結的ViT?(例如CLIP-ViT),輸出特征向量

?基于指令的Q-Former(創新核心)??
任務指令(如披薩定位問題)與視覺特征共同輸入Q-Former?
通過三層交互:
? ?Self-Attention?:融合指令語義(理解"inside"的空間關系)
? ?Cross-Attention?:篩選與指令相關的視覺特征(聚焦烤箱區域)
? ?Feed Forward?:強化任務適配特征表示

?LLM交互機制?
Q-Former輸出的32個動態Token?(即軟提示)經線性投影后
與指令文本拼接成完整輸入:
[任務指令] + [指令感知視覺特征] → LLM
?響應生成?
凍結的LLM(如FlanT5、Vicuna)基于融合輸入生成自然語言響應
(示例輸出:“left one” 指向左圖中的烤箱披薩)

架構圖實例解析?(圖中披薩定位示例)
當輸入指令:
“which picture shows the pizza inside the oven?”
?Q-Former的運作?流程:
解析指令關鍵詞 → inside(空間關系), oven(目標容器)
通過Cross-Attention聚焦圖像中的烤箱內部區域?
輸出對比特征:左圖(披薩在烤箱內) vs 右圖(披薩在臺面上)
LLM基于特征對比生成響應 → left one

對比BLIP2

# BLIP-2的靜態輸入:
visual_prompt = [固定向量]  # 與"oven inside"無關# InstructBLIP的動態生成:
if 指令 == "which shows pizza inside oven?":visual_prompt = focus(烤箱區域, 披薩位置)  # 輸出32個位置敏感Token

BLIP-2典型問題?(對比圖中披薩定位任務)
問題:“which picture shows the pizza inside the oven?”
可能響應:“left: pizza on counter, right: pizza in oven”(需用戶自行判斷位置)
?InstructBLIP優化響應?
指令感知處理: Q-Former過濾"inside oven"相關特征
動態Token突出左圖錯誤/右圖正確區域
LLM直接生成:??*"right one"??*

總結:InstructBLIP的核心突破?

?將指令語義深度融入視覺特征提取階段,通過動態軟提示實現: ??“讓模型學會根據問題主動尋找視覺證據”??
而BLIP-2僅是簡單拼接靜態圖像特征與問題文本。

指標對比
在這里插入圖片描述

X InstructBLIP

核心動機?

?解決多模態割裂問題?:傳統多模態模型需對不同模態數據聯合訓練(如CLIP),計算成本高且模態擴展性差。
?打破模態壁壘?:實現圖像、音頻、視頻、3D等異構模態的統一理解和推理,?僅通過單模態獨立訓練即可涌現跨模態能力?

網絡結構

在這里插入圖片描述

在這里插入圖片描述

五種網絡對比

在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述

參考

  1. https://www.bilibili.com/video/BV1uT411q7ef/?spm_id_from=333.337.search-card.all.click&vd_source=a671b6c09bdc87f50b8d9fbbf85c6245

  2. https://www.bilibili.com/video/BV15vsueME7J?spm_id_from=333.788.videopod.sections&vd_source=a671b6c09bdc87f50b8d9fbbf85c6245

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/919121.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/919121.shtml
英文地址,請注明出處:http://en.pswp.cn/news/919121.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

數據結構——排序算法(簡單篇:冒泡排序、選擇排序、插入排序)

1?? 冒泡排序(Bubble Sort) 基本思想 重復地比較相鄰的兩個元素,如果順序錯誤就交換它們。一趟冒泡結束后,最大(或最小)的元素會“浮”到末尾。下一趟時可以少比較一次,因為最后的元素已經排好…

配置 Docker 鏡像加速,解決 docker pull 拉取鏡像失敗、docker search 查詢鏡像失敗等問題

一、概述 記錄時間 [2025-08-16] 在 Docker 學習中,可能會遇到諸如 docker 遠程倉庫無法訪問、docker pull 拉取鏡像失敗、docker search 查詢鏡像失敗等問題。 這是由于國內網絡對 docker 遠程倉庫的訪問受到限制。 那么在國內如何獲取 docker 鏡像呢&#xff1f…

【Python】Python 面向對象編程詳解?

Python 面向對象編程詳解? 文章目錄Python 面向對象編程詳解?前言一、面向對象的基本概念?1.1 類(Class)?1.2 對象(Object)?1.3 屬性(Attribute)?1.4 方法(Method)?二、類的定…

Redis 緩存和 Redis 分布式鎖

目錄 Redis 緩存 (Caching) 目的 核心邏輯 存儲形式總結 典型場景 Redis 分布式鎖 (Distributed Lock) 目的 核心作用 核心邏輯 典型場景 核心區別總結 Redis 緩存 (Caching) 在Redis中,數據是以鍵值對的形式存儲的,其中鍵總是字符串類型&…

[ java 基礎 ] 了解編程語言的第一步

目錄 一. IDE (1). 使用IDE的原因: (2). 創建和使用: (3). 常用快捷方式與設置 (4). 注釋 (5). 關鍵字 (6). 標識符 (7). 變量 (8). 數據類型 1) 整數類型 2) 浮點類型 3) 布爾類型(boolean) 4) 字符類型(char) 5) 字符串 6) 基本數據類之間的轉換 (9). 運算符…

JavaScript 閉包與遞歸深度解析:從理論到實戰

本文將系統梳理 JavaScript 中閉包與遞歸的核心概念、實戰應用及面試要點,涵蓋課堂知識點、作業實現、面試題解析等內容,幫助你全面掌握這兩大重要概念。 一、閉包:函數與變量的綁定藝術 1.1 閉包的定義與核心特性 閉包是 JavaScript 中一種特殊的語言現象,其核心定義可…

牛 CDR3 單抗:抗病毒領域的 “納米級精準導彈”

一、病毒防御的天然克星病毒感染的核心難題在于其表面的 “糖衣炮彈”—— 以 HIV 為例,其 Env 蛋白表面密集的糖鏈形成物理屏障,傳統抗體難以穿透。而牛 CDR3 單抗的超長 CDR H3 結構(50-60 個氨基酸)如同 “納米探針”&#xff…

鴻蒙應用開發和Vue網頁開發中生命周期的區別

因為下節課就可以寫講解兩者生命周期代碼的實戰了,寫介紹一下理論方面的區別:鴻蒙應用開發(ArkUI范式)與Vue網頁開發在生命周期管理上的核心區別,這直接反映了原生OS應用與Web應用在架構哲學和運行環境上的根本差異??…

基于SpringBoot+Vue的輕手工創意分享平臺(WebSocket即時通訊、協同過濾算法、Echarts圖形化分析)

🎈系統亮點:WebSocket即時通訊、協同過濾算法、Echarts圖形化分析;一.系統開發工具與環境搭建1.系統設計開發工具后端使用Java編程語言的Spring boot框架 項目架構:B/S架構 運行環境:win10/win11、jdk17前端&#xff1…

Java應屆生求職八股(5)---并發編程篇

線程基礎線程與進程的區別進程是程序的一次執行過程。它資源分配的單位。線程是程序執行的單位。并行和并發的區別單核CPU下,線程串行。(并發:多線程輪流使用一個或多個CPU)多核CPU下,每個核都可調度線程。&#xff08…

WSL 配置文件 wsl.conf 設置

WSL .wslconfig 小技巧 要在 WSL(Windows Subsystem for Linux)中增加內存,你需要編輯 WSL 配置文件 wsl.conf 或者直接調整虛擬機的資源限制。 文章目錄WSL .wslconfig 小技巧以下是步驟: 找到或創建 .wslconfig 文件&#xff1…

9.從零開始寫LINUX內核——設置中斷描述符表

Linux 0.12 內核中斷描述符表(IDT)完整實現代碼以下是基于 setup 程序擴展的完整代碼,包含中斷描述符表(IDT)的定義、初始化及中斷處理程序,可直接用于實驗驗證:asm/* setup.s —— 4 扇區&…

手機實時提取SIM卡打電話的信令聲音-當前現狀與思考

手機實時提取SIM卡打電話的信令聲音-當前現狀與思考 --純手機-無外置配件的方案規劃 上一篇:手機實時提取SIM卡打電話的信令聲音-新的篇章(篇外小結與思考) 下一篇:手機實時提取SIM卡打電話的信令聲音-整體解決方案規劃 一、前言 我們在2024年09月的…

【車聯網kafka】常用參數及其命令總結(第八篇)

目錄 1、kafka參數 1.1 、消費者消息批次發送 1.2 、消息大小的配置(環環相扣的消息大小,調整時需要一起調整) 1.3 、消息重試發送冪等 1.4、消息提交 1.5、分區分配策略(自己看的設置) 1.6、文件存儲 2、kafka命令 2.1 常用命令一覽…

基于Spring Boot 4s店車輛管理系統 租車管理系統 停車位管理系統 智慧車輛管理系統

🔥作者:it畢設實戰小研🔥 💖簡介:java、微信小程序、安卓;定制開發,遠程調試 代碼講解,文檔指導,ppt制作💖 精彩專欄推薦訂閱:在下方專欄&#x1…

17.4 合并購物車

分析 用戶登錄后,將Cookie中的購物車商品合并到redis數據庫中。如果此時redis中已經有相同id的商品,則使用Cookie中的數據覆蓋redis中的數據。 合并功能需要在用戶登錄后實現,但登錄視圖中應避免過多與登錄邏輯無關的邏輯,所以考慮…

RK3588消費級8K VR一體機 是否有坑?

??芯片平臺????定位場景????核心優勢????消費級功能性短板??全志H8/RK3288入門級VR低成本、基礎性能穩定算力弱(4*A55)、無NPU、顯示分辨率僅1080P高通XR1中端VR/AR均衡性能(Adreno 615 GPU)僅WiFi5、續航≤4小時…

基于Spring Boot校園二手交易平臺系統設計與實現 二手交易系統 交易平臺小程序

🔥作者:it畢設實戰小研🔥 💖簡介:java、微信小程序、安卓;定制開發,遠程調試 代碼講解,文檔指導,ppt制作💖 精彩專欄推薦訂閱:在下方專欄&#x1…

Nginx 服務器常用操作

一. Nginx 常用配置 1. Nginx 總配置文件 nginx 安裝目錄下的 nginx.conf 文件: # 指定 Nginx worker 進程運行的系統用戶 user nginx; # 自動根據 CPU 核心數啟動相應數量的 worker 進程,充分利用多核。 worker_processes auto; # 自動將 worker 進程綁定到特定 …

PHP官方及第三方下載地址全指南(2025最新版)

PHP官方及第三方下載地址全指南(2025最新版) 本文整理了PHP官方及主流第三方下載渠道,包含PHP 5.5至8.4各版本的直接下載鏈接,助您快速獲取安全可靠的PHP環境。 一、PHP官方下載渠道 1.1 全球主站下載 網址:https://…