論文閱讀:Instruct BLIP (2023.5)

文章目錄

  • InstructBLIP:邁向通用視覺語言模型的指令微調研究總結
    • 一、研究背景與目標
    • 二、核心方法
      • 數據構建與劃分
      • 模型架構
      • 訓練策略
    • 三、實驗結果
      • 零樣本性能
      • 消融實驗
      • 下游任務微調
      • 定性分析
      • 可視化結果展示
    • 四、結論與貢獻

InstructBLIP:邁向通用視覺語言模型的指令微調研究總結

論文題目:InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

論文鏈接:https://arxiv.org/pdf/2305.06500

一、研究背景與目標

  • 挑戰
    視覺-語言任務因視覺輸入的多樣性和任務復雜性,難以通過單一模型實現通用化。現有方法中,多任務學習缺乏指令引導導致泛化能力弱,基于圖像描述數據訓練的視覺組件難以支撐復雜任務。

  • 目標
    提出 InstructBLIP 框架,通過視覺-語言指令微調,使模型能通過統一自然語言接口解決多種視覺-語言任務,實現零樣本泛化和下游任務微調的最優性能。

二、核心方法

數據構建與劃分

  • 收集 26 個公開數據集,轉化為指令微調格式,涵蓋 11 類任務(如圖像 captioning、視覺推理、視頻問答等)。
  • 劃分 13 個數據集為訓練集(held-in),13 個為零樣本評估集(held-out),并保留 4 類任務(如視頻 QA、視覺對話)用于任務級零樣本測試。

指令數據:
在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

模型架構

  • 基于 BLIP-2 的模塊化設計,包含凍結的圖像編碼器、LLM(如 FlanT5、Vicuna)和可微調的 Query Transformer(Q-Former)。
  • 創新點:引入指令感知的視覺特征提取,將文本指令輸入 Q-Former,使其提取與指令相關的視覺特征,增強任務適配性。
    在這里插入圖片描述

訓練策略

  • 平衡采樣:按數據集大小的平方根比例采樣,避免小數據集過擬合、大數據集欠擬合,并手動調整特定數據集權重(如降低 A-OKVQA、提高 OKVQA 權重)。
    pd=Sd∑i=1DSip_d = \frac{\sqrt{S_d}}{\sum_{i=1}^{D} \sqrt{S_i}} pd?=i=1D?Si??Sd???
  • 微調僅更新 Q-Former,凍結圖像編碼器和 LLM,減少訓練參數,提升效率。

三、實驗結果

零樣本性能

  • 在 13 個 held-out 數據集上全面超越 BLIP-2 和 Flamingo,例如 InstructBLIP FlanT5 XL 相對 BLIP-2 平均提升 15.0%,4B 參數模型性能超過 80B 參數的 Flamingo,平均提升 24.8%。
  • 在未訓練過的任務(如視頻 QA)上表現優異,MSRVTT-QA 相對最優結果提升 47.1%。

消融實驗

  • 移除指令感知特征提取后,空間 / 時間推理任務(如 ScienceQA、iVQA)性能顯著下降(最多降低 7.6%)。
  • 移除平衡采樣導致訓練不穩定,整體性能下降。
    在這里插入圖片描述

下游任務微調

  • 作為初始化模型,在 ScienceQA(圖像上下文)、OCR-VQA 等任務上刷新 SOTA,例如 ScienceQA 準確率達 90.7%。
  • 凍結視覺編碼器,訓練參數從 1.2B 減至 188M,大幅提升微調效率。

定性分析

  • 展現復雜視覺推理(如從場景推斷災害類型)、知識關聯(如識別名畫并介紹)、多輪對話等能力,響應更貼合指令意圖,細節更準確。

可視化結果展示

在這里插入圖片描述

四、結論與貢獻

  • 核心貢獻

    • 系統研究視覺-語言指令微調,驗證其對零樣本泛化的有效性。
    • 提出指令感知特征提取和平衡采樣策略,提升模型適應性和訓練穩定性。
    • 開源基于 FlanT5 和 Vicuna 的 InstructBLIP 模型,為通用多模態 AI 研究提供基礎。
  • 優勢:兼顧零樣本泛化能力和下游任務微調效率,在多樣化視覺-語言任務中表現出通用性和優越性。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/89785.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/89785.shtml
英文地址,請注明出處:http://en.pswp.cn/web/89785.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Elasticsearch+Logstash+Filebeat+Kibana部署【7.1.1版本】

目錄 一、準備階段 二、實驗階段 1.配置kibana主機 2.配置elasticsearch主機 3.配置logstash主機 4.配置/etc/filebeat/filebeat.yml 三、驗證 1.開啟Filebeat 2.在logstash查看 3.瀏覽器訪問kibana 一、準備階段 1.準備四臺主機kibana、es、logstash、filebeat 2.在…

Vue開發前端報錯:‘vue-cli-service‘ 不是內部或外部命令解決方案

1.Bug: 最近調試一個現有的Vue前端代碼,發現如下錯誤: vue-cli-service’ 不是內部或外部命令,也不是可運行的程序 或批處理文件。 2.Bug原因: 導入的工程缺少依賴包:即缺少node_modules文件夾 3.解決方案&#xff1…

AI生態,釘釘再「出招」

如果說之前釘釘的AI生態加持更多的圍繞資源和商業的底層助力,那么如今這種加持則是向更深層次進化,即真正的AI模型訓練能力加持,為垂類大模型創業者提供全方位的助力,提高創業成功率和模型產品商業化確定性。作者|皮爺出品|產業家…

XSS GAME靶場

要求用戶不參與&#xff0c;觸發alert(1337) 目錄 Ma Spaghet! Jefff Ugandan Knuckles Ricardo Milos Ah Thats Hawt Ligma Mafia Ok, Boomer Exmaple 1 - Create Example 2 - Overwrite Example 3 - Overwrite2 toString Ma Spaghet! <h2 id"spaghet&qu…

Unity學習筆記(五)——3DRPG游戲(2)

添加更多的敵人 編輯EnemyController&#xff0c;解決報錯導致敵人無法注冊觀察者模式&#xff0c;從而無法執行敵人慶祝動畫 using System.Collections; using System.Collections.Generic; using UnityEngine; using UnityEngine.AI; public enum EnemyStatus { GUARD,PATROL…

2025測繪程序設計國賽實戰:一輪終章 | 單向后方交會C#實現

前言本文是小編對六道國賽試題中的最后一個試題&#xff0c;單向后方交會的一篇學習日志。本文的整體架構&#xff0c;依舊首先拿訓練數據跟大家介紹本題涉及到的數據的屬性含義&#xff0c;涉及到算法的原理、執行流程和終極目的。然后附上小編用C#來實現的程序&#xff0c;從…

基于Echarts的氣象數據可視化網站系統的設計與實現(Python版)

本系統旨在構建一個基于Echarts的氣象數據可視化系統&#xff0c;本系統能夠從中國天氣網爬取實時天氣數據&#xff0c;并進行存儲、分析和可視化展示。用戶可以通過網頁界面查看不同地區的天氣情況&#xff0c;以及歷史天氣數據的變化趨勢。 技術棧&#xff1a;Python語言、My…

HarmonyOS 啟動提速秘籍:懶加載全鏈路實戰解析

摘要 隨著移動應用功能越來越復雜、界面越來越豐富&#xff0c;應用啟動慢、內存占用高等問題也越來越普遍。特別是在 HarmonyOS NEXT 應用開發中&#xff0c;如果不加優化&#xff0c;用戶打開頁面時可能要等好幾秒&#xff0c;體驗就很差了。 懶加載&#xff08;Lazy Loading…

全新安裝Proxmox VE啟動時卡在Loading initial ramdisk

原因&#xff1a; 使用了Ventoy啟動盤裝載 Proxmox ISO 文件安裝。 要用Ventoy優盤啟動&#xff0c;選擇Advance Option里的Rescue Boot&#xff0c; 修改文件/etc/default/grub.d/installer.cfg&#xff0c;刪除rdinit/vtoy/vtoy運行 update-grub 更新grub配置&#xff0c;重啟…

【Java項目安全基石】登錄認證實戰:Session/Token/JWT用戶校驗機制深度解析

目錄 1.前言 2.正文 2.1Cookie—Session機制 2.1.1核心原理圖解&#xff1a; 2.1.2四步核心流程&#xff1a; 2.1.3存儲架構對比 2.1.4集群部署方案&#xff08;Spring Session Redis&#xff09; 2.2Token令牌 2.2.1核心原理圖解&#xff1a; 2.2.2四步核心流程&am…

融合優勢:SIP 廣播對講聯動華為會議 全場景溝通響應提速?

SIP 廣播對講與華為視頻會議融合解決方案&#xff0c;是基于 SIP 協議將廣播對講系統與華為視頻會議系統進行整合&#xff0c;實現通信資源共享與業務流程聯動&#xff0c;可提升應急響應效率與溝通協作能力。融合原理&#xff1a;SIP 是一種基于文本的應用層協議&#xff0c;具…

Milvus Dify 學習筆記

目錄 docker方式&#xff1a; 模式一&#xff1a;Milvus Lite linux docker方式&#xff1a; 下載yml文件&#xff0c; https://github.com/milvus-io/milvus/releases docker啟動&#xff1a; docker compose up -d from pymilvus import connections connections.conne…

汽車ECU控制器通信架構

我是穿拖鞋的漢子,魔都中堅持長期主義的汽車電子工程師。 老規矩,分享一段喜歡的文字,避免自己成為高知識低文化的工程師: 做到欲望極簡,了解自己的真實欲望,不受外在潮流的影響,不盲從,不跟風。把自己的精力全部用在自己。一是去掉多余,凡事找規律,基礎是誠信;二是…

【Linux】基本指令(入門篇)(上)

目錄 前言 1.目錄操作指令 1.1指令 1.2理論 1.2.1文件 1.2.2目錄與路徑 2.文件操作指令 2.1指令 2.2理論 2.2.1輸出與輸入 2.2.2一切皆文件 前言 這是Linux學習下的第一篇文章&#xff0c;后續Linux的學習也會持續更新分享。 Linux的基本指令是使用Linux操作系統的基礎…

正向代理與反向代理理解

問&#xff1a; 應用a請求ng&#xff0c;然后ng根據不同請求路徑將請求轉發到不同的服務器&#xff0c;對于應用a來說這個ng是正向代理角色還是反向代理呢&#xff1f; 答&#xff1a; 在這個場景中&#xff0c;Nginx 扮演的是反向代理的角色&#xff0c;而不是正向代理。以下是…

【Kafka】深入理解 Kafka MirrorMaker2 - 實戰篇

文章目錄一、把“家伙事兒”都備齊二、部署其實很簡單三、配置 MirrorMaker2四、修改啟動腳本五、集群啟動與驗證六、這集群“結實”嗎&#xff1f;聊聊它的高可用它沒有“大腦”&#xff0c;但活得很好極限測試&#xff1a;干掉兩個節點會怎樣&#xff1f;寫在最后最近在跟 Ka…

借助AI學習開源代碼git0.7之四update-cache

借助AI學習開源代碼git0.7之四update-cache update-cache.c 主要負責對索引&#xff08;index&#xff09;&#xff0c;也即緩存&#xff08;cache&#xff09;&#xff0c;進行增、刪、改操作。現在的高層命令 git add 的部分核心功能就是由這個代碼實現的。 核心功能 該程序的…

【48】MFC入門到精通——MFC 文件讀寫總結 CFile、CStdioFile、CFileDialog

文章目錄1 打開文件1.2 打開文件模式總結2 常用函數2.1 寫文件2.2 讀文件2.3 獲取文件長度3. 文件打開讀寫實力3.1 寫文件 覆蓋寫3.2 文尾追加寫3.3 換行寫4 文件對話框 CFileDialog4.2 文件對話框實例5 CStdioFile 類 讀寫CStingMFC提供了一個文件操作的基類CFile&#xff0c;…

Leetcode 124. 二叉樹中的最大路徑和

遞歸/*** Definition for a binary tree node.* struct TreeNode {* int val;* TreeNode *left;* TreeNode *right;* TreeNode() : val(0), left(nullptr), right(nullptr) {}* TreeNode(int x) : val(x), left(nullptr), right(nullptr) {}* TreeNode…

MTSC2025參會感悟:手工測試用例的智能化生成

目錄 一、測試用例生成的時代困境與 AI 機遇 1.1 傳統手工測試用例的固有痛點 1.2 AI 時代的測試新挑戰 1.3 智能化轉型的機遇窗口 二、智能用例生成的核心特性與產品功能 2.1 核心特性解析 2.2 四大核心產品功能 功能一&#xff1a;基于 PRD 理解的一鍵生成用例 功能二…