【多模態】BEiT v2

鏈接:https://arxiv.org/pdf/2208.06366
論文:BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

Introduction

  1. Motivation:Masked image modeling (MIM) 任務在自監督表征學習上取得了不錯的成績,但是現有方法大多是基于low-level image pixels,需要探索模型的high-level semantics。
  2. 創新點:引入了矢量量化知識蒸餾(Vector-Quantized Knowledge Distillation ,VQ-KD)算法來離散語義空間,同時引入一個patch聚合策略(a patch aggregation strategy)鼓勵模型關聯所有patch到[CLS]
  3. 實驗效果:
    在這里插入圖片描述

Details

整體架構與BEiT相似,依舊是包含一個visual tokenizer對圖像進行離散表示(visual tokens),訓練目標則是重建相應位置的masked visual tokens。

  1. Image Representation:依舊使用ViT,將輸入切為patches,flattened and linearly projected to input embeddings,最終輸入transformer。
  2. Training Visual Tokenizer
    在這里插入圖片描述
    a. 提出vector-quantized knowledge distillation (VQ-KD)方法訓練visual tokenizer, 架構如上圖所示,包括tokenizer和decoder兩部分。
    b. tokenizer將輸入圖像映射為一系列visual tokens,進行離散化,與patch數量對應。其包含一個Vision Transformer encoder, and a quantizer。想通過encoder將圖像編碼為向量,然后quantizer查找最近鄰的表示。尋找最近鄰embedding公式如下(quantizer的目的是將向量映射到固定詞表,便于在后續mask任務中預測):
    在這里插入圖片描述
    先對向量進行l2正則,使用余弦相似度計算。
    c. 向量量化后,過l2正則輸入decoder,decoder模型為多層Transformer,其目標是重建Teacher模型的語義特征(Teacher模型可以為DINO或者CLIP)。再最大化decoder的輸出和teacher模型的輸出的余弦相似度。
    d. 由于量化過程不可微,直接使用梯度拷貝(從decoder的輸入到encoder的輸出),直觀上,量化器為encoder輸出查找最近的編碼,所以該codebook embeddings的提督對encoder的優化方向有效。
    在這里插入圖片描述
    第一項為decoder輸出與teacher輸出的余弦相似度損失,sg表示stop-gradient,前向傳遞過程中為恒等式,同時在反向傳播期間具有零梯度。第二項和第三項分別代表前向和反向。
  3. Improving codebook utilization.
    向量量化訓練期間很容易遇到codebook的坍縮,只有一小部分的codes可以使用,
    a. 量化過程將碼本嵌入空間的維數減少到32-d, 在被送入解碼器之前被映射回高維空間
    b. 指數移動平均可以使VQ-KD的訓練穩定。
  4. Pretraining BEIT V2
    a. 給定輸入圖像x,大約40%的patches會被block-wisely masked,masked position會被標記,masked patch會被一個shared learnable embedding取代。
    b. prepend a learnable [CLS] token,在預測時對應位置加一個全連接層。
    在這里插入圖片描述
    c. Pretraining global representation:為了使CLS更好地進行全局圖像特征表示,消除patch-level的預訓練對image-level的表示差異,選取最后L層的CLS表示,以及encoder第l層的patch表示,拼接作為一個淺層(2-layer)Transformer的輸入,進行掩碼預測。MIM Head的參數共享,兩個loss相加(原始MIM loss和過完淺層transformer的loss)。直觀上,這樣做的好處在于由于使用訓練不充分的中間表示,導致CLS更好地涵蓋全局信息,使MIM loss更低。該新增的兩層transformer僅輔助訓練,inference會被丟棄。

實驗

  1. 兩階段訓練參數
    a. Visual tokenizer training
    ViT-B/16,decoder為三層Transformer,和encoder頭數與維度都相同,Teacher使用CLIP-B/16 train VQ-KD on ImageNet-1k with 224×224 resolution。code size K is set as 8192,code dimension D as 32。
    b. Masked image modeling
    ImageNet-1K,set l = 9 for ViT-B/16, l = 21 for ViT-L/16,40% mask
    pre-train的vit encoder和modeling階段不是同一個
  2. 對比實驗
    在這里插入圖片描述
    在這里插入圖片描述
  3. 消融實驗
    a. VQ-KD的消融
    在這里插入圖片描述
    b. Patch aggregation消融
    在這里插入圖片描述
    c. VQ-KD targets
    在這里插入圖片描述
  4. 可視化實驗
    在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/35733.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/35733.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/35733.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

教師資格證考試面試報名流程

文章目錄 前言面試報名流程一、登錄官網二、選擇報考省份三、注冊報名賬號四、確認考試承諾五、填報個人信息六、上傳個人照片七、查看個人信息八、面試報名九、等待審核十、考試繳費最后(必看)附錄1. 中小學教師資格考試網2. 廣東省教資考試報名通知&am…

Linux加固-權限管理_chattr之i和a參數

一、參數i i:如果對文件設置了i屬性,不允許對文件進行刪除、改名,也不能添加和修改數據;如果對目錄設置了i屬性,那么只能修改目錄下文件的數據,但不允許建立和刪除文件。(相當于把文件給鎖住了,…

【Mysql】多表、外鍵約束

多表 1.1 多表簡述 實際開發中,一個項目通常需要很多張表才能完成。 例如一個商城項目的數據庫,需要有很多張表:用戶表、分類表、商品表、訂單表… 1.2 單表的缺點 1.2.1 數據準備 創建一個數據庫 db3 CREATE DATABASE db3 CHARACTER SET utf8;數據庫…

Segment any Text:優質文本分割是高質量RAG的必由之路

AI應用開發相關目錄 本專欄包括AI應用開發相關內容分享,包括不限于AI算法部署實施細節、AI應用后端分析服務相關概念及開發技巧、AI應用后端應用服務相關概念及開發技巧、AI應用前端實現路徑及開發技巧 適用于具備一定算法及Python使用基礎的人群 AI應用開發流程概…

基于qemu_v8 + optee400構建自定義app

構建基于libckteec的tls安全通信應用程序,應用目錄結構 $ tree -L 2 . ├── libp11 │ ├── libp11-libp11-0.4.12 │ ├── mk_optee_three_part.sh │ └── out ├── openssl │ ├── mk_optee_three_part.sh │ ├── openssl-1.1.1w │ …

vue項目中封裝element分頁組件

我們都知道封裝組件是為了方便在項目中使用,全局封裝之后哪個模塊使用直接復制就行了,分頁在后臺項目中用到的地方也是很多的,所以我們就全局封裝一下分頁組件,以后也方便在項目中使用,接下來封裝的這個分頁也是elemen…

clean code-代碼整潔之道 閱讀筆記(第十四章)

第十四章 逐步改進——對一個命令行參數解析程序的案例研究 ps:本章設計代碼示例所以篇幅會較長,推薦直接看原文,思路、代碼講解的很清楚 本章示例:解析命令行參數的工具 —— Args Args的簡單用法 public static void main(Stri…

vue中動態綁定樣式名的方式有幾種?

在Vue中可以使用動態綁定樣式名的方式有幾種,具體取決于你的需求和使用的場景。 使用對象語法: 可以通過在data中定義一個變量,然后在模板中使用對象語法來動態綁定樣式名。 <template><div :class="{ active: isActive }">Hello Vue!</div> &l…

網絡文化經營許可證(文網文)辦理全面講解

隨著互聯網時代的飛速發展&#xff0c;互聯網早已滲透到人們的生活中&#xff0c;各類直播、短視頻成為大家生活娛樂必不可少的一部分。注冊一家從事互聯網行業的企業是一個不錯的選擇。那互聯網企業需要辦理什么證件資質呢&#xff1f;在互聯網行業從事盈利文化活動必須持有網…

【精品方案】智能制造之路(93頁PPT)

引言&#xff1a;智能制造之路&#xff1a;革新制造業的引領之旅 隨著科技的迅猛發展&#xff0c;特別是人工智能、物聯網、大數據等技術的不斷進步&#xff0c;制造業正迎來一場深刻的變革。智能制造&#xff0c;作為這場變革的核心&#xff0c;正逐步成為推動產業升級和轉型發…

MySQL為什么不建議使用多表JOIN

一、典型回答 之所以不建議使用JOIN查詢&#xff0c;最主要的原因就是JOIN的效率比較低。 MySQL是使用了嵌套循環&#xff08;Nested-Loop Join&#xff09;的方式實現關聯查詢的&#xff0c;簡單點說就是要通過兩層循環&#xff0c;用第一張表做外循環&#xff0c;第二張表做內…

大模型課程資料-全網最火29套全棧大模型項目實踐

29套AI全棧大模型項目實戰&#xff0c;人工智能視頻課程-多模態大模型&#xff0c;微調技術訓練營&#xff0c;大模型多場景實戰&#xff0c;AI圖像處理&#xff0c;AI量化投資&#xff0c;OPenCV視覺處理&#xff0c;機器學習&#xff0c;Pytorch深度學習&#xff0c;推薦系統…

【LLM】一分鐘帶你了解Agent工作流四范式

文章目錄 1. 大模型直接生成-generation2. 大模型充當工具使用-tool3. 大模型執行思維鏈-Planning4. 多大模型Agent合作-multiagent collaboration 1. 大模型直接生成-generation 通過提示詞&#xff0c;大模型直接生成想要的結果&#xff1a; 2. 大模型充當工具使用-tool …

無人機在農業方面應用的局限性

無人機在農業方面的應用雖然帶來了許多便利和效率提升&#xff0c;但也存在一些局限性。以下是對這些局限性的清晰歸納和分點表示&#xff1a; 飛行受限&#xff1a; 無人機在飛行過程中受到一定限制&#xff0c;例如在森林、城市等復雜地形或建筑物密集區域&#xff0c;其空間…

擁抱數字化未來,如何以費控驅動業務發展?

管理費用是企業運營中僅次于人力成本的第二大可控成本&#xff0c;一般會占到企業年度收入的5%—10%&#xff0c;但多數企業存在費用疏于管理、費用管理制度流于紙面難落地、費用浪費嚴重等問題。 如果不進行科學管理&#xff0c;有專家表示&#xff0c;估計企業每年至少有10%的…

vue總結

1.什么是VUE? Vue就是一套用于構建用戶界面的漸進式框架,與其他框架不同的是,Vue被設計為可以自底向上逐漸應用.Vue的核心庫只關注圖層,不僅容易上手,還便于與第三方庫或既有項目整合. 2.Vue的優點 體積小 高效率 雙向數據綁定,簡化Dom操作 通過MVVM思想實現數據的雙向綁定…

Pixea Plus for Mac:圖像編輯的極致體驗

Pixea Plus for Mac 是一款專為 Mac 用戶設計的強大圖像編輯軟件。憑借其卓越的性能和豐富的功能&#xff0c;它為用戶帶來了前所未有的圖像編輯體驗。無論是專業的設計師&#xff0c;還是業余的攝影愛好者&#xff0c;Pixea Plus 都能滿足您對于圖像編輯的各種需求。 Pixea P…

瀏覽器擴展V3開發系列之 chrome.cookies 的用法和案例

【作者主頁】&#xff1a;小魚神1024 【擅長領域】&#xff1a;JS逆向、小程序逆向、AST還原、驗證碼突防、Python開發、瀏覽器插件開發、React前端開發、NestJS后端開發等等 chrome.cookies API能夠讓我們在擴展程序中去操作瀏覽器的cookies。 在使用 chrome.cookies 要先聲明…

軟考系統架構師考試考點整理就看這一篇

軟考系統架構師考試考點整理就看這一篇 最近軟考成績出來了不少同學與筆者溝通&#xff0c;聊到軟考現在越來越難了&#xff0c;考了兩三次都沒過&#xff0c;也有不少新同學咨詢軟考考試的一些福利政策&#xff0c;投入大量的物力&#xff0c;財力&#xff0c;精力&#xff0c…

如何借助物聯網實現土壤監測與保護

如何借助物聯網實現土壤監測與保護 高標準農田信息化是指利用現代信息技術&#xff0c;如物聯網、大數據、云計算等&#xff0c;對農田進行數字化、智能化的管理&#xff0c;以提高農田的生產效率和可持續發展能力。其中&#xff0c;土壤監測與保護是農田信息化的重要內容之一…