深度學習·CLIP

CLIP

數據大小

  • 4億個文本-圖像對,而且是高質量的

預訓練方法

Text encoder

“The text sequence is bracketed with [SOS] and [EOS] tokens and the activations of the highest layer of the transformer at the [EOS] token are used as the feature representation” ([Radford 等, 2021, p. 4]
🔤文本序列用 [SOS] 和 [EOS] 令牌括起來,并使用 [EOS] 令牌處變壓器最高層的激活作為特征表示🔤

  • text encoder一個簡單的transformer模型,可以類別Bert,采用了類似的完型填空等等方法預訓練。特點是每個句子都有類似[CLS]特殊含義token
  • 簡單來說就是一個句子過去,經過text encoder后,形狀應該是(batch_size,sequence_length,dim),現在我們只要首個[EOS] token作為特征向量,因此最終得到的特征維度是(batch_size,1,dim)=(batch_size,dim)

Image encoder

We make several modifications to the original version using the ResNetD improvements from He et al. (2019) and the antialiased rect-2 blur pooling from Zhang (2019). We also replace the global average pooling layer with an attention pooling mechanism. The attention pooling is implemented as a single layer of “transformer-style” multi-head QKV attention where the query is conditioned on the global average-pooled representation of the image. For the second architecture, we experiment with the recently introduced Vision Transformer (ViT) (Dosovitskiy et al., 2020).
我們使用He等人(2019)的ResNetD改進和Zhang(2019)的抗鋸齒rect-2模糊池對原始版本進行了一些修改。我們還將全局平均池化層替換為注意力池化機制。注意力池被實現為一個單層的“變壓器式”多頭QKV注意力,其中查詢是基于圖像的全局平均池表示。對于第二個架構,我們使用最近引入的視覺變壓器(ViT)進行實驗(Dosovitskiy等人,2020)。

  • 簡單來說就是卷積網絡ResNet和VIT。
  • 得到的特征就是(batch_size,dim)

對比學習

  • 正例就是預先構建的文本-圖像對,負例就是其他不匹配的對。
  • 方法是兩兩算cosine相似度,然后得到一個大小為(n,n)的相似度矩陣。

損失計算

  • 損失不是直接構建對角線為1,其余元素為0的標簽矩陣實現的。
  • CLIP是通過分別按行和按列來計算交叉熵來計算損失的。

在這里插入圖片描述

在這里插入圖片描述

推理

For each dataset, we use the names of all the classes in the dataset as the set of potential text pairings and predict the most probable (image, text) pair according to CLIP. We additionally experiment with providing CLIP with text prompts to help specify the task as well as ensembling multiple of these templates in order to boost performance. However, since the vast majority of unsupervised and self-supervised computer vision research focuses on representation learning, we also investigate this for CLIP using the common linear probe protocol.
對于每個數據集,我們使用數據集中所有類的名稱作為潛在文本配對的集合,并根據CLIP預測最可能的(圖像,文本)配對。我們還嘗試為CLIP提供文本提示以幫助指定任務,并集成多個模板以提高性能。然而,由于絕大多數無監督和自監督計算機視覺研究都集中在表示學習上,我們也使用通用線性探測協議對CLIP進行了研究。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/90321.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/90321.shtml
英文地址,請注明出處:http://en.pswp.cn/web/90321.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

美光MTFC8GAKAJCN-4M_IT型eMMC應用介紹

1.1 芯片訂購信息美光MTFC8GAKAJCN-4M_IT型eMMC,容量8GB,153-ball VFBGA封裝。1.2 eMMC料號含義2.1 特性?多媒體卡(MMC)控制器和NAND閃存?153球FBGA封裝(符合RoHS標準,環保封裝)?VCC&#xf…

面向對象分析與設計40講(6)設計原則之開閉原則

文章目錄 一、概念 二、示例(C++ 實現) 1. 違反開閉原則的示例 2. 遵循開閉原則的示例 一、概念 開閉原則(Open-Closed Principle,OCP)是面向對象設計中的重要原則,由 Bertrand Meyer 提出,核心思想可以概括為:對擴展開放,對修改關閉。 具體來說,一個軟件實體(如類…

[Linux入門] Linux 網絡設置入門:從查看、測試到配置全攻略

目錄 一、查看網絡信息&#xff1a;了解你的網絡狀態 1??核心工具&#xff1a;ip命令&#xff08;替代ifconfig&#xff09; <1> 基本語法&#xff1a; <2> 實用操作示例&#xff1a; 2??查看路由表&#xff1a;route命令 3??查看網絡連接狀態&#xf…

TyFlow:三維領域的粒子特效革命者

在動態模擬與視覺特效領域&#xff0c;??TyFlow?? 作為 3ds Max 中誕生的一款革命性粒子系統插件&#xff08;后來也支持獨立開發&#xff09;&#xff0c;正在徹底改變藝術家們創作復雜動力學效果的方式。它以其無與倫比的靈活性、強大的計算能力和開創性的技術理念&#…

本地一鍵部署 Spark-TTS,支持Mac和Windows

Spark-TTS是一個文本轉語音(TTS)的項目&#xff0c;零樣本語音克隆逼真&#xff0c;多語言支持&#xff0c;語音參數可控。使用魔當(LM Downloader)&#xff0c;可以實現Spark-TTS的本地一鍵部署。 注意 如果使用Windows&#xff0c;推薦用NVIDIA顯卡&#xff0c;生成速度較快…

傳統時間:Date日期類,SimpleDateFormat,Calendar

目錄DateSimpleDateFormatCalendarDate 代表的是日期和時間 常見構造器和方法&#xff1a; 構造器說明public Date()創建一個Date對象&#xff0c;代表的是系統當前此刻日期時間public Date(long time)把時間毫秒值轉換成Date日期對象 常見方法說明public long getTime()返…

linus 環境 tomcat啟動日志分隔

1.定義可執行文件&#xff1a;tomcatlog9090.sh fsize$(ls -l /data/tomcat-cms_9090/logs/catalina.out | cut -d -f 5)if [ $fsize -gt 40960000 ]; thenextdatedate %Y_%m_%d_%k_%Mdatapath/data/tomcat-cms_9090/logscd /data/tomcat-cms_9090/logscp catalina.out catali…

解密 Base64 編碼:從原理到應用的全面解析

在網絡傳輸、數據存儲的世界里&#xff0c;Base64 編碼如同一座隱形的橋梁&#xff0c;默默承擔著重要的角色。當你發送郵件附件、在網頁中嵌入圖片&#xff0c;或是處理一些特殊格式的數據時&#xff0c;都可能在不知不覺中與它打交道。那么&#xff0c;Base64 編碼究竟是什么…

C++實現Adam與RMSProp優化算法

C++中實現Adam和RMSProp優化算法 以下是一些關于C++中實現Adam和RMSProp優化算法的實用示例和資源,涵蓋不同場景和應用。由于篇幅限制,完整代碼,但提供關鍵實現片段、庫使用方法和學習資源。 基礎Adam優化器實現 Adam優化器實現 #include <vector> #include <c…

【物聯網】基于樹莓派的物聯網開發【16】——樹莓派GPIO控制LED燈實驗

場景介紹 掌握GPIO引腳連接雙色LED模塊&#xff0c;編寫Python程序代碼&#xff0c;實現GPIO控制點亮雙色LED燈&#xff01; 窗口查看引腳編號 1、在終端輸入指令&#xff1a;pinout2、使用樹莓派輸入gpio readall命令查看pin狀態 輸入以下命令安裝Git sudo apt install git-co…

低延遲網絡中 gRPC 客戶端的隱藏瓶頸及解決方案

低延遲網絡中 gRPC 客戶端的隱藏瓶頸及解決方案 在分布式系統性能優化領域,有一句名言:"優化非瓶頸環節都是徒勞"(Eliyahu M. Goldratt)。gRPC 作為廣泛使用的高性能服務間通信框架,在特定場景下也會出現容易被忽略的客戶端瓶頸。本文將解析這一問題的本質、復現…

打印機因為網絡問題不能用,接到交換機后解決

之前的問題可參考&#xff1a; 打印機不能用&#xff1a;網絡能ping通&#xff0c;并不表示網絡正常好用_能ping通打印機卻打印錯誤-CSDN博客 今天同事要打印個東西&#xff0c;問我打印機能不能用。我就奇怪了&#xff1a;之前不是好好的嗎&#xff1f;一問&#xff0c;現在…

ubuntu22.04 錄視屏軟件推薦

4. VokoscreenNG功能&#xff1a;VokoscreenNG 是一個多功能的桌面錄屏工具&#xff0c;支持錄制整個屏幕、特定區域、窗口&#xff0c;并可以錄制系統聲音和麥克風。安裝&#xff1a;sudo apt update sudo apt install vokoscreen-ng優點&#xff1a;界面友好&#xff0c;操作…

1、黑馬點評復盤(短信登錄-Session或Redis實現)

短信登錄分別使用session和redis實現 1、基于Session實現登錄 主要功能&#xff1a; 發送驗證碼短信驗證碼登錄、注冊校驗登錄狀態 1.1 實現發送短信驗證碼功能 1.1.1 業務邏輯 用戶在提交手機號后&#xff0c;會校驗手機號是否合法&#xff0c;如果不合法&#xff0c;則要求…

文件管理困境如何破?ZFile+cpolar打造隨身云盤新體驗

文章目錄前言【視頻教程】1.關于ZFile2.本地部署ZFile3.使用ZFile4.ZFile的配置5.cpolar內網穿透工具安裝6.創建遠程連接公網地址7.固定ZFile公網地址前言 每天的數字生活如同在數據海洋中航行&#xff0c;工作文檔、旅行照片、學習資料…這些重要資產是否總讓你感到難以掌控&…

開源數據庫E-R圖繪制工具分享

1. 特點&#xff1a; 可直接使用&#xff0c;無需注冊賬號 無狀態的純前端工具&#xff0c;數據會存放在瀏覽器中。設計完成后可將數據保存到本地 2. 使用場景&#xff1a; 描述E-R圖&#xff0c;對數據庫表關系進行直觀分析 3. 效果&#xff1a; 4. 測試數據 用來測試的建…

安卓 Audio Thread 分析

一、PlaybackThread::threadLoop_write 1.變量 mFramesWritten 類型: int64_t 作用: 記錄從線程啟動以來已寫入音頻設備的幀數&#xff08;不包括掛起狀態下的寫入&#xff09; mSuspendedFrames 類型: int64_t 作用: 記錄線程在掛起&#xff08;suspended&#xff09;狀態下模…

JavaWeb_原始項目初識(一)

Students2025項目&#xff08;一&#xff09; 原始ServletJSP架構項目初步搭建 jsp項目已被淘汰&#xff0c;在此學習目的是了解未來學習的新技術的底層原理項目結構&#xff1a;項目結構介紹&#xff1a; 目前階段只完成了初始化的后端搭建&#xff0c;實現從本地數據庫獲取數…

前端_CSS復習

文章目錄CSS復習1. css三種引入方式1.1 行內樣式常用樣式&#xff1a;1.2頁內樣式常見選擇器&#xff1a;1. 標記選擇器2. id選擇器3. 類選擇器&#xff08;最常用&#xff09;4. 星號選擇器&#xff0c;頻率很低5. 復合選擇器6. 偽類選擇器&#xff1a;7. 子元素偽類1.3引入外…

工業互聯網時代,如何通過混合SD-WAN提升煤炭行業智能化網絡安全

1. 背景&#xff1a;煤炭行業智能化轉型的網絡挑戰隨著工業互聯網技術的普及&#xff0c;煤炭行業智能化轉型進入加速期。選煤廠作為煤炭生產的核心環節&#xff0c;需要構建一套既安全又高效的網絡系統&#xff0c;以滿足工業控制系統&#xff08;ICS&#xff09;、智能設備和…