CLIP--Learning Transferable Visual Models From Natural Language Supervision

CLIP--Learning Transferable Visual Models From Natural Language Supervision

bicheng/2025/7/19 3:32:53/文章來源:https://blog.csdn.net/sweet_Mary/article/details/139377609

參考：CLIP論文筆記--《Learning Transferable Visual Models From Natural Language Supervision》_visual n-grams模型-CSDN博客

openAI，2021，將圖片和文字聯系在一起，----->得到一個能非常好表達圖片和文字的模型
主題：多模態理解任務
任務：計算圖片和文本的相似度
訓練：有監督的對比學習

背景

zero-shot transfer：零樣本遷移到下游任務（一些NLP模型可以直接在A數據集上預訓練，再到B，C，D數據集做任務時，這個模型可以不使用這個數據集的任何數據（zero-shot）進行參數微調而直接做任務）
“狹窄的視覺概念”是指模型在ImageNet等數據集上訓練，只是為了學會區分像“貓”、“狗”這樣的類，但不同的貓種類模型是不會區分的，比如“橘貓”和“奶牛貓”，即其他的視覺信息沒有被充分利用。
Visual N-Grams促成CLIP的誕生的最重要的論文。【用自然語言監督信號來讓促成一些現存的CV分類數據集(包含ImageNet數據集)實現zero-shot transfer。】

?方法

標準的圖像模型 VS CLIP：
- 標準的圖像模型：一個圖像特征提取器和一個線性分類器---預測標簽
- CLIP：一個圖像編碼器和一個文本編碼器---預測一批（圖像、文本）正確配對
測試：輸入句子（a photo of {label}---Prompt工程）+圖片
從自然語言中學習：將圖片表示與語言聯系起來，從而實現靈活的zero-shot transfer
超大數據集：用4億對來自網絡的圖文數據集，將文本作為圖像標簽，進行訓練。這個數據集稱為WebImageText（WIT）
預訓練
- 圖片分類任務------>圖文匹配任務?
- 貢獻點：采用了海量圖文對數據和超大batch size進行預訓練，并不在于其模型結構
- 模態之間的cosine similarity：N個匹配的圖文對相似度最大，個不匹配的圖文對相似度最小
  - 對角線上都是配對的正樣本對，而矩陣的其他元素，則是由同個batch內的圖片和不配對的文本（相反亦然）組成的負樣本。
測試

?

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/20631.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/20631.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/20631.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

網絡安全-釣魚篇-利用cs進行釣魚

網絡安全-釣魚篇-利用cs進行釣魚

一、環境自行搭建，kill，Windows10，cs 二、原理如圖所示三、釣魚演示首先第一步：打開System Profiler-分析器功能選擇克隆www.baidu.com頁面做釣魚之后我們通過包裝域名，各種手段讓攻擊對象訪問：h…

閱讀更多...

Java面試題:Redis1_Redis的使用場景和如何解決Redis緩存穿透問題

Java面試題:Redis1_Redis的使用場景和如何解決Redis緩存穿透問題

Redis使用場景常見問題緩存緩存三兄弟(穿透,擊穿,雪崩) 雙寫一致持久化數據過期策略數據淘汰策略分布式鎖 setnx,redisson 消息隊列,延遲隊列 … 解決Redis緩存穿透問題緩存穿透問題請求->redis緩存->mysql數據庫當一個新請求到來時,先會訪問redi…

閱讀更多...

JVM（Java虛擬機）筆記

JVM（Java虛擬機）筆記

面試常見： 請你談談你對JVM的理解?java8虛擬機和之前的變化更新?什么是OOM，什么是棧溢出StackOverFlowError? 怎么分析?JVM的常用調優參數有哪些?內存快照如何抓取？怎么分析Dump文件？談談JVM中，類加載器你的認識…

閱讀更多...

前端最新面試題(基礎模塊HTML/CSS/JS篇)

前端最新面試題(基礎模塊HTML/CSS/JS篇)

目錄一、HTML、HTTP、WEB綜合問題 1 前端需要注意哪些SEO 2 img的title和alt有什么區別 3 HTTP的幾種請求方法用途 4 從瀏覽器地址欄輸入url到顯示頁面的步驟 5 如何進行網站性能優化 6 HTTP狀態碼及其含義 7 語義化的理解 8 介紹一下你對瀏覽器內核的理解？ 9 html…

閱讀更多...

【C++】vector常見的使用方式

【C++】vector常見的使用方式

前言：在上一篇中我們講到了string類的模擬實現，今天我們將進一步的去學習vector的一些常用的使用方法。 💖 博主CSDN主頁:衛衛衛的個人主頁 💞 👉 專欄分類:高質量Ｃ學習 👈 💯代碼倉…

閱讀更多...

命運方舟臺服注冊命運方舟臺服怎么注冊？不會操作看這里

命運方舟臺服注冊命運方舟臺服怎么注冊？不會操作看這里

命運方舟臺服注冊命運方舟臺服怎么注冊？不會操作看這里命運方舟作為今年備受矚目的一款MMORPG類型游戲，在上線前的預約數量已經一次又一次創下新高。這款游戲的開發商Smile gate真是給玩家們帶來了一款讓人眼前一亮的作品。游戲創建在虛幻引擎的基礎…

閱讀更多...

USACO 2019 December Contest, BronzeProblem 2. Where Am I? 題解

USACO 2019 December Contest, BronzeProblem 2. Where Am I? 題解

這道題目通過例子可以看出查找最長的相同子串，下一個長度如果沒有找到相同的子串就是結果，需要寫三個循環，第一個循環是是否存在長度為len的相同子串，第二個循環是從左往右截取長度為len的子串，第三個循環的條件是j<…

閱讀更多...

用esp prog燒錄ESP32-C3板踩坑

用esp prog燒錄ESP32-C3板踩坑

附ESP32C3的GPIO一覽： vscode選擇Jtag燒錄，終端輸出esp_usb_jtag: could not find or open device： D:\Devtools\Espressif\tools\openocd-esp32\v0.12.0-esp32-20230921\openocd-esp32\bin\openocd.exe -f board/esp32s3-builtin.cfgOpen O…

閱讀更多...

【電路筆記】-帶阻濾波器

【電路筆記】-帶阻濾波器

帶阻濾波器文章目錄帶阻濾波器1、概述2、典型帶阻濾波器配置3、帶阻濾波器示例14、陷波濾波器5、帶阻濾波器示例26、總結帶阻濾波器也稱為陷波濾波器，阻止并拒絕位于其兩個截止頻率點之間的頻率，并傳遞該范圍兩側的所有這些頻率。 1、概述通過將基本 RC 低通濾波器與 RC …

閱讀更多...

Docker基礎命令(三)

Docker基礎命令(三)

同步docker容器中的時間和本地時間一致背景: 在很多時候, 訓練模型的時候, 記錄的log日志中標記的時間和實際的時間不一致, 往往是容器時間和本地時間不一致照成的. 方案場景一: 正在運行的容器，可以宿主機直接執行命令給某個容器同步時間 #方法1 直接在宿主機…

閱讀更多...

ElasticSearch教程（詳解版）

ElasticSearch教程（詳解版）

本篇博客將向各位詳細介紹elasticsearch，也算是對我最近學完elasticsearch的一個總結，對于如何在Kibana中使用DSL指令，本篇文章不會進行介紹，這里只會介紹在java中如何進行使用，保證你看完之后就會在項目中進行上手&am…

閱讀更多...

Arduino燒錄esp8266

Arduino燒錄esp8266

default_encoding: cp936 Assume aggressive ‘core.a’ caching enabled. Note: optional global include file ‘arduino_modified_sketch_764314\Blink.ino.globals.h’ does not exist. Read more at https://arduino-esp8266.readthedocs.io/en/latest/faq/a06-global-bui…

閱讀更多...

【計劃】裝修相關感想

【計劃】裝修相關感想

計劃 Summary 從去年年底開始規劃、設計、落實家里的裝修，2024年4月正式開始裝修，一個人探索和學習了很多知識和概念。準備把這些東西做一些記錄和分享，一方面記錄一些裝修的流程和中間的小細節便于第二次裝修的時候避免；另一方…

閱讀更多...

Android設備實時監控藍牙的連接、配對、開關3種狀態

Android設備實時監控藍牙的連接、配對、開關3種狀態

一、簡介 Android設備，需要實時監控本機藍牙連接其他藍牙設備的狀態，包含：連接、配對、開關3種狀態。本文介紹了2種方法，各有優勢，下面來到我的Studio一起瞅瞅吧~ 二、定時器任務 Handler 功能方法定時器任務 Hand…

閱讀更多...

寫字靜不下心？不如試試這些“笨方法”

寫字靜不下心？不如試試這些“笨方法”

夏天悄悄熱起來啦～有人說，想踏踏實實寫一會兒，但又靜不下心，耐不住性子，快收下這四個小錦囊，與古人一起笨拙精進吧！ 　　 1、不論輸贏　　　　每次課前，暄桐林曦老師總會強調&am…

閱讀更多...

AlloyTeam Web前端大會：深入探索前端的無限可能

AlloyTeam Web前端大會：深入探索前端的無限可能

AlloyTeam Web前端大會：深入探索前端的無限可能在數字化浪潮的推動下，Web前端技術日新月異，成為引領行業發展的重要力量。AlloyTeam Web前端大會作為業界的盛會，匯聚了眾多前端領域的精英，共同探討前端的未來發展趨勢…

閱讀更多...

內網-win1

內網-win1

一、概述 1、工作組：將不同的計算機按功能(或部門)分別列入不同的工作組 (1)、查看（windows） 查看當前系統中所有用戶組：打開命令行--》net localgroup查看組中用戶：打開命令行 --》net localgroup 后接組名查看用戶…

閱讀更多...

FreeRTOS任務調度機制（源碼講解）

FreeRTOS任務調度機制（源碼講解）

任務的調度機制(核心是鏈表)！！！ 使用鏈表來管理任務在我前面寫的FreeRTOS任務(深入到源碼進行分析)，我創建了三個任務，他們的優先級都是一樣的，所以他們在FreeRTOS中是輪流執行的，實際上&…

閱讀更多...

19.1 簡易抽獎

19.1 簡易抽獎

準備一個數組，里面添加10個獎品數據，讓獎品數據快速的在盒子中隨機顯示，通過按鈕控制盒子里面的內容停止。效果圖： <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8">&…

閱讀更多...

解釋Python中的PEP 8是什么為什么它很重要

解釋Python中的PEP 8是什么為什么它很重要

PEP 8 是 Python 的一個編碼規范，也稱為 Python 增強提案 8。它提供了一系列關于如何編寫清晰、一致的 Python 代碼的指導原則。這些原則涵蓋了代碼布局、命名約定、注釋、文檔字符串、編碼建議、導入語句、異常、全局變量、嵌套等方面。為什么PEP 8很重要&#x…

閱讀更多...

最新文章