【提示學習論文】TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model

TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model(CVPR2024)

  • 基于文本的類感知提示調優的VLM
  • KgCoOp為baseline,進行改進,把 w c l i p w_{clip} wclip?進行投影,然后與Learnable prompts進行結合。
    ![[TCPf2.png|600]]

Abstract

近年來,通過可學習的域共享或圖像條件的文本tokens,促進生成適用于特定任務的分類器

問題:
這些textual tokens對unseen域具有有限的泛化能力,不能動態地適應測試類的分布

解決:
提出了新的基于文本的類感知提示調優(TCP,Textual-based Class-aware Prompt)。顯式地結合關于類的先驗知識,增強它們的可辨別性。利用文本知識嵌入(TKE),映射高泛化性的類級文本知識,到類感知文本tokens。通過無縫地將這些類感知提示集成到Text Encoder中,可以生成一個動態的類感知分類器,以增強對不可見域的可辨別性。
推斷階段,TKE動態地生成與unseen類相關的類感知提示,可作為即插即用的模型與現有方法輕松結合。

1 Introduction

圖像條件文tokens封裝了每個圖像的特定知識,特別是測試圖像,從而更容易泛化到unseen類。

3 方法

TKE將一般類級的textual embedding轉化成類感知提示,然后與Learnable tokens 結合。

3.2 基于文本的類感知提示提示調優

TKE:投影class-level embedding W c l i p W^{clip} Wclip,得到class-aware prompt T
![[TCPg2.png]]

![[TCPg3.png]]

![[TCPg4.png]]

![[TCPg1.png]]

TKE包括兩層

  • 下投影層
    使用權重 W d o w n W_{down} Wdown? W c l i p W^{clip} Wclip其投成低維特征
  • 上投影層
    使用權重 W u p W_{up} Wup? W d w o n W^{dwon} Wdwon其投成高維特征
    得到
    ![[TCPg5.png]]
    再重塑成
    ![[TCPg6.png]]
    插入到文本編碼器的中間層

4 實驗

作者將其分為tp、vp、dtp、dvp,比較了近年來的方法
在這里插入圖片描述

消融實驗

  • Prompt長度:M=8最好
  • 不同模板的效果:可學習prompt最好
  • Dmid的作用:128時效果最好
  • 類感知prompt拼接到哪:第8層最好

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/12496.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/12496.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/12496.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

樹莓派|角速度和加速度傳感器

角速度傳感器和加速度傳感器是常見的慣性傳感器,常用于測量物體的旋轉和線性運動。 角速度傳感器(Gyroscope)用于測量物體繞三個軸(X、Y、Z)的旋轉速度或角速度。它可以提供關于物體在空間中的旋轉方向和角度變化的信…

時光知識付費系統,如何制定適合自己的課程?該如何做?

在線教育平臺的網課非常多,而且課程之間的相似度非常高,不同是教的老師不同。很多人在制定課程的時候,通常都是被廣告吸引的,之后發現課程不是自己想要的,并不適合自己。 想要制定適合自己的課程,首先要清楚…

計算機視覺與深度學習實戰:以Python為工具,基于特征匹配的英文印刷字符識別

注意:本文的下載教程,與以下文章的思路有相同點,也有不同點,最終目標只是讓讀者從多維度去熟練掌握本知識點。 下載教程:計算機視覺與深度學習實戰-以MATLAB和Python為工具_基于特征匹配的英文印刷字符識別_項目開發案例教程.pdf 一、引言 隨著人工智能技術的飛速發展,計…

用爬蟲解決問題

使用爬蟲解決問題是一個常見的技術手段,特別是在需要自動化獲取和處理大量網頁數據的情況下。以下是一個詳細的步驟說明,包括如何使用 Python 和常用的爬蟲庫(如 requests 和 BeautifulSoup)來構建一個簡單的爬蟲,解決…

matlab二次插值函數 interp2

在MATLAB中,interp2函數用于執行二維插值操作。該函數可以接受多種不同的插值方法,其中包括linear(線性插值)和nearest(最臨近插值)。這兩種插值方法的插值結果存在明顯的差異。 linear(線性插值…

引用存儲復制屬性

當執行 this.tableDataSim.push(this.simForm) 時,將 this.simForm 對象添加到 this.tableDataSim 數組中。如果 this.simForm 是一個對象,并且 this.tableDataSim 數組中之前的對象是通過引用方式存儲的,那么之前的對象會被改變,…

使用 Python 和機器學習預測股票漲跌幅

使用 Tushare API 獲取深圳股市歷史數據 引言 這篇文章將會演示如何使用 Tushare Pro API 獲取深圳股市的歷史交易數據,并將數據保存到CSV文件中。Tushare 是一款提供實時和歷史金融市場的數據服務,支持多種語言,具有豐富的數據源和強大的功…

PXI/PXIe規格1553B總線測試模塊

面向GJB5186測試專門開發的1553B總線適配卡,支持4Mbps和1Mbps總線速率。該產品提供2個雙冗余1553B通道、1個測試專用通道、2個線纜測試通道。新一代的TM53x板卡除了支持耦合方式可編程、總線信號幅值可編程、共模電壓注入、總線信號波形采集等功能外,又新…

Python專題:十三、日期和時間(2)

datetime 模塊 today()函數 date類型 year month day

二分法的時間復雜度是logN

對數函數: (a>0, a≠1, x>0) 當αe時,記為yln x 當α10時,記為ylg x 當α2時,記為ylog x 其中x是自變量,函數的定義域是(0,∞),…

【Flask框架】

6.Flask輕量型框架 6.1Flask簡介 python提供的框架中已經寫好了一個內置的服務器,服務器中的回應response行和頭已經寫好,我們只需要自己寫顯示在客戶端,的主體body部分。 ---------------------------------------------------------- Fla…

Blob數據類型

Blob(Binary Large Object)是一種二進制大對象的數據類型,用于存儲大量的二進制數據,比如圖片、視頻、音頻等。Blob對象通常用于處理從網絡上獲取的數據或者在瀏覽器中生成的數據,例如通過用戶上傳的文件、從服務器下載…

Android Studio無法使用Google翻譯問題記錄

背景 其實關于Google翻譯不能用的問題已經出現很久了,之前Google關掉了很多國內的一些Google服務,但是Google翻譯還是能用的,直到不知什么時候起,Google翻譯也不能用呢。 每次換電腦安裝完AS后第一件事就是下載插件 Settings-Pl…

探索智慧生活:百度Comate引領人工智能助手新潮流

文章目錄 百度Comate介紹1. 什么是百度Comate?主要特點 2. Comate的核心功能智能問答功能語音識別功能語音助手功能個性化服務 3. Comate 支持哪些語言? 使用教程(以vscode為例)1. 下載和安裝Comate3. 常用操作快捷鍵(windows) 使用體驗自然語言生成代碼…

Gitlab、Redis、Nacos、Apache Shiro、Gitlab、weblogic相關漏洞

文章目錄 一、Gitlab遠程代碼執行(CVE-2021-22205)二、Redis主從復制遠程命令執行三、Nacos認證繞過漏洞(CVE-2021-29441)四、Apache Shiro認證繞過漏洞(CVE-2020-1957)五、Gitlab任意文件讀取漏洞&#xf…

3.TCP的三次握手和四次揮手

一、前置知識 TCP是一種面向連接的、可靠的、基于字節流的傳輸層通信協議。在傳輸數據前通信雙方必須建立連接(所謂連接,是指客戶端和服務端各自保存一份關于對方的信息,比如ip地址,端口號等)。TCP通過三次握手建立一個…

從零開始:C++ String類的模擬實現

文章目錄 引言1.類的基本結構2.構造函數和析構函數3.基本成員函數總結 引言 在C編程中,字符串操作是非常常見且重要的任務。標準庫中的std::string類提供了豐富且強大的功能,使得字符串處理變得相對簡單。然而,對于學習C的開發者來說&#x…

C語言----斐波那契數列(附源代碼)

各位看官們好,當我寫了上一篇博客楊輝三角后,有一些看官叫我講一下斐波那契數列。對于這個大家應該是有了解的。最簡單的規律就是f(n)f(n-2)f(n-1)。就是當前是前兩項之和,然后下標1和0都是1.從第三項開始計算的。那么我們知道規律&#xff0…

位圖(c++)

文章目錄 1.位圖概念2.位圖的實現3.應用(解決整形存在或次數問題)3.1存在問題3.2次數問題 5.搜索的方法對比: 1.位圖概念 和哈希一樣,都是一個表來記錄某個元素的個數或者存在與否;不同的是哈希使用的計算機定義的完整…

旅游卡創業的機會在哪里?

在當今社會,旅游已經成為了人們休閑娛樂的重要方式之一。 隨著經濟的發展和人們生活水平的提高,越來越多的人開始追求更高品質的旅游體驗。因此,旅游卡創業應運而生,為游客提供了更加便捷、實惠的旅游服務。那么,旅游…