【提示學習論文】TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model

【提示學習論文】TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model

diannao/2025/9/17 17:48:44/文章來源:https://blog.csdn.net/weixin_51293984/article/details/138866110

TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model（CVPR2024）

基于文本的類感知提示調優的VLM
KgCoOp為baseline，進行改進，把 $w_{clip}$ 進行投影，然后與Learnable prompts進行結合。

Abstract

近年來，通過可學習的域共享或圖像條件的文本tokens，促進生成適用于特定任務的分類器

問題：
這些textual tokens對unseen域具有有限的泛化能力，不能動態地適應測試類的分布

解決：
提出了新的基于文本的類感知提示調優（TCP，Textual-based Class-aware Prompt）。顯式地結合關于類的先驗知識，增強它們的可辨別性。利用文本知識嵌入（TKE），映射高泛化性的類級文本知識，到類感知文本tokens。通過無縫地將這些類感知提示集成到Text Encoder中，可以生成一個動態的類感知分類器，以增強對不可見域的可辨別性。
推斷階段，TKE動態地生成與unseen類相關的類感知提示，可作為即插即用的模型與現有方法輕松結合。

1 Introduction

圖像條件文tokens封裝了每個圖像的特定知識，特別是測試圖像，從而更容易泛化到unseen類。

3 方法

TKE將一般類級的textual embedding轉化成類感知提示，然后與Learnable tokens 結合。

3.2 基于文本的類感知提示提示調優

TKE：投影class-level embedding $W^{clip}$ ，得到class-aware prompt T
![[TCPg2.png]]

![[TCPg3.png]]

![[TCPg4.png]]

![[TCPg1.png]]

TKE包括兩層

下投影層
使用權重 $W_{down}$ 將 $W^{clip}$ 其投成低維特征
上投影層
使用權重 $W_{up}$ 將 $W^{dwon}$ 其投成高維特征
得到
![[TCPg5.png]]
再重塑成
![[TCPg6.png]]
插入到文本編碼器的中間層

4 實驗

作者將其分為tp、vp、dtp、dvp，比較了近年來的方法
在這里插入圖片描述

消融實驗

Prompt長度：M=8最好
不同模板的效果：可學習prompt最好
Dmid的作用：128時效果最好
類感知prompt拼接到哪：第8層最好

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/12496.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/12496.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/12496.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

樹莓派|角速度和加速度傳感器

樹莓派|角速度和加速度傳感器

角速度傳感器和加速度傳感器是常見的慣性傳感器，常用于測量物體的旋轉和線性運動。角速度傳感器（Gyroscope）用于測量物體繞三個軸（X、Y、Z）的旋轉速度或角速度。它可以提供關于物體在空間中的旋轉方向和角度變化的信…

閱讀更多...

時光知識付費系統,如何制定適合自己的課程？該如何做？

時光知識付費系統,如何制定適合自己的課程？該如何做？

在線教育平臺的網課非常多，而且課程之間的相似度非常高，不同是教的老師不同。很多人在制定課程的時候，通常都是被廣告吸引的，之后發現課程不是自己想要的，并不適合自己。想要制定適合自己的課程，首先要清楚…

閱讀更多...

計算機視覺與深度學習實戰：以Python為工具，基于特征匹配的英文印刷字符識別

計算機視覺與深度學習實戰：以Python為工具，基于特征匹配的英文印刷字符識別

注意：本文的下載教程，與以下文章的思路有相同點，也有不同點，最終目標只是讓讀者從多維度去熟練掌握本知識點。下載教程：計算機視覺與深度學習實戰-以MATLAB和Python為工具_基于特征匹配的英文印刷字符識別_項目開發案例教程.pdf 一、引言隨著人工智能技術的飛速發展，計…

閱讀更多...

用爬蟲解決問題

用爬蟲解決問題

使用爬蟲解決問題是一個常見的技術手段，特別是在需要自動化獲取和處理大量網頁數據的情況下。以下是一個詳細的步驟說明，包括如何使用 Python 和常用的爬蟲庫（如 requests 和 BeautifulSoup）來構建一個簡單的爬蟲，解決…

閱讀更多...

matlab二次插值函數 interp2

matlab二次插值函數 interp2

在MATLAB中，interp2函數用于執行二維插值操作。該函數可以接受多種不同的插值方法，其中包括linear（線性插值）和nearest（最臨近插值）。這兩種插值方法的插值結果存在明顯的差異。 linear（線性插值…

閱讀更多...

引用存儲復制屬性

引用存儲復制屬性

當執行 this.tableDataSim.push(this.simForm) 時，將 this.simForm 對象添加到 this.tableDataSim 數組中。如果 this.simForm 是一個對象，并且 this.tableDataSim 數組中之前的對象是通過引用方式存儲的，那么之前的對象會被改變，…

閱讀更多...

使用 Python 和機器學習預測股票漲跌幅

使用 Python 和機器學習預測股票漲跌幅

使用 Tushare API 獲取深圳股市歷史數據引言這篇文章將會演示如何使用 Tushare Pro API 獲取深圳股市的歷史交易數據，并將數據保存到CSV文件中。Tushare 是一款提供實時和歷史金融市場的數據服務，支持多種語言，具有豐富的數據源和強大的功…

閱讀更多...

PXI/PXIe規格1553B總線測試模塊

PXI/PXIe規格1553B總線測試模塊

面向GJB5186測試專門開發的1553B總線適配卡，支持4Mbps和1Mbps總線速率。該產品提供2個雙冗余1553B通道、1個測試專用通道、2個線纜測試通道。新一代的TM53x板卡除了支持耦合方式可編程、總線信號幅值可編程、共模電壓注入、總線信號波形采集等功能外，又新…

閱讀更多...

Python專題：十三、日期和時間（2）

Python專題：十三、日期和時間（2）

datetime 模塊 today()函數 date類型 year month day

閱讀更多...

二分法的時間復雜度是logN

二分法的時間復雜度是logN

對數函數： （a>0, a≠1， x>0） 當αe時，記為yln x 當α10時，記為ylg x 當α2時，記為ylog x 其中x是自變量，函數的定義域是（0，∞），…

閱讀更多...

【Flask框架】

【Flask框架】

6.Flask輕量型框架 6.1Flask簡介 python提供的框架中已經寫好了一個內置的服務器，服務器中的回應response行和頭已經寫好，我們只需要自己寫顯示在客戶端，的主體body部分。 ---------------------------------------------------------- Fla…

閱讀更多...

Blob數據類型

Blob數據類型

Blob（Binary Large Object）是一種二進制大對象的數據類型，用于存儲大量的二進制數據，比如圖片、視頻、音頻等。Blob對象通常用于處理從網絡上獲取的數據或者在瀏覽器中生成的數據，例如通過用戶上傳的文件、從服務器下載…

閱讀更多...

Android Studio無法使用Google翻譯問題記錄

Android Studio無法使用Google翻譯問題記錄

背景其實關于Google翻譯不能用的問題已經出現很久了，之前Google關掉了很多國內的一些Google服務，但是Google翻譯還是能用的，直到不知什么時候起，Google翻譯也不能用呢。每次換電腦安裝完AS后第一件事就是下載插件 Settings-Pl…

閱讀更多...

探索智慧生活：百度Comate引領人工智能助手新潮流

探索智慧生活：百度Comate引領人工智能助手新潮流

文章目錄百度Comate介紹1. 什么是百度Comate？主要特點 2. Comate的核心功能智能問答功能語音識別功能語音助手功能個性化服務 3. Comate 支持哪些語言？ 使用教程(以vscode為例)1. 下載和安裝Comate3. 常用操作快捷鍵(windows) 使用體驗自然語言生成代碼…

閱讀更多...

Gitlab、Redis、Nacos、Apache Shiro、Gitlab、weblogic相關漏洞

Gitlab、Redis、Nacos、Apache Shiro、Gitlab、weblogic相關漏洞

文章目錄一、Gitlab遠程代碼執行（CVE-2021-22205）二、Redis主從復制遠程命令執行三、Nacos認證繞過漏洞（CVE-2021-29441）四、Apache Shiro認證繞過漏洞（CVE-2020-1957）五、Gitlab任意文件讀取漏洞&#xf…

閱讀更多...

3.TCP的三次握手和四次揮手

3.TCP的三次握手和四次揮手

一、前置知識 TCP是一種面向連接的、可靠的、基于字節流的傳輸層通信協議。在傳輸數據前通信雙方必須建立連接（所謂連接，是指客戶端和服務端各自保存一份關于對方的信息，比如ip地址，端口號等）。TCP通過三次握手建立一個…

閱讀更多...

從零開始：C++ String類的模擬實現

從零開始：C++ String類的模擬實現

文章目錄引言1.類的基本結構2.構造函數和析構函數3.基本成員函數總結引言在C編程中，字符串操作是非常常見且重要的任務。標準庫中的std::string類提供了豐富且強大的功能，使得字符串處理變得相對簡單。然而，對于學習C的開發者來說&#x…

閱讀更多...

C語言----斐波那契數列（附源代碼）

C語言----斐波那契數列（附源代碼）

各位看官們好，當我寫了上一篇博客楊輝三角后，有一些看官叫我講一下斐波那契數列。對于這個大家應該是有了解的。最簡單的規律就是f(n)f(n-2)f(n-1)。就是當前是前兩項之和，然后下標1和0都是1.從第三項開始計算的。那么我們知道規律&#xff0…

閱讀更多...

位圖（c++）

位圖（c++）

文章目錄 1.位圖概念2.位圖的實現3.應用（解決整形存在或次數問題）3.1存在問題3.2次數問題 5.搜索的方法對比： 1.位圖概念和哈希一樣，都是一個表來記錄某個元素的個數或者存在與否；不同的是哈希使用的計算機定義的完整…

閱讀更多...

旅游卡創業的機會在哪里？

旅游卡創業的機會在哪里？

在當今社會，旅游已經成為了人們休閑娛樂的重要方式之一。隨著經濟的發展和人們生活水平的提高，越來越多的人開始追求更高品質的旅游體驗。因此，旅游卡創業應運而生，為游客提供了更加便捷、實惠的旅游服務。那么，旅游…

閱讀更多...

最新文章