深度學習·ZegclipClip-RC

Zegclip

  • 獲取圖像的特殊編碼:使用prompt tuning的技術,目的是減少過擬合和計算量
  • 調整文本編碼:使用RD關系描述符,將每一個文本對應的[cls] token和圖像對應的[cls] token作哈密頓積,最后文本[cls]token
    在這里插入圖片描述

形式化任務

  • 文本的[cls] token和每一個patch token進行一一匹配,這一點是通過交叉注意力實現的,通過argmax操作得到最后的分割結果
    在這里插入圖片描述

圖像編碼:prompt tuning

  • P作為prompt token
    在這里插入圖片描述

文本編碼:RD關系描述符

While being quite intuitive, we find this design could lead to severe overfitting. We postulate that this is because the matching capability between the text query and image patterns is only trained on the seen-class datasets.

在這里插入圖片描述

Non-mutually Exclusive Loss (NEL)

“the class space will be different from the training scenario, making the logit of an unseen class poorly calibrated with the other unseen classes.” (Zhou 等, 2023, p. 5) (pdf) 🔤類空間將與訓練場景不同,使得看不見的類的 logit 與其他看不見的類的校準很差。🔤

  • 動機:unseen class相比seen class的概率很差,不適合進行softmax
    在這里插入圖片描述

inductive和transductive訓練設置

  • inductive:訓練只用seen類,完全不了解unseen class的name完全不知道unseen class的標注信息,測試時預測seen類和unseen類
  • transductive:訓練分為兩個階段全程都知道seen和unseen class的name但是unseen class的標注信息完全不知道。第一個階段只在seen class上訓練,然后預測unseen class的標注信息,生成偽標簽。第二個階段使用unseen class的為標簽和seen class的ground truth進行訓練,測試與inductive一致。

“In the “transductive” setting, we train our ZegCLIP model on seen classes in the first half of training iterations and then apply self-training via generating pseudo labels in the rest of iterations.” (Zhou 等, 2023, p. 6) (pdf) 🔤在“轉導”設置中,我們在訓練迭代的前半部分在看到的類上訓練我們的 ZegCLIP 模型,然后在其余迭代中通過生成偽標簽來應用自訓練。🔤








CLIP-RC

  • RLB:VIT的特殊編碼
  • RAM:Text encoder的特殊編碼+對齊
  • 損失函數:Recovery Decoder With Recovery Loss
    在這里插入圖片描述

RLB

  • VIT的輸入結構
    在這里插入圖片描述
  • VIT的輸出結構
  • G是圖像token(1,D),P是prompt token(K,D),I是patch token(N,D),R是作者引入的region token(M,D)。

R的理解和掩碼設計

  • 作者認為每一個R中的token對應了NMNM\frac{\sqrt{N}\sqrt{M}}{\sqrt{N}\sqrt{M}}N?M?N?M??個patches

  • 例子:假設N=4,M=2,圖像中2x2的區域對應一個R的token
    在這里插入圖片描述

  • 多了個掩碼矩陣,一個R的token對應這些patch,其他的patch不需要參與計算,所以說有個掩碼矩陣
    在這里插入圖片描述

  • 輸出結果正常拋棄prompt token
    在這里插入圖片描述

RLB

對齊圖像編碼

  • image特征對齊為:(N,3D)
    在這里插入圖片描述

區域描述符(特殊編碼text encoder)

  • 得到特殊編碼:(M,C,2D)
    在這里插入圖片描述

Decoder頭

  • 先把I^\hat{I}I^R^\hat{R}R^進行線性層映射到D維度(N,D)和(M,C,D)
  • 正常交叉注意力
  • 得到I和R形狀不變
    在這里插入圖片描述

where, DMHCA and D′ MHCA denotes the decoder for semantic segmentation with multi-head cross attention, and ?Id ∈ RN×D and ?Rd ∈ RM×C×D are the image features and region-specific text queries respectively, used for segmentation. The segmentation map Output ∈ RC×N is obtained by averaging the outputs:

  • Output:(M,C,D),然后對M維度平均得到最后的掩碼矩陣。
    在這里插入圖片描述

損失函數

  • NLS+Recovery Loss
  • 完全一模一樣架構的decoder(輔助頭)

Then, during training, a recovery decoder recovers the features extracted by the decoder into features with strong generalization. The network architecture of the recovery decoder is completely identical to that of the semantic segmentation decoder. They are recovered as follows:

在這里插入圖片描述
在這里插入圖片描述

  • 這里的I指的是原始CLIP提取的圖像特征,已經被凍結,R指的是關系描述符,也就是文本特征
    在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/94629.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/94629.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/94629.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Taro 擴展 API 深度解析與實戰指南

Taro 擴展 API 深度解析與實戰指南 Taro 作為一款優秀的多端開發框架,提供了一系列強大的擴展 API,這些 API 極大地提升了開發效率和應用的可維護性。本文將深入解析 Taro 的擴展 API,并根據其功能特性進行分類講解,幫助開發者更…

容器之王--Docker的部署及基本操作演練

1.2 部署docker 1.2.1 容器工作方法1.2.2 部署第一個容器 官方站點:https://docs.docker.com/ 1.2.2.1 配置軟件倉庫 ]# cd /etc/yum.repos.d ]# vim docker.repo [docker] name docker-ce baseurl https://mirrors.aliyun.com/docker-ce/linux/rhel/9/x86_64/sta…

VFTO與局部放電-高壓設備絕緣系統的雙重挑戰與防護策略

目錄 引言VFTO的定義與形成機理VFTO對高壓設備絕緣系統的影響局部放電的危害與機制VFTO與局部放電的關聯性分析檢測與監測技術防護與抑制措施未來技術發展趨勢結論與展望引言 在現代電力系統中,超快速暫態過電壓(Very Fast Transient Overvoltage, VFTO&…

Windows下Rust編碼實現MP4點播服務器

Rust編碼可以實現眾多簡潔、可靠、高效的應用,但語法邏輯要求嚴格,尤其是依賴庫的選擇調用,需要耐心堅持“推敲”。借助DeepSeek并反復編程調試和問答改進,可以最終得到完整有效的Rust編碼。下面分享Windows下Rust編碼實現MP4點播…

ubuntu-相關指令

1、串口1.1確認在系統中檢查設備是否正常加載,在終端輸入以下命令:way1:ll /dev | grep ttyUSB(ll是LL的小寫) way2:ll /dev | grep ttyACM way3:ll /dev | grep ttyCH343USB&#…

docker容器臨時文件去除,服務器容量空間

概述: 接到告警提醒,服務器容量不足,去查看了一下,發現確實100g左右容量已基本用完;分析: 1)查看根目錄下哪些文件夾占用容量較大 使用命令“ du -ah --max-depth1 / ” 查看目標目錄下所有文件…

損耗對信號質量的影響

損耗通常分為介質損耗與導體損耗:介質損耗:介質被施加電場后介質內部帶電粒子在外加電場的作用力下進行微小移動介質損耗與頻率成正比導體損耗:導體由于存在電阻,在有電流流過時產生的熱量造成的損耗為導體損耗。同時,…

【42】【OpenCV C++】 計算圖像某一列像素方差 或 某一行像素的方差;

文章目錄1 要使用到的函數 和 原理1.1 cv::meanStdDev 函數詳解——計算均值和標準差1 .2 方差的通俗解釋2 代碼實現3 問題3.1 入口參數const cv::Mat& img 和 const cv::Mat img區別項目要求:C OPenCV 中 圖像img ,當 string ROIdirection “H”時,…

元圖 CAD 插件化革命:突破效率瓶頸,重構智能協作新范式

在建筑、機械、機電等工程領域,傳統CAD軟件的功能固化與場景割裂已成為效率提升的瓶頸。設計師常面臨“通用工具難適配專業需求”、“跨平臺協作效率低下”、“數據孤島阻礙創新”等痛點。元圖CAD憑借“場景插件化“核心技術,以模塊化能力突破行業桎梏&a…

T:歸并排序

歸并排序.逆序對簡介.歸并排序.習題.逆序對簡介 \;\;\;\;\;\;\;\;簡單介紹一下歸并排序的原理&#xff0c;逆序對的基本概念&#xff0c;然后收集相關的練習。 直接用一個基礎問題來引入。 因此知道了: \;\;\;\;\;\;\;\;逆序對就是一對數滿足 i<j&&nums[i]>nu…

三極管三種基本放大電路:共射、共集、共基放大電路

文章目錄一、共集放大電路1.靜態分析2.動態分析二、共基放大電路1.靜態分析2.動態分析總結如何判斷共射、共集、共基放大電路&#xff1f; 電路的輸入回路與輸出回路以發射極為公共端的電路稱為共射放大電路。 電路的輸入回路與輸出回路以集電極為公共端的電路稱為共集放大電路…

Function AI 助力用戶自主開發 MCP 服務,一鍵上云高效部署

作者&#xff1a;靖蘇 在 AI 與云原生協同創新的浪潮下&#xff0c;多模型、多場景智能應用日益普及。開發者面臨的首要挑戰&#xff0c;是如何實現模型之間、服務之間的高效協同&#xff0c;以及如何便捷地將自主研發能力拓展到云端&#xff0c;形成靈活可擴展的智能服務。MC…

c++編譯環境安裝(gcc、cmake)

一、gcc下載 下載地址&#xff1a;https://ftp.gnu.org/gnu/gcc/ 選擇想要下載的版本&#xff0c;然后解壓&#xff0c;查看 contrib/download_prerequisites 中的依賴。 以我下載的 gcc-7.3.0 為例&#xff0c; 二、安裝依賴包 【gmp】 https://ftp.gnu.org/gnu/gmp/ 【is…

基于貝葉斯的營銷組合模型實戰案例(PyMC實踐)

文章出自&#xff1a;基于營銷預算優化的媒體投入分配研究 本篇技術亮點在于結合了廣告飽和度和累積效應&#xff0c;通過數學模型和數值優化方法&#xff0c;精確計算電視與數字媒體的最佳預算分配比例&#xff0c;實現增量銷售最大化。該方法適合有多渠道廣告投放需求、預算…

react_05create-react-app腳手架詳細解析(export)

腳手架是什么&#xff1f; 是一種工具:快速生成項目的工程化結構&#xff0c;讓項目從搭建到開發&#xff0c;到部署&#xff0c;整個流程變得快速和便捷。 安裝過程: 1.安裝node,安裝完成后驗證版本,出現對應版本就表示成功 node --version npm --version2.React腳手架默認是使…

Uncaught TypeError: Illegal invocation

報錯信息Uncaught TypeError: Illegal invocation關鍵代碼$.operate.post(prefix "/edit", { "taskId": taskId, "taskStatus": completed });<input id"taskId" style"display: none;">[[${completeTask.taskId}]]&…

深入解析Go設計模式:責任鏈模式實戰

什么是責任鏈模式? 責任鏈模式(Chain of Responsibility Pattern)是一種行為設計模式,它通過構建處理者鏈來傳遞請求。每個處理者既能自行決定是否處理當前請求,也可將請求轉交給后續處理者。該模式的核心優勢在于解耦請求發送方與處理方,使多個對象都能獲得處理請求的機…

機器視覺系統工業相機的成像原理及如何選型

機器視覺系統是一種模擬人類視覺功能&#xff0c;通過光學裝置和非接觸式傳感器獲取圖像數據&#xff0c;并進行分析和處理&#xff0c;以實現對目標物體的識別、測量、檢測和定位等功能的智能化系統。其目的是讓機器能夠理解和解釋視覺信息&#xff0c;從而做出決策或執行任務…

Java如何快速實現短信登錄?

全文目錄&#xff1a;開篇語前言1. 短信登錄的工作原理2. 短信登錄的優點3. 短信登錄的缺點4. 短信登錄的實現示例&#xff1a;使用 Java 實現短信登錄的流程4.1 發送短信驗證碼&#xff08;偽代碼&#xff09;4.2 使用第三方短信平臺發送短信&#xff08;以阿里云為例&#xf…

HTML已死,HTML萬歲——重新思考DOM的底層設計理念

每周跟蹤AI熱點新聞動向和震撼發展 想要探索生成式人工智能的前沿進展嗎&#xff1f;訂閱我們的簡報&#xff0c;深入解析最新的技術突破、實際應用案例和未來的趨勢。與全球數同行一同&#xff0c;從行業內部的深度分析和實用指南中受益。不要錯過這個機會&#xff0c;成為AI領…