【論文閱讀】多模態——LSeg

文獻基本信息

  • 標題:Language-Driven Semantic Segmentation
  • 作者:Boyi Li、Kilian Q. Weinberger、Serge Belongie、Vladlen Koltun、René Ranftl
  • 單位:Cornell University、University of Copenhagen、Apple、Intel Labs
  • 會議/期刊:ICLR
  • 發表時間:2022年4月3日
  • 代碼:https://github.com/isl-org/lang-seg

背景與意義

  • 語義分割可以看做是像素級的分類,因此分類的新技術、新思路,一般可以直接用過來。
  • ?本文實現了zero-shot的語義分割,實現方式與CLIP實現zero-shot的方式類似,都是通過類別prompt作為文本輸入,然后計算相似度。

  • 給定一張圖片,然后通過文本prompt給定任意的類別,從而實現對應的語義分割。
  • 從上圖中可以看到,給定了對應的類別prompt:
  1. 對于圖中明確出現了的語義類別(如dog、tree),模型能夠很清楚地分割出來。
  2. 對于圖中沒有的類別(如vehicle),模型也不會誤召回(容錯率高)。
  3. 對于圖中有、但是類別prompt沒給的類別(如grass),也能正確分類為other。
  4. 同樣可以檢測類別的子類或父類(如dog、pet),模型也能夠通過語義識別出來。
  • 由于CLIP類的模型實質上都是通過計算圖文相似度來實現分類或分割的,因此對于“other”類的類別,prompt文本實際可以是任何無意義的文本,如“me”、“a”或“an” 等,只要與目標類別不要太接近即可。

研究方法與創新點

  • 如上圖所示,模型整體看來與CLIP模型非常相似,圖像先輸入圖像編碼器(DPT ViT+decoder)得到特征向量,再進行一些upscaling,輸出圖像與原圖像大小保持一致,輸出再與ground-truth做交叉熵,其中將單個的圖像文本特征換成語義分割中逐像素的密集特征
  • 文本編碼器提取$N \times C$的文本特征($N$個類別,$C$為特征維度),圖像編碼器提取$\tilde H \times \tilde W \times C$的密集圖像特征(跟原來相比有所降維,比如1/4、1/16),文本-圖像二者相乘得到$\tilde H \times \tilde W \times N$的特征,再經過空間規整模塊上采樣回原圖尺寸,完成語義分割,其中$N$$C$$\tilde H$$\tilde W$分別是類別prompt個數(可變)、通道數和特征圖的高、寬。除了上面的文本編碼器提取的文本特征要與密集圖像特征相乘來計算像素級的圖文相似度之外,整個網絡與傳統的有監督網絡完全一致
  • 在訓練過程中,模型是以有監督的方式進行訓練的,也就是說訓練過程中是存在標注的分割圖的,模型在7個分割數據集上進行訓練。
  • 在推理時,可以指定任意個數、任意內容的類別prompt來進行zero-shot的語義分割。
  • 創新:通過在傳統的有監督分割模型上加入文本特征,通過特征相乘把文本特征和圖像特征結合起來,學到一些languge-aware的特征,在最后就能用文本prompt得到任意的分割效果
  • LSeg整個文本編碼器就是CLIP的文本編碼器的模型和權重,并且訓練、推理全程中都是凍結的;LSeg的圖像編碼器可以是任何網絡(CNN/ViT),需要進行訓練。
  • 空間規整模塊是本文提出的一個模塊,為了在計算完像素級圖文相似度后有一些可學習的參數來理解計算結果,由一些卷積逐深度卷積組成。

研究結論

  • 在PASCAL-5、COCO20、FSS-1000上作評價,如PASCAL-5有20類,現在把20類分成4份,每份5類,將其中5類作為已知,其他15類未知,做zero-shot實驗。

  • 由上圖可知,LSeg在zero-shot的語義分割上確實大幅領先之前方法,但是與few-shot哪怕是one-shot相比,還是有很大的提升空間

  • 由上圖可知,LSeg在zero-shot的語義分割上確實大幅領先之前方法,但是與few-shot哪怕是one-shot相比,還是有很大的提升空間

存在的問題

  1. 空間規整層是簡單的conv卷積或者DWconv,這一層進一步學習文本圖像融合后的特征,理解文本與圖像如何交互。消融實驗證明,兩層空間規整層效果最好,但是四層空間規整層突然就崩了,本文中并沒有對此解釋原因,因此無法得知空間規整是否是一個穩定有效的技巧。

啟發與思考

  1. 圖像分類任務圖像分割任務很像,無非就是把圖像級別的分類轉變成像素級別的分類,前者的技術往往都能直接應用到后者。
  2. 提供了一種利用CLIP的新思路,可以單獨使用其中的文本或圖像編碼器,并且也可以用有監督的方式進行訓練。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/72929.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/72929.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/72929.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【MySQL基礎-1】MySQL 用戶管理指南:創建用戶、修改密碼與權限分配

MySQL 作為廣泛使用的關系型數據庫管理系統,用戶管理和權限分配是其核心功能之一。合理創建用戶、修改密碼以及分配權限,不僅能保障數據庫的安全性,還能有效控制用戶的操作范圍。本文將詳細介紹如何在 MySQL 中創建用戶、修改用戶密碼以及分配…

影刀RPA編碼版與流程版解析

影刀RPA編碼版是影刀RPA的一個高級版本,它結合了流程版的可視化操作和編碼版的強大靈活性,以下是對影刀RPA編碼版的詳細介紹: 1. 功能對比 流程版: 可視化操作:通過拖拽式流程設計器,用戶可以像搭積木一樣…

20天 - TCP 和 UDP 有什么區別?說說 TCP 的三次握手?TCP 是用來解決什么問題?

TCP 和 UDP 有什么區別? TCP(傳輸控制協議)和 UDP(用戶數據報協議)都是傳輸層的網絡協議,它們的主要區別如下: 連接方式 TCP:面向連接的協議,類似于打電話&#xff0c…

【MySQL_05】語法簡述(是語法,不詳細介紹各種語句)

文章目錄 一、基本規則二、標識符規則三、數據類型四、運算符五、關鍵字六、SQL 語句的通用語法結構 歷史文章點擊👉:SQL 🐈??github:https://github.com/mysql 💻官網: https://www.mysql.com &#…

JavaScript中的生成器函數詳解

在 JavaScript 中,生成器函數 Generator Function 是一種特殊的函數,它允許你在函數執行過程中暫停和恢復。生成器函數通過 function* 語法定義,并使用 yield 關鍵字來控制函數的執行流程。生成器函數返回一個生成器對象,該對象遵…

計算機網絡——交換機

一、什么是交換機? 交換機(Switch)是局域網(LAN)中的核心設備,負責在 數據鏈路層(OSI第二層)高效轉發數據幀。它像一位“智能交通警察”,根據設備的 MAC地址 精準引導數…

Git合并工具在開發中的使用指南

在團隊協作開發中,Git 是最常用的版本控制工具,而代碼合并(Merge)是多人協作不可避免的環節。當多個開發者同時修改同一文件的相同區域時,Git 無法自動完成合并,此時需要借助合并工具(Merge Too…

實現多語言適配

1.在res下創建多語言資源文件: 2.選擇需要的語言 然后得到多種語言適配string文件: 3.代碼設置多語言 object LanguageHelper {/*** 獲取適配的 Context*/fun getAttachBaseContext(context: Context): Context {return if (Build.VERSION.SDK_INT > …

【學習方法一】

學習方法一 一、通用高效學習法二、學科專項方法三、工具與技術輔助四、習慣與心理策略五、避免常見誤區總結六、進階學習策略七、解決學習痛點八、場景化學習法九、資源與工具推薦十、個性化學習調整十一、長期學習心態十二、常見問題QA十三、應對特殊挑戰的學習法十四、健康與…

Golang學習筆記_44——命令模式

Golang學習筆記_41——觀察者模式 Golang學習筆記_42——迭代器模式 Golang學習筆記_43——責任鏈模式 文章目錄 一、核心概念1. 定義2. 解決的問題3. 核心角色4. 類圖 二、特點分析三、適用場景1. 事務管理系統2. 多媒體遙控器3. 操作審計系統 四、Go語言實現示例五、高級應用…

應急響應--流量分析

(一)Cobalt Strike流量特征分析 1.HTTP特征 源碼特征: 在流量中,通過http協議的url路徑,在checksum8解密算法計算后,32位的后門得到的結果是92,64位的后門得到的結果是93,該特征符…

CI/CD—Jenkins配置一次完整的jar自動化發布流程

背景: 實現設想: 要創建自動化發布,需要準備一臺測試服務器提前安裝好java運行所需的環境,JDK版本最好和Windows開發機器上的版本一致,在Jenkins上配置將構建好的jar上傳到測試服務器上,測試服務器自動啟動…

創建分區表ORA-14037

1、故障現象 在跑腳本的時候創建物化試圖提示分區界限過高 2、解決方法 最終原因是:缺少了 這個 r34411分區,加上就好。 判斷是物化視圖創建的時候需要兼容所有分區的數據,所以報錯,而分區表則不存在這種情況 3、測試驗證 分區…

轉和git subtree管理方式為git submodule的管理方式

將 Git 子樹(subtree)轉換為子模塊(submodule)的步驟如下: 1. 確定子樹的路徑和對應的遠程倉庫地址 找到當前項目中子樹的路徑以及對應的遠程倉庫地址。例如,假設子樹的路徑為 subtree-folder&#xff0c…

基于51單片機多功能防盜報警系統

基于51單片機多功能防盜報警系統( proteus仿真程序設計報告原理圖講解視頻) 1. 主要功能:2. 講解視頻:3. 仿真4. 程序代碼5. 設計報告6. 原理圖7. 設計資料內容清單&&下載鏈接 仿真圖proteus8.9及以上 程序編譯器:keil 4/…

R語言和RStudio安裝

整體還是比較簡單的,主要是記錄個流程。 官方鏡像站列表R語言官網 1 安裝R(2025/3/6) R語言官網:The R Project for Statistical Computing 打開之后就Hello world一下吧 配置環境變量 2 安裝RStudio 下載地址:htt…

Ubuntu 22.04 升級到 Ubuntu 24.04 全流程指南

📌 1. 前言 Ubuntu 24.04 是最新的 LTS 版本,帶來了內核更新、性能優化以及更強的安全性。本指南詳細記錄了從 Ubuntu 22.04 升級到 24.04 的完整過程,包括 升級前的準備、遇到的問題及如何選擇最佳選項,避免升級失敗或系統損壞。…

【每日學點HarmonyOS Next知識】Web跨域資源、Web長按菜單、Web攔截請求、禁止錄屏、Base64圖片寬高

1、HarmonyOS Web組件本地資源跨域問題? 關于資源跨域問題的解決,可以參考以下官網文檔:https://developer.huawei.com/consumer/cn/doc/harmonyos-guides-V5/web-cross-origin-V5 方法一 為了使Web組件能夠成功訪問跨域資源,開…

數據庫查問題常用OS命令匯總

1、內存使用情況查看 top //查看活躍進程占用情況 free -mh //查看操作系統當前可用內存 2、cpu使用情況 lscpu //查看os cpu情況 sar -u -f sar文件名 -s hh:mm:ss -e hh:mm:ss //查看對應日期的歷史cpu情況 top //查看當前活躍進程使用cpu情況 3、io情況 iostat …

nlp培訓重點-5

1. LoRA微調 loader: # -*- coding: utf-8 -*-import json import re import os import torch import numpy as np from torch.utils.data import Dataset, DataLoader from transformers import BertTokenizer """ 數據加載 """cl…