【論文閱讀】SegCLIP:用于高分辨率遙感圖像語義分割的多模態視覺語言和快速學習

【論文閱讀】SegCLIP:用于高分辨率遙感圖像語義分割的多模態視覺語言和快速學習

文章目錄

  • 【論文閱讀】SegCLIP:用于高分辨率遙感圖像語義分割的多模態視覺語言和快速學習
    • 一、介紹
    • 二、聯系工作
    • 三、方法
    • 四、實驗結果
      • **數據集**

SegCLIP: Multimodal Visual-Language and Prompt Learning for High-Resolution Remote Sensing Semantic Segmentation

?
基于深度學習的語義分割方法層出不窮,取得了重大突破

目前的研究主要集中在視覺特征空間的表征學習上,多模態數據源的潛力還有待充分挖掘
?

視覺語言的基礎模型,即對比語言圖像預訓練(CLIP),在視覺領域建立了一個新的范式

提出了一種基于語言描述的提示方法,使CLIP能夠為遙感圖像生成語義上不同的上下文信息

?

已經適應CLIP提取文本信息,從而指導視覺模型區分類

分利用文本數據的潛力,使用額外的真實的文本來細化模糊查詢特征

?

實驗結果表明,該方法在LoveDA、iSAID和UAVid公共語義分割數據集上表現出了上級的性能

?

一、介紹

高分辨率遙感圖像的語義分割是現代空間信息技術的重要組成部分

?

遙感語義分割作為一項基本的計算機視覺任務,試圖精確地將遙感圖像的每個像素分類到具有特定語義信息的類中

語義分割依賴于

  • 閾值分割
  • 邊緣檢測
  • 傳統機器學習

?

這些方法通常難以處理復雜場景和動態環境,并且由于有限的手動特征表達、泛化能力差和準確性低

?
隨著深度學習的發展,圖像語義分割取得了重大進展

  • 交叉融合網絡CF-Net引入了HRRS圖像的交叉融合模塊,擴展了低層特征的感受野
  • S-RA-FCN通過分析空間位置和特征圖之間的全局關系來增強關系特征表示

?
基于Transformer的架構在HR-RS圖像語義分割方面取得了很好的效果

?

但由于只關注單模態數據,而忽略了多模態數據豐富的語義潛力,導致性能瓶頸

開發一個多模態HRRS語義分割框架對于克服這一局限性至關重要

?
隨著傳感器的多樣性和遙感圖像數量的不斷擴大

多模態方法在語義分割任務中的應用越來越受到關注[29]

常見的遙感數據包括

  • 多光譜圖像
  • 激光雷達(LiDAR)
  • 合成孔徑雷達(SAR)數據

?
Pan等人證明,將LiDAR數據合并到2-D多光譜圖像中可以有效地解決建筑物高度的變化

Li等人開發了一種用于土地覆蓋分類的融合架構,采用神經結構搜索(NAS)將分層光學特征與SAR數據融合

Kang等人通過光學圖像的知識轉移增強了SAR圖像分割性能

?

視覺語言表征學習成為計算機視覺研究的一個重要領域,其目標是利用深度學習技術從圖像-文本對中提取統一的跨模態特征表征,從而增強各種多模態任務

?

相關的工作:

  • Li等人[33]將文本元素與相應的圖像區域對齊,從而增強語言和視覺組件之間的關聯
  • Rahhal等人[34]引入了多語言Transformer模型,該模型通過集成多語言特征和提高理解能力來提高跨模態檢索的準確性
  • 對比語言圖像預訓練(CLIP)[35]在視覺分類任務中取得了顯著的成功
  • Dong等人[36]利用CLIP通過將其與描述性文本信息相結合,顯著提高了遙感圖像中變化檢測的準確性和效率
  • Rao et al [37]和Yang et al [38]通過像素-文本對齊將CLIP納入語義分割網絡,顯著提高了分割性能

?

我們將CLIP集成到掩模分類中,并提出了一種新的多模態HRRS語義分割框架SegCLIP

?
與像素文本匹配方法不同,我們提出了一種使用文本信息作為查詢條件的新方法

每個Mask確定相應的區域是否屬于查詢文本所描述的對象

這些掩碼不僅準確地識別特別是,受提示學習的啟發,我們使用CLIP來生成描述遙感圖像的語言提示

?

以開發復雜的跨模態映射能力,為進一步提高遙感圖像語義分割的多模態融合能力

設計了一個跨模態特征融合(CFF)模塊

?

該模塊將遙感影像的高層語義特征與相應的文本描述進行協調和整合,有效解決了模態間的信息異構,增強了跨模態的信息互補和協同理解

為了充分利用文本信息的優勢,這些真實的文字提示被巧妙地引入

?
貢獻如下:

  • 集成了一個多模態視覺語言框架到語義分割網絡的基礎上掩碼分類,它采用Mask來保持詳細的類別和邊界信息
  • 為了解決多模態特征對齊的關鍵問題,我們開發了一個專門的多模態遙感語義分割CFF模塊,為了語義一致性
  • 為了充分挖掘文本信息的潛在價值,我們提出了一種額外的文本信息描述來引導模糊query特征

?

二、聯系工作

基于深度學習的語義分割

語義分割的目標是為給定圖像中的每個像素分配語義標簽,以便每個像素都正確地標記其相應的類別

語義分割任務面臨著由于類內和上下文變化而帶來的困難
?

語義分割方法大致可以分為兩大類:

  • 逐像素分類的分割方法
  • 基于掩碼分類的分割方法

?

模分類模型預測圖像中每個對象實例的類特定掩模,而不是獨立地對每個像素進行分類

掩碼分類廣泛應用于實例級分割任務中

?

相關工作:

  • 基于掩碼區域的卷積神經網絡(Mask R-CNN)結合了對象檢測和像素級分割的集成方法
  • 檢測變換器(DETR)引入了一種集成預測機制,可以在對象查詢的幫助下為每個區域生成類預測結果
  • (MaskFormer)和掩蔽注意力Mask Transformer(Mask2Former)統一了語義分割和實例分割
  • 混合掩碼變換器(MMT)首次將掩碼分類引入遙感圖像解碼
  • 多尺度原型對比度網絡(MPCNet)提出了一種基于原型比較的Mask分類網絡
    ?

我們提出了一種基于掩模分類技術的HRRS圖像語義分割方法,該方法深入探索并充分利用了多模態融合策略

?

多模態prompt學習

計算機視覺任務的學習范式主要以“預訓練和微調”方法為特征

監督學習]或自監督學習在自然圖像上進行預訓練

?

在預訓練模型的基礎上,針對各種特定的下游任務,進一步對模型參數進行有針對性的微調和優化

作為適應不同視覺理解和識別需求的一種方式

?

這一過程主要依賴于像ImageNet這樣的大型自然圖像數據集進行預訓練

方法轉向一個新的階段:“預訓練和提示”

?

重點轉移到使用提示重新設計輸入以與原始預訓練任務保持一致的下游任務上

最大限度地減少了預訓練模型和特定任務微調之間的語義偏差

?

越來越多的研究人員將多模態學習用于計算機視覺任務

  • Language aware domain generalization network for cross-scene hyperspectral image classification
  • A distance-constrained semantic autoencoder for zero-shot remote sensing scene classification
  • Few-shot object detection in aerial imagery guided by textmodal knowledge

?

  • Tan和Bansal 通過共享的Transformer結構聯合建模來自兩種模態的信息,學習統一且相互關聯的跨模態表示
  • Li等人提出了一種結合視覺和語言表示的學習的方法,通過動量蒸餾技術預先對齊它們,以改善來自兩種模態的信息融合
  • Huo et al [67]介紹了一種大規模的多模態預訓練方法,旨在通過圖像和文本數據的聯合訓練,有效地構建和橋接視覺和語言之間的聯系

?

CLIP [35]是自監督和多模態深度學習的里程碑,它使用了大規模的比較學習機制

以有效地將圖像與相關的文本描述進行配對,從日常自然場景到遙感和醫學成像等專業領域

?

Rao等人[37]使用CLIP模型對圖像中的每個像素進行分類,通過將圖像-文本匹配轉換為像素-文本匹配來實現更精確和密集的語義分割預測

Yang等人[38]在此基礎上,通過整合多模態和多尺度信息,實現了遙感圖像的語義分割

?

SegCLIP集成了掩模分類和基于文本的視覺遙感語義分割,與像素-文本匹配相比,每個掩模不僅可以準確地識別目標對象的位置,而且可以更好地保留其邊界信息

?

三、方法

在本節中,我們首先詳細介紹SegCLIP框架,這是一種使用CLIP進行語義提示的HRRS語義分割任務的學習方法

?

SegCLIP的整體架構分為三個核心組件:

  • 多尺度特征建模
  • 跨模態文本提示和Transformer解碼
  • 類別預測

?

重點研究:

  • 跨模態文本提示
  • Transformer解碼
  • 文本映射提示(TMP)
  • CFF模塊
  • 地面真實文本引導(GTG)

在這里插入圖片描述

SegCLIP整體框架:該框架分為三個主要部分:

**(a)**提取多尺度特征

**(b)**為隨后的文本提示生成語言描述

**(c)**生成分類及其相應的掩碼

?
在多尺度特征建模階段,選擇ResNet-50 作為主干網絡結構來提取圖像的多級特征表示

然后由像素解碼器細化,以實現每個像素級的準確預測
?

跨模態文本提示主要包括TMP、CFF模塊和GTG,這也是我們工作的重點

?
利用CLIP模型的無監督分類能力,生成文本提示,用于多模態輸入數據,側重于語義分割

僅使用CLIP的文本編碼器,凍結其參數,這個過程是由TMP完成的
?

文本和圖像數據的表示和結構差異較大,直接使用文本特征指導圖像中的語義特征提取可能會導致模型學習困難

因此通過CFF模塊將聯合收割機的文本和視覺特征結合起來

在跨模態文本提示中,通過GTG引入地面實況(Ground-Truth,GT)文本信息
?

經過多層Transformer解碼器運算,最終得到維數為N ×(K + 1)的類預測向量

二進制掩碼預測Pmask的維數為N × H × W

通過對掩碼嵌入和類別預測向量Pclass進行逐元素乘積運算得到,最后通過矩陣運算將Pclass和Pmask結合得到最終的語義分割結果
?

文本映射提示

建了一種自適應的方法來生成這樣的描述,旨在協調掩模分類與視覺文本

過引入聯合視覺-語言學習機制,我們將交叉注意學習轉化為探索視覺數據和語言描述之間內在聯系的過程

?

我們選擇LoveDA數據集[70]作為示例

它涵蓋了七個核心類:背景、建筑物、道路、水、荒地、森林、農業,對于這n個類,我們構造了相應的文本描述

在這里插入圖片描述

我們使用模板“a photo with a {class}”為每個類編譯一個文本描述列表,其中“class”表示類名

文本映射器包括文本標記器,凍結文本編碼器,

  • 該組件生成視覺上相關的文本提示查詢嵌入(Ntext)
  • 隨后將其與可學習的文本上下文嵌入(Qctx)
  • 集成以形成文本提示(Qtext)

?

文本結構為text = [a photo with a {classi}],其中i ∈ [1,7]

使用稱為文本標記器的序列數據處理方法將這些自然語言描述轉換為文本編碼特征

?

編碼器是一個包含12層轉換器的架構。

因此,文本嵌入不僅包含圖像中的二進制掩碼信息,還包含每個類別的概率分布,從而為模型提供豐富的語義信息

在這里插入圖片描述
?

為了進一步增強模型的語義理解能力,我們引入了一組可學習的文本上下文嵌入Qctx

反過來又會生成N個文本查詢項(Qtext

在這里插入圖片描述
?

CFF模塊

由于遙感圖像本身的復雜性,文本編碼器提取的文本信息很難與特定的遙感圖像準確對應,這對多模態遙感圖像語義分割提出了挑戰

設計了一個CFF模塊,旨在有效地集成圖像的高級語義特征和文本嵌入特征

以增強不同模態之間的協同作用和相關性

class的數量(n)小于query的數量(N)

?

當構造文本提示時,原始文本嵌入可能包含冗余的“空白”信息,這對于在分割任務中引導提示沒有幫助

?

采用注意機制來促進每個位置特征按照其順序進行信息的交互和整合

旨在增強和協調內部特征表征的一致性,從而抑制冗余信息的表達

這種方法對于嚴重依賴文本上下文的信息特別有利

在這里插入圖片描述
在這里插入圖片描述

這些特征包含了豐富的上下文信息,能夠捕捉和表達內部復雜的細節和結構關系,通過交叉注意機制對齊這些特征,使模型能夠更好地理解文本和圖像之間的內在關系

?

使用閉集合中的類標簽作為文本提示來精確定義查詢范圍,但是,這個過程未能充分利用文本信息的潛力

?
雖然我們在圖4中為遙感圖像

指定了“背景”、“農業”、“道路”、“森林”、“荒地”、“水”和“建筑物”的文本提示

但在(b)中只有“背景”、“道路”和“建筑物”標簽相關,其余提示都不相關,提示使用率低

在這里插入圖片描述
雖然目前的方法通過標簽定義查詢范圍,但不能有效利用文字提示,如何制定更準確的指引?

如圖5所示,(a)和(B)的提示內容由類(c)和(d)采用GT來獲取語言描述作為提示內容,利用相應的提示內容作為附加查詢

在這里插入圖片描述
采用方法(d)可以獲得上級性能

為了便于計算,假設GT包含前t類的前景。因此,textgt被公式化為[具有{classi}的照片],其中i ∈ [1,t]

textgt經過文本標記器(Tt)和文本編碼器(encodertext)的處理,以生成文本映射(Qgt),然后將其作為附加查詢嵌入
在這里插入圖片描述

?

因此,在解碼器的訓練階段,查詢被分為兩部分:

引導部分(Qgt

重建部分(Qtext

重建部分來自數據集中的類別描述

?

我們從GT中獲得與每個類別對應的前景區域作為二進制掩碼

掩碼注意階段,我們聯合將這些類別特定的二進制掩碼與原始掩碼相結合,并使用GT的二進制掩碼來指導原始掩碼的重建過程

在這里插入圖片描述

自我注意階段,我們引入了注意力掩模方法

在這里插入圖片描述

損失函數

egCLIP訓練過程涉及計算兩個主要損失:預測分類損失和預測掩碼損失

在這里插入圖片描述
?

四、實驗結果

數據集

LoveDA數據集

  • 1024 × 1024像素
  • 2522張圖像進行訓練
  • 1669張圖像進行驗證/測試

?

iSAID 數據集

  • 512 × 512
  • 1411幅訓練集圖像進行訓練,
  • 458幅圖像進行驗證

?

UAVid 數據集

  • 1024 × 1024像素
  • 200幅圖像用于訓練
  • 70幅圖像用于驗證

?在這里插入圖片描述
在這里插入圖片描述

文中還給了更多對應的消融實驗

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/94713.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/94713.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/94713.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Anaconda、OpenCV安裝配置方法

目錄 1.Anaconda安裝 1.1 國內鏡像軟件下載 1.2 點擊exe,一路下一步安裝 1.3 檢查安裝情況 1.3.1 安裝前后系統環境變量變化對比 1.3.2 查看安裝路徑和版本 1.4 Anaconda自帶的python版本查看命令如下: 1.5 修改鏡像地址,加快下載包的…

C++函數繼承

C函數繼承引言C三大特征分別為封裝,繼承和多態,它們構成了面向對象編程的基石,它們協同工作以提升代碼的模塊化,可復用性和靈活性封裝:提高代碼的維護性(當程序出現問題時可以準確定位)繼承&…

瞬態數據表定義Fluent變量

重要說明:本文基于2025R2版本編寫,其他版本可能存在差異。1 概述瞬態數據表是定義 Fluent 變量隨時間變化規律的profile文件,文件類型為文本文件。瞬態數據表假設所有時刻,被定義的對象都是均勻分布,無法考慮變量在空間…

文本嵌入模型的本質

這是一個非常深刻且重要的問題。我們來詳細拆解一下“通用文本嵌入模型”的本質。 我們可以從三個層次來理解它:它是什么(What),它如何工作(How),以及它為什么重要(Why)。…

Linux筆記13——shell編程基礎-7

補充1.printf %s\t%s 字符串 中,\t一定不要加雙引號,這一點和在awk中使用的時候有所不同2.其中%s也可以寫成%ns,n可以被用來設置列寬,默認右對齊#打印輸出文件系統的使用情況 [rootlocalhost ~]# printf %-30s\t%s\n $(df -h | aw…

【混合開發】Android+WebView視頻圖片播放硬件加速詳解

webview視頻播放出現白屏、藍屏、花屏、黑屏等等 但由于布局結構是androidwebviewH5本地視頻等。視頻播放導致的異常排查起來十分復雜且沒有原生的相關日志 于是需要給webview播放視頻進行硬件加速,剛開始以為是一件很簡單的配置而已。本著無經驗從頭開始的原則&am…

Allegro-DDR3實戰-差分對-等長設置-區域規則

本章內容: 一)Allegro之DDR3設計 (實操干貨) 二)規則設置具體步驟 DDR3信號表: (eg:鎂光MT41J256M16HA-15E) 數據信號 DQ[15:0] DQS[1:0] DM[1:0] DQ:雙向數據總線 DQS:數據選通,用于同步數據傳…

七牛云OSS空間復制遷移到另外一個空間

創新新的空間時存儲地區必須一致 訪問控制必須選擇公開 1、下載七牛的同步工具并解壓 qshell(http://developer.qiniu.com/docs/v6/tools/qshell.html) 2、解壓文件 3、運行cmd登錄到七牛賬號 qshell account 你的七牛AK 你的七牛SK 你的賬號 4、測…

windows中Qwen3?Coder 與 Claude Code 搭配使用

claude安裝命令 npm install -g anthropic-ai/claude-code環境變量配置 set ANTHROPIC_BASE_URLhttps://dashscope.aliyuncs.com/api/v2/apps/claude-code-proxy set ANTHROPIC_AUTH_TOKENyour-dashscope-apikey可能還需要配置自己的git環境變量 查看git安裝位置 按下Win S打…

thunar 文件管理器實現雙擊使用 nvim打開

archlinux 中thunar 文件管理器,如何實現雙擊使用 nvim打開查看。我用的是kitty 終端。 在 Arch Linux Thunar kitty nvim 的環境里,要實現 雙擊文件 -> 用 nvim 打開,你可以這樣配置:設置為默認應用 如果你想 雙擊直接用 n…

深度學習----卷積神經網絡實現數字識別

一、準備工作 導入庫,導入數據集,劃分訓練批次數量,規定訓練硬件(這部分 import torch from torch import nn # 導入神經網絡模塊 from torch.utils.data import DataLoader # 數據包管理工具,打包數據 from torch…

鴻蒙Harmony-從零開始構建類似于安卓GreenDao的ORM數據庫(四)

目錄 一,查詢表的所有數據 二,根據條件查詢數據 三,數據庫升級 前面章節已經講解了數據庫的創建,表的創建,已經增刪改等操作。下面我們來講解一下數據庫的查詢以及升級操作。 一,查詢表的所有數據 先來看看官方文檔: query(predicates: RdbPredicates, callback: Asy…

20250829_編寫10.1.11.213MySQL8.0異地備份傳輸腳本+在服務器上創建cron任務+測試成功

0.已知前提條件: 10.1.11.213 堡壘機訪問 mysql 8.0 版本 密碼在/root/.my.cnf 備份腳本:/data/backup_mysql/mysql_backup.sh alarm_system:動環數據庫 exit_and_entry:出入境數據庫 logs:備份日志 project_cg_view_prod:采購跟蹤系統 all :數據庫整體備份 imip_ecb…

PostgreSQL 流復制與邏輯復制性能優化與故障切換實戰經驗分享

PostgreSQL 流復制與邏輯復制性能優化與故障切換實戰經驗分享 在高可用和數據安全愈發受到重視的生產環境中,PostgreSQL 復制技術是保障業務連續性的重要手段。本文結合真實生產場景,分享流復制(Physical Replication)與邏輯復制&…

Django開發規范:構建可維護的AWS資源管理應用

引言 在現代Web開發中,遵循一致的開發規范對于項目的可維護性和團隊協作至關重要。本文基于實際的AWS資源管理項目,分享一套經過實踐檢驗的Django開發規范,涵蓋模型設計、Admin配置、管理命令和工具類開發等方面。 模型開發規范 數據模型設計原則 良好的數據模型設計是應…

機器學習可解釋庫Shapash的快速使用教程(五)

文章目錄1 快速使用1.1 安裝1.2 三個簡單步驟快速入門1.2.1 步驟 1:準備模型和數據1.2.2 步驟 2:聲明并編譯 SmartExplainer1.2.3 步驟 3:可視化和探索1.2.4 啟動 Web 應用1.2.5 將解釋結果導出為數據2 Shapash的后端集成2.1 方法一&#xff…

如何在emacs中添加imenu插件

在配置文件中添加: ;; 刪除現有的包管理器配置(如果有),然后添加以下:;; 初始化包管理器 (require package);; 清除現有的倉庫列表 (setq package-archives nil);; 添加正確的倉庫(注意:使用 H…

Linux下的網絡編程SQLITE3詳解

常用數據庫關系型數據庫將復雜的數據結構簡化為二維表格形式大型:Oracle、DB2中型:MySql、SQLServer小型:Sqlite非關系型數據庫以鍵值對存儲,且結構不固定JSONRedisMongoDBsqlite數據庫特點開源免費,C語言開發代碼量少…

適配openai

openai 腳本 stream腳本import os from openai import OpenAIclient OpenAI(base_url"http://127.0.0.1:9117/api/v1",api_keyos.environ["ACCESS_TOKEN"], )stream client.chat.completions.create(model "Qwen/Qwen2-7B-Instruct",messages…

一天認識一個神經網絡之--CNN卷積神經網絡

CNN 是一種非常強大的深度學習模型,尤其擅長處理像圖片這樣的網格結構數據。你可以把它想象成一個系統,它能像我們的大腦一樣,自動從圖片中學習并識別出各種特征,比如邊緣、角落、紋理,甚至是更復雜的物體部分&#xf…