【論文閱讀】SegCLIP：用于高分辨率遙感圖像語義分割的多模態視覺語言和快速學習

文章目錄

【論文閱讀】SegCLIP：用于高分辨率遙感圖像語義分割的多模態視覺語言和快速學習
- 一、介紹
- 二、聯系工作
- 三、方法
- 四、實驗結果
- - **數據集**

SegCLIP: Multimodal Visual-Language and Prompt Learning for High-Resolution Remote Sensing Semantic Segmentation

?
基于深度學習的語義分割方法層出不窮，取得了重大突破

目前的研究主要集中在視覺特征空間的表征學習上，多模態數據源的潛力還有待充分挖掘
?

視覺語言的基礎模型，即對比語言圖像預訓練（CLIP），在視覺領域建立了一個新的范式

提出了一種基于語言描述的提示方法，使CLIP能夠為遙感圖像生成語義上不同的上下文信息

已經適應CLIP提取文本信息，從而指導視覺模型區分類

分利用文本數據的潛力，使用額外的真實的文本來細化模糊查詢特征

實驗結果表明，該方法在LoveDA、iSAID和UAVid公共語義分割數據集上表現出了上級的性能

一、介紹

高分辨率遙感圖像的語義分割是現代空間信息技術的重要組成部分

遙感語義分割作為一項基本的計算機視覺任務，試圖精確地將遙感圖像的每個像素分類到具有特定語義信息的類中

語義分割依賴于

閾值分割
邊緣檢測
傳統機器學習

這些方法通常難以處理復雜場景和動態環境，并且由于有限的手動特征表達、泛化能力差和準確性低

?
隨著深度學習的發展，圖像語義分割取得了重大進展

交叉融合網絡CF-Net引入了HRRS圖像的交叉融合模塊，擴展了低層特征的感受野
S-RA-FCN通過分析空間位置和特征圖之間的全局關系來增強關系特征表示

?
基于Transformer的架構在HR-RS圖像語義分割方面取得了很好的效果

但由于只關注單模態數據，而忽略了多模態數據豐富的語義潛力，導致性能瓶頸

開發一個多模態HRRS語義分割框架對于克服這一局限性至關重要

?
隨著傳感器的多樣性和遙感圖像數量的不斷擴大

多模態方法在語義分割任務中的應用越來越受到關注[29]

常見的遙感數據包括

多光譜圖像
激光雷達（LiDAR）
合成孔徑雷達（SAR）數據

?
Pan等人證明，將LiDAR數據合并到2-D多光譜圖像中可以有效地解決建筑物高度的變化

Li等人開發了一種用于土地覆蓋分類的融合架構，采用神經結構搜索（NAS）將分層光學特征與SAR數據融合

Kang等人通過光學圖像的知識轉移增強了SAR圖像分割性能

視覺語言表征學習成為計算機視覺研究的一個重要領域，其目標是利用深度學習技術從圖像-文本對中提取統一的跨模態特征表征，從而增強各種多模態任務

相關的工作：

Li等人[33]將文本元素與相應的圖像區域對齊，從而增強語言和視覺組件之間的關聯
Rahhal等人[34]引入了多語言Transformer模型，該模型通過集成多語言特征和提高理解能力來提高跨模態檢索的準確性
對比語言圖像預訓練（CLIP）[35]在視覺分類任務中取得了顯著的成功
Dong等人[36]利用CLIP通過將其與描述性文本信息相結合，顯著提高了遙感圖像中變化檢測的準確性和效率
Rao et al [37]和Yang et al [38]通過像素-文本對齊將CLIP納入語義分割網絡，顯著提高了分割性能

我們將CLIP集成到掩模分類中，并提出了一種新的多模態HRRS語義分割框架SegCLIP

?
與像素文本匹配方法不同，我們提出了一種使用文本信息作為查詢條件的新方法

每個Mask確定相應的區域是否屬于查詢文本所描述的對象

這些掩碼不僅準確地識別特別是，受提示學習的啟發，我們使用CLIP來生成描述遙感圖像的語言提示

以開發復雜的跨模態映射能力，為進一步提高遙感圖像語義分割的多模態融合能力

設計了一個跨模態特征融合（CFF）模塊

該模塊將遙感影像的高層語義特征與相應的文本描述進行協調和整合，有效解決了模態間的信息異構，增強了跨模態的信息互補和協同理解

為了充分利用文本信息的優勢，這些真實的文字提示被巧妙地引入

?
貢獻如下：

集成了一個多模態視覺語言框架到語義分割網絡的基礎上掩碼分類，它采用Mask來保持詳細的類別和邊界信息
為了解決多模態特征對齊的關鍵問題，我們開發了一個專門的多模態遙感語義分割CFF模塊，為了語義一致性
為了充分挖掘文本信息的潛在價值，我們提出了一種額外的文本信息描述來引導模糊query特征

二、聯系工作

基于深度學習的語義分割

語義分割的目標是為給定圖像中的每個像素分配語義標簽，以便每個像素都正確地標記其相應的類別

語義分割任務面臨著由于類內和上下文變化而帶來的困難
?

語義分割方法大致可以分為兩大類：

逐像素分類的分割方法
基于掩碼分類的分割方法

模分類模型預測圖像中每個對象實例的類特定掩模，而不是獨立地對每個像素進行分類

掩碼分類廣泛應用于實例級分割任務中

相關工作：

基于掩碼區域的卷積神經網絡（Mask R-CNN）結合了對象檢測和像素級分割的集成方法
檢測變換器（DETR）引入了一種集成預測機制，可以在對象查詢的幫助下為每個區域生成類預測結果
（MaskFormer）和掩蔽注意力Mask Transformer（Mask2Former）統一了語義分割和實例分割
混合掩碼變換器（MMT）首次將掩碼分類引入遙感圖像解碼
多尺度原型對比度網絡（MPCNet）提出了一種基于原型比較的Mask分類網絡
?

我們提出了一種基于掩模分類技術的HRRS圖像語義分割方法，該方法深入探索并充分利用了多模態融合策略

多模態prompt學習

計算機視覺任務的學習范式主要以“預訓練和微調”方法為特征

監督學習]或自監督學習在自然圖像上進行預訓練

在預訓練模型的基礎上，針對各種特定的下游任務，進一步對模型參數進行有針對性的微調和優化

作為適應不同視覺理解和識別需求的一種方式

這一過程主要依賴于像ImageNet這樣的大型自然圖像數據集進行預訓練

方法轉向一個新的階段：“預訓練和提示”

重點轉移到使用提示重新設計輸入以與原始預訓練任務保持一致的下游任務上

最大限度地減少了預訓練模型和特定任務微調之間的語義偏差

越來越多的研究人員將多模態學習用于計算機視覺任務

Language aware domain generalization network for cross-scene hyperspectral image classification
A distance-constrained semantic autoencoder for zero-shot remote sensing scene classification
Few-shot object detection in aerial imagery guided by textmodal knowledge

Tan和Bansal 通過共享的Transformer結構聯合建模來自兩種模態的信息，學習統一且相互關聯的跨模態表示
Li等人提出了一種結合視覺和語言表示的學習的方法，通過動量蒸餾技術預先對齊它們，以改善來自兩種模態的信息融合
Huo et al [67]介紹了一種大規模的多模態預訓練方法，旨在通過圖像和文本數據的聯合訓練，有效地構建和橋接視覺和語言之間的聯系

CLIP [35]是自監督和多模態深度學習的里程碑，它使用了大規模的比較學習機制

以有效地將圖像與相關的文本描述進行配對，從日常自然場景到遙感和醫學成像等專業領域

Rao等人[37]使用CLIP模型對圖像中的每個像素進行分類，通過將圖像-文本匹配轉換為像素-文本匹配來實現更精確和密集的語義分割預測

Yang等人[38]在此基礎上，通過整合多模態和多尺度信息，實現了遙感圖像的語義分割

SegCLIP集成了掩模分類和基于文本的視覺遙感語義分割，與像素-文本匹配相比，每個掩模不僅可以準確地識別目標對象的位置，而且可以更好地保留其邊界信息

三、方法

在本節中，我們首先詳細介紹SegCLIP框架，這是一種使用CLIP進行語義提示的HRRS語義分割任務的學習方法

SegCLIP的整體架構分為三個核心組件：

多尺度特征建模
跨模態文本提示和Transformer解碼
類別預測

重點研究：

跨模態文本提示
Transformer解碼
文本映射提示（TMP）
CFF模塊
地面真實文本引導（GTG）

在這里插入圖片描述

SegCLIP整體框架：該框架分為三個主要部分：

**（a）**提取多尺度特征

**（b）**為隨后的文本提示生成語言描述

**（c）**生成分類及其相應的掩碼

?
在多尺度特征建模階段，選擇ResNet-50 作為主干網絡結構來提取圖像的多級特征表示

然后由像素解碼器細化，以實現每個像素級的準確預測
?

跨模態文本提示主要包括TMP、CFF模塊和GTG，這也是我們工作的重點

?
利用CLIP模型的無監督分類能力，生成文本提示，用于多模態輸入數據，側重于語義分割

僅使用CLIP的文本編碼器，凍結其參數，這個過程是由TMP完成的
?

文本和圖像數據的表示和結構差異較大，直接使用文本特征指導圖像中的語義特征提取可能會導致模型學習困難

因此通過CFF模塊將聯合收割機的文本和視覺特征結合起來

在跨模態文本提示中，通過GTG引入地面實況（Ground-Truth，GT）文本信息
?

經過多層Transformer解碼器運算，最終得到維數為N ×（K + 1）的類預測向量

二進制掩碼預測P_mask的維數為N × H × W

通過對掩碼嵌入和類別預測向量P_class進行逐元素乘積運算得到，最后通過矩陣運算將P_class和P_mask結合得到最終的語義分割結果
?

文本映射提示

建了一種自適應的方法來生成這樣的描述，旨在協調掩模分類與視覺文本

過引入聯合視覺-語言學習機制，我們將交叉注意學習轉化為探索視覺數據和語言描述之間內在聯系的過程

我們選擇LoveDA數據集[70]作為示例

它涵蓋了七個核心類：背景、建筑物、道路、水、荒地、森林、農業，對于這n個類，我們構造了相應的文本描述

在這里插入圖片描述

我們使用模板“a photo with a {class}”為每個類編譯一個文本描述列表，其中“class”表示類名

文本映射器包括文本標記器，凍結文本編碼器，

該組件生成視覺上相關的文本提示查詢嵌入（Ntext）
隨后將其與可學習的文本上下文嵌入（Qctx）
集成以形成文本提示（Qtext）

文本結構為text = [a photo with a {class_i}]，其中i ∈ [1，7]

使用稱為文本標記器的序列數據處理方法將這些自然語言描述轉換為文本編碼特征

編碼器是一個包含12層轉換器的架構。

因此，文本嵌入不僅包含圖像中的二進制掩碼信息，還包含每個類別的概率分布，從而為模型提供豐富的語義信息

在這里插入圖片描述
?

為了進一步增強模型的語義理解能力，我們引入了一組可學習的文本上下文嵌入Q_ctx

反過來又會生成N個文本查詢項（Q_text）

在這里插入圖片描述
?

CFF模塊

由于遙感圖像本身的復雜性，文本編碼器提取的文本信息很難與特定的遙感圖像準確對應，這對多模態遙感圖像語義分割提出了挑戰

設計了一個CFF模塊，旨在有效地集成圖像的高級語義特征和文本嵌入特征

以增強不同模態之間的協同作用和相關性

class的數量（n）小于query的數量（N）

當構造文本提示時，原始文本嵌入可能包含冗余的“空白”信息，這對于在分割任務中引導提示沒有幫助

采用注意機制來促進每個位置特征按照其順序進行信息的交互和整合

旨在增強和協調內部特征表征的一致性，從而抑制冗余信息的表達

這種方法對于嚴重依賴文本上下文的信息特別有利

在這里插入圖片描述

這些特征包含了豐富的上下文信息，能夠捕捉和表達內部復雜的細節和結構關系，通過交叉注意機制對齊這些特征，使模型能夠更好地理解文本和圖像之間的內在關系

使用閉集合中的類標簽作為文本提示來精確定義查詢范圍，但是，這個過程未能充分利用文本信息的潛力

?
雖然我們在圖4中為遙感圖像

指定了“背景”、“農業”、“道路”、“森林”、“荒地”、“水”和“建筑物”的文本提示

但在（b）中只有“背景”、“道路”和“建筑物”標簽相關，其余提示都不相關，提示使用率低

在這里插入圖片描述
雖然目前的方法通過標簽定義查詢范圍，但不能有效利用文字提示，如何制定更準確的指引？

如圖5所示，（a）和（B）的提示內容由類（c）和（d）采用GT來獲取語言描述作為提示內容，利用相應的提示內容作為附加查詢

在這里插入圖片描述
采用方法（d）可以獲得上級性能

為了便于計算，假設GT包含前t類的前景。因此，text_gt被公式化為[具有{class_i}的照片]，其中i ∈ [1，t]

textgt經過文本標記器（Tt）和文本編碼器（encoder_text）的處理，以生成文本映射（Q_gt），然后將其作為附加查詢嵌入
在這里插入圖片描述

因此，在解碼器的訓練階段，查詢被分為兩部分：

引導部分（Q_gt）

重建部分（Q_text）

重建部分來自數據集中的類別描述

我們從GT中獲得與每個類別對應的前景區域作為二進制掩碼

掩碼注意階段，我們聯合將這些類別特定的二進制掩碼與原始掩碼相結合，并使用GT的二進制掩碼來指導原始掩碼的重建過程

在這里插入圖片描述

自我注意階段，我們引入了注意力掩模方法

在這里插入圖片描述

損失函數

egCLIP訓練過程涉及計算兩個主要損失：預測分類損失和預測掩碼損失

在這里插入圖片描述
?

四、實驗結果

數據集

LoveDA數據集

1024 × 1024像素
2522張圖像進行訓練
1669張圖像進行驗證/測試

iSAID 數據集

512 × 512
1411幅訓練集圖像進行訓練，
458幅圖像進行驗證

UAVid 數據集

1024 × 1024像素
200幅圖像用于訓練
70幅圖像用于驗證

? 在這里插入圖片描述

文中還給了更多對應的消融實驗