CM-UNet: Hybrid CNN-Mamba UNet for Remote Sensing Image Semantic Segmentation

論文:CM-UNet: Hybrid :CNN-Mamba UNet for Remote Sensing Image Semantic Segmentation
代碼:https://github.com/XiaoBuL/CM-UNet

Abstrcat:

由于大規模圖像尺寸和對象變化,當前基于 CNN 和 Transformer 的遙感圖像語義分割方法對于捕獲遠程依賴性不是最佳的,或者受限于復雜的計算復雜性。在本文中,我們提出了 CM-UNet,包括用于提取局部圖像特征的基于 CNN 的編碼器和用于聚合和集成全局信息的基于 Mamba 的解碼器,促進遙感圖像的高效語義分割。具體來說,引入 CSMamba 塊來構建核心分割解碼器,該解碼器采用通道和空間注意力作為 vanilla Mamba 的門激活條件,以增強特征交互和全局局部信息融合。此外,為了進一步細化 CNN 編碼器的輸出特征,采用多尺度注意力聚合(MSAA)模塊來合并不同尺度的特征。 通過集成CSMamba模塊和MSAA模塊,CM-UNet有效捕獲大規模遙感圖像的長距離依賴關系和多尺度全局上下文信息。 在三個基準上獲得的實驗結果表明,所提出的 CM-UNet 在各種性能指標上都優于現有方法。

Introduction

在本文中,我們提出了 CM-UNet,一種用于 RS(遙感) 圖像語義分割的新穎框架。 CM-UNet 利用 Mamba 架構聚合來自 CNN 編碼器的多尺度信息。 它由一個 U 形網絡和一個解碼器組成,其中的 CNN 編碼器提取多尺度文本信息,解碼器采用設計的 CSMamba 塊,可實現高效的語義信息聚合。 CSMamba 模塊利用 Mamba 模塊以線性時間復雜度捕獲長程依賴性,并采用通道和空間注意力進行特征選擇。CSMamba 塊作為之前的自注意力轉換器塊的替代方案,提高了 RS 語義分割的效率。 此外,引入了多尺度注意力聚合(MSAA)模塊來集成來自 CNN 編碼器不同級別的特征,通過跳過連接幫助 CSMamba 解碼器。 最后,CM-UNet 在各個解碼器級別結合了多輸出監督,以逐步生成 RS 圖像的語義分割。 貢獻總結如下:
1)我們提出了一個名為 CM-UNet 的基于 mamba 的框架,以有效地集成局部全局信息以進行 RS 圖像語義分割。
2)我們設計了一個 CSMamba 塊,將通道和空間注意力信息包含到 mamba 塊中以提取全局上下文信息。 此外,我們采用多尺度注意力聚合模塊來輔助跳躍連接和多輸出損失來逐步監督語義分割。
3)在三個著名的公開RS數據集(ISPRS Potsdam、ISPRS Vaihingen和LoveDA)上進行的廣泛實驗表明了所提出的CM-UNet的優越性。

Methodology

我們的 CM-UNet 框架如圖 2 (a) 所示,包含三個核心組件:基于 CNN 的編碼器、MSAA 模塊和基于 CSMamba 的解碼器。 編碼器采用 ResNet 提取多級特征,而 MSAA 模塊融合這些特征,取代 UNet 的普通跳過連接并增強解碼器的能力。 在 CSMamba 解碼器中,CSMamba 塊的組裝聚合了本地文本特征以建立全面的語義理解。
在這里插入圖片描述

A、CSMamba Block

受 Mamba 在線性復雜度遠程建模方面取得成功的激勵,我們將視覺狀態空間模塊引入 RS 語義分割領域。 按照[10],輸入特征 X ∈ R H × W × C X\in\mathbb{R}^{H\times W\times C} XRH×W×C 將經過兩個并行分支。在第一個分支中,特征通道通過線性層擴展至 λC,其中 λ 是預定義的通道擴展因子,隨后是深度卷積、SiLU 激活函數以及 2D-SSM 層和 Layernorm。在第二個分支中,特征通過通道和空間注意力(CS)以及隨后的 SiLU 激活函數進行集成。之后,將兩個分支的特征與 Hadamard product(哈達瑪積)進行聚合。 最后,將通道號投影回 C 以生成與輸入形狀相同的輸出 Xout:
在這里插入圖片描述
其中DWConv表示深度卷積,CS表示通道和空間注意模塊,2D-SSM表示2D選擇性掃描模塊,⊙表示Hadamard積。原始的 Mamba 模型通過順序選擇性掃描處理一維數據,這適合 NLP 任務,但對圖像等非因果數據形式提出了挑戰。繼[10]之后,我們結合了 2D 選擇性掃描模塊(2D-SSM)來進行圖像語義分割。 如圖2?所示,2D-SSM將圖像特征展平為一維序列,并在四個方向上掃描:左上到右下、右下到左上、右上到左下。 ,以及從左下角到右上角。 這種方法通過選擇性狀態空間模型捕獲每個方向的遠程依賴性。 然后合并方向序列以恢復二維結構。

Multi-Scale Attention Aggregation多尺度注意力聚合

圖 3 描述了用于細化 RS 圖像特征的多尺度注意力聚合 (MSAA) 模塊。 ResNet 編碼器階段 F1、F2 和 F3 的輸出被連接為 F ^ i = C o n c a t ( F i , F i ? 1 , F i + 1 ) \hat{F}_{i}=\mathrm{Concat}(F_{i},F_{i-1},F_{i+1}) F^i?=Concat(Fi?,Fi?1?,Fi+1?)。組合特征 F ^ ∈ R C 1 × H × W \hat{F} \in \mathcal{R}^{C_{1}\times H\times W} F^RC1?×H×W被饋送到 MSAA 中進行細化。 在 MSAA 中,雙路徑(空間路徑和通道路徑)用于特征聚合。 空間細化從通道投影開始,通過 1×1 卷積將通道 C1 減少到 C2,其中 C 2 = C 1 α C_{2}=\frac{C_{1}}{\alpha} C2?=αC1??。多尺度融合涉及對不同內核大小(例如 3 × 3、5 × 5、7 × 7)的卷積進行求和。隨后,使用均值和最大池化來聚合空間特征,然后進行 7 × 7 卷積和與 sigmoid 激活的特征圖。
同時,通道聚合使用全局平均池化將維度降低至 C1 × 1 × 1,然后通過 1 × 1 卷積和 ReLU 激活來生成通道注意力圖。 該圖經過擴展以匹配輸入的尺寸,并與空間細化的圖相結合。 因此,MSAA 增強了后續網絡層的空間和通道特征。 通過合并 MSAA 模塊,生成的特征圖豐富了精細的空間和通道信息。
在這里插入圖片描述

Multi-Output Supervision (多輸出監督)

為了有效地監督解碼器逐步生成 RS 圖像的語義分割圖,我們的 CM-UNet 架構在每個 CSMamba 塊上結合了中間監督。 這確保了網絡的每個階段都對最終的分割結果做出貢獻,從而促進更精細和準確的輸出。 對于第 i 個 CSMamba 塊的中間輸出是
在這里插入圖片描述
其中 Fcs 是第 i 個 CSMamba 塊的特征。 Conv 模塊用于將特征映射到輸出 C 通道類別預測圖。 總體而言,網絡是使用標準交叉熵損失和 Dice 損失的組合進行訓練的。

Conclusion

在本文中,我們介紹了 CM-UNet,這是一個利用最新 Mamba 架構進行 RS 語義分割的高效框架。 我們的設計通過采用新穎的 UNet 形結構來解決大規模 RS 圖像中的顯著目標變化。 編碼器利用 ResNet 提取文本信息,而解碼器利用 CSMamba 塊有效捕獲全局遠程依賴關系。 此外,我們還集成了多尺度注意力聚合(MSAA)模塊和多輸出增強功能,以進一步支持多尺度特征學習。 CM-UNet 已在三個 RS 語義分割數據集上進行了驗證,實驗結果證明了我們方法的優越性。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/38379.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/38379.shtml
英文地址,請注明出處:http://en.pswp.cn/web/38379.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

mysql 中 單獨獲取已知日期的年月日其中之一

限定條件:2021年8月,寫法有很多種,比如用year/month函數的year(date)2021 and month(date)8,比如用date_format函數的date_format(date, "%Y-%m")"202108"每天:按天分組group by date題目數量&…

java之靜態屬性方法

在java中有一個static的關鍵字,它用來修飾類的成員。如果用static修飾屬性,該屬性被稱為靜態屬性 靜態屬性的訪問格式如下 類名.屬性名 如果沒有修飾靜態屬性示例代碼如下 class Xuesheng1{String name;int age;String school"A大學";publ…

openGauss真的比PostgreSQL差了10年?

前不久寫了MogDB針對PostgreSQL的兼容性文章,我在文中提到針對PostgreSQL而言,MogDB兼容性還是不錯的,其中也給出了其中一個能源客戶之前POC的遷移報告數據。 But很快我發現總有人回留言噴我,而且我發現每次噴的這幫人是根本不看文…

2024廣州智能音箱展|廣州藍牙耳機展

2024廣州智能音箱展|廣州藍牙耳機展 時間:2024年11月29日-12月1日 地點:廣州琶洲保利世貿博覽館 【展會簡介】 中國是全球最大的音頻產品制造基地和消費市場,隨著國內外互聯網巨頭紛紛瞄準音頻行業并投入巨資布局AI產品矩陣,音…

pom.xml文件加載后沒有變成maven圖標

原因: 開啟了IDEA的節電模式 現象為: xml會變橙色,yml變粉色,自動提示關閉等 把這個節能模式的勾選給取消掉就可以正常顯示了

python提取圖片中的文字寫入excel文件,并打包為exe可執行文件

python提取圖片數據寫入excel,并打包為exe可執行文件 1. 以下面的圖片為例2. python環境需要的依賴包3. 創建交互式窗口4. 讀取文件夾下的所有文件并提取數據5. 提取圖片中字段的代碼6. 打包代碼為exe可執行文件安裝打包依賴文件運行打包代碼 1. 以下面的圖片為例 2…

入門Salesforce:必須掌握的20+基礎專業術語!

Salesforce的發展令人印象深刻。在過去的20年中,Salesforce創建了一個由管理員、開發人員、顧問和用戶組成的生態系統,不斷顛覆創新CRM,促進平等和多樣性。 作為初學者,探索Salesforce領域就像學習一門新語言。Salesforce中有著大…

Postman環境變量秘籍:pm.environment的高級使用指南

📓 Postman環境變量秘籍:pm.environment的高級使用指南 Postman是API開發和測試的強大工具,它提供了豐富的功能來簡化和加速開發過程。pm.environment 是Postman中用于管理環境變量的內置對象,它允許你在集合運行時存儲和訪問環境…

YOLOv8改進 | 卷積模塊 | 減少冗余計算和內存訪問的PConv【CVPR2023】

秋招面試專欄推薦 :深度學習算法工程師面試問題總結【百面算法工程師】——點擊即可跳轉 💡💡💡本專欄所有程序均經過測試,可成功執行💡💡💡 專欄目錄 :《YOLOv8改進有效…

Vue3詳解

vite和webpack區別 vite vite使用原生ES模塊進行開發,無需在編譯時將所有代碼轉換為JS打包,從而提供了更快的熱更新和自動刷新功能; vite在開發模式下沒有打包步驟,而是利用瀏覽器的ES Module Imports特性實現按需編譯&#xff…

深入分析 Android HTTPS 證書管理策略:設置本地證書、使用系統默認證書和忽略證書

深入分析 Android HTTPS 證書管理策略:設置本地證書、使用系統默認證書和忽略證書 在 Android 應用開發中,確保 HTTPS 請求的安全性至關重要。為實現這一目標,我們可以通過不同的方式來管理 HTTPS 證書。本文將詳細探討三種常見的證書管理策…

【ajax實戰08】分頁功能

本文章目標:點擊上/下一頁按鈕,實現對應頁面的變化 實現基本步驟: 一:保存并設置文章總條數 設置一個全局變量,將服務器返回的數據返回給全局變量 二:點擊下一頁,做臨界值判斷,并…

Firefox 編譯指南2024 Windows10篇- 編譯Firefox(三)

1.引言 在成功獲取了Firefox源碼之后,下一步就是將這些源碼編譯成一個可執行的瀏覽器。編譯是開發流程中的關鍵環節,通過編譯,我們可以將源代碼轉換為可執行的程序,測試其功能,并進行必要的優化和調試。 對于像Firef…

git命令含有中文,終端輸出中文亂碼的問題

目錄 1、[當前代碼頁] 的936 (ANSI/OEM - 簡體中文 GBK) 是導致中文亂碼的原因 2、這樣會導致什么問題呢? (1) 問題一: 【屬性】選項的【字體】無法識別自定義文字樣式,【默認值】選項可選自定義字體樣式,卻無法覆蓋【屬性】選項 (2) 問題…

品牌推廣怎么樣?掌握正確做法,讓品牌大放異彩!

品牌推廣對于初創公司來說是一項至關重要的任務。在市場眾多品牌中,如何脫穎而出,是每個品牌方都要考慮的問題。 作為一名手工酸奶品牌的創始人,目前全國復制了100多家門店,我來分享下,如何推廣,可以讓品牌…

通過shell腳本創建MySQl數據庫

通過shell腳本創建數據庫 #!/bin/bashserverIP10.1.1.196 SERVER_NAMEecho $serverIP | cut -d . -f4cat<<EOF>db.sql drop database if exists ${SERVER_NAME}_scheduler; drop database if exists ${SERVER_NAME}_kms; drop database if exists ${SERVER_NAME}_uim…

Unity 粒子特效(下)

11、Size over Lifetime(生命周期內大小) 主要用于定義粒子從發射到消亡的整個生命周期內&#xff0c;其大小如何隨時間發生變化。通過該模塊&#xff0c;可以創建出如煙霧擴散、火焰膨脹等。Separate Axes&#xff1a;當勾選此選項時&#xff0c;可以分別控制粒子在X軸、Y軸和…

自定義控件動畫篇(四)ObjectAnimator的使用

ObjectAnimator 是 Android 屬性動畫框架中的一個重要組件&#xff0c;它允許你針對特定屬性的值進行動畫處理。與 ValueAnimator 相比&#xff0c;ObjectAnimator 更專注于 UI 組件&#xff0c;可以直接作用于視圖的屬性&#xff0c;如位置、尺寸、透明度等&#xff0c;而無需…

詳細闡述 Spring Boot 的核心概念、優勢、開發流程、常見配置以及最佳實踐

Spring Boot 是一種基于 Java 的框架&#xff0c;它簡化了基于 Spring 的應用開發。通過自動配置和嵌入式服務器等技術&#xff0c;Spring Boot 使得開發者可以快速搭建并運行 Spring 應用。下面&#xff0c;我將詳細闡述 Spring Boot 的核心概念、優勢、開發流程、常見配置以及…

閉包的不同形式

定義 **閉包&#xff08;closure&#xff09;**是一個函數以及其捆綁的周邊環境狀態&#xff08;lexical environment&#xff0c;詞法環境&#xff09;的引用的組合。換而言之&#xff0c;閉包讓開發者可以從內部函數訪問外部函數的作用域。在 JavaScript 中&#xff0c;閉包…