(論文速讀)SCSegamba:用于結構裂紋分割的輕量級結構感知視覺曼巴

論文題目:SCSegamba: Lightweight Structure-Aware Vision Mamba for Crack Segmentation in Structures(用于結構裂紋分割的輕量級結構感知視覺曼巴)

會議:CVPR2025

摘要:不同場景下的結構裂縫像素級分割仍然是一個相當大的挑戰。現有方法在有效建模裂紋形態和紋理、平衡分割質量和低計算資源利用率方面存在挑戰。為了克服這些限制,我們提出了一種輕量級的結構感知視覺曼巴網絡(SCSegamba),能夠通過利用裂縫像素的形態信息和紋理線索以最小的計算成本生成高質量的像素級分割地圖。具體來說,我們開發了一個結構感知的視覺狀態空間模塊(SAVSS),它包含了一個輕量級的門控瓶頸卷積(GBC)和一個結構感知的掃描策略(SASS)。gbc的關鍵之處在于其對裂紋形態信息的有效建模,而SASS則通過增強裂紋像素間語義信息的連續性來增強對裂紋拓撲和紋理的感知。在裂紋基準數據集上的實驗表明,我們的方法優于其他最先進的SOTA方法,僅使用2.8M個參數即可實現最高性能。在多場景數據集上,我們的方法F1得分達到0.8390,mIoU得分達到0.8479。

源碼鏈接:https://github.com/ Karl1109/SCSegamba


引言

結構健康監測在現代基礎設施維護中扮演著至關重要的角色。無論是瀝青路面、混凝土建筑還是金屬構件,在長期使用過程中都不可避免地會產生裂縫。這些裂縫如果不及時發現和處理,可能會演變成嚴重的安全隱患。傳統的人工檢測方法不僅效率低下,還容易受到主觀因素的影響。隨著計算機視覺技術的快速發展,基于深度學習的自動裂縫檢測技術為這一領域帶來了新的解決方案。

現有技術的挑戰

CNN方法的局限性

傳統的卷積神經網絡(CNN)在裂縫分割任務中展現出了良好的局部特征提取能力,但存在明顯的局限性:

  • 感受野限制:CNN的局部操作和有限感受野限制了其建模全圖范圍不規則依賴關系的能力
  • 連續性問題:難以處理復雜背景下的長距離裂縫連接,容易產生不連續的分割結果
  • 噪聲敏感:在復雜背景干擾下,背景噪聲抑制能力相對較弱

Transformer方法的困境

Vision Transformer雖然在捕獲不規則像素依賴關系方面表現出色,但也面臨著顯著挑戰:

  • 計算復雜度高:注意力機制的二次復雜度導致高分辨率圖像處理時內存使用量急劇增加
  • 資源需求大:大量的參數和高計算需求限制了在資源受限設備上的部署
  • 效率平衡難:在分割性能和計算效率之間難以找到理想的平衡點

Mamba方法的不足

盡管最近出現的Mamba模型在序列建模方面展現出了優異性能,但現有的Vision Mamba方法在處理裂縫分割任務時仍存在問題:

  • 特征處理局限:大多數方法通過線性層處理特征圖,限制了對裂縫特征的選擇性增強
  • 掃描策略不當:常見的并行或單向對角掃描難以維持不規則、多方向像素拓撲的語義連續性
  • 檢測準確性不足:在多場景裂縫圖像中容易產生誤檢或漏檢

SCSegamba的創新解決方案

為了解決上述挑戰,研究團隊提出了SCSegamba網絡,該網絡通過以下創新組件實現了高質量的輕量級裂縫分割:

1. 結構感知視覺狀態空間模塊(SAVSS)

SAVSS是SCSegamba的核心組件,它包含兩個關鍵創新:

輕量級門控瓶頸卷積(GBC)

  • 采用瓶頸卷積進行低秩近似,將計算復雜度從O(fp2d)降低到O(f?p2d) + O(ff?)
  • 通過門控機制動態調整不同空間位置和通道的特征權重
  • 能夠有效捕獲裂縫的形態信息,同時保持低參數量和計算成本

結構感知掃描策略(SASS)

  • 設計了四條掃描路徑:兩條平行蛇形路徑和兩條對角蛇形路徑
  • 能夠有效提取常規裂縫區域的連續語義信息
  • 在多個方向上保持紋理連續性,適合處理復雜背景的多場景裂縫圖像

2. 多尺度特征分割頭(MFS)

MFS模塊負責將SAVSS提取的多尺度特征有效整合:

  • 結合GBC和多層感知機(MLP)進行特征處理
  • 使用動態上采樣技術恢復原始分辨率
  • 通過特征聚合生成高質量的分割圖

3. 網絡架構設計

SCSegamba采用編碼器-解碼器架構:

  • 編碼器:4層SAVSS塊逐步提取多尺度特征
  • 解碼器:MFS頭部將多尺度特征融合為最終分割結果
  • 損失函數:結合二元交叉熵損失和Dice損失,提高對不平衡像素數據的魯棒性

實驗驗證與結果分析

數據集與實驗設置

研究團隊在四個公開數據集上進行了全面評估:

  • Crack500:3368張瀝青裂縫圖像
  • DeepCrack:537張多材質裂縫圖像
  • CrackMap:120張高分辨率瀝青路面裂縫圖像
  • TUT:1408張多場景裂縫圖像,包含8種不同場景

性能表現

SCSegamba在所有數據集上都取得了SOTA性能:

TUT多場景數據集

  • F1分數:0.8390(比次優方法高2.21%)
  • mIoU:0.8479(比次優方法高1.74%)

其他數據集表現

  • 在DeepCrack數據集上,F1分數達到0.9110,mIoU達到0.9022
  • 在CrackMap數據集上,F1分數為0.7678,mIoU為0.8094
  • 在所有評估指標上均超越了現有SOTA方法

復雜度分析

SCSegamba的輕量級設計優勢明顯:

  • 參數量:僅2.80M,比次優結果低52.54%
  • 計算量:18.16G FLOPs,顯著低于其他方法
  • 模型大小:37MB,比次優結果小13.95%
  • 非常適合在資源受限的邊緣設備上部署

消融實驗

研究團隊進行了詳細的消融實驗,驗證了各組件的有效性:

組件貢獻分析

  • GBC的加入使F1分數提高了1.57%,mIoU提高了1.42%
  • 殘差連接將mIoU提升了2.47%
  • SASS掃描策略相比其他掃描方法提升了0.30%的F1分數

分割頭對比

  • MFS相比UNet頭部,F1分數提高2.67%,mIoU提高2.07%
  • 在保持輕量級的同時顯著提升了性能

技術創新的深度解析

門控瓶頸卷積的設計理念

GBC的核心思想是通過低秩分解減少計算復雜度,同時利用門控機制增強特征表達能力:

  1. 低秩近似:將原始卷積Q分解為LM^T的形式,其中L∈?^(f×f?),M∈?^((p2d)×f?)
  2. 瓶頸結構:通過點卷積和深度卷積的組合,在低維子空間中進行高效的空間信息提取
  3. 門控機制:通過Hadamard乘積實現特征的動態選擇和增強

SASS掃描策略的優勢

相比傳統的掃描方法,SASS具有以下優勢:

  • 多方向覆蓋:四條路徑確保了對不同方向裂縫紋理的有效捕獲
  • 語義連續性:蛇形掃描保持了鄰近像素間的語義關聯
  • 拓撲感知:能夠更好地理解裂縫的空間分布和連接關系

實際應用價值與前景展望

應用場景

SCSegamba的輕量級特性和高精度表現使其在多個實際場景中具有廣泛的應用價值:

基礎設施維護

  • 道路路面裂縫自動檢測
  • 橋梁結構健康監測
  • 建筑物外墻裂縫識別

工業檢測

  • 金屬構件疲勞裂紋檢測
  • 壓力容器表面缺陷識別
  • 管道完整性評估

移動端部署

  • 輕量級設計適合集成到移動設備
  • 支持實時檢測和現場評估
  • 降低了專業設備的依賴

技術優勢總結

  1. 高精度:在多個基準數據集上取得SOTA性能
  2. 輕量級:參數量和計算量顯著低于現有方法
  3. 魯棒性:在復雜背景和多種材質上表現穩定
  4. 實用性:適合實際部署和工程應用

未來發展方向

研究團隊在論文中也提出了未來的研究方向:

  • 多模態融合:結合其他傳感器數據提升檢測質量
  • VSS優化:進一步優化視覺狀態空間設計
  • 掃描策略改進:探索更高效的掃描策略

總結

SCSegamba代表了裂縫分割技術的一個重要進步,它成功地解決了傳統方法在計算效率和檢測精度之間的矛盾。通過創新的SAVSS模塊、GBC卷積和SASS掃描策略,該方法在保持輕量級的同時實現了卓越的分割性能。

這項工作不僅推進了Vision Mamba在計算機視覺領域的應用,也為實際的結構健康監測提供了一個可靠的技術解決方案。隨著邊緣計算和物聯網技術的發展,像SCSegamba這樣的輕量級高精度模型將在智能基礎設施維護中發揮越來越重要的作用。

對于從事計算機視覺、結構工程或相關領域的研究人員和工程師來說,這項工作提供了寶貴的技術參考和實踐指導,值得深入學習和借鑒。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/96388.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/96388.shtml
英文地址,請注明出處:http://en.pswp.cn/web/96388.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

《蘇超風云》亮相時尚大賞,成短劇行業發展新風向

當男頻短劇憑借《一品布衣》五天橫掃10億播放的數據宣告逆襲,短劇市場格局正經歷深刻洗牌。風口之下,頭條視聽、中皋文旅、國內時尚視覺與短視頻創作領域的頭部廠牌“大灣視頻”攜手下場,打造精品男頻短劇《蘇超風云》,劍指2025年…

HTML5新年元旦網站源碼

新年主題網站開發概述 本項目基于HTML5、CSS3與JavaScript技術棧,打造了一個功能豐富、交互體驗流暢的新年主題網站,涵蓋文化展示、互動娛樂與社交分享三大核心模塊,通過現代化前端技術實現沉浸式節日氛圍營造。 1.1、核心功能架構 網站采…

CentOS 7 下iscsi存儲服務配置驗證

一、環境說明 centos7服務器*2服務器ip:服務端10.10.10.186 客戶端10.10.10.184服務端存儲卷sda1提前關閉防火墻,或開放默認 iSCSI 使用 3260 端口 二、服務端(Target)配置 安裝 iSCSI target 服務 yum install -y targetcli syst…

立即數、棧、匯編與C函數的調用

一、立即數在 ARM 架構中,立即數是指在指令中直接編碼的常量值,而不是通過寄存器或內存引用的值立即數的特點編碼限制:ARM指令是固定長度的(32位),因此立即數不能占用太多位數。典型的算術和邏輯指令通常只…

貪心算法與動態規劃:數學原理、實現與優化

貪心算法與動態規劃:數學原理、實現與優化 引言:算法選擇的本質 在計算機科學領域,算法選擇的本質是對問題特征的數學建模與求解策略的匹配。貪心算法與動態規劃作為兩種經典的優化算法,分別在不同問題域展現出獨特優勢。本文將從…

Leetcode 刷題記錄 21 —— 技巧

Leetcode 刷題記錄 21 —— 技巧 本系列為筆者的 Leetcode 刷題記錄,順序為 Hot 100 題官方順序,根據標簽命名,記錄筆者總結的做題思路,附部分代碼解釋和疑問解答,01~07為C語言,08及以后為Java語言&#xf…

Android Studio Meerkat | 2024.3.1 Gradle Tasks不展示

把這兩個開關打開,然后刷新gradle文件

Java中方法重寫與重載的區別

目錄 1. 方法重載 (Overload) 什么是方法重載? 重載的特點: 重載的示例: 重載的調用: 2. 方法重寫 (Override) 什么是方法重寫? 重寫的特點: 重寫的示例: 重寫的調用: 3.…

微信小程序發送訂閱消息-一次訂閱,一直發送消息。

實現思路長期訂閱要求太高,需要政府、公共交通等單位才有資格,所以只能使用一次性訂閱。 就像是買奶茶,下單以后,會彈出讓用戶訂閱消息那種。以買奶茶為例:用戶第一次下單成功,點擊了訂閱消息。(一般都有三…

408 Request Timeout:請求超時,服務器等待客戶端發送請求的時間過長。

408 Request Timeout 是 HTTP 狀態碼之一,表示客戶端在發送請求時,服務器等待的時間過長,最終放棄了處理該請求。此問題通常與網絡延遲、客戶端配置、服務器設置或者應用程序的性能有關。1. 常見原因1.1 客戶端問題網絡連接延遲或不穩定&…

MongoDB面試集錦

該書的使用的MongoDB版本是 4.2.01、什么是NoSQL數據庫?NoSQL和RDBMS有什么區別?在那些情況下使用和不使用NoSQL數據庫?NoSQL是非關系型數據庫,NoSQLNot Only SQL 。關系型數據庫采用的是結構化的數據,NoSQL采用的是鍵…

直擊JVM面試題

JVM組成 JVM JVM 就是 Java 程序的運行環境,它通過 類加載、字節碼執行、內存管理、GC、線程調度 等機制,讓 Java 實現了 跨平臺、自動內存管理和高效執行。 它是一個抽象的計算機,能執行以 字節碼(.class 文件) 為單…

地球系統模式(CESM)實踐技術應用及進階

目前通用地球系統模式(Community Earth System Model,CESM)在研究地球的過去、現在和未來的氣候狀況中具有越來越普遍的應用。CESM由美國NCAR于2010年07月推出以來,一直受到氣候學界的密切關注。近年升級的CESM2.0在大氣、陸地、海…

StarRocks導入數據-使用 Broker Load 進行異步導入

目錄 一、背景 二、實操 三、查看導入進度 一、背景 將hive庫數據表導入starrocks. 二、實操 LOAD LABEL user_behavior (DATA INFILE("hdfs://<hdfs_ip>:<hdfs_port>/user/amber/user_behavior_ten_million_rows.parquet")INTO TABLE user_behavior…

c語言,識別到黑色就自動開槍,4399單擊游戲狙擊戰場,源碼分享,豆包ai出品

不好用&#xff0c;識別速度慢&#xff0c;有時候識別不準確#include <windows.h> #include <stdio.h> #include <math.h> HDC hdcScreen; void leftClick(); void RGBtoHSV(int r, int g, int b, int* h, int* s, int* v); int fuzzyFindColor(int x1, int…

電動汽車充電標準之 — SAE J1772“電動汽車傳導充電連接器”簡介

SAE J1772&#xff08;通常讀作 "J seventeen seventy-two"&#xff09;是由美國汽車工程師學會&#xff08;SAE&#xff09;制定的&#xff0c;針對電動汽車傳導充電連接器的北美標準。它規范了電動汽車&#xff08;EV&#xff09;與充電設備&#xff08;EVSE&#…

ZooKeeper Multi-op+樂觀鎖實戰優化:提升分布式Worker節點狀態一致性

系列文章目錄 第一章 ZooKeeper入門概述:Znode,Watcher,ZAB . 第二章 技術解析&#xff1a;基于 ZooKeeper 實現高可用的主-從協調系統&#xff08;通過例子深入理解Zookeeper如何進行協調分布式系統&#xff09; 第三章 基于 ZooKeeper 的主從模式任務調度系統&#xff1a;設…

生產制造過程精益化

一、核心原則&#xff1a;以“消除浪費、創造價值”為核心精益化的本質是通過系統性優化流程&#xff0c;最大化客戶價值&#xff0c;最小化資源浪費&#xff08;時間、成本、庫存等&#xff09;&#xff0c;核心原則包括&#xff1a;1. 價值導向原則定義客戶價值&#xff1a;從…

Ping命令為何選擇ICMP而非TCP/UDP?

在網絡診斷工具中&#xff0c;ping是最常用的命令之一&#xff0c;它用于測試主機之間的連通性。有趣的是&#xff0c;ping命令并不使用TCP或UDP這些傳輸層協議&#xff0c;而是基于網絡層的ICMP協議。這背后的設計選擇體現了計算機網絡協議棧的分層智慧和特定用途的優化。ICMP…

VGGNet:為什么16層簡單堆疊能成為CNN經典?

配套筆記&講解視頻,點擊文末名片獲取 研究背景和動機 在 VGG 出現之前,圖像識別就像“盲人摸象”: 計算機看一張圖,只能憑感覺抓幾個零散的“特征點”, 結果忽好忽壞,時靈時不靈。 大家發現,如果把“看圖的流程”做得更深、更系統,準確率就能蹭蹭往上漲。于是“深一…