論文題目:SCSegamba: Lightweight Structure-Aware Vision Mamba for Crack Segmentation in Structures(用于結構裂紋分割的輕量級結構感知視覺曼巴)
會議:CVPR2025
摘要:不同場景下的結構裂縫像素級分割仍然是一個相當大的挑戰。現有方法在有效建模裂紋形態和紋理、平衡分割質量和低計算資源利用率方面存在挑戰。為了克服這些限制,我們提出了一種輕量級的結構感知視覺曼巴網絡(SCSegamba),能夠通過利用裂縫像素的形態信息和紋理線索以最小的計算成本生成高質量的像素級分割地圖。具體來說,我們開發了一個結構感知的視覺狀態空間模塊(SAVSS),它包含了一個輕量級的門控瓶頸卷積(GBC)和一個結構感知的掃描策略(SASS)。gbc的關鍵之處在于其對裂紋形態信息的有效建模,而SASS則通過增強裂紋像素間語義信息的連續性來增強對裂紋拓撲和紋理的感知。在裂紋基準數據集上的實驗表明,我們的方法優于其他最先進的SOTA方法,僅使用2.8M個參數即可實現最高性能。在多場景數據集上,我們的方法F1得分達到0.8390,mIoU得分達到0.8479。
源碼鏈接:https://github.com/ Karl1109/SCSegamba
引言
結構健康監測在現代基礎設施維護中扮演著至關重要的角色。無論是瀝青路面、混凝土建筑還是金屬構件,在長期使用過程中都不可避免地會產生裂縫。這些裂縫如果不及時發現和處理,可能會演變成嚴重的安全隱患。傳統的人工檢測方法不僅效率低下,還容易受到主觀因素的影響。隨著計算機視覺技術的快速發展,基于深度學習的自動裂縫檢測技術為這一領域帶來了新的解決方案。
現有技術的挑戰
CNN方法的局限性
傳統的卷積神經網絡(CNN)在裂縫分割任務中展現出了良好的局部特征提取能力,但存在明顯的局限性:
- 感受野限制:CNN的局部操作和有限感受野限制了其建模全圖范圍不規則依賴關系的能力
- 連續性問題:難以處理復雜背景下的長距離裂縫連接,容易產生不連續的分割結果
- 噪聲敏感:在復雜背景干擾下,背景噪聲抑制能力相對較弱
Transformer方法的困境
Vision Transformer雖然在捕獲不規則像素依賴關系方面表現出色,但也面臨著顯著挑戰:
- 計算復雜度高:注意力機制的二次復雜度導致高分辨率圖像處理時內存使用量急劇增加
- 資源需求大:大量的參數和高計算需求限制了在資源受限設備上的部署
- 效率平衡難:在分割性能和計算效率之間難以找到理想的平衡點
Mamba方法的不足
盡管最近出現的Mamba模型在序列建模方面展現出了優異性能,但現有的Vision Mamba方法在處理裂縫分割任務時仍存在問題:
- 特征處理局限:大多數方法通過線性層處理特征圖,限制了對裂縫特征的選擇性增強
- 掃描策略不當:常見的并行或單向對角掃描難以維持不規則、多方向像素拓撲的語義連續性
- 檢測準確性不足:在多場景裂縫圖像中容易產生誤檢或漏檢
SCSegamba的創新解決方案
為了解決上述挑戰,研究團隊提出了SCSegamba網絡,該網絡通過以下創新組件實現了高質量的輕量級裂縫分割:
1. 結構感知視覺狀態空間模塊(SAVSS)
SAVSS是SCSegamba的核心組件,它包含兩個關鍵創新:
輕量級門控瓶頸卷積(GBC):
- 采用瓶頸卷積進行低秩近似,將計算復雜度從O(fp2d)降低到O(f?p2d) + O(ff?)
- 通過門控機制動態調整不同空間位置和通道的特征權重
- 能夠有效捕獲裂縫的形態信息,同時保持低參數量和計算成本
結構感知掃描策略(SASS):
- 設計了四條掃描路徑:兩條平行蛇形路徑和兩條對角蛇形路徑
- 能夠有效提取常規裂縫區域的連續語義信息
- 在多個方向上保持紋理連續性,適合處理復雜背景的多場景裂縫圖像
2. 多尺度特征分割頭(MFS)
MFS模塊負責將SAVSS提取的多尺度特征有效整合:
- 結合GBC和多層感知機(MLP)進行特征處理
- 使用動態上采樣技術恢復原始分辨率
- 通過特征聚合生成高質量的分割圖
3. 網絡架構設計
SCSegamba采用編碼器-解碼器架構:
- 編碼器:4層SAVSS塊逐步提取多尺度特征
- 解碼器:MFS頭部將多尺度特征融合為最終分割結果
- 損失函數:結合二元交叉熵損失和Dice損失,提高對不平衡像素數據的魯棒性
實驗驗證與結果分析
數據集與實驗設置
研究團隊在四個公開數據集上進行了全面評估:
- Crack500:3368張瀝青裂縫圖像
- DeepCrack:537張多材質裂縫圖像
- CrackMap:120張高分辨率瀝青路面裂縫圖像
- TUT:1408張多場景裂縫圖像,包含8種不同場景
性能表現
SCSegamba在所有數據集上都取得了SOTA性能:
TUT多場景數據集:
- F1分數:0.8390(比次優方法高2.21%)
- mIoU:0.8479(比次優方法高1.74%)
其他數據集表現:
- 在DeepCrack數據集上,F1分數達到0.9110,mIoU達到0.9022
- 在CrackMap數據集上,F1分數為0.7678,mIoU為0.8094
- 在所有評估指標上均超越了現有SOTA方法
復雜度分析
SCSegamba的輕量級設計優勢明顯:
- 參數量:僅2.80M,比次優結果低52.54%
- 計算量:18.16G FLOPs,顯著低于其他方法
- 模型大小:37MB,比次優結果小13.95%
- 非常適合在資源受限的邊緣設備上部署
消融實驗
研究團隊進行了詳細的消融實驗,驗證了各組件的有效性:
組件貢獻分析:
- GBC的加入使F1分數提高了1.57%,mIoU提高了1.42%
- 殘差連接將mIoU提升了2.47%
- SASS掃描策略相比其他掃描方法提升了0.30%的F1分數
分割頭對比:
- MFS相比UNet頭部,F1分數提高2.67%,mIoU提高2.07%
- 在保持輕量級的同時顯著提升了性能
技術創新的深度解析
門控瓶頸卷積的設計理念
GBC的核心思想是通過低秩分解減少計算復雜度,同時利用門控機制增強特征表達能力:
- 低秩近似:將原始卷積Q分解為LM^T的形式,其中L∈?^(f×f?),M∈?^((p2d)×f?)
- 瓶頸結構:通過點卷積和深度卷積的組合,在低維子空間中進行高效的空間信息提取
- 門控機制:通過Hadamard乘積實現特征的動態選擇和增強
SASS掃描策略的優勢
相比傳統的掃描方法,SASS具有以下優勢:
- 多方向覆蓋:四條路徑確保了對不同方向裂縫紋理的有效捕獲
- 語義連續性:蛇形掃描保持了鄰近像素間的語義關聯
- 拓撲感知:能夠更好地理解裂縫的空間分布和連接關系
實際應用價值與前景展望
應用場景
SCSegamba的輕量級特性和高精度表現使其在多個實際場景中具有廣泛的應用價值:
基礎設施維護:
- 道路路面裂縫自動檢測
- 橋梁結構健康監測
- 建筑物外墻裂縫識別
工業檢測:
- 金屬構件疲勞裂紋檢測
- 壓力容器表面缺陷識別
- 管道完整性評估
移動端部署:
- 輕量級設計適合集成到移動設備
- 支持實時檢測和現場評估
- 降低了專業設備的依賴
技術優勢總結
- 高精度:在多個基準數據集上取得SOTA性能
- 輕量級:參數量和計算量顯著低于現有方法
- 魯棒性:在復雜背景和多種材質上表現穩定
- 實用性:適合實際部署和工程應用
未來發展方向
研究團隊在論文中也提出了未來的研究方向:
- 多模態融合:結合其他傳感器數據提升檢測質量
- VSS優化:進一步優化視覺狀態空間設計
- 掃描策略改進:探索更高效的掃描策略
總結
SCSegamba代表了裂縫分割技術的一個重要進步,它成功地解決了傳統方法在計算效率和檢測精度之間的矛盾。通過創新的SAVSS模塊、GBC卷積和SASS掃描策略,該方法在保持輕量級的同時實現了卓越的分割性能。
這項工作不僅推進了Vision Mamba在計算機視覺領域的應用,也為實際的結構健康監測提供了一個可靠的技術解決方案。隨著邊緣計算和物聯網技術的發展,像SCSegamba這樣的輕量級高精度模型將在智能基礎設施維護中發揮越來越重要的作用。
對于從事計算機視覺、結構工程或相關領域的研究人員和工程師來說,這項工作提供了寶貴的技術參考和實踐指導,值得深入學習和借鑒。