深度學習圖像分割模型介紹入門及常用模型詳解
圖像分割是計算機視覺的核心任務,旨在將圖像劃分為語義區域。隨著深度學習的發展,分割模型在精度和效率上取得重大突破。以下按技術演進順序詳解主流模型:
1. FCN(全卷積網絡)
背景:傳統CNN受限于全連接層,無法輸出空間圖。FCN首次實現端到端像素級預測。
結構:
- 用卷積層替換全連接層,支持任意尺寸輸入
- 采用跳躍連接融合淺層(高分辨率)和深層(強語義)特征
輸出=反卷積(conv5)⊕conv3⊕conv4 \text{輸出} = \text{反卷積}(\text{conv5}) \oplus \text{conv3} \oplus \text{conv4} 輸出=反卷積(conv5)⊕conv3⊕conv4
創新: - 上采樣恢復空間信息(反卷積)
- 多尺度特征融合(skip connections)
損失函數:逐像素交叉熵
L=?∑i=1H×W∑c=1Cyi,clog?(y^i,c) \mathcal{L} = -\sum_{i=1}^{H\times W} \sum_{c=1}^{C} y_{i,c} \log(\hat{y}_{i,c}) L=?i=1∑H×W?c=1∑C?yi,c?log(y^?i,c?)
其中CCC為類別數,H,WH,WH,W為分辨率。
2. U-Net
背景:針對醫學圖像小樣本問題,實現高精度邊界分割。
結構:
創新:
- 對稱編解碼結構:編碼器捕獲上下文,解碼器精確定位
- 跳躍連接:拼接不同尺度特征圖,保留細節
損失:加權交叉熵(增強邊界權重)
L=?∑w(x,y)?ylog?(y^) \mathcal{L} = -\sum w(x,y) \cdot y \log(\hat{y}) L=?∑w(x,y)?ylog(y^?)
w(x,y)w(x,y)w(x,y)為邊界區域權重圖。
3. DeepLab系列
核心思想:解決池化導致的空間信息丟失問題。
DeepLab v1/v2
- 空洞卷積(Atrous Conv):擴大感受野不降分辨率
輸出(i,j)=∑k,lK(k,l)?X(i+r?k,j+r?l) \text{輸出}(i,j) = \sum_{k,l} \mathbf{K}(k,l) \cdot \mathbf{X}(i+r\cdot k, j+r\cdot l) 輸出(i,j)=k,l∑?K(k,l)?X(i+r?k,j+r?l)
rrr為膨脹率。 - ASPP(空洞空間金字塔池化):并行多尺度空洞卷積捕獲上下文
DeepLab v3+
- 編解碼擴展:編碼器輸出經ASPP處理,解碼器融合淺層特征
- Xception骨干:深度可分離卷積提升效率
損失函數:交叉熵 + 輔助正則項
L=LCE+λ∑∥?y^∥2 \mathcal{L} = \mathcal{L}_{CE} + \lambda \sum \|\nabla \hat{y}\|^2 L=LCE?+λ∑∥?y^?∥2
4. Mask R-CNN(實例分割)
背景:在目標檢測基礎上增加像素級掩碼預測。
結構:
# 偽代碼流程
ROI = Faster R-CNN(輸入) # 區域提議
特征圖 = ROIAlign(ROI) # 精確特征對齊
掩碼 = FCN(特征圖) # 掩碼分支預測
創新:
- ROIAlign:雙線性插值解決ROI池化量化誤差
- 解耦設計:獨立分類、回歸、掩碼分支
損失:多任務損失
L=Lcls+Lbox+Lmask \mathcal{L} = \mathcal{L}_{cls} + \mathcal{L}_{box} + \mathcal{L}_{mask} L=Lcls?+Lbox?+Lmask?
其中Lmask\mathcal{L}_{mask}Lmask?為二值交叉熵。
5. Transformer模型(前沿方向)
SETR:用ViT作為編碼器,CNN解碼器重建空間信息
SegFormer:
- 分層Transformer:提取多尺度特征
- 輕量解碼器:MLP融合層級特征
F^=MLP(Concat[F1,F2,F3,F4]) \hat{\mathbf{F}} = \text{MLP}(\text{Concat}[\mathbf{F}_1, \mathbf{F}_2, \mathbf{F}_3, \mathbf{F}_4]) F^=MLP(Concat[F1?,F2?,F3?,F4?])
技術演進總結
模型類型 | 代表架構 | 關鍵創新 | 適用場景 |
---|---|---|---|
全卷積 | FCN | 端到端像素預測 | 通用語義分割 |
編解碼結構 | U-Net | 跳躍連接保留細節 | 醫學圖像 |
上下文建模 | DeepLab | 空洞卷積+ASPP | 街景/高清圖像 |
實例分割 | Mask R-CNN | ROIAlign+多任務分支 | 物體實例分割 |
注意力機制 | SegFormer | 分層Transformer+MLP解碼 | 實時分割 |
當前研究熱點:輕量化設計(Mobile-Unet)、3D分割(nnUNet)、弱監督學習(STC)。模型選擇需權衡精度、速度與硬件約束。