
論文地址 :Rethinking Atrous Convolution for Semantic Image Segmentation
論文代碼:Github鏈接
1. 摘要
文章主要的工作:
- 使用空洞卷積來調整濾波器的感受野并控制特征圖分辨率
- 使用不同空洞率的空洞卷積的串聯或者并行操作來分割不同尺度的目標,捕獲不同尺度的語義信息
- 擴展的ASPP
- 實現和訓練的細節
- 沒有了DesneCRF的后處理
2. 介紹
使用DCNN做語義分割取得了一定的效果但是存在兩個問題。其一,為了使DCNN學習到更加抽象的特征,采用了多次池化操作和帶步長的卷積,使得特征圖分辨率降低,但同時這不利于密集預測任務,因為后者需要空間位置信息。為了克服這個問題,引入空洞卷積——通過去掉最后幾層的上采樣和下采樣來獲得更加密集的特征圖,這樣還能在不適用額外參數的情況下控制分辨率。
其二,如何捕獲不同尺度的目標。目前主要有四種不同的方法,如下圖:

- Image Pyramid:對輸入圖像進行縮放分別輸入網絡最后合在一起:小的輸入用于捕獲long-range context,大的輸入用于捕獲小物體。但是這樣做會使得深層的DCNN計算代價高
- 編解碼結構:在編碼結構中獲取不同尺度的特征并在解碼結構中復原
- 額外的后處理以精細畫邊框,比如DenseCRF
- 空間金字塔池化
3. 方法
在模塊串聯合金子塔池化的框架中應用帶有不同空洞率的空洞卷積和BN層。空洞卷積作為語義模塊和SPP的工具,論文提出的模型具有較好的通用性,可以移植到其他網絡中。這個模型將ResNet最后一個block多次復制并串聯,然后聯通ASPP模塊,ASPP模塊中包含幾個并行的空洞卷積,這幾個空洞卷積直接應用在特征圖而不是信念圖上。訓練時層上加上BN層。而且,為了捕獲全局語義,ASPP還疊加了了圖像級別的特征。
3.1 用于密集特征提取的空洞卷積
克服多次池化和帶步長的卷積對密集預測任務的影響。
3.2 使用空洞卷積設計更深的模型

如上圖,簡單地復制ResNet最后一個block幾次并且并行起來并不利于網絡獲取深層語義信息,因為這樣使得圖像的特征集中在最后幾層比較小的特征圖中,但是連續的帶步長卷積不利于語義分割,所以使用了空洞卷積來設計最終的output_stride(原始圖像尺寸之于輸出特征圖尺寸的倍數),如下圖所示:

初次之外還引入了Multi-grid Method,上圖中Block4至7,采用Multi-grid來描述這三層的空洞率,比如,當output_stride=16時,Multi_Grid=(1,2,4),相應的空洞率為(2,4,8)。
3.3 ASPP
ASPP中雖然包含幾個不同的空洞率的卷積操作,但是當空洞率越來越大時,有效的濾波器的權重數越來越小。比如在65 X 65的特征圖上應用3 X 3的濾波器,非但不能捕獲全局圖像語義,其效果還退化到與1 X 1濾波器效果一致,因為僅有中心的濾波器權重是有效的。
因此,ASPP模塊中包含幾個并行的空洞卷積,這幾個空洞卷積直接應用在特征圖而不是信念圖上。訓練時層上加上BN層。而且,為了捕獲全局語義,ASPP還疊加了了圖像級別的特征。

如上圖所示,ASPP模塊中有一個1x1的卷積層和三個3x3的卷積層,空洞率分別為6,12,18,output_stride為16(每一層都有256個濾波器并且后跟BN層);而且ASPP中還增加了image-level特征,最后在模型輸出的特征圖上進行1x1的卷積(256個濾波器并且后跟BN層)并進行插值上采樣至所需的空間維度尺寸。
4. 實驗
4.1 ResNet50 v.s. ResNet101

4.2 block4中應用不同的Multi-grid

4.3 ASPP
在block4中應用Multi-grid以及ASPP中使用不同的空洞率:

4.4 FINAL

歡迎關注 深度學習與數學 [每天獲取免費的大數據、AI等相關的學習資源、經典和最新的深度學習相關的論文研讀,算法和其他互聯網技能的學習,概率論、線性代數等高等數學知識的回顧]
