膨脹卷積?
目錄
一、概念
1、定義
2、知識點
二、詳細介紹?
1、引入?
2、膨脹系數設定
一、概念
1、定義
????????膨脹卷積(Dilated Convolution),也稱為空洞卷積(Atrous Convolution),是一種在卷積神經網絡中常用的操作。它通過在卷積核的周圍插入一定數量的零值來改變卷積核的感受野大小。
????????傳統的卷積操作是在輸入特征圖上滑動卷積核,每次將卷積核中的權重與輸入特征圖的對應位置進行相乘并求和,從而得到輸出特征圖中的一個像素值。膨脹卷積則是在滑動卷積核時,通過在卷積核的元素之間插入一定數量的零值來擴大感受野,使得每個卷積核的有效感受野增大。
????????膨脹卷積的主要優點是能夠在不增加網絡參數和計算量的情況下,增加網絡的感受野。這對于處理具有大尺度空間信息的任務非常有用,比如目標檢測和語義分割等任務。膨脹卷積可以通過增加膨脹系數來控制感受野的大小,較小的膨脹系數對應較小的感受野,較大的膨脹系數對應較大的感受野。
????????膨脹卷積在深度學習中的應用很廣泛。比如,在語義分割任務中,可以使用膨脹卷積來擴大網絡對于像素間上下文的感受能力;在圖像增強任務中,可以使用膨脹卷積來增強圖像的局部信息。總之,膨脹卷積是一種非常有用的操作,能夠有效改善網絡的感受野,提升網絡性能。
2、知識點
? ? ? ? 膨脹卷積與普通卷積同樣使用[3x3]的卷積核,但是在膨脹卷積的卷積核中存在一定間隙,這個間隙在膨脹卷積中通常被稱為膨脹因子 r。當r=1時,卷積核中元素處于相鄰狀態,即等同于普通卷積核。
膨脹卷積的優點:
- 增大感受野
- 通過增加padding來保持原輸入特征圖的高和寬
二、詳細介紹?
1、引入?
? ? ? ? 使用膨脹卷積,在語義分割任務中,通常會使用分類網絡作為語義分割網絡的backbone,通過backbone之后會將原輸入圖片進行下采樣,再通過一系列的上采樣操作還原回原來大小。在分類網絡中,通常會將原圖像高寬下采樣32倍,由于后期需要上采樣還原到圖像原尺寸,如果將特征圖大小下采樣倍率過大,對后期還原回原圖大小很有影響。如VGG網絡通過MaxPool層進行池化操作,通過MaxPool操作會降低特征圖的高寬,其次會丟失細節信息以及小目標且無法通過上采樣進行還原,會導致語義分割效果不理想。
? ? ? ? 若直接將MaxPool層舍去,會引入新問題,會導致得到特征圖所對應原圖的感受野變小。對應MaxPool層之后的卷積層原本是在之前對應的感受野之上做進一步操作,舍去MaxPool層會對之后的卷積層感受野造成影響。
? ? ? ? 使用膨脹卷積模塊,既能增大感受野,并且可以保證輸入輸出特征圖的高和寬不發生變化。但是在語義分割任務中也不可簡單堆疊膨脹卷積模塊。
? ? ? ? 膨脹卷積使用中會帶來一個gridding effect問題。?
對于膨脹卷積的使用有兩種:
1)使用相同膨脹系數的情況下
? ? ? ? 對于每層使用的膨脹卷積都使用相同膨脹系數r=2,右圖是每一層的一個像素利用到Layer1上的對應像素。連續堆疊三個膨脹卷積層,可以發現Layer4上的一個像素利用到Layer1上的對應像素如右圖的熱圖分布,并不是連續利用,每個非0元素之間都有一定間隔,并沒有利用到范圍內的所有像素值,造成細節信息丟失。即gridding effect現象。
2)使用不同膨脹系數的情況下
? ? ? ? 將膨脹系數分別設置成r=1,2,3。當r=1時膨脹卷積等同與普通卷積。則如圖可以看出,Layer4上的一個像素利用到了Layer1上的13x13大小的像素,并且像素之間是相鄰的,沒有間隙和信息丟失。
3)使用膨脹系數r=1的情況
? ? ? ? 使用r=1膨脹卷積時即等同于使用普通卷積的情況,由圖可以看出Layer4上的一個像素利用到了Layer1上像素僅占7x7大小的區域,感受野受限。
? ? ? ? 則在參數數量相同的情況下,在使用膨脹卷積之后感受野增大效果明顯。?
2、膨脹系數設定
? ? ? ? 當連續使用膨脹卷積時,膨脹系數的設定為r=1,2,3的情況下比設定為三個膨脹卷積的r=2的情況要好得多。
? ? ? ? 假設連續堆疊N個膨脹卷積,卷積核大小都為[K×K],每一個膨脹卷積對應的膨脹系數為[],則混合膨脹卷積HDC(Hybrid Dilated Convolution)的目標是通過一系列膨脹卷積之后,能夠完全覆蓋底層特征層上的一個方形區域,且之間無空隙。
1)Maximum Distance between two Nonzero Values最大非零元素之間距離
????????若在底層特征圖上完全覆蓋一個方形區域且無空隙,則此時非零元素之間的距離為1,當在底層特征圖上覆蓋區域有空隙時,則此時非零元素之間的距離為2,代表覆蓋的方形區域之間是有空隙和間隔的。
?(n指代最后一個元素
,n不代表一個順序的泛指)
? ? ? ? 對于第i層所對應的非零元素之間最大距離。設計目標是讓。比如說,當卷積核大小K=3時,r=[1,2,5],則此時
,則滿足設計目標;又當r=[1,2,9]時,此時
,不滿足設計要求。且
.
2)將膨脹系數設置為鋸齒結構
? ? ? ? 例如[1,2,3,1,2,3]重復所給定的一組系數。
3)公約數不能大于一
? ? ? ? 例如若是[2,4,8]的情況下,公約數為2,則仍然會存在gridding effect問題。?