根據論文網絡結構圖講一下:
網絡分為兩部分:encoder和decoder部分。
Encoder:DCNN就是主干網絡,例如resnet,Xception,MobileNet這些(主干網絡也要使用空洞卷積),對dcnn的結果利用ASPP(Atrous Spatial Pyramid Pooling)ASPP也就是利用不能rate的空洞卷積,并把ASPP的結果合并,經過11卷積得到高級特征。
Decoder:對DCNN的低層次結果進行11卷積,并對encoder的高級特征進行4倍上采樣,將二者合并,再經過3*3卷積和4倍上采樣對像素進行分類。
現在來看deeplabV3+的結構還是很簡單的。參考下面的鏈接閱讀源碼:
VainF/DeepLabV3Plus-Pytorch: Pretrained DeepLabv3 and DeepLabv3+ for Pascal VOC & Cityscapes
bubbliiiing/deeplabv3-plus-pytorch: 這是一個deeplabv3-plus-pytorch的源碼,可以用于訓練自己的模型。
參考:
deeplabv3+
https://arxiv.org/abs/1802.02611
https://blog.csdn.net/qq_37541097/article/details/121752679
https://zhuanlan.zhihu.com/p/68531147
https://blog.csdn.net/weixin_44878336/article/details/132061772
https://blog.csdn.net/m0_46677695/article/details/143885395