1.introduction
數據集包括,時尚模特數據集,超過18.8w張模特圖,從中選出35311張圖片,DIM數據集,僅包含人類的圖像,202個前景圖像,背景來自coco數據集和互聯網,背景圖不含人類,一個前景和100個背景。
2.our method
第一個網絡TNet,負責前景、背景和未知區域之間進行像素級分類,第二個網絡MNet,接受TNet的輸出作為語義提示,生成原始alpha描述,最終進過Fusion module融合,生成最終的alpha。
2.1 Trimap generation:TNet
????????????????扮演著語義分割的角色,輸出3通道圖,PSPNet50.
2.2 Matting network:MNet
????????將3通道圖像與來自TNet的3通道圖串聯作為6通道輸入,DIM使用3通道圖和1通道trimap(1,0.5,0表示前景,未知區域和背景)作為4通道輸入,6通道輸入和4通道輸入幾乎有相同的性能,MNet有13個卷積層和4個最大池化層,編碼器網絡和VGG16相同,VGG16的conv1是3個輸入通道,MNet有6個輸入通道,每個卷積層后面添加了批歸一化,移除了conv6和deconv6.
2.3 Fusion module
? ? ? ? F/B/U表示前景背景和未知區域,
2.4 Loss?
2.5 Implementation details
? ? ? ? TNet預訓練,膨脹alpha生成trimap,400x400;MNet,使用不同的膨脹和腐蝕核大小增強trimao對摳圖性能有影響。訓練時使用整個DIM數據集;端到端訓練,800x800.