TopNet-（CVPR2023）前背景圖像合成

文章目錄

摘要
引言
算法
- 架構
- 結構
- 損失函數
實驗
- 數據集
- 評估
- SOTA比較
- 模型是否過擬合到修復區域
- 泛化到真實圖片
- 消融實驗
討論及結論
- 限制
參考文獻

摘要

作者調研自動放置目標到背景進行圖像合成的問題。提供背景圖、分割的目標，訓練模型預測合理放置信息（位置及尺寸）。當前工作主要是生成候選框或者使用滑窗搜索，但是不能在背景圖中建模局部信息。本文通過transformer學習目標特征與所有局部背景特征之間相關性。稀疏對比損失用于進一步訓練模型。通過網絡前向生成3D heatmap表明所有合理位置/尺度組合。訓練時可以使用具體標注也可使用現有inpaint模型，已超過SOTA方法。用戶研究表明訓練的模型可泛化到真實圖片。

引言

在這里插入圖片描述
如圖1，現有方法【26】直接預測多個變換或邊界框，表明提供目標的位置和尺度，但僅推薦top，不提供其他可能位置及尺度。【29】使用檢索模型評估給定位置的合理性，并以滑動窗口的方式評估位置和尺度的網格，這導致推理速度慢。
本文作者提出的TopNet，將目標放置轉化為稠密點預測問題：通過一次網絡前向生成包含位置、尺度的稠密網格評估。之前方法僅在全局層級結合前景及背景，而TopNet學習全局前景特征與局部背景特征之間相關性，可高效評估所有可能放置位置。
作者訓練TopNet時僅提供一個邊界框，因此使用稀疏對比損失，真值位置/尺寸有一個相對高的得分，同時最小化其他組合及比真值得分高的組合，通過在預測的3D熱度圖上尋找局部最大值生成候選邊界框位置。
本文貢獻：
1、一種新穎的基于transformer的結構建模目標圖與來自背景圖的局部信息之間相關關系；
2、稀疏對比損失訓練稠密預測網絡；
3、在inpaint數據集和標定數據集充分實驗驗證達到SOTA

算法

架構

提供一張背景 $I_b$ 及前景 $I_o$ ，模型預測的3D熱度圖 $H$ ， $c = 16$ ，表示尺度值s，0.15-0.9，間隔0.05，每個空間位置與放置邊界框的中心有關。
推理時，首先對 $H$ 歸一化，尋找top-1或top-k候選框。

結構

如圖2，使用兩個編碼器學習背景和目標特征，為確定特定位置的目標尺寸是否合適，背景圖中局部信息可提供細節信息，因此保留來自背景encoder中最后一個卷積層或transformer層的局部特征/token；對于前景相對簡單，保留全局特征。
使用多層transformer學習目標全局特征與背景局部特征之間相關性，class token替換為目標全局特征，最后一層所有patch token送入上采樣decoder；對于transformer降采樣后的特征進行concat及reshape，而后經過4個卷積層進行上采樣。
在這里插入圖片描述

損失函數

通過mask原始目標后進行修復，生成純背景圖，從而構造訓練集。損失函數第一項Lcon如式1，
在這里插入圖片描述
真值處得分最大，其中對于真值附近的點，M為0，其余位置為0.1；損失函數第二項Lrange，如式2，

鼓勵H的最低分趨近于0，防止謀學位置預測得分高。整體損失函數L=Lcon+Lrange

實驗

數據集

在這里插入圖片描述
Pixabay：使用LAMA進行目標擦除，對于圖中少于3個目標的圖片，額外增加一個mask，如圖4，防止模型過擬合到修復的物體。訓練集367, 384對，測試集41, 166
OPA：訓練集21, 350，測試集3, 566。

評估

Top-k IOU：top k個候選框與真值框iou的最大值
Normalized Score：熱度圖歸一化后，在真值處的得分應該相對高，因此計算NS均值以及NS高于一定閾值的百分比。

SOTA比較

Regression表示直接預測真值框；
?Retrieval表示通過檢索尋找合理位置；
Classifier表示通過分類器預測合成圖是否合理，為檢索方案的進一步擴充；
PlaceNet表示通過對抗訓練預測框是否合理。
表1展示top-5 IOU評估結果，該方法遠超過現有方法，同時速度也比較快；
在這里插入圖片描述
表2、表3表示對應真值位置NS結果及iou結果；

模型是否過擬合到修復區域

圖5表明模型未過擬合到LAMA修復區域。
在這里插入圖片描述

泛化到真實圖片

圖6展示幾個有挑戰性目標放入背景示例，本文所提方法效果更出色；
在這里插入圖片描述
表4展示本文方法生成圖片滿意度更高；

消融實驗

表5展示稀疏對比損失性能提升明顯；
在這里插入圖片描述
表6表示Local Atten效果最佳。

Global Only表示concat全局背景及前景特征；
Local Concat表示concat全局目標特征及每個局部背景特征；
Local Atten表示通過transformer結合全局前景特征及局部背景特征

圖7為可視化展示前景token與局部背景token之間attention；16個熱度圖展示不同尺度目標推薦不同位置；
在這里插入圖片描述

討論及結論

TopNet通過transformer結合目標特征及局部背景特征，預測目標尺度及放置位置，超越現有SOTA方法，并且在真實圖片具有泛化性。

限制

未考慮光照、陰影、遮擋等信息；
依賴于修復網絡構建數據集，與真實圖存gap

參考文獻

[26] Lingzhi Zhang, Tarmily Wen, Jie Min, Jiancong Wang, David Han, and Jianbo Shi. Learning object placement by in- painting for compositional data augmentation. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow,UK, August 23–28, 2020, Proceedings, Part XIII 16, pages 566–581. Springer, 2020. 1, 2, 6, 7
[29] Sijie Zhu, Zhe Lin, Scott Cohen, Jason Kuen, Zhifei Zhang, and Chen Chen. Gala: Toward geometry-and- lighting-aware object search for compositing. arXiv preprint arXiv:2204.00125, 2022. 1, 2, 5, 6, 7

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/166158.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/166158.shtml
英文地址，請注明出處：http://en.pswp.cn/news/166158.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！