TopNet-(CVPR2023)前背景圖像合成

文章目錄

  • 摘要
  • 引言
  • 算法
    • 架構
    • 結構
    • 損失函數
  • 實驗
    • 數據集
    • 評估
    • SOTA比較
    • 模型是否過擬合到修復區域
    • 泛化到真實圖片
    • 消融實驗
  • 討論及結論
    • 限制
  • 參考文獻

摘要

作者調研自動放置目標到背景進行圖像合成的問題。提供背景圖、分割的目標,訓練模型預測合理放置信息(位置及尺寸)。當前工作主要是生成候選框或者使用滑窗搜索,但是不能在背景圖中建模局部信息。本文通過transformer學習目標特征與所有局部背景特征之間相關性。稀疏對比損失用于進一步訓練模型。通過網絡前向生成3D heatmap表明所有合理位置/尺度組合。訓練時可以使用具體標注也可使用現有inpaint模型,已超過SOTA方法。用戶研究表明訓練的模型可泛化到真實圖片。

引言

在這里插入圖片描述
如圖1,現有方法【26】直接預測多個變換或邊界框,表明提供目標的位置和尺度,但僅推薦top,不提供其他可能位置及尺度。【29】使用檢索模型評估給定位置的合理性,并以滑動窗口的方式評估位置和尺度的網格,這導致推理速度慢
本文作者提出的TopNet,將目標放置轉化為稠密點預測問題:通過一次網絡前向生成包含位置、尺度的稠密網格評估。之前方法僅在全局層級結合前景及背景,而TopNet學習全局前景特征與局部背景特征之間相關性,可高效評估所有可能放置位置。
作者訓練TopNet時僅提供一個邊界框,因此使用稀疏對比損失,真值位置/尺寸有一個相對高的得分,同時最小化其他組合及比真值得分高的組合,通過在預測的3D熱度圖上尋找局部最大值生成候選邊界框位置。
本文貢獻:
1、一種新穎的基于transformer的結構建模目標圖與來自背景圖的局部信息之間相關關系;
2、稀疏對比損失訓練稠密預測網絡;
3、在inpaint數據集和標定數據集充分實驗驗證達到SOTA

算法

架構

提供一張背景 I b I_b Ib?及前景 I o I_o Io?,模型預測的3D熱度圖 H H H c = 16 c=16 c=16表示尺度值s,0.15-0.9,間隔0.05,每個空間位置與放置邊界框的中心有關。
推理時,首先對 H H H歸一化,尋找top-1或top-k候選框。

結構

如圖2,使用兩個編碼器學習背景和目標特征,為確定特定位置的目標尺寸是否合適,背景圖中局部信息可提供細節信息,因此保留來自背景encoder中最后一個卷積層或transformer層的局部特征/token;對于前景相對簡單,保留全局特征。
使用多層transformer學習目標全局特征與背景局部特征之間相關性class token替換為目標全局特征,最后一層所有patch token送入上采樣decoder;對于transformer降采樣后的特征進行concat及reshape,而后經過4個卷積層進行上采樣。
在這里插入圖片描述

損失函數

通過mask原始目標后進行修復,生成純背景圖,從而構造訓練集。損失函數第一項Lcon如式1,
在這里插入圖片描述
真值處得分最大,其中對于真值附近的點,M為0,其余位置為0.1;損失函數第二項Lrange,如式2,
在這里插入圖片描述
鼓勵H的最低分趨近于0,防止謀學位置預測得分高。整體損失函數L=Lcon+Lrange

實驗

數據集

在這里插入圖片描述
Pixabay:使用LAMA進行目標擦除,對于圖中少于3個目標的圖片,額外增加一個mask,如圖4,防止模型過擬合到修復的物體。訓練集367, 384對,測試集41, 166
OPA訓練集21, 350,測試集3, 566。

評估

Top-k IOU:top k個候選框與真值框iou的最大值
Normalized Score:熱度圖歸一化后,在真值處的得分應該相對高,因此計算NS均值以及NS高于一定閾值的百分比

SOTA比較

Regression表示直接預測真值框;
?Retrieval表示通過檢索尋找合理位置;
Classifier表示通過分類器預測合成圖是否合理,為檢索方案的進一步擴充;
PlaceNet表示通過對抗訓練預測框是否合理。
表1展示top-5 IOU評估結果,該方法遠超過現有方法,同時速度也比較快
在這里插入圖片描述
表2、表3表示對應真值位置NS結果及iou結果;
在這里插入圖片描述

模型是否過擬合到修復區域

圖5表明模型未過擬合到LAMA修復區域。
在這里插入圖片描述

泛化到真實圖片

圖6展示幾個有挑戰性目標放入背景示例,本文所提方法效果更出色;
在這里插入圖片描述
表4展示本文方法生成圖片滿意度更高;
在這里插入圖片描述

消融實驗

表5展示稀疏對比損失性能提升明顯;
在這里插入圖片描述
表6表示Local Atten效果最佳。
在這里插入圖片描述
Global Only表示concat全局背景及前景特征;
Local Concat表示concat全局目標特征及每個局部背景特征;
Local Atten表示通過transformer結合全局前景特征及局部背景特征

圖7為可視化展示前景token與局部背景token之間attention;16個熱度圖展示不同尺度目標推薦不同位置
在這里插入圖片描述

討論及結論

TopNet通過transformer結合目標特征及局部背景特征,預測目標尺度及放置位置,超越現有SOTA方法,并且在真實圖片具有泛化性。

限制

  • 未考慮光照、陰影、遮擋等信息;
  • 依賴于修復網絡構建數據集,與真實圖存gap

參考文獻

[26] Lingzhi Zhang, Tarmily Wen, Jie Min, Jiancong Wang, David Han, and Jianbo Shi. Learning object placement by in- painting for compositional data augmentation. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow,UK, August 23–28, 2020, Proceedings, Part XIII 16, pages 566–581. Springer, 2020. 1, 2, 6, 7
[29] Sijie Zhu, Zhe Lin, Scott Cohen, Jason Kuen, Zhifei Zhang, and Chen Chen. Gala: Toward geometry-and- lighting-aware object search for compositing. arXiv preprint arXiv:2204.00125, 2022. 1, 2, 5, 6, 7

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/166158.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/166158.shtml
英文地址,請注明出處:http://en.pswp.cn/news/166158.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

JavaScript文檔加載和文檔準備的區別

你可能已經聽說過JavaScript中的“文檔加載”和“文檔準備”這兩個術語。雖然它們聽起來很相似,但它們實際上有一些重要的區別。在本文中,我們將深入探討這兩個概念的區別,以及它們在實際編碼中的應用。 引言 在開始討論JS文檔加載和文檔準備…

批量添加PPT備注

我一直都覺得,用python高效辦公,是件沒必要的事。。。 但直到最近寫課做PPT,做了80多頁PPT,要把每一頁PPT的備注粘貼進去時 我覺得,有什么關系呢,一頁一頁粘 但是粘到5頁,我感覺ctlc\v頻率有點兒…

程序員接單,寶藏好平臺抄底攻略清單!五大平臺精選。

前陣子“雙十一”購物節狂歡促銷,各種好貨清單席卷而來。 程序員購不購物我不知道,但是這個兼職、接單清單相信你一定用得著。 搜羅海量信息,整理大量數據與評價,挖出了5個寶藏平臺,絕對個個精選,保證量大…

圖片轉換成pdf格式的軟件ABBYY16

ABBYY PDF這款提供多種圖像處理選項,可提高源圖像的質量,便于準確地識別光學字符。我們掃描紙質文檔或從圖像文件創建 PDF 時,務必選擇合適的圖像處理選項。而在ABBYY PDF 中包含下列圖像處理選項。 識別文本 — 選擇此選項會將文本層放在圖…

(保姆級教程)Mysql中索引、觸發器、存儲過程、存儲函數的概念、作用,以及如何使用索引、存儲過程,代碼操作演示

講解 MySQL 中索引、觸發器、存儲過程、存儲函數的使用 文章目錄 1. 索引1.1 索引的分類1.2 索引的設計原則1.3 如何使用(create index) 2. 觸發器2.1 觸發器的分類2.2 如何使用(create trigger) 3. 存儲過程3.1 如何使用&#xf…

SpringBoot調用HTTP接口

1. RestTemplate 首先引入依賴 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency> 編寫配置類 Configuration public class RestTemplateConfig {Beanpublic Re…

Git拉取遠程倉庫代碼覆蓋本地,也就是放棄本地修改

git撤銷本地 、強制拉取遠程代碼覆蓋本地-CSDN博客 說的最多的是用&#xff1a;git fetch --all 但是親測是無效的&#xff0c;并不能將本地不存在但遠程倉庫存在的文件取回來。就是git fetch 項目地址&#xff0c;也是沒用的&#xff01; 就算是重新pull整個項目&#xff0…

Django中間件

目錄 一.介紹 1.什么是Django中間件 2.作用&#xff1a; 3.示例 二.Django請求生命周期流程圖 三.Django中間件是Django的門戶 四.中間件方法 1.必須掌握的中間件方法 &#xff08;1&#xff09;process_request: 示例&#xff1a; 2.需要了解的中間件方法 &#x…

新生兒散光:原因、科普和注意事項

引言&#xff1a; 散光是一種常見的眼睛問題&#xff0c;雖然在新生兒時期相對較少見&#xff0c;但了解其原因、科普相關知識&#xff0c;并提供一些建議的注意事項&#xff0c;對于嬰兒的視力健康至關重要。本文將深入探討新生兒散光的原因、相關科普知識&#xff0c;并為父…

大廠前沿技術導航

百度Geek說 - 知乎 騰訊技術 - 知乎 美團技術團隊

YaRN方法:無需微調,高效擴展語言模型上下文窗口/螞蟻集團與浙大發布原生安全框架v1.0,引領企業網絡安全新時代 |魔法半周報

我有魔法?為你劈開信息大海? 高效獲取AIGC的熱門事件&#x1f525;&#xff0c;更新AIGC的最新動態&#xff0c;生成相應的魔法簡報&#xff0c;節省閱讀時間&#x1f47b; &#x1f525;資訊預覽 YaRN方法&#xff1a;無需微調&#xff0c;高效擴展語言模型上下文窗口 螞蟻…

2023 hnust 湖南科技大學 信息安全管理課程 期中考試 復習資料

前言 ※老師沒畫重點的補充內容★往年試卷中多次出現或老師提過的&#xff0c;很可能考該筆記是奔著及格線去的&#xff0c;不是奔著90由于沒有聽過課&#xff0c;部分知識點不一定全&#xff0c;答案不一定完全正確 題型 試卷有很多題是原題 判斷題&#xff08;PPT&#xff…

python-冒泡排序

冒泡排序 &#xff08;穩定&#xff09; O(n^2) (穩定&#xff1a;表示相等的數&#xff0c;相對位置會不會改變) 冒泡排序&#xff08;Bubble Sort&#xff09;是一種簡單的排序算法&#xff0c;它通過多次遍歷待排序的元素&#xff0c;比較相鄰兩個元素的大小并交換它們&…

Kafka 常用功能總結(不斷更新中....)

kafka 用途 業務中我們經常用來兩個方面 1.發送消息 2.發送日志記錄 kafka 結構組成 broker&#xff1a;可以理解成一個單獨的服務器&#xff0c;所有的東西都歸屬到broker中 partation&#xff1a;為了增加并發度而做的拆分&#xff0c;相當于把broker拆分成不同的小塊&…

黨建信息管理系統源碼 支持在線交黨費 附帶完整的搭建教程

傳統的黨建管理模式通常采用手工方式&#xff0c;不僅效率低下&#xff0c;而且容易出錯。隨著組織規模的擴大和黨員數量的增加&#xff0c;這種管理方式已經無法滿足現實需求。此外&#xff0c;傳統的黨建管理模式缺乏在線交黨費功能&#xff0c;給黨員帶來不便。因此&#xf…

Kubernetes 離線部署 Spinnaker

離線部署 Spinnaker 離線部署 spinnaker 需要提前準備以下依賴項 halyard 安裝工具&#xff1a;該hal命令的apt源地址https://us-apt.pkg.dev/projects/spinnaker-community位于國外halyard boms物料清單&#xff1a;Spinnaker 將其halyard boms配置存儲在公共谷歌云存儲 ( g…

Divisibility Trick

Dmitry最近學會了一個簡單的規則來檢查一個整數是否可以被3整除。如果一個整數的位數之和可以被3整除&#xff0c;那么它就可以被3所整除。 后來他還了解到&#xff0c;同樣的規則也可以用來檢查一個整數是否可以被9整除。如果一個整數的位數之和可以被9整除&#xff0c;那么它…

如何在 Web 應用程序中查找端點?

如何在 Web 應用程序中查找端點? 這篇文章主要講述了如何在網絡應用中找到端點。以下是文章的主要要點: 端點是網絡服務的訪問地址,通過引用這個URL,客戶可以訪問服務提供的操作。端點提供了尋址Web服務端點所需的信息。 HTTP消息是服務器和客戶端之間交換數據的方式,包…

Anaconda深度學習環境配置命令參考

提示&#xff1a;文章寫完后&#xff0c;目錄可以自動生成&#xff0c;如何生成可參考右邊的幫助文檔 Anaconda深度學習環境配置 Anaconda 管理1. 檢查 Anaconda 版本2. 獲取版本號3. 列出所有的虛擬環境4. 查看環境管理的全部命令幫助5. conda升級6. conda升級后釋放空間 Anac…

2024免費MacBook清理工具CleanMyMac X4.15

CleanMyMac X 是一款專業的Mac清理軟件&#xff0c;可智能清理mac磁盤垃圾和多余語言安裝包&#xff0c;快速釋放電腦內存&#xff0c;輕松管理和升級 Mac 上的應用。同時 CleanMyMac X 可以強力卸載惡意軟件&#xff0c;修復系統漏洞&#xff0c;一鍵掃描和優化 Mac 系統&…