DiffusionDet: Diffusion Model for Object Detection
- 論文概述
- 不同之處
- 整體流程
論文題目:DiffusionDet: Diffusion Model for Object Detection
論文來源:arXiv preprint 2022
論文地址:https://arxiv.org/abs/2211.09788
論文代碼:https://github.com/ShoufaChen/DiffusionDet
DDPM
DDIM
論文概述
傳統方法根據經驗設計region proposals/anchor boxes/queries等
本文可從隨機初始化的boxes進行回歸和分類
方法概述:
生成模型:從噪聲到圖像/從隨機的框到精確的框
模型架構圖
不同之處
整體流程
訓練階段:
- 初始化一組boxes,并逐漸加入高斯噪聲,得到noisy boxes
- 使用ResNet/Swin Transformer作為encoder提取特征
- 用noisy boxes從2.得到的特征中裁剪出RoI
- 將3.中的RoI送入detection decoder,用于預測真值,計算損失
推理階段:
- 隨機初始化高斯噪聲noisy boxes;用encoder提取特征
- 迭代多次:
將當前的noisy boxes送入decoder,預測目標框;
(DDIM)傳入當前noisy boxes和預測的目標框,預測上一時刻分布;
(Box renewal)根據閾值篩去undesired框,再加入噪聲