當前(2024-07-14)視頻插幀(VFI)方向的 SOTA 基本被三篇頂會工作占據,按“精度-速度-感知質量”三條線總結如下,供你快速定位最新范式。
-
感知質量最佳:CVPR 2024 ? PerVFI
? 關鍵詞:非對稱融合 + Normalizing Flow 先驗
? 亮點:把光流誤差導致的重影問題顯式建模為“特征不對齊”,用稀疏約束的非對稱融合+基于流的生成器一次性解決重影和模糊;在 Xiph-4K、Vimeo90K 等基準上 PSNR/SSIM 不是最高,但 LPIPS、用戶主觀評分第一。
? 代碼/模型:https://github.com/mulns/PerVFI -
通用精度最佳:CVPR 2022 ? IFRNet(更新版 RIFE++)
? 關鍵詞:光流-特征聯合精煉、一次前向推理
? 亮點:把“中間光流估計”和“中間幀特征重建”放在同一個 encoder-decoder 里 coarse-to-fine 聯合優化,避免級聯網絡延遲;RIFE++ 蒸餾后 1080p 單幀 6-8 ms,可實時 30→240 fps。
? 代碼/模型:https://github.com/megvii-research/IFRNet -
生成式新路線:LDMVFI(首次將 Latent Diffusion 引入插幀)
? 關鍵詞:LDM + 隱空間擴散
? 亮點:把插幀形式化為條件生成任務,利用潛在擴散模型在緊湊隱空間內去噪,生成高感知質量中間幀;在極端復雜運動和光照突變場景下優于傳統 CNN 方法。
? 代碼/模型:尚未開源,但論文已公開(2024-08 見刊)
補充兩條工程向進展
? 高分辨率:XVFI(CVPR2021)仍是 4K 以上大運動場景的 baseline,基于遞歸多尺度共享結構,顯存占用低。
? 輕量化:CDFI 在保持 AdaCoF 性能的同時,參數量×0.25,適合移動端部署。
一句話總結
要“效果頂”直接用 PerVFI;要“又快又好”選 IFRNet/RIFE++;想追生成式熱點可關注 LDMVFI。