文章目錄
- 一、摘要
- 二、問題
- 三、Method
- 3.1 Latent Diffusion Model
- 3.2 Motion-guided Diffusion Sampling
- 3.3 Temporal-aware Decoder Fine-tuning
- 四、實驗設置
- 4.1 訓練階段
- 4.2 訓練數據
- 貢獻總結
論文全稱:
Motion-Guided Latent Diffusion for Temporally Consistent Real-world Video Super-resolution
代碼路徑:
https://github.com/IanYeung/MGLD-VSR
更多RealWolrd VSR整理在
https://github.com/qianx77/Video_Super_Resolution_Ref
一、摘要
現實世界中的低分辨率(LR)視頻存在多樣化和復雜的退化現象,這對視頻超分辨率(VSR)算法在高質量地再現其高分辨率(HR)對應物時提出了巨大的挑戰。最近,擴散模型在圖像還原任務中展現出了令人信服的生成真實細節的性能。然而,擴散過程具有隨機性,使得控制還原圖像內容變得困難。當將擴散模型應用于視頻超分辨率(VSR)任務時,這個問題變得更加嚴重,因為時間一致性對視頻的感知質量至關重要。
在本文中,我們通過利用預訓練的潛在擴散模型的優勢,提出了一種有效的實際應用視頻超分辨率算法。為了確保相鄰幀之間內容的一致性,我們利用低分辨率視頻中的時間動態,通過優化潛在采樣路徑并引入運動引導損失,來指導擴散過程,從而確保生成的高分辨率視頻保持一致且連續的視覺流。為了進一步減輕生成細節的間斷性,我們在解碼器中插入了時間模塊,并使用一種創新的序列導向損失對其進行微調。所提出的基于運動引導潛在擴散(MGLD)的超分辨率算法在真實世界的超分辨率基準數據集上實現了顯著優于現有技術的感知質量,驗證了所提模型設計和訓練策略的有效性。代碼和模型可在 https://github.com/IanYeung/MGLD-VSR 獲取。
二、問題
1、CNN Transformer架構表現不好
2、diffusion模型時序細節穩定性差
三、Method
3.1 Latent Diffusion Model
介紹下LDM基本過程
3.2 Motion-guided Diffusion Sampling
在采樣過程中引入了一種創新的運動引導模塊,以測量跨幀的潛在特征的變形誤差。
1、計算光流(前向和反向),下采樣光流圖去適應latent feature的尺寸
2、warp latent feature到相鄰幀,然后計算兩個方向上的累計誤差
3、計算occlusion區域,增加一個mask,僅這些位置提供梯度
3.3 Temporal-aware Decoder Fine-tuning
latent的穩定性得到提升了,但是畢竟latent尺度是x8以下的,放大后可能又不穩定了,所以VAE-Dec也需要微調下
1、如圖2所示,其中時序方面(temporal convs)的卷積是 1D convolutions(計算成本小)
2、從encoder通過CFW模塊引入編碼器特征,實現保真的效果
3、訓練時候凍結原始空間卷積spatial convs
4、?1 loss and perceptual loss、GAN-loss、frame difference loss、結構加權一致性損失 Lswc (structure weighted consistency loss)
其中w=1+wS,代表著邊緣位置,這個損失看起來是為了讓前后幀的特征對齊
總的loss
四、實驗設置
4.1 訓練階段
兩個訓練階段
1、finetune 去噪U-Net,權重使用sd2.1初始化,插入1D temporal convolution ,原始U-Net權重凍結,僅訓練條件 和 時序模塊
條件模塊:包括小的時間感知的encoder,負責編碼LR,然后注入去噪U-Net (使用SFT模塊注入)
時序模塊 :每個卷積塊后面的1D temporal convolution
batch size設置24,序列長度設置6,latent尺寸設置64x64
2、首先生成干凈的latent 序列,然后finetune 時間感知序列decoder (使用LR序列、生成的latent序列、HR序列)
這個階段固定的VAE的decoder,然后插值時序模塊和CFW模塊來訓練
batch size 設置4,序列長度設置5,圖像尺寸設置512x512
4.2 訓練數據
GT: REDS
LQ: RealBasicVSR的降質
貢獻總結
1、提出了一種基于運動引導損失的擴散采樣過程,使得輸入幀的時間動態可以用于生成時間一致的潛在特征。
2、提出了一種時間感知序列解碼器,以及兩個面向序列的損失,以進一步增強生成視頻的連續性。