【論文精讀】2024 ECCV--MGLD-VSR現實世界視頻超分辨率(RealWorld VSR)

文章目錄

  • 一、摘要
  • 二、問題
  • 三、Method
    • 3.1 Latent Diffusion Model
    • 3.2 Motion-guided Diffusion Sampling
    • 3.3 Temporal-aware Decoder Fine-tuning
  • 四、實驗設置
    • 4.1 訓練階段
    • 4.2 訓練數據
  • 貢獻總結

論文全稱: Motion-Guided Latent Diffusion for Temporally Consistent Real-world Video Super-resolution
代碼路徑: https://github.com/IanYeung/MGLD-VSR
更多RealWolrd VSR整理在 https://github.com/qianx77/Video_Super_Resolution_Ref

一、摘要

現實世界中的低分辨率(LR)視頻存在多樣化和復雜的退化現象,這對視頻超分辨率(VSR)算法在高質量地再現其高分辨率(HR)對應物時提出了巨大的挑戰。最近,擴散模型在圖像還原任務中展現出了令人信服的生成真實細節的性能。然而,擴散過程具有隨機性,使得控制還原圖像內容變得困難。當將擴散模型應用于視頻超分辨率(VSR)任務時,這個問題變得更加嚴重,因為時間一致性對視頻的感知質量至關重要。
在本文中,我們通過利用預訓練的潛在擴散模型的優勢,提出了一種有效的實際應用視頻超分辨率算法。為了確保相鄰幀之間內容的一致性,我們利用低分辨率視頻中的時間動態,通過優化潛在采樣路徑并引入運動引導損失,來指導擴散過程,從而確保生成的高分辨率視頻保持一致且連續的視覺流。為了進一步減輕生成細節的間斷性,我們在解碼器中插入了時間模塊,并使用一種創新的序列導向損失對其進行微調。所提出的基于運動引導潛在擴散(MGLD)的超分辨率算法在真實世界的超分辨率基準數據集上實現了顯著優于現有技術的感知質量,驗證了所提模型設計和訓練策略的有效性。代碼和模型可在 https://github.com/IanYeung/MGLD-VSR 獲取。

二、問題

1、CNN Transformer架構表現不好
2、diffusion模型時序細節穩定性差

三、Method

圖片

3.1 Latent Diffusion Model

介紹下LDM基本過程

3.2 Motion-guided Diffusion Sampling

在采樣過程中引入了一種創新的運動引導模塊,以測量跨幀的潛在特征的變形誤差。
1、計算光流(前向和反向),下采樣光流圖去適應latent feature的尺寸
2、warp latent feature到相鄰幀,然后計算兩個方向上的累計誤差
圖片
3、計算occlusion區域,增加一個mask,僅這些位置提供梯度
圖片

3.3 Temporal-aware Decoder Fine-tuning

latent的穩定性得到提升了,但是畢竟latent尺度是x8以下的,放大后可能又不穩定了,所以VAE-Dec也需要微調下
1、如圖2所示,其中時序方面(temporal convs)的卷積是 1D convolutions(計算成本小)
2、從encoder通過CFW模塊引入編碼器特征,實現保真的效果
3、訓練時候凍結原始空間卷積spatial convs
4、?1 loss and perceptual loss、GAN-loss、frame difference loss、結構加權一致性損失 Lswc (structure weighted consistency loss)
圖片
其中w=1+wS,代表著邊緣位置,這個損失看起來是為了讓前后幀的特征對齊
總的loss
圖片

四、實驗設置

4.1 訓練階段

兩個訓練階段
1、finetune 去噪U-Net,權重使用sd2.1初始化,插入1D temporal convolution ,原始U-Net權重凍結,僅訓練條件 和 時序模塊
條件模塊:包括小的時間感知的encoder,負責編碼LR,然后注入去噪U-Net (使用SFT模塊注入)
時序模塊 :每個卷積塊后面的1D temporal convolution
batch size設置24,序列長度設置6,latent尺寸設置64x64
2、首先生成干凈的latent 序列,然后finetune 時間感知序列decoder (使用LR序列、生成的latent序列、HR序列)
這個階段固定的VAE的decoder,然后插值時序模塊和CFW模塊來訓練
batch size 設置4,序列長度設置5,圖像尺寸設置512x512

4.2 訓練數據

GT: REDS
LQ: RealBasicVSR的降質

貢獻總結

1、提出了一種基于運動引導損失的擴散采樣過程,使得輸入幀的時間動態可以用于生成時間一致的潛在特征。
2、提出了一種時間感知序列解碼器,以及兩個面向序列的損失,以進一步增強生成視頻的連續性。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/83086.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/83086.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/83086.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

初學c語言21(文件操作)

一.為什么使用文件 之前我們寫的程序的數據都是存儲到內存里面的,當程序結束時,內存回收,數據丟失, 再次運行程序時,就看不到上次程序的數據,如果要程序的數據一直保存得使用文件 二.文件 文件一般可以…

歷年廈門大學計算機保研上機真題

2025廈門大學計算機保研上機真題 2024廈門大學計算機保研上機真題 2023廈門大學計算機保研上機真題 在線測評鏈接:https://pgcode.cn/school 數字變換過程的最大值與步數 題目描述 輸入一個數字 n n n,如果 n n n 是偶數就將該偶數除以 2 2 2&…

MySql--定義表存儲引擎、字符集和排序規則

示例: CREATE TABLE users (id INT PRIMARY KEY,name VARCHAR(50) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci,email VARCHAR(100) ) ENGINEInnoDB DEFAULT CHARSETutf8mb4 COLLATEutf8mb4_0900_ai_ci;注意事項: 字符集和排序規則可以按列覆蓋表…

深耕數字化賽道,聯眾優車以創新風控體系構筑汽車金融護城河

近年來,在汽車金融市場規模持續擴大的行業背景下,企業風險管理能力已成為決定市場競爭格局的關鍵要素。面對快速擴張的市場需求,銀保監會2024年發布的《汽車金融公司監管評級辦法》明確要求行業強化風控能力建設,央行《金融科技發…

第十九章 正則表達式

第十九章 正則表達式 文本型數據在所有的類UNIX系統(如 Linux)中會扮演著重要角色,在完全領會這些工具的全部特征之前,要先了解一下工具最為復雜的用法和相關技術:正則表達式。 什么是正則表達式 簡單地說,正則表達式是一種用于…

內存監控方法與要點詳解

引言 在軟件性能測試領域,內存管理是評估系統穩定性和性能的關鍵指標之一。作為軟件測試工程師,我們經常遇到因內存泄漏、內存溢出等問題導致的系統崩潰或性能下降。本文將深入探討性能測試中內存監控的方法和要點,幫助測試團隊更有效地識別…

56、Ocelot 概述

Ocelot 是一個基于 .NET Core 開發的開源 API 網關,主要用于微服務架構中,為多個后端服務提供統一的訪問入口。它通過集中化管理請求路由、認證、限流、負載均衡等功能,簡化了客戶端與后端服務之間的交互,同時增強了系統的安全性和…

如何將多張圖組合到一張圖里同時保留高的分辨率(用PPT+AdobeAcrobat)

文章目錄 一、用PPT排版得到一頁排布了很多圖片的PPT二、用AdobeAcrobat打開pdf文件三、最后得到的圖片 一、用PPT排版得到一頁排布了很多圖片的PPT 步驟如下 ①將幻燈片大小的長設置為17.2,寬根據圖像多少進行調整,我這里是10 幻燈片大小的長設置步驟&…

【Web應用】若依框架:基礎篇12 項目結構

文章目錄 ?前言?一、課程講解🌟1、尋找合適的對象?1) ?二、怎樣選擇設計模式?🌟1、尋找合適的對象?1) ?三、怎樣使用設計模式?🌟1、尋找合適的對象?1) ?總結 標題詳情作者JosieBook頭銜CSDN博客專家資格、阿里…

SolidWorks 文件打開時電腦卡頓問題分析與解決

最近遇到一個問題就是我點擊solid work的文件的時候會將電腦卡住然后電腦開始飛速的加載內存,鼠標移動很卡頓 解決辦法: 1.找到資源管理器 當遇到這種情況時,可以嘗試通過資源管理器來解決問題。首先,找到任務管理器&#xff08…

更新密碼--二階注入攻擊的原理

1.原理知識: 二階SQL注入攻擊(Second-Order SQL Injection)原理詳解 一、基本概念 二階注入是一種"存儲型"SQL注入,攻擊流程分為兩個階段: ??首次輸入??:攻擊者將惡意SQL片段存入數據庫?…

在 WSL Ubuntu-24.04 上安裝 Nacos 2.5.1 并使用 MySQL 數據庫

在微服務架構中,Nacos 是一個非常重要的服務發現和配置管理工具。本文將詳細介紹如何在 WSL(Windows Subsystem for Linux)中的 Ubuntu-24.04 系統上安裝 Nacos 2.5.1,并將其配置為使用 MySQL 數據庫進行數據存儲。我們將使用 roo…

2.qml使用c++

目錄 1.概述2.注冊方式3. 分類①枚舉類②工具類③數據類④資源類②視圖類 1.概述 qml是用來干嘛的? 當然是提高UI開發效率的 為什么要混合C? 因為qml無法處理密集型數據邏輯 而加入c則兼顧了性能 達到11>2 總結就是 qml 開發UI, C 實現邏輯 而js的用…

位置規劃模式和周期同步位置模式區別

專業方向: 伺服電機位置控制模式(電氣自動化) 標題解釋 位置規劃模式(Profile Position Mode,PP)和周期同步位置模式(Cyclic Synchronous Position Mode,CSP)區別。 常規…

C# ToString格式說明符

貨幣 "C"或"c" //C Console.WriteLine(666.ToString("C"));//¥666.00//C數字 表示保留幾位小數精度 Console.WriteLine(666.ToString("C1"));//¥666.0 Console.WriteLine(666.ToString("C3"));//&…

基本數據指針的解讀-C++

1、引言 筆者認為對于學習指針要弄清楚如下問題基本可以應付大部分的場景: ① 指針是什么? ② 指針的類型是什么? ③ 指針指向的類型是什么? ④ 指針指向了哪里? 2、如何使用指針 使用時的步驟如下: ① …

【Elasticsearch】suggest_mode

suggest_mode 是 Elasticsearch 中 term suggester 和 phrase suggester 的一個參數,用于控制建議的生成方式。它有以下三種模式: 1. missing:默認值。僅對索引中不存在的詞項提供建議。如果輸入的詞已經在索引中存在,則不會生成建…

九、【前后端聯調篇】Vue3 + Axios 異步通信實戰

九、【前后端聯調篇】Vue3 Axios 異步通信實戰 前言準備工作第一步:安裝 Axios第二步:封裝 Axios 實例第三步:創建 API 服務模塊第四步:在組件中調用 API第五步:測試前后端聯調 總結 前言 在 Web 開發中,…

【計算機網絡】傳輸層TCP協議——協議段格式、三次握手四次揮手、超時重傳、滑動窗口、流量控制、

🔥個人主頁🔥:孤寂大仙V 🌈收錄專欄🌈:計算機網絡 🌹往期回顧🌹: 【計算機網絡】傳輸層UDP協議 🔖流水不爭,爭的是滔滔不息 一、TCP協議 UDP&…

php:5.6-apache Docker鏡像中安裝 gd mysqli 庫 【親測可用】

Dockerfile 代碼如下: FROM php:5.6-apache# 使用Debian歸檔源 RUN echo "deb http://archive.debian.org/debian stretch main contrib non-free" > /etc/apt/sources.list && \echo "deb http://archive.debian.org/debian-security s…