【超分辨率專題】一種考量視頻編碼比特率優化能力的超分辨率基準

在這里插入圖片描述


這是一個Benchmark,超分辨率+視頻編碼(2024)

  • 專題介紹
  • 一、研究背景
  • 二、相關工作
    • 2.1 SR的發展
    • 2.2 SR benchmark的發展
  • 三、Benchmark細節
    • 3.1 數據集制作
    • 3.2 模型選擇
    • 3.3 編解碼器和壓縮標準選擇
    • 3.4 Benchmark pipeline
    • 3.5 質量評估和主觀評價研究
  • 四、實驗論證
    • 4.1 視頻質量評估結果
    • 4.2 比特率降低測試
    • 4.3 視頻質量度量指標評估
  • 五、總結
    • 個人思考

本文將對SR+Codec: a Benchmark of Super-Resolution for Video Compression Bitrate Reduction進行解讀,正如標題所示,建立了新的benchmark。參考資料如下:
[1]. SR+Codec Benchmark 論文地址
[2]. Benchmark(課題組成果展示)地址


專題介紹

現在是數字化時代,圖像與視頻早已成為信息傳遞的關鍵載體。超分辨率(super resolution,SR)技術能夠突破數據源的信息瓶頸,挖掘并增強低分辨率圖像與視頻的潛能,重塑更高品質的視覺內容,是底層視覺的核心研究方向之一。并且SR技術已有幾十年的發展歷程,方案也從最早的鄰域插值迭代至現今的深度學習SR,但無論是經典算法還是AI算法,都在視覺應用領域內發揮著重要作用。

本專題旨在跟進和解讀超分辨率技術的發展趨勢,為讀者分享有價值的超分辨率方法,歡迎一起探討交流。

一、研究背景

截至2022年,視頻流量占比超80%互聯網流量且持續增長,視頻壓縮技術能有效降低數據帶寬消耗,但壓縮意味著有損失。而SR技術可通過恢復細節以增強視頻質量,具備優化壓縮的潛力;不過現有SR模型對強壓縮視頻恢復效果有限且易出瑕疵(如下圖示例)。
在這里插入圖片描述
那么針對效果問題該如何做改進呢?哎,這不是本文的目的,本文的核心工作是:

  1. 提出了一個新的針對視頻壓縮復原的SR模型評測的benchmark。
  2. 評估了5個視頻編解碼器和19個SR模型。考慮了不同壓縮比特率下的測試情況,考慮了在編碼前對視頻做降分辨率的情況。得出了幾個結論
  3. 提出了將客觀度量和主觀評價(5397名受試者)相結合的評判標準。重點關注細節恢復和主觀感知的表現,以及消除壓縮偽影問題的能力。并構建了一個與主觀評價相關性高的簡單度量組合。
  4. 量化分析了SR在視頻質量恢復與比特率優化中的實際效能,為編解碼器設計(如LCEVC)提供模型選型依據。

作者期望本工作能夠為低帶寬高清視頻傳輸提供技術路徑,推動SR在實時編解碼場景中的應用。

“我們來定更好的標準,你們來做更好的算法。”

有些新入坑的朋友可能會想,啥是benchmark呢?
benchmark是一種標準化的測試方法或數據集,用于衡量和比較不同算法或模型在特定任務上的性能。它提供了一種客觀的評估標準,幫助研究人員和開發者了解他們的算法或模型在實際應用中的表現。根據類型劃分,包括了數據集基準任務基準性能指標基準

二、相關工作

2.1 SR的發展

言歸正傳,作者捋了捋當前的SR技術發展。這里基于文章內容簡單整理了一個表。

功能維度時間冗余利用類視頻 SR 方法GAN 類 SR 方法擴散模型類 SR 方法
核心思想通過遞歸/雙向傳播對齊時空上下文利用對抗訓練生成逼真紋理多步推理生成高質量結果
代表模型RBPN [17], COMISR [27], BasicVSR++ [15], VRT [29], RVRT [30], Swin2SR [16]ESRGAN [38], Real-ESRGAN [39]diffusion SR系列 [33,35,41,51]
技術優勢雙向遞歸扭曲(COMISR)、局部-全局注意力(Swin2SR)、跨片段預測(RVRT)高階退化建模(Real-ESRGAN)、增強感知損失圖像生成質量優異
局限性對壓縮偽影敏感(如 VRT 在強壓縮場景失效)過度銳化風險推理步驟多(>100 步)→ 實時性差
適用場景視頻序列中運動連續性強(如手持抖動視頻 [45])壓縮圖像紋理修復(如自然圖像)離線非實時任務(如存檔修復)

鑒于設計用于壓縮視頻的SR模型數量有限,所以作者認為評估現有SR模型在壓縮視頻上的性能仍是一項關鍵任務。(因少故難,不忘督促各位學者趕緊研究)

另外,有些方案會對視頻做降分辨率的操作,從而降低比特率,在解碼端設計特殊的解碼器將同時實現解碼和SR。

在本次基準測試中,僅考慮編解碼器和SR方法彼此獨立的情況,評估不同編解碼器和SR方法如何結合在一起最佳。

2.2 SR benchmark的發展

其實關于SR的benchmark已有很多,本文更加聚焦于SR與Codec相結合。當然,前兩年也有類似的benchmark

  1. NTIRE 2022 Challenge on Super-Resolution and Quality Enhancement of Compressed Video
  2. AIM 2022 Challenge on Super-Resolution of Compressed Image and Video

But!本項工作做了幾個點的改進,采用了更廣泛的視頻質量度量和更多的視頻編解碼器。還做了不同SR對優化比特率能力的測試。

特地去看了下NTIRE2022,編碼僅采用了HEVC。評價指標僅采用了PSNR,確實單一。同時建立了數據集LDV2.0。而AIM2022中關于視頻壓縮的超分挑戰規則跟NTIRE2022中是一樣的,只是將LDV數據集升級至3.0,新增了30個4K視頻(來自youtube)。

博主對比了一下LDV2.0和LDV3.0的描述,基本上就是ctrl+c和ctrl+v,僅僅是數據量上增加了一些。(那為何要在同一年搞兩次類似的挑戰?難以理解) LDV1.0-3.0的數據集路徑https://github.com/RenYang-home/LDV_ dataset,感興趣的可以去看下。

三、Benchmark細節

3.1 數據集制作

作者沒有考慮沿用LDV系列,而是自己搜集制作。為了保證基準數據集足夠多樣化,從多個來源收集了1920x1080的視頻,包括:

  • 視頻網站片段:從視頻網站截取了50個序列,包括real world和動畫,并用VQMT將數據拆分成多個場景類型。
  • 相機實拍:用佳能EOS 7D去拍攝室內室外場景,保證亮度和清晰度較為合適,共20個室內素材和30個室外素材,包含了目標運行和相機水平運動的兩種情況。(大家可以思考下:這兩種運動的區別是什么,為什么要區分?)
  • 游戲視頻片段,截取了20個片段,包括的2D和3D游戲視頻。

然后獲取了每個視頻的特征,包括google時空特征,fps,顏色和最大face數量。基于這些特征,用k-means進行聚類,分成20個簇,每個簇選擇一個視頻,將其稱為源視頻。如下圖所示。

在這里插入圖片描述

在這里插入圖片描述

這里有個新詞匯,Google Spatial and Temporal features(google時空特征),其實就是空間復雜度和時間復雜度,前者用I幀的編碼比特來計算,后者用P幀的編碼比特來計算。(詳情可參考引文《YouTube UGC dataset for video compression research》)

作者為了保證重要細節在降尺度和壓縮后不完全丟失,只考慮了空間和時間復雜度低的視頻,且沒有很重的模糊和噪聲。還表示相機運動有助于SR算法利用幀間信息做恢復。

拍腦袋想,所謂空間復雜度低就是沒有很豐富的細節紋理,時間復雜度低就是沒有大范圍的劇烈運動。
為啥這么選?因為豐富的細節紋理壓縮后損失明顯,難以復原,也就很難體現SR的效果,那豈不是等于白評估。

3.2 模型選擇

數據標準搞定了,模型怎么選?

作者從細節復原和感知質量提升這兩個維度評估和考慮,排除了一些類似的方案,選擇了19種模型,包括BasicVSR++,COMISR,DBVSR,EGVSR,LGFN,RBPN,Real-ESRGAN,RealSR,RSDN,SOF-VSR-BD,SOF-VSR-BI,SwinIR,TMNet,VRT,RVRT,IART,AnimeSR,Topaz Video AI 和 bicubic插值。 均采用原作者的預訓練權重。

等等,里面怎么還有圖像超分算法呢?原來是作者認為高質量視頻SR模型稀缺,所以加入了圖像SR一起作為比較。

3.3 編解碼器和壓縮標準選擇

作者選擇5種編碼器,突出一個豐富且全面。

在這里插入圖片描述

3.4 Benchmark pipeline

benchmark pipeline如下圖所示。
在這里插入圖片描述

  • 先用FFmpeg將源視頻降分辨率至480x270,用雙三次選型。
  • 選用0.6、1.0和2 Mbps的比特率對低分辨率視頻做壓縮。(客觀評價時還增加了0.1,0.3,4.0Mbps的壓縮檔位)
  • 編碼器均采用了medium配置(應該理解為中等質量)。
  • 壓縮后的視頻使用FFmpeg對PNG序列進行轉碼,作為SR模型輸入。
  • 將圖像SR模型單獨應用于每一幀;視頻SR模型按照正確的順序接收到包含幀的目錄路徑。
  • 測試4x放大的效果,部分模型只支持2x,這種情況就處理2次。

說實話,圖像SR會吃虧一些(缺少時域維度信息),個人感覺缺乏點嚴謹性,要么就圖像SR相互對比,視頻SR相互對比。

3.5 質量評估和主觀評價研究

客觀評價指標有:PSNRMS-SSIMVMAFLPIPSMDTVSFA(唯一的無參考)和ERQA。主要考慮了全參考指標,優先關注細節恢復,而不是感知質量。

主觀評價采用了眾包評價(找一堆不相干的人來評估)。由于在整個畫面中,細節丟失和壓縮偽影可能不容易被注意到,因此改為對剪裁塊做評估。裁剪區域則是通過計算視頻的顯著性區域來確定。為了讓評估者在屏幕上能夠更好地進行比較,他們將剪裁的分辨率設置為480×270。這種方法使得評估者能夠更清晰地觀察到細節和壓縮偽影,從而更準確地比較不同超分辨率模型的效果。除此之外,用對應的裁剪塊計算客觀指標,以確定客觀指標與主觀評分的相關性。

具體主觀評價過程是隨機給出兩個SR模型的一對視頻,讓評價者選擇看起來更真實、壓縮偽影更少的視頻(“不可區分”也是選擇)。

那么由于擔心有些人渾水摸魚,睜眼說瞎話。還很機智地設置了3個驗證性問題。還真篩選出了265位摸魚俠(剔除了)。最后用Bradley-Terry模型計算最終的主觀分數。(共120316個評估結果)

四、實驗論證

針對每個編解碼器,基于LPIPS指標,挑選了10個最佳的模型進行評估。(并不是所有模型都有資格進入決賽圈,肯定不是為了省事)

4.1 視頻質量評估結果

作者選了每個編解碼方案下,無SR和兩種最佳SR效果作為結果展示。發現了幾個有意思的點:

  • x264編碼器: SwinIR和Real-ESRGAN抗壓縮偽影效果最優,帶生成能力的方案有優勢。
  • AV1編碼器: 直接壓縮(無需SR)表現最佳,加SR反而冗余。
  • H.265/H.266: RVRT和RBPN模型恢復能力突出。
    在這里插入圖片描述
    作者解釋這種差異性跟編解碼器的特性是相關的。

4.2 比特率降低測試

下表說明了,主觀評分下,沒有一種SR模型是具備通用性的。例如RealSR在高比特率效果不佳,但低比特率的效果反而有優勢,在AVI數據上甚至NO SR是最好的。原因表述與上個結論一樣。
在這里插入圖片描述
在這里插入圖片描述

效果上看,低比特率+SR能改善偽影問題,但至于比特率下降到多少是合適的,得看具體任務目標還有選用的編解碼器。

4.3 視頻質量度量指標評估

通過計算PLCC和SRCC來評價主觀和客觀指標的相關性,發現相關性普遍較低。

在這里插入圖片描述

結合**ERQA(邊緣恢復質量)MDTVSFA(多維度時空質量)**的復合指標,與主觀評分相關性提升至0.801。建議可以用該復合指標來逼近主觀評價。

五、總結

最后回顧一下,作者建立了一個關于SR+Codec的benchmark,然后研究過程中有以下幾個結論:

  1. 例如RealSR和RVRT能夠在解碼之后提升低比特率視頻的主觀感知質量。
  2. RVRT可以提高x265和vvenc編解碼后的視頻質量。
  3. RealSR可以配合x264一起使用,在不降質的情況下,將視頻比特率降低65%以上。
  4. 現有視頻質量評價指標與主觀評分的相關性很差,不適合評估基于降尺度的視頻編碼結果。
  5. ERQAxMDTVSFA組合的評價方式與主觀評價的相關性較高,可以采用該組合作為評價指標。
  6. 對于一些高級編解碼器而言,如uavs3e,aomenc等,用SR算法做增強處理的價值不大,主觀效果不如無SR的。

根據文章提供的benchmark網址,博主點進去看了看,好家伙,這個實驗室或是專門搞benchmark的,有個專題列表,這里截了點一部分,感興趣的可以去詳細了解一下。(組織名:MCU Graphics & Media Laboratory)
在這里插入圖片描述

不過有一說一,好的benchmark確實能夠給領域內的研究人員或開發人員提供不錯參考和對比。

個人思考

AI SR+Codec的組合可能已經在一些視覺產品上落地使用了。Codec實現低成本數據傳輸,SR實現高質量結果展示。博主認為這個方向的研究與探索是很有價值的,特別是對于輕量化采集設備而言。

當然,確實沒有一個SR方案能夠通吃,很多模型都有各自的局限性(不考慮大模型)。要做好此類任務,需要開發者了解各模型的優劣勢,同時掌握一些Codec的知識,這樣才能針對性地做調整和改進。


感謝閱讀!如有疑問,歡迎留言或私信。
關注博主,一起學習更多的底層視覺技術!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/81113.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/81113.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/81113.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

保姆教程-----安裝MySQL全過程

1.電腦從未安裝過mysql的,先找到mysql官網:MySQL :: Download MySQL Community Server 然后下載完成后,找到文件,然后雙擊打開 2. 選擇安裝的產品和功能 依次點開“MySQL Servers”、“MySQL Servers”、“MySQL Servers 5.7”、…

【React中函數組件和類組件區別】

在 React 中,函數組件和類組件是兩種構建組件的方式,它們在多個方面存在區別,以下詳細介紹: 1. 語法和定義 類組件:使用 ES6 的類(class)語法定義,繼承自 React.Component。需要通過 this.props 來訪問傳遞給組件的屬性(props),并且通常要實現 render 方法返回 JSX…

[基礎] HPOP、SGP4與SDP4軌道傳播模型深度解析與對比

HPOP、SGP4與SDP4軌道傳播模型深度解析與對比 文章目錄 HPOP、SGP4與SDP4軌道傳播模型深度解析與對比第一章 引言第二章 模型基礎理論2.1 歷史演進脈絡2.2 動力學方程統一框架 第三章 數學推導與攝動機制3.1 SGP4核心推導3.1.1 J?攝動解析解3.1.2 大氣阻力建模改進 3.2 SDP4深…

搭建運行若依微服務版本ruoyi-cloud最新教程

搭建運行若依微服務版本ruoyi-cloud 一、環境準備 JDK > 1.8MySQL > 5.7Maven > 3.0Node > 12Redis > 3 二、后端 2.1數據庫準備 在navicat上創建數據庫ry-seata、ry-config、ry-cloud運行SQL文件ry_20250425.sql、ry_config_20250224.sql、ry_seata_2021012…

Google I/O 2025 觀看攻略一鍵收藏,開啟技術探索之旅!

AIGC開放社區https://lerhk.xetlk.com/sl/1SAwVJ創業邦https://weibo.com/1649252577/PrNjioJ7XCSDNhttps://live.csdn.net/room/csdnnews/OOFSCy2g/channel/collectiondetail?sid2941619DONEWShttps://www.donews.com/live/detail/958.html鳳凰科技https://flive.ifeng.com/l…

ORACLE 11.2.0.4 數據庫磁盤空間爆滿導致GAP產生

前言 昨天晚上深夜接到客戶電話,反應數據庫無法正常使用,想進入服務器檢查時,登錄響應非常慢。等兩分鐘后進入服務器且通過sqlplus進入數據庫也很慢。通過檢查服務器磁盤空間發現數據庫所在區已經爆滿,導致數據庫在運行期間新增審…

計算機視覺---目標追蹤(Object Tracking)概覽

一、核心定義與基礎概念 1. 目標追蹤的定義 定義:在視頻序列或連續圖像中,對一個或多個感興趣目標(如人、車輛、物體等)的位置、運動軌跡進行持續估計的過程。核心任務:跨幀關聯目標,解決“同一目標在不同…

windows系統中下載好node無法使用npm

原因是 Windows PowerShell禁用導致的npm無法正常使用 解決方法管理員打開Windows PowerShell 輸入Set-ExecutionPolicy -Scope CurrentUser RemoteSigned 按Y 確認就解決了

Nginx模塊配置與請求處理詳解

Nginx 作為模塊化設計的 Web 服務器,其核心功能通過不同模塊協同完成。以下是各模塊的詳細配置案例及數據流轉解析: 一、核心模塊配置案例 1. Handler 模塊(內容生成) 功能:直接生成響應內容(如靜態文件、重定向等) # 示例1:靜態文件處理(ngx_http_static_module)…

Elasticsearch 學習(一)如何在Linux 系統中下載、安裝

目錄 一、Elasticsearch 下載二、使用 yum、dnf、zypper 命令下載安裝三、使用 Docker 本地快速啟動安裝(ESKibana)【測試推薦】3.1 介紹3.2 下載、安裝、啟動3.3 訪問3.4 修改配置,支持ip訪問 官網地址: https://www.elastic.co/…

Java Map雙列集合深度解析:HashMap、LinkedHashMap、TreeMap底層原理與實戰應用

Java Map雙列集合深度解析:HashMap、LinkedHashMap、TreeMap底層原理與實戰應用 一、Map雙列集合概述 1. 核心特點 鍵值對結構:每個元素由鍵(Key)和值(Value)組成。鍵唯一性:鍵不可重復&#…

HOW - React NextJS 的同構機制

文章目錄 一、什么是 Next.js 的同構?二、核心目錄結構三、關鍵函數:如何實現不同渲染方式?1. getServerSideProps —— 實現 SSR(每次請求動態獲取數據)2. getStaticProps getStaticPaths —— 實現 SSG(…

SkyWalking的工作原理和搭建過程

SkyWalking 是一個開源的 應用性能監控系統(APM),專為云原生、微服務架構設計。其核心原理基于 分布式追蹤(Distributed Tracing)、指標收集(Metrics Collection) 和 日志關聯(Log C…

軟考 系統架構設計師系列知識點之雜項集萃(57)

接前一篇文章:軟考 系統架構設計師系列知識點之雜項集萃(56) 第93題 美國著名的卡內基梅隆大學軟件工程學研究所針對軟件工程的工程管理能力與水平進行了充分研究,提出了5級管理能力的模式,包括臨時湊合階段、簡單模仿…

Java 泛型與類型擦除:為什么解析對象時能保留泛型信息?

引言&#xff1a;泛型的“魔術”與類型擦除的困境 在 Java 中&#xff0c;泛型為開發者提供了類型安全的集合操作&#xff0c;但其背后的**類型擦除&#xff08;Type Erasure&#xff09;**機制卻常常讓人困惑。你是否遇到過這樣的場景&#xff1f; List<String> list …

【gRPC】HTTP/2協議,HTTP/1.x中線頭阻塞問題由來,及HTTP/2中的解決方案,RPC、Protobuf、HTTP/2 的關系及核心知識點匯總

HTTP/2協議特點 gRPC基于HTTP/2協議&#xff0c;原因&#xff1a; 多路復用&#xff1a;允許在同一個TCP連接上并行傳輸多個請求和響應&#xff0c;即多個gRPC調用可以通過同一個連接同時進行&#xff0c;避免了HTTP/1.x中常見的線頭阻塞問題&#xff0c;減少了連接建立和關閉…

PCIe Switch 問題點

系列文章目錄 文章目錄 系列文章目錄完善PCIe Retimer Overview Document OutlineSwitch 維度BroadComMicroChipAsmedia 祥碩Cyan其他 完善 Functional block diagram&#xff0c;功能框圖Key Features and Benefits&#xff0c;主要功能和優點Fabric 鏈路Multi-root PCIe Re…

vue復雜數據類型多層嵌套的監聽

vue復雜數據類型多層嵌套的監聽 本來看前輩的做法是watch的嵌套&#xff0c;遇到這種復雜的數據結構還是不多&#xff0c;分享一下前輩的做法 let stopChildWatchList [] // 用于存放每個子監聽器watch(() > data,(val) > {// 清除舊監聽stopChildWatchList.forEach(…

來一個復古的技術FTP

背景 10年前的老代碼&#xff0c;需要升級springboot框架&#xff0c;在升級過程中&#xff0c;測試業務流程里&#xff0c;有FTP的下載業務&#xff0c;不管測試環境如何測試&#xff0c;都沒有成功&#xff0c;最后只能自己搭建一個FTP服務器&#xff0c;寫一個ftp-demo來測試…

MyBatis-Flex配置Druid(德魯伊數據庫連接池):Spring Boot 3 集成 MyBatis-Flex 配置 Druid 連接池指南

Spring Boot 3 集成 MyBatis-Flex 配置 Druid 連接池指南 前言 本文詳細講解在 Spring Boot 3 項目中集成 MyBatis-Flex 框架后&#xff0c;如何正確配置 Druid 數據庫連接池。針對開發者常見的配置缺失導致啟動失敗的場景&#xff0c;提供完整的解決方案和原理分析。 前置知識…