【超分辨率專題】一種考量視頻編碼比特率優化能力的超分辨率基準

在這里插入圖片描述

這是一個Benchmark，超分辨率+視頻編碼（2024）

專題介紹
一、研究背景
二、相關工作
- 2.1 SR的發展
- 2.2 SR benchmark的發展
三、Benchmark細節
- 3.1 數據集制作
- 3.2 模型選擇
- 3.3 編解碼器和壓縮標準選擇
- 3.4 Benchmark pipeline
- 3.5 質量評估和主觀評價研究
四、實驗論證
- 4.1 視頻質量評估結果
- 4.2 比特率降低測試
- 4.3 視頻質量度量指標評估
五、總結
- 個人思考

本文將對SR+Codec: a Benchmark of Super-Resolution for Video Compression Bitrate Reduction進行解讀，正如標題所示，建立了新的benchmark。參考資料如下：
[1]. SR+Codec Benchmark 論文地址
[2]. Benchmark（課題組成果展示）地址

專題介紹

現在是數字化時代，圖像與視頻早已成為信息傳遞的關鍵載體。超分辨率（super resolution，SR）技術能夠突破數據源的信息瓶頸，挖掘并增強低分辨率圖像與視頻的潛能，重塑更高品質的視覺內容，是底層視覺的核心研究方向之一。并且SR技術已有幾十年的發展歷程，方案也從最早的鄰域插值迭代至現今的深度學習SR，但無論是經典算法還是AI算法，都在視覺應用領域內發揮著重要作用。

本專題旨在跟進和解讀超分辨率技術的發展趨勢，為讀者分享有價值的超分辨率方法，歡迎一起探討交流。

一、研究背景

截至2022年，視頻流量占比超80%互聯網流量且持續增長，視頻壓縮技術能有效降低數據帶寬消耗，但壓縮意味著有損失。而SR技術可通過恢復細節以增強視頻質量，具備優化壓縮的潛力；不過現有SR模型對強壓縮視頻恢復效果有限且易出瑕疵（如下圖示例）。
在這里插入圖片描述
那么針對效果問題該如何做改進呢？哎，這不是本文的目的，本文的核心工作是：

提出了一個新的針對視頻壓縮復原的SR模型評測的benchmark。
評估了5個視頻編解碼器和19個SR模型。考慮了不同壓縮比特率下的測試情況，考慮了在編碼前對視頻做降分辨率的情況。得出了幾個結論
提出了將客觀度量和主觀評價（5397名受試者）相結合的評判標準。重點關注細節恢復和主觀感知的表現，以及消除壓縮偽影問題的能力。并構建了一個與主觀評價相關性高的簡單度量組合。
量化分析了SR在視頻質量恢復與比特率優化中的實際效能，為編解碼器設計（如LCEVC）提供模型選型依據。

作者期望本工作能夠為低帶寬高清視頻傳輸提供技術路徑，推動SR在實時編解碼場景中的應用。

“我們來定更好的標準，你們來做更好的算法。”

有些新入坑的朋友可能會想，啥是benchmark呢？
benchmark是一種標準化的測試方法或數據集，用于衡量和比較不同算法或模型在特定任務上的性能。它提供了一種客觀的評估標準，幫助研究人員和開發者了解他們的算法或模型在實際應用中的表現。根據類型劃分，包括了數據集基準，任務基準，性能指標基準。

二、相關工作

2.1 SR的發展

言歸正傳，作者捋了捋當前的SR技術發展。這里基于文章內容簡單整理了一個表。

功能維度	時間冗余利用類視頻 SR 方法	GAN 類 SR 方法	擴散模型類 SR 方法
核心思想	通過遞歸/雙向傳播對齊時空上下文	利用對抗訓練生成逼真紋理	多步推理生成高質量結果
代表模型	RBPN [17], COMISR [27], BasicVSR++ [15], VRT [29], RVRT [30], Swin2SR [16]	ESRGAN [38], Real-ESRGAN [39]	diffusion SR系列 [33,35,41,51]
技術優勢	雙向遞歸扭曲（COMISR）、局部-全局注意力（Swin2SR）、跨片段預測（RVRT）	高階退化建模（Real-ESRGAN）、增強感知損失	圖像生成質量優異
局限性	對壓縮偽影敏感（如 VRT 在強壓縮場景失效）	過度銳化風險	推理步驟多（>100 步）→ 實時性差
適用場景	視頻序列中運動連續性強（如手持抖動視頻 [45]）	壓縮圖像紋理修復（如自然圖像）	離線非實時任務（如存檔修復）

鑒于設計用于壓縮視頻的SR模型數量有限，所以作者認為評估現有SR模型在壓縮視頻上的性能仍是一項關鍵任務。（因少故難，不忘督促各位學者趕緊研究）

另外，有些方案會對視頻做降分辨率的操作，從而降低比特率，在解碼端設計特殊的解碼器將同時實現解碼和SR。

在本次基準測試中，僅考慮編解碼器和SR方法彼此獨立的情況，評估不同編解碼器和SR方法如何結合在一起最佳。

2.2 SR benchmark的發展

其實關于SR的benchmark已有很多，本文更加聚焦于SR與Codec相結合。當然，前兩年也有類似的benchmark

NTIRE 2022 Challenge on Super-Resolution and Quality Enhancement of Compressed Video
AIM 2022 Challenge on Super-Resolution of Compressed Image and Video

But！本項工作做了幾個點的改進，采用了更廣泛的視頻質量度量和更多的視頻編解碼器。還做了不同SR對優化比特率能力的測試。

特地去看了下NTIRE2022，編碼僅采用了HEVC。評價指標僅采用了PSNR，確實單一。同時建立了數據集LDV2.0。而AIM2022中關于視頻壓縮的超分挑戰規則跟NTIRE2022中是一樣的，只是將LDV數據集升級至3.0，新增了30個4K視頻（來自youtube）。

博主對比了一下LDV2.0和LDV3.0的描述，基本上就是ctrl+c和ctrl+v，僅僅是數據量上增加了一些。（那為何要在同一年搞兩次類似的挑戰？難以理解） LDV1.0-3.0的數據集路徑https://github.com/RenYang-home/LDV_ dataset，感興趣的可以去看下。

三、Benchmark細節

3.1 數據集制作

作者沒有考慮沿用LDV系列，而是自己搜集制作。為了保證基準數據集足夠多樣化，從多個來源收集了1920x1080的視頻，包括：

視頻網站片段：從視頻網站截取了50個序列，包括real world和動畫，并用VQMT將數據拆分成多個場景類型。
相機實拍：用佳能EOS 7D去拍攝室內室外場景，保證亮度和清晰度較為合適，共20個室內素材和30個室外素材，包含了目標運行和相機水平運動的兩種情況。（大家可以思考下：這兩種運動的區別是什么，為什么要區分？）
游戲視頻片段，截取了20個片段，包括的2D和3D游戲視頻。

然后獲取了每個視頻的特征，包括google時空特征，fps，顏色和最大face數量。基于這些特征，用k-means進行聚類，分成20個簇，每個簇選擇一個視頻，將其稱為源視頻。如下圖所示。

在這里插入圖片描述

這里有個新詞匯，Google Spatial and Temporal features（google時空特征），其實就是空間復雜度和時間復雜度，前者用I幀的編碼比特來計算，后者用P幀的編碼比特來計算。（詳情可參考引文《YouTube UGC dataset for video compression research》）

作者為了保證重要細節在降尺度和壓縮后不完全丟失，只考慮了空間和時間復雜度低的視頻，且沒有很重的模糊和噪聲。還表示相機運動有助于SR算法利用幀間信息做恢復。

拍腦袋想，所謂空間復雜度低就是沒有很豐富的細節紋理，時間復雜度低就是沒有大范圍的劇烈運動。
為啥這么選？因為豐富的細節紋理壓縮后損失明顯，難以復原，也就很難體現SR的效果，那豈不是等于白評估。

3.2 模型選擇

數據標準搞定了，模型怎么選？

作者從細節復原和感知質量提升這兩個維度評估和考慮，排除了一些類似的方案，選擇了19種模型，包括BasicVSR++，COMISR，DBVSR，EGVSR，LGFN，RBPN，Real-ESRGAN，RealSR，RSDN，SOF-VSR-BD，SOF-VSR-BI，SwinIR，TMNet，VRT，RVRT，IART，AnimeSR，Topaz Video AI 和 bicubic插值。 均采用原作者的預訓練權重。

等等，里面怎么還有圖像超分算法呢？原來是作者認為高質量視頻SR模型稀缺，所以加入了圖像SR一起作為比較。

3.3 編解碼器和壓縮標準選擇

作者選擇5種編碼器，突出一個豐富且全面。

在這里插入圖片描述

3.4 Benchmark pipeline

benchmark pipeline如下圖所示。
在這里插入圖片描述

先用FFmpeg將源視頻降分辨率至480x270，用雙三次選型。
選用0.6、1.0和2 Mbps的比特率對低分辨率視頻做壓縮。（客觀評價時還增加了0.1，0.3，4.0Mbps的壓縮檔位）
編碼器均采用了medium配置（應該理解為中等質量）。
壓縮后的視頻使用FFmpeg對PNG序列進行轉碼，作為SR模型輸入。
將圖像SR模型單獨應用于每一幀；視頻SR模型按照正確的順序接收到包含幀的目錄路徑。
測試4x放大的效果，部分模型只支持2x，這種情況就處理2次。

說實話，圖像SR會吃虧一些（缺少時域維度信息），個人感覺缺乏點嚴謹性，要么就圖像SR相互對比，視頻SR相互對比。

3.5 質量評估和主觀評價研究

客觀評價指標有：PSNR，MS-SSIM，VMAF，LPIPS，MDTVSFA（唯一的無參考）和ERQA。主要考慮了全參考指標，優先關注細節恢復，而不是感知質量。

主觀評價采用了眾包評價（找一堆不相干的人來評估）。由于在整個畫面中，細節丟失和壓縮偽影可能不容易被注意到，因此改為對剪裁塊做評估。裁剪區域則是通過計算視頻的顯著性區域來確定。為了讓評估者在屏幕上能夠更好地進行比較，他們將剪裁的分辨率設置為480×270。這種方法使得評估者能夠更清晰地觀察到細節和壓縮偽影，從而更準確地比較不同超分辨率模型的效果。除此之外，用對應的裁剪塊計算客觀指標，以確定客觀指標與主觀評分的相關性。

具體主觀評價過程是隨機給出兩個SR模型的一對視頻，讓評價者選擇看起來更真實、壓縮偽影更少的視頻（“不可區分”也是選擇）。

那么由于擔心有些人渾水摸魚，睜眼說瞎話。還很機智地設置了3個驗證性問題。還真篩選出了265位摸魚俠（剔除了）。最后用Bradley-Terry模型計算最終的主觀分數。（共120316個評估結果）