這是一個Benchmark,超分辨率+視頻編碼(2024)
- 專題介紹
- 一、研究背景
- 二、相關工作
- 2.1 SR的發展
- 2.2 SR benchmark的發展
- 三、Benchmark細節
- 3.1 數據集制作
- 3.2 模型選擇
- 3.3 編解碼器和壓縮標準選擇
- 3.4 Benchmark pipeline
- 3.5 質量評估和主觀評價研究
- 四、實驗論證
- 4.1 視頻質量評估結果
- 4.2 比特率降低測試
- 4.3 視頻質量度量指標評估
- 五、總結
- 個人思考
本文將對SR+Codec: a Benchmark of Super-Resolution for Video Compression Bitrate Reduction進行解讀,正如標題所示,建立了新的benchmark。參考資料如下:
[1]. SR+Codec Benchmark 論文地址
[2]. Benchmark(課題組成果展示)地址
專題介紹
現在是數字化時代,圖像與視頻早已成為信息傳遞的關鍵載體。超分辨率(super resolution,SR)技術能夠突破數據源的信息瓶頸,挖掘并增強低分辨率圖像與視頻的潛能,重塑更高品質的視覺內容,是底層視覺的核心研究方向之一。并且SR技術已有幾十年的發展歷程,方案也從最早的鄰域插值迭代至現今的深度學習SR,但無論是經典算法還是AI算法,都在視覺應用領域內發揮著重要作用。
本專題旨在跟進和解讀超分辨率技術的發展趨勢,為讀者分享有價值的超分辨率方法,歡迎一起探討交流。
一、研究背景
截至2022年,視頻流量占比超80%互聯網流量且持續增長,視頻壓縮技術能有效降低數據帶寬消耗,但壓縮意味著有損失。而SR技術可通過恢復細節以增強視頻質量,具備優化壓縮的潛力;不過現有SR模型對強壓縮視頻恢復效果有限且易出瑕疵(如下圖示例)。
那么針對效果問題該如何做改進呢?哎,這不是本文的目的,本文的核心工作是:
- 提出了一個新的針對視頻壓縮復原的SR模型評測的benchmark。
- 評估了5個視頻編解碼器和19個SR模型。考慮了不同壓縮比特率下的測試情況,考慮了在編碼前對視頻做降分辨率的情況。得出了幾個結論
- 提出了將客觀度量和主觀評價(5397名受試者)相結合的評判標準。重點關注細節恢復和主觀感知的表現,以及消除壓縮偽影問題的能力。并構建了一個與主觀評價相關性高的簡單度量組合。
- 量化分析了SR在視頻質量恢復與比特率優化中的實際效能,為編解碼器設計(如LCEVC)提供模型選型依據。
作者期望本工作能夠為低帶寬高清視頻傳輸提供技術路徑,推動SR在實時編解碼場景中的應用。
“我們來定更好的標準,你們來做更好的算法。”
有些新入坑的朋友可能會想,啥是benchmark呢?
benchmark是一種標準化的測試方法或數據集,用于衡量和比較不同算法或模型在特定任務上的性能。它提供了一種客觀的評估標準,幫助研究人員和開發者了解他們的算法或模型在實際應用中的表現。根據類型劃分,包括了數據集基準,任務基準,性能指標基準。
二、相關工作
2.1 SR的發展
言歸正傳,作者捋了捋當前的SR技術發展。這里基于文章內容簡單整理了一個表。
功能維度 | 時間冗余利用類視頻 SR 方法 | GAN 類 SR 方法 | 擴散模型類 SR 方法 |
---|---|---|---|
核心思想 | 通過遞歸/雙向傳播對齊時空上下文 | 利用對抗訓練生成逼真紋理 | 多步推理生成高質量結果 |
代表模型 | RBPN [17], COMISR [27], BasicVSR++ [15], VRT [29], RVRT [30], Swin2SR [16] | ESRGAN [38], Real-ESRGAN [39] | diffusion SR系列 [33,35,41,51] |
技術優勢 | 雙向遞歸扭曲(COMISR)、局部-全局注意力(Swin2SR)、跨片段預測(RVRT) | 高階退化建模(Real-ESRGAN)、增強感知損失 | 圖像生成質量優異 |
局限性 | 對壓縮偽影敏感(如 VRT 在強壓縮場景失效) | 過度銳化風險 | 推理步驟多(>100 步)→ 實時性差 |
適用場景 | 視頻序列中運動連續性強(如手持抖動視頻 [45]) | 壓縮圖像紋理修復(如自然圖像) | 離線非實時任務(如存檔修復) |
鑒于設計用于壓縮視頻的SR模型數量有限,所以作者認為評估現有SR模型在壓縮視頻上的性能仍是一項關鍵任務。(因少故難,不忘督促各位學者趕緊研究)
另外,有些方案會對視頻做降分辨率的操作,從而降低比特率,在解碼端設計特殊的解碼器將同時實現解碼和SR。
在本次基準測試中,僅考慮編解碼器和SR方法彼此獨立的情況,評估不同編解碼器和SR方法如何結合在一起最佳。
2.2 SR benchmark的發展
其實關于SR的benchmark已有很多,本文更加聚焦于SR與Codec相結合。當然,前兩年也有類似的benchmark
- NTIRE 2022 Challenge on Super-Resolution and Quality Enhancement of Compressed Video
- AIM 2022 Challenge on Super-Resolution of Compressed Image and Video
But!本項工作做了幾個點的改進,采用了更廣泛的視頻質量度量和更多的視頻編解碼器。還做了不同SR對優化比特率能力的測試。
特地去看了下NTIRE2022,編碼僅采用了HEVC。評價指標僅采用了PSNR,確實單一。同時建立了數據集LDV2.0。而AIM2022中關于視頻壓縮的超分挑戰規則跟NTIRE2022中是一樣的,只是將LDV數據集升級至3.0,新增了30個4K視頻(來自youtube)。
博主對比了一下LDV2.0和LDV3.0的描述,基本上就是ctrl+c和ctrl+v,僅僅是數據量上增加了一些。(那為何要在同一年搞兩次類似的挑戰?難以理解) LDV1.0-3.0的數據集路徑https://github.com/RenYang-home/LDV_ dataset,感興趣的可以去看下。
三、Benchmark細節
3.1 數據集制作
作者沒有考慮沿用LDV系列,而是自己搜集制作。為了保證基準數據集足夠多樣化,從多個來源收集了1920x1080的視頻,包括:
- 視頻網站片段:從視頻網站截取了50個序列,包括real world和動畫,并用VQMT將數據拆分成多個場景類型。
- 相機實拍:用佳能EOS 7D去拍攝室內室外場景,保證亮度和清晰度較為合適,共20個室內素材和30個室外素材,包含了目標運行和相機水平運動的兩種情況。(大家可以思考下:這兩種運動的區別是什么,為什么要區分?)
- 游戲視頻片段,截取了20個片段,包括的2D和3D游戲視頻。
然后獲取了每個視頻的特征,包括google時空特征,fps,顏色和最大face數量。基于這些特征,用k-means進行聚類,分成20個簇,每個簇選擇一個視頻,將其稱為源視頻。如下圖所示。
這里有個新詞匯,Google Spatial and Temporal features(google時空特征),其實就是空間復雜度和時間復雜度,前者用I幀的編碼比特來計算,后者用P幀的編碼比特來計算。(詳情可參考引文《YouTube UGC dataset for video compression research》)
作者為了保證重要細節在降尺度和壓縮后不完全丟失,只考慮了空間和時間復雜度低的視頻,且沒有很重的模糊和噪聲。還表示相機運動有助于SR算法利用幀間信息做恢復。
拍腦袋想,所謂空間復雜度低就是沒有很豐富的細節紋理,時間復雜度低就是沒有大范圍的劇烈運動。
為啥這么選?因為豐富的細節紋理壓縮后損失明顯,難以復原,也就很難體現SR的效果,那豈不是等于白評估。
3.2 模型選擇
數據標準搞定了,模型怎么選?
作者從細節復原和感知質量提升這兩個維度評估和考慮,排除了一些類似的方案,選擇了19種模型,包括BasicVSR++,COMISR,DBVSR,EGVSR,LGFN,RBPN,Real-ESRGAN,RealSR,RSDN,SOF-VSR-BD,SOF-VSR-BI,SwinIR,TMNet,VRT,RVRT,IART,AnimeSR,Topaz Video AI 和 bicubic插值。 均采用原作者的預訓練權重。
等等,里面怎么還有圖像超分算法呢?原來是作者認為高質量視頻SR模型稀缺,所以加入了圖像SR一起作為比較。
3.3 編解碼器和壓縮標準選擇
作者選擇5種編碼器,突出一個豐富且全面。
3.4 Benchmark pipeline
benchmark pipeline如下圖所示。
- 先用FFmpeg將源視頻降分辨率至480x270,用雙三次選型。
- 選用0.6、1.0和2 Mbps的比特率對低分辨率視頻做壓縮。(客觀評價時還增加了0.1,0.3,4.0Mbps的壓縮檔位)
- 編碼器均采用了medium配置(應該理解為中等質量)。
- 壓縮后的視頻使用FFmpeg對PNG序列進行轉碼,作為SR模型輸入。
- 將圖像SR模型單獨應用于每一幀;視頻SR模型按照正確的順序接收到包含幀的目錄路徑。
- 測試4x放大的效果,部分模型只支持2x,這種情況就處理2次。
說實話,圖像SR會吃虧一些(缺少時域維度信息),個人感覺缺乏點嚴謹性,要么就圖像SR相互對比,視頻SR相互對比。
3.5 質量評估和主觀評價研究
客觀評價指標有:PSNR,MS-SSIM,VMAF,LPIPS,MDTVSFA(唯一的無參考)和ERQA。主要考慮了全參考指標,優先關注細節恢復,而不是感知質量。
主觀評價采用了眾包評價(找一堆不相干的人來評估)。由于在整個畫面中,細節丟失和壓縮偽影可能不容易被注意到,因此改為對剪裁塊做評估。裁剪區域則是通過計算視頻的顯著性區域來確定。為了讓評估者在屏幕上能夠更好地進行比較,他們將剪裁的分辨率設置為480×270。這種方法使得評估者能夠更清晰地觀察到細節和壓縮偽影,從而更準確地比較不同超分辨率模型的效果。除此之外,用對應的裁剪塊計算客觀指標,以確定客觀指標與主觀評分的相關性。
具體主觀評價過程是隨機給出兩個SR模型的一對視頻,讓評價者選擇看起來更真實、壓縮偽影更少的視頻(“不可區分”也是選擇)。
那么由于擔心有些人渾水摸魚,睜眼說瞎話。還很機智地設置了3個驗證性問題。還真篩選出了265位摸魚俠(剔除了)。最后用Bradley-Terry模型計算最終的主觀分數。(共120316個評估結果)
四、實驗論證
針對每個編解碼器,基于LPIPS指標,挑選了10個最佳的模型進行評估。(并不是所有模型都有資格進入決賽圈,肯定不是為了省事)
4.1 視頻質量評估結果
作者選了每個編解碼方案下,無SR和兩種最佳SR效果作為結果展示。發現了幾個有意思的點:
- x264編碼器: SwinIR和Real-ESRGAN抗壓縮偽影效果最優,帶生成能力的方案有優勢。
- AV1編碼器: 直接壓縮(無需SR)表現最佳,加SR反而冗余。
- H.265/H.266: RVRT和RBPN模型恢復能力突出。
作者解釋這種差異性跟編解碼器的特性是相關的。
4.2 比特率降低測試
下表說明了,主觀評分下,沒有一種SR模型是具備通用性的。例如RealSR在高比特率效果不佳,但低比特率的效果反而有優勢,在AVI數據上甚至NO SR是最好的。原因表述與上個結論一樣。
效果上看,低比特率+SR能改善偽影問題,但至于比特率下降到多少是合適的,得看具體任務目標還有選用的編解碼器。
4.3 視頻質量度量指標評估
通過計算PLCC和SRCC來評價主觀和客觀指標的相關性,發現相關性普遍較低。
結合**ERQA(邊緣恢復質量)與MDTVSFA(多維度時空質量)**的復合指標,與主觀評分相關性提升至0.801。建議可以用該復合指標來逼近主觀評價。
五、總結
最后回顧一下,作者建立了一個關于SR+Codec的benchmark,然后研究過程中有以下幾個結論:
- 例如RealSR和RVRT能夠在解碼之后提升低比特率視頻的主觀感知質量。
- RVRT可以提高x265和vvenc編解碼后的視頻質量。
- RealSR可以配合x264一起使用,在不降質的情況下,將視頻比特率降低65%以上。
- 現有視頻質量評價指標與主觀評分的相關性很差,不適合評估基于降尺度的視頻編碼結果。
- 但ERQAxMDTVSFA組合的評價方式與主觀評價的相關性較高,可以采用該組合作為評價指標。
- 對于一些高級編解碼器而言,如uavs3e,aomenc等,用SR算法做增強處理的價值不大,主觀效果不如無SR的。
根據文章提供的benchmark網址,博主點進去看了看,好家伙,這個實驗室或是專門搞benchmark的,有個專題列表,這里截了點一部分,感興趣的可以去詳細了解一下。(組織名:MCU Graphics & Media Laboratory)
不過有一說一,好的benchmark確實能夠給領域內的研究人員或開發人員提供不錯參考和對比。
個人思考
AI SR+Codec的組合可能已經在一些視覺產品上落地使用了。Codec實現低成本數據傳輸,SR實現高質量結果展示。博主認為這個方向的研究與探索是很有價值的,特別是對于輕量化采集設備而言。
當然,確實沒有一個SR方案能夠通吃,很多模型都有各自的局限性(不考慮大模型)。要做好此類任務,需要開發者了解各模型的優劣勢,同時掌握一些Codec的知識,這樣才能針對性地做調整和改進。
感謝閱讀!如有疑問,歡迎留言或私信。
關注博主,一起學習更多的底層視覺技術!