萬字長文 | 詳解優酷視頻質量評價體系
分享嘉賓|李靜博士,阿里巴巴文娛集團資深算法專家,阿里巴巴大文娛摩酷實驗室視頻體驗與質量團隊負責人
整理出品|AICUG人工智能社區本文地址:https://www.6aiq.com/article/1617926511225
本文版權歸作者和AIQ共有,歡迎轉載,但未經作者同意必須保留此段聲明,且在文章頁面明顯位置給出
導讀:隨著近年來用戶在社交媒體/短視頻分享平臺的重度參與,視頻多媒體內容的消費主導從原來的OGC向UPGC轉變。因此UPGC圖像/視頻的質量評價成為了目前學術界重點關注的研究熱點。由于其沒有無損的參考圖片/視頻,研究課題本身即屬于質量評價領域最具挑戰的無參考質量評價。除此外,社交媒體/短視頻分享平臺等的視頻來源十分復雜且多樣,導致質量問題的根源可以追溯到整個視頻從拍攝到傳輸到播放的整個pipeline,由此帶來的圖像/視頻降質的因素為多種失真的疊加。這種對于失真類型的不可控(從失真類型到失真程度兩個維度)導致UPGC圖像/視頻的質量評價更具挑戰性。因此如何準確評價新型視覺信息的質量從而極大化用戶體驗是目前質量評價領域和多媒體視覺領域的熱點和難點。
本演講將圍繞5G時代移動社交場景中視頻觀看體驗的評價問題,基于視頻內容的生產到應用的pipeline,講述優酷如何針對不同業務場景打造視頻質量評價體系,助力移動端多媒體視頻行業的體驗標準化工作。
目錄
1、優酷主觀測評平臺
2、算法模型
3、業務應用
對于優酷以及各家視頻平臺來說,我們會面臨著很多質量評價的需求,這個質量是包括各種各樣視頻或者是圖像的。
比如說封面圖,它的生產方式有很多種,可以從視頻里面去截幀,也可以做一些合成類的封面。但生成的這個封面需要去有一個評價機制去判斷它是否滿足觀眾的喜愛度。在其他維度不變的情況下,畫面質量越好當然觀眾越喜愛,它的點擊率也會越高,進而形成這樣一個良性循環。因此,作為打開視頻網站的第一眼,封面圖是極其重要的一環。
針對UPGC 的這個視頻場景,我們同樣也需要這樣一個評價的工作。隨著抖音、快手近年來在國內外特別的火熱,以及我們生活和工作節奏的加快,我們觀看視頻的習慣也漸漸從長視頻向短視頻、小視頻遷移。除此外,用戶也會更多的參與到短小視頻的制作中。
在視頻制作環節,在采集側,大家的手機性能拍照設備不盡相同。在傳輸側以及后處理,大家會用不同的軟件去修圖,去做一些美化和濾鏡的操作。算法側在自動生產的時候,也會有字幕擦除,增強超分等操作。這些操作都會導致UPGC 這種視頻比傳統的長視頻在質量評價上更加復雜。
哪種后處理方式會比較好?哪種增強方式或超分方式會對于UPGC 視頻產生好的觀看效果?這里質量評價算法也是非常重要的環節。特別是對于那些低質量的視頻,我們需要在用戶上傳的第一時間,就對他提出一些建議。比如說你這個視頻分辨率太低或者主觀感知的清晰度不太好,在分發的時候,有可能不能產生好的分發效果。
在長視頻領域,一個比較典型的應用就是老片修復。比如過去的黑白電視,或者早年的一些片子,它的清晰度較差,分辨率也比較低。現在隨著4k、8k的普及,當一個低分辨率的視頻放到了高分辨率的顯示器上時,這個視覺感知效果就更加的明顯。因此,我們會經常用一些修復和增強手段以及超分去進行一個后處理操作。隨著機器學習、深度學習的發展,增強算法也從傳統的一些手工特征進行修復,變成了利用大數據,利用deep learning去做這樣的一些修復。因此我們不能再利用傳統的質量評價方法去對它進行評判,是因為深度學習帶來了增強后的一些不可控的artifacts(失真)。一方面可能會表現為視覺上的增強,但另一方面可能引入的是一些視覺不友好的artifacts。所以我們的質量評價在這一環也是尤其重要的。可以正向的去優化,告訴我們怎么樣去進行增強,人才會感覺到這是真的畫質增強,而不是將噪聲/失真增強。
在視頻業務場景中,視覺體驗評估還有個比較有意思的應用就是廣告特效。我們希望廣告能帶來收入提升的同時,又不去打擾用戶的觀看體驗。所以我們會生成一些比較有意思的廣告特效。那在這種情況下,對于廣告特效的視覺注意或者視覺體驗的這么一個由主觀感知到客觀評價的模型是非常重要的。首先是它能指導我們進行廣告生產的優化。其次也可以量化這樣的廣告有多大程度用戶是喜歡的,多大程度用戶是能夠感受到這個廣告存在,以及感受不到等等這樣一個視覺注意量化結果。
最后一個給大家分享的就是我們今年在街舞3上首次運用的一個to C端的產品化體驗,就是自由視點視頻(Free-Viewpoint Video, FVV)。用戶打開優酷APP,根據大家手機型號的不同,看到的角度范圍可能也不太一樣。那么在高端機上,我們通常可以給到150度到180度這樣一個旋轉視角,用戶可以任意滑動屏幕去看想看的視角。在這個過程中,里面涉及到的算法迭代也是需要質量評價算法介入去進行一步步優化,以達到用戶的流暢性的觀看體驗。
對針業務上的場景,抽象到質量評價這塊,我們需要做的是一個體系。這個體系可以針對于圖片的美觀度進行評價,或者對于畫質進行一個對比分析,以及對于UPGC的視頻進行清晰度的判斷。還有包括剛剛說的自由視點視頻這種互動的流暢度,以及廣告視覺上的注意力的情況。
上述講的業務和技術問題,綜合到一個框架下,就形成了這個生產和質量體驗量化閉環系統。一旦體驗可以量化的話,那么在視頻從生產到處理到播放的生命周期中,算法可以進行有效迭代。比如說可以提效,或者是幫助我們提質,它是一個幫助我們優化的過程,這是非常必要的。
當然視覺體驗的量化往往也是最難的,因為視覺體驗它是一個非常主觀的感受。像在傳統的CV領域,對于一些物體的檢測和識別等任務是非常明確的。比如貓就是貓,狗就是狗。但是在視覺體驗中,對于同一個視頻,由于每個人的感受都不一樣,我認為好,你可能認為不好,這里沒有一個對錯的標準。所以在這種情況下怎么樣去標準化視覺體驗是一個非常重要的問題,我們也一直在致力于把體驗能夠真正的量化起來,標準化下來。
優酷的全視頻質量評價中臺包含以下4個功能:第一是主觀的測試平臺,也就是最開始直接通過人去做這樣的主觀評價去獲取數據,然后通過拿到的數據,針對視覺感受進行一個分析。然后我們拿到這個數據之后,就可以進行一些客觀模型的研發,比如視覺體驗(視覺體驗包括各種類型的圖片和視頻),以及視覺注意的一個預測的工作。
接下來我分三部分去講下評價體系。第一的話就是最重要的一個是優酷的主觀評測平臺,這個是基于一切算法模型的一個基本數據,數據是最重要的部分。第二個是算法模型,第三個是我們的業務應用。
主觀評測平臺它主要包含四個模塊。首先是目標分析模塊,然后是數據篩選模塊,第三個是評測方法設計,第四是實驗數據的分析。接下來會針對這四個模塊進行逐一講解。
第一個是評測的目標分析。這個通常會被人忽視,當提到質量評價,大家第一反應就是質量評價就是給人看一個東西,然后1到5打分,1就是非常差,5是非常好,用戶打分,這個分數就是一個主觀分數。那在這個描述中它其實簡化了整個過程。我們需要知道的第一點就是你到底想測什么,比如說我們在最開始提到的是針對于封面圖,還是針對于UPGC的視頻,針對于OGC長視頻,還是比如競品分析的這一塊(各家都是在播同一個劇,那么對于各家的編碼方式,以及相同帶寬情況下所呈現的質量差異),以及包括最新的一些視頻技術3D領域的,比如AR、VR或者是自由試點視頻。
那這些不同的視頻領域或者視頻應用場景,到底要測什么,就不再是我們之前所說的1到5的這么一個簡單打分的問題了,而是想在業務上達到什么樣的目的。所以在Qualinet White paper提到測什么是非常重要的,因為有大量的influence factors在這里邊。
我先講第一個關于視覺體驗有哪些影響因素,第一個影響因素就是系統性的影響因素influence factor。那這里的話主要包括capture,coding,transmission,storage,rendering,以及最后display 的時候。所有的這些環節每個系統的模塊都會對視頻質量產生一些影響。
長視頻領域,因為capture 這一部分大家拿到的視頻源是一樣。所以最關鍵的部分,大多數都是在coding和transmission 的階段。對于終端用戶來說,比較重要的是rendering 和display 階段,也就是用戶拿什么樣的設備去看。
第二個比較重要的影響因素叫做context influence factor 。這個factor是跟用戶的environment相關,包括了它的physical,temporal,social等等。是跟用戶當前環境比較相關的一個influence factor。但這個也是經常是被人忽略的。
比如說當觀看者,他是在一個非常放松的家庭環境,還是在一個比較嘈雜的咖啡廳,還是我們通常在做主觀實驗的時候在一個規定的小黑屋標準的環境。那在不同環境下,他所感知到的視頻質量是不一樣的。
第三個非常關鍵的因素就是人。每一個人都有自己不同的感受。如果我們把人劃分為一些group 的話,比如說性別因素,職業背景等因素以及年齡因素等等,這些也會對于每個人的觀看體驗產生不一樣的影響。舉個例子,我們之前做的實驗,就會發現女性對于視覺的觀看體驗相對來說是一個比較positive 的狀態,容忍度非常高,大家對于質量好像沒有那么高的要求。但是對于男同志來說,一般他們對于觀看的清晰度的體驗要求就特別高。還有比如年紀較大一點的人群,他們對于質量體驗的要求就沒有那么高,但對于年輕的同學他們對這質量體驗相對就非常高。當然你可以認為這個跟他的背景相關。對于一些年紀比較大的同志來說,在過去的時代中,其實并沒有經歷太多的這種高質量體驗的過程。他們最開始看到的視頻甚至從黑白視頻開始,過渡到了彩電,從CRT 到HD,再到UHD 這么一個狀態。那么到現在的UHD這種極高清體驗,甚至VR或者3D電視的時候,其實他們沒有更多的參與感在里邊。所以過去觀看的經驗會極大程度影響他對于一個視頻的體驗判斷過程。
知道了這幾個非常重要的影響因素以后,我開始講一下,一旦確定了你要測什么,那接下來就需要進行主觀實驗了。在進行主觀實驗的時候,需要測哪些視頻,就需要把這些視頻都拿過來。
那在這里我們有兩個目標,第一,你所選的視頻數據必須要滿足你的實驗目的,就是我剛剛問的那個問題,你要到底測什么,這個非常重要。比如測長視頻的競品分析,那如果把UPGC 的視頻放在這里就很不合適,因為它一定不能夠滿足最終的實驗目的。
第二,因為主觀實驗非常耗時,它需要很多人來參與,花一定的時間去做這樣的實驗。那么在這種情況下,我們希望可以用最少的數據來滿足算法的精度。所以這塊就跟傳統的CV標簽那些領域有極大的差別,傳統的CV標簽貓就是貓,狗就是狗,所以一個人打標簽基本是沒有問題的。但是在視覺體驗這個評價上,我們一定要用很多的人去做這樣的實驗。而且需要大量的視頻或圖像去做實驗。但是又不能太大,因為整個實驗的時間成本和費用成本非常高,要進行控制。
我們所要做的就是首先分析在所確定的實驗目的的前提下,有哪些因子會對實驗有影響,然后把這些影響因子有針對性的放在數據篩選過程中。
第二是你知道了這些因素受影響,但是怎么去把這些影響因子可以客觀的從數據上獲得,也就是你需要有一個數據維度的客觀測量。
第三就是采樣的策略。比如在早期,你可能會拿到萬級或者10萬級甚至更高的這樣一個視頻的數量。但是不可能把這么多的視頻全部分發出去去做主觀實驗。在這里面一定有一個采樣策略,需要有針對性的在這些視頻里選出最有代表性的一些視頻。而這些代表性的視頻是由前面的數據維度測量的指標,和前面的影響因子分析來共同決定的。
講完實驗數據的確定之后,我們就進入了主觀方法設計階段,也就是用什么方法去測。這個一定是跟你實驗目的掛鉤的。那這里先介紹幾個經典的主觀評測方法,是ITU他們幾十年前就已經制定了的一些標準方法。
比如說最傳統的ACR(Absolute Categorical Rating) 方法。從1到5打分, 1代表非常糟糕,5代表非常好。在ITU最近的一個標準中,針對于3D的情況下, ACR其實也可以用在視覺舒適度的評測上。比如1分就代表非常不舒適,那5就代表非常舒適。當然在這個維度下,我們其實是有一些爭議的。就是當我們去測量一個畫質的清晰度的時候,這對于用戶來說其實是一個相對簡單的視覺任務,因為我們基本是從小到現在每天都在看視頻,知道什么樣的視頻是質量好的,什么是不好的。但對于3D或者VR,并不是所有的人每天都在看這個東西。所以他曾經看到的3D內容,決定了他對于這個維度上的評判標準。比如他過去看的VR,是一段極其精彩的,非常美妙的官方發布的一個demo,那這種視頻在很大程度上是避免了視覺疲勞等等一系列不好的體驗。那用戶看過這個之后,他就會覺這個是非常沉浸式的,非常棒的,沒有視覺不舒適這種問題。但是如果一個人過去沒有看過好的,只看過一些比較糟糕的,清晰度極低的,戴上了以后轉一圈頭就開始暈的這種視覺體驗的話,那這個標準跟剛剛說的第一個人標準就是完全不同。
在這種情況下,如果讓不同的人去給一個要評測的3D的一個視頻進行視覺舒適度打分,這個時候就會有極大的差距在。因為大家的評判標準極其不一樣,但是所有人又都是對的。甚至還有一些用戶之前都沒看過VR,你第一次給他看VR讓他進行打分,他可能根本無法用5個刻度對視覺舒適度進行劃分。
所以在某些評測任務中,這種1到5的簡單打分是不能夠代表用戶的視覺感知的,這個ACR 的評測方法通常被認為是在復雜任務下是不具有這個精度辨別能力。當然在大家經常看的這種已經有足夠經驗的,比如畫質這個問題上,其實ACR就已經足夠好了,它的精度基本滿足要求。
另外一個評價方法就是如果ACR不是那么的準確的話,那么比較法會相對更加準確。比較法是執行起來極其簡單,但是整個過程會非常耗時的一個方法。比較法其實也分為兩種:一種就是配對比較法,就是我給你兩個激勵,比如兩個視頻或者兩個圖片,然后每次隨機的左右排序,順序是不一樣的。然后分發給觀測者問大家,你覺得哪個質量好,或者是針對于3D的任務,你覺得哪個視覺的不舒適度會更高一些。那么這種情況下,即便用戶過去沒有什么體驗,但是在針對這種左右類似于binary 的結果來說,判斷起來也會相對容易一些,不同的人給出來的結論基本是一致的。
那另外一種方法叫DSIS,每一次我把參考視頻都放在左邊,是固定的。并且告訴用戶這是一個參考視頻,它就是完美的、無瑕的,就是我要的視頻。那么右邊放一個待測的視頻,這個視頻可能是經過各種算法處理過的,壓縮增強或者超分過的等等。在這種情況下,去讓用戶給這個待測的視頻進行打分。那打分的維度就是跟據左邊的完美的參考來比,你覺得它們倆之間是什么樣子,可以要用1到5打分。所以這樣其實左和右給到的測量維度是不太一樣的。一個是Pair comparison,它是單純的從你的視覺感受上來說左和右哪個好。但是DSIS這是我已經有基準的是最好的,我需要測量的是跟它的差別有多少。Pair comparison 方法的應用場景非常多。比如像facebook 的早期,face mash 這個產品其實用的就是Pair comparison 的方法。
第三個介紹的方法是AccAnn (Acceptability Annoyance Method),它是一種用于測量用戶對于視覺感知接受度和容忍度的方法。這個可以用在哪兒?在一些業務場景中,我們有不同的用戶人群,例如非會員用戶和會員用戶;其次針對于用戶可能有不同的觀看設備,比如說用戶可以用手機來看,或者用ipad 來看,或者PC來看。在這個時候我們希望針對不同的用戶人群,不同的觀看設備,測量他對于視覺感知的容忍度和接受度是怎么樣的。
對于一個視頻,如果5分是滿分的話,我們不太關注這個視頻是1.5分還是1.2分,或者4.6分還是4.8分,就是對于這種精細度評判,我們在某些場景其實沒有那么高要求。但是我們希望知道的是低于哪個閾值的時候,用戶就無法容忍會離開,或者是高于某個閾值的時候,用戶對于質量提升就沒有感知了,再增加帶寬用戶也沒有明顯的差異感受。所以找到這兩個閾值是極其重要的。
那這個方法其實就是找到這兩個閾值,最終可以幫助我們去知道針對于不同的用戶人群和不同的觀看設備下,什么樣的質量體驗是必須的,并且盡可能避免低于這個質量。
我們曾經在實驗室環境測試過,在TV上和Tablet上,我們實驗虛擬出來一些假設的普通用戶和premium 用戶,最終他們的VMAF 的質量分所對應的這兩個閾值確實是不一樣的。如這個圖所示,我們就知道在今后的視頻質量評價中,如果用VMAF的話,在用TV觀看視頻時,高于80分,其實就覺得非常滿意了。那低于66分的時候的用戶就會覺得不能接受,就可能要離開這個視頻平臺。當然這是一個我們實驗的數據,并不是真實的業務數據,這里只是提供一個參考。
除此以外有一些實驗過程其實是可以加速的。剛剛講的配對比較法,它非常的快而且非常的準確。但是它非常耗時。因為ITU規定了如果你想達到精確的結果,就必須對于所有的視頻對都要進行兩兩比較,那這個量級就非常的大了。針對于同樣的一個視頻質量評價的實驗,比如說有40個視頻需要去測試它們的質量。如果使用ACR的方法(1到5打分的方法),對于每一個觀測者來說,他10分鐘就能完成這個任務了。但是如果用這種配對比較法,就需要耗掉351分鐘,所以這基本是一個不可能實現的任務。
所以針對配對比較法,學術界提出了很多加速方法。比如最簡單的就是隨機采樣,就是我們可以隨機的去選擇比較一些對,再隨機的選擇另外一些對不比較。當然這里可以有一些random 采樣的一些策略,這是一種最簡單最直接的方法。
第二是基于經驗的平衡采樣法, 是我在博士期間提出來的一個方法,被ITU和IEEE標準收錄。它是指每一個視頻它出現在用戶的評測過程中的概率是一致的,不會出現某些視頻永遠被呈現出來,讓用戶看,而有些視頻就永遠不被呈現。我們盡量避免這樣的問題,所以這是一個平衡采樣法。
這里有個經驗,就是我們盡量集中在質量相似的對比實驗上,那對于一些質量差異非常大的視頻,我們其實沒有必要花那么多精力在上面。比如一個270p的一個視頻和一個4k視頻,那是顯而易見4K視頻會質量好很多,或者針對于比特率我們也可以有類似的判斷。所以我們應該把budget放在這樣質量相似的pair上。基于這樣的經驗,再基于這樣一個平衡性的假設,我們最后可以做到這樣的平衡采樣法。
第三個,從數學理論上來講,是接近于最優化的一個方法,就是基于信息量的主動采樣法。這個是我2018年發表在NeurIPS上的工作。上面這個圖EIG(Expected Information Gain)就是每個視頻對期望的信息增益,橫坐標代表的是兩個視頻之間分數差,y坐標代表是兩個視頻之間它的分數差的方差。那這里我們給大家一個概念,就是對于兩個視頻,如果質量越相近,那在我們給它打分的過程中,這兩個視頻結果產生的信息增益是最多的。那我們其實就是需要把這些能夠產生最大信息增益的pair挑出來去進行質量評價,最終可以達到最優化budget的目的。
所以,現在主觀實驗方法設計好了,主觀的實驗的流程也加速了。當我們拿到這些實驗數據的時候,接下來需要思考的是,如何濾除outlier,如何recover ground truth的問題。非常常見的是在實驗過程中,一定會有人不小心按錯按鈕。比如說在配對比較的時候,他本來想選左邊,結果他按了個右,或者是把問題理解錯了,把1分和5分他搞反了,以為1是最好5是最差。也有一些人在打分的時候可能會特別的寬容,覺得每一個視頻質量都非常好,所以打分比較偏向于永遠打4分或者是5分。但有一些人相反,他覺得你給我的這些視頻太差了,他跟我過去比看到的那些4k、8k視頻簡直沒有辦法比,所有的都在他接受的閾值之下,所以他都是打1分或者2分。每個人都有自己的判斷標準,而每個人在打分過程中又可能會有不同的情況發生。那我們應該怎么樣去處理這個數據,得到一個相對準確的,接近于我們假設的一個視覺感知ground truth的情況呢?最直接的方法就是增大觀測數據量,通過堆人的方式。但是本來視頻質量的主觀實驗已經是一個耗時的過程,又通過增加人的方式它就更加耗時。所以就會又耗時,又耗錢,又耗精力,為了完成這么一個濾除outlier的過程。這對于大部分人來說都會比較困難。那怎么辦?
我們會采用一些數據分析模型。比如假設所有用戶針對于某一個視頻進行打分之后,可以看到這個分數類似于一個高斯分布。它的均值其實是由一個ground truth和這個當前用戶他自己的bias來決定的。這個方差其實是由當前用戶他在打分過程中的不確定性,以及這個視頻本身內容的ambiguity共同來決定的。
什么是用戶的bias?可以理解成有的用戶總是打分偏高,或者是有些用戶打分總是偏低,那么他會在這個針對于ground truth的分數上會有上下偏差,所以每個人都有他自己的偏差。那穩定性是什么?就是有些用戶,你給他多少次相同的視頻,他給出來的分基本是一致的。但有些用戶就很不穩定,就是即便無數次的重復同一個視頻,在不同的情況下給他重復同一個視頻,讓他去進行評判,他都很可能給出非常不同的分數,那么他的這個inconsistency 值相對來說要高一些。
對于視頻內容來說,它只影響分數的方差,但不影響ground truth的分數。有些內容它對所有人來說,都是非常容易打分的,比如如果我給你一個純黑色的界面,讓你說它的目前清晰度如何,那它清晰度基本是完美的。所以這個內容是沒有ambiguity的。
但是如果是比較奇怪的一些內容,有的人就會說這個內容,我覺得它質量非常好,但有些人會覺得這種質量非常糟。所以這種內容,它就會引起極大的用戶意見不統一。所以它的ambiguity就會非常高。
針對于這樣的假設,我們會提出這樣高斯模型,然后再利用一些算法,把這個參數預估出來,就可以最終恢復或者recover我們想要的ground truth和每一個用戶不同的parameter ,以及我們視頻內容的parameter 。
第二個模型是針對于pair comparison的。它還有一個特點就是每一個視頻分數它依舊是服從高斯分布的。但是在pair comparison過程當中,每一個人他的bias和content effect不存在了,所以會減少一些特征。那最終我們可以使用一些模型,比如Thurstone模型或者Bradley-Terry模型,針對于這個分布最終可以獲得一些參數,而這個參數最終可以幫我們去估計出基于所有視頻對兒結果的情況下,每一個視頻其實它真實的一個質量是什么樣的。
第三個模型相對來說會不太一樣,它認為感知質量不是一個高斯分布。是我發表在2020年ACM MM上的一個工作。因為我們平時打分12345,它是一個離散的值,并不呈現一個高斯態,而且它是個截斷的狀態。所以我們認為它呈現的是一個ordinal categorical distribution。那在這種ground truth的假想下,我們認為每個觀測者他都含有一個隱變量,就是他有時候會進入一個正常打分模式,但有時候會進入一個隨機打分模式。然后用一個p 值去描述他的可靠性,也就是他從0和1之間轉變的一個概率,最終獲得這樣一個模型去最終預測ground truth應該是什么樣,以及每一個人他的p值應該是什么樣的,那這是一個區別于之前的一個比較特別的模型。
最后給大家看一下我們的主觀評測平臺,這里展示的只是一個非常簡單的1到5打分的測試平臺,你可以看到它顯示的視頻內容。我們要求播放器是不可以改變視頻它本身的resolution的。測試視頻的resolution是由實驗設計者來決定的。比如說你就是想保持它原視頻的分辨率去進行觀測,那你就按照原視頻去播。但如果你要是想測不同分辨率視頻他們在1080p的情況下是什么樣的感知質量,那你就需要把不同分辨率的視頻全部rescale到1080p,然后統一再在測試平臺給用戶進行評測。這個就是我們1到5打分的ACR平臺。
最后給大家快速過一下我們的客觀模型和業務的應用場景。一共有三個場景。
第一個要給大家介紹的就是圖像和視頻清晰度的評價模型。這是一個基于深度學習的無參考質量評價模型。比如說在這里我們評價了增強版的《還珠格格》視頻,以及士兵突擊的視頻和大江大河的視頻,它們的客觀質量分預測出來的是符合人眼的主觀感受的,所以這個質量分也應用在我們的業務場景中,幫助算法,排序、分發,進行前期的一些處理、篩選。
那第二個場景就是廣告場景。在這個場景中,我們用了兩個模型,一個是視覺注意模型,一個是觀看體驗模型。它最終呈現的效果是能讓廣告受人關注,但又不打擾觀看體驗。
像上面這兩個是不好的廣告例子,比如左邊這個有硬生生的一個壓屏條廣告,而右邊的植入廣告是在用戶看不到的地方。
我們會進行一些優化的動作,比如增加一些光影特效,這樣可以增加一些用戶的注意力,但同時并不打擾整個內容觀看。右邊是通過一點點的光影特效,會把這個區域,從之前的非視覺注意區域,變成一個注意區。
第三個業務場景,就是《這!就是街舞3》的這次自由視點視頻算法迭代升級。比如最開始,算法在重建的時候是有一些問題的。對于某些遮擋情況,當我們生成了虛擬視角的時候,它是有一些黑洞存在的,所以在這種情況下,質量分會相對偏低。但是經過一些算法的迭代和優化,我們就會把由遮擋引起的重建的問題給解決掉,那么之前存在黑洞的水面就會變得非常平滑。用戶在左右觀看的時候就不會出現那種黑洞閃爍的問題,這個質量分也會高一些,告訴我們這個重建算法是比之前的版本要好的。
嘉賓介紹
李靜,博士,阿里巴巴文娛集團資深算法專家,阿里巴巴大文娛摩酷實驗室視頻體驗與質量團隊負責人。2013年獲法國南特大學計算機博士學位,2014年新加坡南洋理工大學訪問學者,2014-2016任法國南特大學助理教授,2014-2019任法國國家科學院IPI/LS2N實驗室研究員。2019年加入阿里巴巴。研究方向包括生理心理學實驗方法論,多媒體視覺體驗質量評價,3D視覺,機器學習等。國際質量專家組VQEG成員,國際標準組織IEEE P3333.1成員,歐盟Qualinet成員,AVS視頻標準質量評價組成員。ACMMM 2020 QoEVMA workshop組織者。參與制定多個IEEE以及ITU國際標準,擔任多個國際期刊與會議評審。