編者按:隨著全行業視頻化的演進,我們置身于一個充滿創新與變革的時代。在這個數字化的浪潮中,視頻已經不再只是傳遞信息的媒介,更是重塑了我們的交互方式和體驗感知。作為字節跳動的“能力溢出”,火山引擎正在飛速奔跑。根據2023《中國視頻云市場跟蹤,2023上半年》報告顯示,在視頻云解決方案市場上,火山引擎的市場占有率排在第五位。
從在北京創業時聽著路演寫代碼,到成為火山引擎視頻云架構的技術總監,王悅的經歷橫跨了幾代視頻編解碼標準的長度,而他的每一步都不偏不倚地踩在了視頻發展的重要節點。這次的LiveVideoStackCon上,他將帶領火山引擎帶來「抖音背后的體驗增長」的實戰揭秘。他所在的火山引擎視頻云部門期望借助海量的富媒體內容帶來更順暢的畫質體驗、更優質的交互體驗、更流暢的播放體驗和更佳的性能體驗,再通過火山,給整個行業去提供整個端到端的視頻云的解決方案。以下是LiveVideoStack與王悅的對話——
視頻,重塑了我們的生活方式
LiveVideoSatck:2018年加入字節跳動(以下簡稱字節),如今已經五年了。這五年的時間里,你都經歷了哪些變化和成長,其中讓你印象最深刻的是什么?
王悅:整體上都是圍繞多媒體技術和架構,職責和工作重心隨著業務的增長和組織的需求持續有些調整。印象最深刻的應該還是隨著公司業務的成長,我們的技術、業務和組織理念逐步實現了一個比較大的轉變,從一個偏解決方案、技術支撐的部門角色演進到了圍繞云上的商品和服務來建設,因此大家看到了今天的火山引擎,今天的視頻云。
LiveVideoStack:過去十年是飛速發展的十年。從傳統互聯網到移動互聯網再到現在一個相對平穩的狀態,你怎么總結上個十年的行業的變化,或者說它在你身上產生的投影?
王悅:其實我們可以算一下,你每天刷抖音、短視頻多長時間,每天是不是要開幾個視頻會議,這些典型的場景在行業上又催生出多少個像抖音、騰訊或Zoom這樣的公司。從另外一個角度講,我們每天面對這些太司空見慣了,所以去回顧當時的產品可能沒有那么深的感觸。但我記得十年前第一次出現 UGC 直播創業的公司、第一次用 Zoom 開會、第一次看到桌面共享居然可以做到這么絲滑。在看到那些場景的時候你會覺得這種創新變革是非常巨大的,那個時候的興奮感是非常強的。總體來說,視頻編解碼的標準雖然一直在變,但基本框架這20年來幾乎沒怎么變過,用戶對于超高清、低延時、強交互的體驗需求也一直存在,我們也在根據行業和用戶場景的需求不斷地適應、迭代和改進。
抖音背后,用戶體驗提升的秘訣
LiveVideoStack:你之前有提到過,目前視頻編碼的迭代的速度已經追趕不上這個視頻數量增長速度,火山引擎是如何解決這一問題的?
王悅:簡單來講就是提升算力的密度和規模。在并行計算方面,摩爾定律還沒失效,這也是為什么現在NVIDIA還是能持續高速地增長。首先就是挖掘一個場景,在這個場景下,確保算力能夠指數級地跟上業務的需求。另外就是專芯專用,就是專用的芯片去做專業的事情。因為通用計算做編解碼效率并沒有那么高。為什么現在大家都在做專用的視頻編碼芯片,它就是可以把單位芯片面積的算力發揮到極致。所以綜合這兩點,一個是這個專業計算,一個是極致密度,我們通過異構計算的矩陣,充分保障了我們視頻轉碼和處理的效率。
LiveVideoStack:提到NVIDIA,你們一同合作的視頻處理框架(BMF)在今年8月份正式發布,目前,實踐起來情況如何,對抖音、西瓜等帶來了怎樣的幫助?
王悅:我們與NVIDIA合作的視頻處理框架BMF在抖音、西瓜等內部業務上經過了充分應用和驗證。對于量更大、處理鏈路更復雜的點播轉碼場景,BMF已經全量上線了,包括了視頻檢測、增強、轉碼等各個環節,過程中BMF的性能和穩定性,以及對于開發效率的提升已經被充分驗證。除此之外,BMF在內部的審核抽幀、云編輯、直播轉碼、移動端增強等場景都有廣泛的應用。我們自己主要的收益點還是提升了開發效率,降低維護成本和出錯概率,加快新業務、新功能的接入和上線速度。
LiveVideoStack:拿視頻云團隊來說,你們對于降本增效有壓力嗎?
王悅:目前來看的話其實還好,未來多媒體的的增量空間還有多少我們可能都會考慮。現在看來起碼兩三年內還是比較樂觀的,我們自己做ToB雖然很難,但是從0到1還是有很多去發力的空間。對于火山引擎自己的經驗來說的話,之前一直要給大家剖析一個非常詳細的方法論,這次在深圳站結束之后,我們聯合抖音撰寫了一份面向體驗的白皮書,比如“體驗、成本和技術三者的均衡,抖音是怎么做的?火山又是通過什么技術驅動的手段實現的?” 、“沉浸上的體驗、畫質的體驗和交互的體驗在點播、RTC和架構上怎樣實現的”,以上這些內容我們都會詳細闡述。
關于危機、機會和未來
LiveVideoStack:目前,我們能看到的主流的流媒體公司都在增效、減員、壓縮。下一個時代看上去是屬于人工智能的時代,是不是證明流媒體的時代就結束了,或者說暫時告一段落了?
王悅:首先,我覺得不能叫結束吧,只能說現在整個行業滲透到了一個相對平穩的時期了,但這并不意味著這個行業的人就失業了,只是像十年前那樣從0到1 的機會和空間越來越少。但回想我10年前博士畢業的時候,當時的音視頻從業者也非常少,我碩士畢業的時候,9個同學有8個去了銀行,那個時候做視頻編解碼的公司幾乎沒有,只有外企去做標準,國內你會用ffMPEG,會做基本的一些開源方案的使用或維護就夠了。現在看我們整個國內的音視頻流媒體的從業人員有多少?這其實已經是十年以前不可比擬的。所以從這個角度講我覺得不能說是停滯了,只是無法保持像上個十年一樣的增速。
LiveVideoStack:其實流媒體的從業者,無論從智商還是能力上來講,都是非常出色的人。你覺得面臨人工智能這樣的一個新興的技術革新的危機,我們應該怎么面對或者擁抱它?
王悅:其實我覺得不止流媒體,所有技術人都會面臨技術被革新的難題。你需要去學新的語言、新的開發框架。但是未來是否AI就取代了流媒體?我覺得這不是兩個沖突的概念。流媒體的本質是幫助我們獲取信息、分享信息和傳遞信息的載體,但AI本身是一個工具,它能做的是幫助我們提升分享內容的效率,或者是提升內容本身的豐富度。我們完全可以用 AI 的工具幫助我們把流媒體這個空間打開的更大一些。因為技術本身是沒有邊界的,我們做流媒體的人跨界去學點 AI 的東西,完全沒有任何問題。
大模型會釋放出很多機會,一些偏機械化的開發工作可能不需要人去做,并且整個行業還在持續聚集。馬太效應還在一直往前走,就像剛才說的,可能最早做直播的有上百家上千家,但現在會相對更精專化。未來如果持續集中的話,這些底層的技術資源也會相應的集中。
LiveVideoSatck:單個人創造的價值可能會更大。
王悅:是的。
LiveVideoSatck:拋開這種內部的優化升級,你覺得未來新的增量機會在哪?
王悅:雖然整體上大家覺得可能該挖掘的都被挖掘了,但我們還是要保持樂觀。10年前甚至20年前,我們第一次用VCD的時候,我們是想象不到會有今天這樣一個場景的。目前行業確實比較飽和,大家看不到新的增量空間。但市場是為未來買單的,說不定未來我們還是能挖掘到一些新的場景,能夠讓我們獲取信息或者分享模式上有一些變革。可能我給不出一些明確的答案,但是一定不排除市場上有一些新的創業公司,或者一些新的突發事件能夠帶給這個行業一些新的變革。
LiveVideoStack:這次11月24-25日的LiveVideoStack Con 大會上,火山引擎會重點分享抖音的體驗優化,給我們介紹一下其中的方法吧。
王悅:之前關于體驗優化關于這方面已經分享了很多,簡單歸納的話,首先明確數據指標,找到指北針,關鍵的業務目標是什么,要優化的QoE和QoS指標什么,這些指標之間有怎樣的量化和內聯關系;然后,要讓數據體系正向運轉起來,需要一套完善、穩定的工程系統和數據工具,如AB test、智能分析工具等;最后,這套優化體系的原動力,還是來自于一系列的算法和策略,如何提升畫質、降低延時和卡頓,這就主要依靠技術同學的技術能力和洞察力了。