?不久前,LiveVideoStack與阿里云視頻云負責人席明賢(花名右賢)展開一場深度的對話,一個是圈內專業的社區媒體,一個是20年的IT老兵,雙方有交集、有碰撞、有火花。
面對風云變幻的內外環境,阿里云在視頻云賽道是堅定向前的,對談中,右賢沒有回避多媒體當下行業面臨的困難以及業務面臨的挑戰,作為視頻云賽道新人,他用了很多時間調研市場和客戶,他堅定地選擇ToB作為突破口,他認為AI將把視頻云升級到2.0。
從1.0到2.0,云賦予了視頻,AI賦予了視頻云,2.0的視頻云是走向行業場景化的。
以下,透過一個多重視野的管理者,細細道來。
策劃 撰寫 / IMMENSE
ABCDE,到Video
想用英國詩人托馬斯·艾略特的作品,來照亮一個人的開場。
1934年的《The Rock》,是DIKW模型的源頭,它揭示了從數據到智慧的內蘊,恰好和右賢的經歷頗有牽系。
他開門見山,說自己是個IT老兵,20多年都在“計算”這個圈子內。大學時期學習計算機技術,研究生方向是高性能計算和普適計算,工作先后從事云計算、大數據、數據庫、人工智能、邊緣計算的產品規劃和技術開發,也負責過釘釘教育業務。
仔細端詳,他的閱歷橫跨AI + Bigdata + Cloud Computing + Database&DingDing + Edge Computing,而近一年又踏足了視頻云,是一個從ABCDE到V的機緣巧合,有些奇妙。
右賢是一個ToB老人,又是個視頻云新人。
談到作為新人,對當下的視頻云怎么看,他用“非常新奇、大有可為”來形容。
簡單說,新奇是源于當下的社會視頻化蔓延之勢,給生活、工作、乃至萬物的加持,這一切給大眾帶來了很大的便利性。在他看來,視頻必然會成為萬物交互的新方式,人與人、人與物、物與物,因為內容、溝通都在極速視頻化,我們從早睜眼到晚睡覺都在跟泛視頻打交道,“視頻+萬物”將會孕育出大量的新鮮事物及應用,這足夠讓他新奇萬分。
關于他的時空履歷,有疊加的化學效應,“之前做的那些產品技術相對來說,是偏底層的;而視頻云是技術應用解決方案,它是全鏈路的、與業務強相關的;同時,這些視頻業務的底層需要云計算、數據庫、人工智能等融合支撐。正因如此,我過往的經歷恰好在視頻云這個賽道大有可為。”右賢說。
可以想象右賢領隊下的阿里云視頻云會發生怎樣的變化,多媒體行業的周期與這名老兵的時間線交織在了一起,命運是最好的安排,他的經驗正是阿里云視頻云需要的。
視頻云2.0
回到現實軌道,與“大有可為”強對比的,可能是音視頻舊人眼里的瓶頸。
國內多媒體生態經過了6到8年的快速發展,目前進入到調整或平穩期,在這樣的背景下進入這個賽道,對行業老人來說一定是難題,對賽道新人或許是另一番新境。
于是,右賢看出了需要迭代變化的新視頻云。
依他的視角,如果說云賦予了視頻,帶來了視頻云的1.0,去迎面消費互聯網的全面爆發,那如今是AI賦予了視頻云,帶來了視頻云2.0,去解決行業數智化的全新升級。
的確,這揭示了視頻云的本質,從1.0到2.0,不知不覺,視頻云的本質發生了變化。
右賢解釋到,“在視頻云1.0時代,視頻應用主要集中在消費互聯網領域,主要解決成本和體驗問題,即B端的音視頻企業成本和C端的用戶體驗。隨著AI算力和大模型興起,在視頻云2.0時代,視頻應用轉向產業互聯網領域,去解決各行各業場景化視頻智能應用的問題,即視頻如何支持行業數智化升級。視頻云正在從1.0向2.0過渡。”
視頻云2.0,這大概是一個賽道的新生命、新契機。
在對話中,能夠感受到右賢對視頻云的信心,“視頻云2.0的價值在于通過基礎大模型和場景小模型,來助力行業的數智化。就此,阿里云視頻云擁有三大關鍵能力:第一是規模能力,經過視頻云1.0的蓬勃發展,阿里云成為全球和國內規模最大的視頻云基礎設施服務商之一,能提供高質量、高性價比的視頻服務;第二是智能能力,基于阿里云通義大模型,可以向客戶提供橫貫媒資生產、處理、傳輸、消費全鏈路的產品智能化升級;第三是場景化服務能力,基于多年的豐富行業實踐,可以向客戶提供高易用、高性能的視頻終端服務套件,全面降低客戶使用門檻。同時,更能利用場景化小模型來實現行業應用的百花齊放。”
當然,不僅行業賽道正面臨變革,技術突破也為視頻云的服務升級創造機會。“我們從video for human正向video for machine過渡,如何在滿足人的需求情況下,同時也滿足機器?這讓視頻云2.0可能成為一種混合的職能。比如,編碼就是既要滿足人的主觀體驗,也要滿足機器對視頻的高速處理需求”,右賢說。
于此同時,AI、GPT等技術迭代正在為視頻服務注入新的價值。從云養貓到云監考,從牧業養豬到農業育苗,從IPTV到工業質檢,右賢列舉了許多細分行業場景,透出他對新視頻云的信心滿懷。
ToB的耐心,100米深
進入2023年,音視頻行業市場空間見頂,除少量場景和個別公司外,大部分市場處于嚴重的內卷狀態。許多企業不得不通過各種方式壓縮成本,裁員自然是不可避免的方式之一。當然也有許多企業選擇出海,在競爭不是那么激烈的海外市場拼殺。這是看到的不爭事實。
每個管理者都一定在絞盡思慮,破行業的局、破自己的局。壓縮成本不是可持續性的良策,海外拼殺也不過是平面維度的拖延,右賢在尋找別的維度的解法,在內卷度愈發難以呼吸的市場,給我們舒展開空間,上演寬度與深度的畫面感。
顯然,我們都了解消費互聯網的ToC場景和產業互聯網的ToB業務,于是,右賢打了個形象的比喻,給出他的理解,“?ToC的賽道是100m寬,我們往往只需要做1m深,就能夠滿足70%到90%的客戶需求,面對ToC就是快速滿足這些需求。但是,做ToB ,做行業、做場景化,選擇賽道往往只有1m寬,但你必須挖下100m深,才能創造更多的產品價值,深度服務好客戶。”
相對于短平快的ToC場景, ToB的投資回報周期要長得多。這是事實,右賢心如明鏡。
決定做好這條新維度的賽道,面對“100m深”的堅持,如何能讓自己和團隊保持耐心?面對這個尖刻又必然的問題,右賢很干脆的回應,“是這樣,當我們挖到2米的時候會碰到石頭,挖到50米會碰到巖石,所以怎么辦?分兩步。”
右賢展開講,“首先,我們一定會繼續深耕ToC消費互聯網市場,做好基本盤。但也會把大家所聚焦的那1m深的賽道,持續深挖下去。也就是說,我們要把視頻云的基礎能力做到極致化,做到穩定性與體驗性的極致、做到成本與性能的極致。”行業里的人都理解,穩定和成本就是消費互聯網的最大痛點,但要把基礎能力做到極致也并非易事。
側面可感,阿里云視頻云已在排兵布陣,顯性突破。作為云廠商,做到超大規模化下的極致,需要站在頂層的抽象思維和重構設計,所以其內部強調“Uni”的技術設計理念,即“統一”:從多元融合的統一網絡,到媒體服務的統一引擎,再到一體化的終端利器,直達市場所需要的低門檻、低成本、高時效、高性能、泛應用。這是技術深度上的極致。
就在剛剛結束的LiveVideoStackCon上海2023,阿里云在原來的GRTN網絡基礎上升級推出MediaUni多元融合流媒體傳輸網絡,正如其名,目的就是極大滿足音視頻多元業務的傳輸需求,并以低成本、低延遲的極致姿態達成,更為面向未來的業務形態實現媒體與元數據的融合傳輸,這是強大的底座。往上走,在關鍵的中間層,破局重組,設計全新的媒體服務頂層架構,打造規模化、智能化、多業務、靈活、開放的媒體服務中臺,突破媒體服務的高時效與高質量,這是強力的發動機。
窺一斑而知全貌,能想象右賢所推進的基礎設施極致化,需要怎樣的堅定投入。如此,在深一步支撐ToC的同時,也在為ToB的加速做更扎實的儲備。當然,遠不止此,ToB場景更復雜多樣,需要更深的洞察力、創造力和持久的耐心。
這也是右賢提到的第二步,用“全智能”內化之力,來滿足更多ToB的數字化升級,換句話說,面向行業孵化場景應用,做一個標桿,照亮一片。
他提到支持中國美院的“云上藝考”,“以前的藝術類考試,學生都要在短期抵達多個院校現場考試,藝考潮甚至像春運一樣,網上也熱傳過‘藝考生10天輾轉多地趕考,賣掉一套房’的新聞,雖然略顯夸張,但可見其赴考難度極大,考試公平性也很難保障。對此,我們通過AI與視頻云技術,讓美院的4萬多名考生同時在線、居家考試,并以高可靠、高可控實現100%的全程順利穩定,這說來輕易,但真實情況是踩過很多坑才能實踐出來。項目結束,學校發來了感謝信,讓我們倍受鼓舞,后來將這種場景方案復用創新在更多藝術院校。”
“我們還有一個有趣的場景——云養貓。我大概調研了一下,中國目前有寵物 2.93億只,如果你經常出差很難把貓帶在身邊。現在可以把貓托管社區或自己家里,通過視頻我們可以跟寵物進行互動,包括投放貓糧、加水等等。此外,我們還做了很多工業質檢的場景,其他行業新場景也都在探索落地中。”右賢很有期待地說。
或許,不同時空踏在音視頻圈內外的他,從另個維度看到了更多景致和可能。
即使一切看起來繁花似錦,玩味無窮,也聽到右賢反復提及,“ToB是一條艱難而正確的路”。
這條路,不僅需要“100m深”的耐心,也要多些好奇心和創造力。
既要又要,普惠+生態
“數字化轉型升級過程中,65%的行業數字化信息來源于視頻,49%的智能應用又是以視頻為基礎。這就是未來我們要對視頻進行更多行業外應用的基礎,由此,視頻應用場景就會百花齊放了。”右賢說。
某種意義上,這就是千行百業的普惠。所以自始至終,右賢也深諳“普惠”。
2023年4月,阿里巴巴集團CEO張勇提出阿里云的戰略核心是“讓算力更普惠、讓AI更普及”,反映在客戶的認知或許就是眾多云產品的價格下調,但本質是通過釋放技術紅利來實現普惠,讓更多企業以更高性價比獲得阿里云或視頻云的服務,從而擁有更大的市場競爭力。
但更近一步,右賢強調,“我們能夠做的普惠,不僅僅是商業的普惠,還會做到對一些產業的普惠,即加速產業數字化進程。比如,視頻云更多定位為PaaS,產品還是以API的交付方式,就客戶的技術能力和平臺現狀來講,這對很多行業的客戶要求非常高,實現是有一定難度的。集成周期通常都是在三天到一周,才能把視頻語音的一些能力應用到客戶自身的APP,過程中還存在海量設備兼容困難的問題,讓整個時效比較低。”
這確實是當前普遍的交付模式和交付效率問題,解決它就能深化普惠。
“所以我們很早就提出了低代碼甚至零代碼,當然視頻云零代碼還不太現實,所以我們把很多的組件能力套件化,讓企業降低集成的難度;同時,依托大模型,打造小模型,組合能力、適配場景,大幅提升交付效率,實現幾小時即可上線。這是一種普惠。”
這里提到的,即是在持續升級的音視頻開發工具MediaBox,據說是個百寶箱,具備豐富、極致、智能的能力,在高易用、高性能之下,極大滿足客戶真實需求的場景化。
“還拿考試為例,在居家條件下的云上藝考,一定需要比現場更有力的防作弊監考能力。于是,基于對線上藝考差異化情景的全面分析,我們的技術團隊極速研發了基于AI 的自動檢測能力,疊加在MediaBox的遠程監考方案中,滿足藝考監測的全維度。這極大減輕學校監考壓力,更能保障教育的公平與公正。在這之上,還能靈活應對各類新需求,比如,針對有的學生違規戴了藍牙耳機,我們可以再疊加一個模型進去,以天為單位,就可實現新功能上線。目前,我們這套智能遠程監考方案已經成功復用在各類藝術考試、青少年編程考試、企業招聘考試中,這也是一種普惠。”右賢說。
透過一個小小考試場景360度的精細打造,能夠看到一個音視頻開發工具的真誠,這大概也是右賢所提到的“100m深”的堅持。有了這樣的耐心和誠心,視頻云的視野似乎也真正打開了。
“我們也很關注農業企業,交流了許多,比如,通過視頻如何去監控牲畜的狀態,以及如何去選苗、育苗,其實大部分企業不具備這樣的能力,所以需要把這個智能技術使用門檻降低,這是一種更實在的普惠,而不是簡單地把價格降低,因為把價格降再低,企業也用不起來”, 右賢繼續分享到。
能看得出,阿里云視頻云很真誠在拓延行業的普惠,但視頻云是偏方案型的服務,尤其面向視頻云2.0的產業互聯網,它更是一個典型的ToB賽道服務,與做一個應用或軟件不同,會面對行業各種復雜的場景,這等同于數量級的個性化需求,一家廠商必然乏力。
于是,右賢給出他的直言,“我經常講,我們是技術有限公司,也是能力有限團隊。實際情況就是這樣的,面向千百行業的需求,僅靠一家公司、一個團隊是很難解決的,只有通過與業界廣大的合作伙伴一起肩并肩、背靠背,才能快速解決客戶的問題。因此,我們要與生態伙伴合作,彼此雙向賦能。生態伙伴會涉及到幾類:一個,是面向大行業和行業領先的生態伙伴,我們會攜手一起解決行業重難點問題,針對一些典型場景會以聯合共創的方式展開合作;另一個,是面向廣大的開發者或中小型ISV,我們會把能力標準化、原子化讓他們易集成、易使用,實現低代碼乃至零代碼的集成,讓我們的能力被真正用好。”
總言之,阿里云視頻云要做生態伙伴做不了的或不容易實現的能力,比如底層的通用算力,比如一些較為復雜的算法模型,比如算法跟底層芯片的調優。而面向應用場景的優化微調,交給更擅長的ISV去做。“這樣,把邊界也切分清楚,我們會調動各行各業的生態伙伴,共同促進視頻在行業智能化的價值,成就彼此。” 右賢這樣說。
如果“既要又要”的話,普惠是包羅萬象的期許,生態是明晰邊界的覺知,一切都是為了更大的商業與社會價值。
有機未來,不止AI
不管舒展還是內卷,我們都更喜歡看未來。
“在未來,我會拿出更多的研發資源,不以商業為目的去做一些技術研究,做一些相對超前的技術儲備”,右賢表示,“其實產品技術投資上不要怕失敗,就怕沒有想法、沒有動力往前走,所以,如果很多事情是站在昨天規劃今天,是在解決歷史問題,你只能贏得當下。如果你不站在后天想明天做什么,你是永遠都不可能走到后天去的,也很難贏得明天。”
談及視頻云的明天和后天,就回扣右賢最初對視頻的認知,他認為,如果這是改變萬物交互的方式,當下,人與人的音視頻溝通已經做得很多、體驗也不錯,人與機器的溝通也可以通過NLP(自然語言處理)等技術來實現。未來,音視頻技術還可以有更大的應用范疇,與AI融合,與AIGC、ChatGPT都要做有機的融合。
說到這一點,右賢提到一個概念,“有機融合”。
“我覺得新技術目前可能很難再井噴,視頻云需要做的是把眾多技術進行有機的融合,這是更重要的。技術不斷的融合創新,融合后會衍生出很多意想不到的新場景,這個過程中,視頻云會生長成為智能社會的新基建,帶來的收益空間也是可預見的,會非常大。”
AI的融合是首要,且要看清其生長紋理。
“AI的發展經歷三起三落,我們經常講摩爾定律18個月,但由于AI算力的突破,后摩爾定律讓AI基本每3到4個月,整個數據的算力需求就翻一倍,這意味著AI的進化會非常迅猛,包括衍生到今天的GPT、人工神經網絡、腦科學等等。我認為,人工智能是人工與智能兩個詞,今后一段時期,人工智能的重點會在智能上,技術和應用會聚焦在“數能生智”方面,DIKW模型會快速迭代。以前是“人工+智能”,現在是“智能+人工”,右賢笑著說。
換個角度,未來或許是AI理解世界,我們理解AI。
無論如何,談及鮮為人知的DIKW金字塔,足見右賢對AI智慧的更深理解,這必然成為阿里云視頻云在研發動能上的無形牽引。
于是,他的團隊一直在探索實踐,比如,AIGC方向,文本生成圖片、圖片生成視頻,還包括2D到3D的融合直播等等。接下來,針對智能媒資管理,從標簽標準到媒資自動化管理,也會加大投入。而面向video for machine的未來,阿里云視頻云針對機器編碼也在與相關標準組織合作,加速推進MPEG-VCM標準的制定。這是右賢列舉的幾個技術演進點。
不僅如此,右賢還將“視頻”有機關聯到“數據密集型科研”,認為其會成為未來科研的新范式。什么是數據密集型?“其實就是大視頻,它數據量很大,但數據價值密度相對較低,所以需要快速的分析。科研第四范式就是利用大數據進行科學研究,通過數學重構這個真實世界,而以前都是模擬、仿真,再往前就是實驗觀察、理論總結等等。在可預見的未來科研里,視頻大數據顯得尤為重要。”
視頻、數據、智能、智慧、世界,這里看得出他有更深更遠的視野。
倘若把視線再抬高一點,看視頻云的未來,右賢還是那句話,“如果100%以商業價值,或許只能贏今天,不一定能贏明天。”
這也引出他對商業、技術、產品的看法,也能以“有機融合”來點睛。在他看來,這三者不可割裂,是一個完整的有機體。
“產品技術是為商業服務的,也是為社會服務的。作為管理者,必須要跟團隊要講明確,我們作為一個大家庭必須要有認知,無論是產品、技術、商業,我們都要敬畏市場、尊重客戶。這是我從最初就特別強調的一個問題。我們過往的發展模式過于敏捷迭代,很多技術也是ToC業務中沉淀起來的,但是,做ToB要非常講究嚴謹、講究價值,要圍繞著商業價值、社會價值。在這樣的一個前提下,產品的商業價值要牽引技術的研發,從出發點到終點,都要做到真正的敬畏與尊重,最后就能實現很好的商業。”
辭海里,“有機”是代表有生命的,事物構成各部分互相關聯而具不可分的統一性,與生物相同。這或許觸類旁通了他對技術、商管的有機之見,也發現了視頻云的新生命。
最后,如果尋幾個詞來素描右賢,大概是開闊、堅定、務實,一個賽道新人對瓶頸感行業生出很多新的覺知,這讓他“ABCDE”的經驗游歷于Video之上的更高視野。如果這份覺知和經驗發酵,投射在2.0背景下的阿里云視頻云身上,大抵如今年LiveVideoStackCon所述,是“云智新生”的視頻云。未來的未來,我們拭目以待。