本專題是我們打造智能數字人的部分實踐總結。我們將探討六大核心環節:LLM文案生產賦予數字人思考和內容生成能力,如同其“大腦”;LLM互動能力則聚焦對話邏輯與擬人化交流,是實現自然交互的關鍵;TTS(語音合成)技術負責將文字轉化為富含情感、個性化的“聲音”;形象驅動技術讓語音與表情、口型、肢體動作精準同步,塑造逼真視覺形象;音視頻工程解決實時渲染、低延遲傳輸與高質量畫面輸出的技術挑戰;最后,服務端工程構建穩定、彈性、高并發的后端支撐平臺,確保數字人服務高效穩定運行。歡迎大家一起交流進步。
第一篇:《淘寶直播數字人LLM推理優化:模型蒸餾與路徑壓縮實踐》
第二篇:《淘寶直播數字人:LLM文案生成技術》
第三篇:《淘寶直播數字人:LLM彈幕互動技術》
第四篇:《淘寶直播數字人:TTS技術語音合成技術》
第五篇:《淘寶直播數字人:形象技術》
文章價值與思路說明
本文給大家帶來的價值:
分享直播核心鏈路,幫助大家快速了解直播上下游鏈路
分享數字人核心技術,幫助大家快速了解
數字人核心技術與鏈路分享淘寶直播數字人項目各個階段過程與思考
希望能幫助到新的創新,給大家帶來一些小的思路和啟發
如果能稍微幫助大家,是最開心的事情了~
文章分享思路:
帶著問題出發:
數字人業務背景是什么?有什么作用?
AI與工程如何結合,如何與音視頻技術結合?
直播核心的鏈路是什么?一個字節的旅行
音視頻工程如何與AI結合?
如何產品化,產品化流程是怎么樣的?
數字人后續的發展方向和展望
業務背景與價值
???數字人直播
商家核心痛點問題:
非播時間段空窗:真實主播開播時長有限,我們通過主播形象克隆及云端開播,實現非播時間段自助開播(凌晨、主播休息時間段、24h)
主播運營講解成本高:通過自研LLM大模型自動生成商品講解文案,降低主播商品講解成本
直播間無法同時回復大量評論:通過自研LLM大模型對話能力,實現彈幕實時互動
直播間商品展示操作復雜:通過自動化展示商品物料、同步彈商品卡&特效等能力,完善商品展示,促成交轉化
???公益&助農
偏遠地區招聘優質主播比較困難,且難以負擔主播的昂貴費用。數字人直播則不受地域、環境限制,我們可以提供官方形象及開播方案,實現低成本開播。
???業務服務對象:
目前已成功服務多個行業:
自營商家:天貓超市,喵速達,淘寶秒殺,百億補貼,淘寶買菜,天天熱賣,淘工廠等
行業:3C,食品,大家電,快消,家居,汽車等
通過提供24小時不間斷的直播服務能力,淘寶直播數字人為商家提供更高效、更經濟的解決方案。
核心鏈路總覽
工程鏈路
問題:
AI與工程如何結合,如何與音視頻技術結合?
???直播核心鏈路+一個字節的旅行
如何開始一場直播,接下來剖析下直播過程中發生了什么、有哪些環節以及為什么會有這些環節。
以淘寶直播為例,在直播的過程主要包括了音視頻采集、渲染/混音、編碼、傳輸/協議、GRTN、播放器這幾個主要的環節。為了方便清晰的展示出這些鏈路,以一張大圖呈現如下,其中同時注明了每個環節存在的必要性:
經過上一節可以大致了解直播的基本流程,眾所周知程序員喜歡刨根問底,接下來我們把數據拆分成一個字節,觀察一個字節在整個過程中是如何流轉的。這里拆分了音頻和視頻兩個鏈路來介紹音頻和視頻是如何流轉的,并且標明了其在每個環節的數據狀態:
???整體架構與流程
LiveCopilot包含了渲染+音視頻+AI工程,負責AI能力(LLM、TTS、唇部驅動等)在直播場景落地。其圍繞 AI工程、音視頻渲染、直播與短視頻 三大核心能力建設。(因部分內容因涉及內部模塊,特此進行模糊處理,望見諒)
架構圖:
???降成本與創新
本節主要分享降成本與技術創新的一些思路與路徑
因為篇幅原因,主要列出和核心思路及實現方式,歡迎溝通交流!
降成本(端云結合)
通過端云結合降低數字人整體成本,已線上落地,并有效降低了整體成本。
TTS拆分
通過TTS拆分提升TTS線上效果,降低機器成本
素材與文案結合
通過拉取商詳素材,結合前景分鏡視頻,有效的豐富了直播講解內容。(因部分內容因涉及內部模塊,特此進行模糊處理,望見諒)
更多....(歡迎找我們討論交流,不一一列舉)
數據與產品化
???產品化思考與小方法
技術探索
核心思路
方向:技術成熟度、行業發展情況
快:和時間賽跑、快速出Demo&驗證效果
小方法
關注業內新技術,特別是落地情況
關注行業情況,體驗競品效果
單/半周迭代,每周1-2個Demo
可行性驗證
核心思路
種子用戶:尋找&培養種子用戶
與用戶建立信任:服務好用戶,贏得信任
小方法
關注核心且積極商家&用戶,如榮耀/小米等
線下走訪,如天下網商
從用戶答疑中與商家建聯,服務好商家,贏得信任
產品化
核心思路
深入挖掘用戶訴求:建立信任、多溝通。
產品需求來自用戶:設身處地、同理心
簡單、再簡單:減少步驟(哪怕一個點擊)、減少功能文檔
小方法
種子用戶體驗群,快速迭代,收集訴求
交互簡單,不需要文檔就是最好的文檔
提升規模
核心思路
核心競爭力:價格、易用性、效果
差異性:新的功能,別人做不到的功能
小方法
競品調研,試用競品
可以多問用戶,為什么用他,而不用我
???挑戰
肢體驅動
數字人成本進一步降低(端+云)
應用場景展望
數字分身&客服:專屬人設大模型,讓多個一樣的你同時直播、交流!(我們正在做)
幫助殘疾人直播:幫助聾啞人講話,表達自己;幫助殘障人士開播!(我們正在做)
千人千面:讓每個人擁有一個專屬數字人助理,有顏聲音甜,陪你講話、聊天、答疑!(我們正在做)
教育普惠:教師人設大模型+數字人,讓每個孩子擁有專屬老師,共享普惠教育!
數字記憶:克隆自己、親人的人設、聲音、形象,保留一份永久的分身和記憶,留給自己與兒女!可以聊天、可以述說,可以嘮家常~
團隊介紹
本文作者景江,來自淘天集團-直播AIGC團隊。本團隊作為直播電商智能化領域的先行者,始終致力于通過AI原生技術創新重構電商直播場景中的人貨場交互范式。團隊基于對大語言模型研發、多模態語義理解、語音合成、數字人形象建模、AI工程化部署及音視頻處理技術的深厚沉淀和積累,已搭建起覆蓋直播全鏈路的AI技術矩陣。自主研發的數字人直播解決方案通過商業化驗證,成功實現從技術研發到商業變現的完整閉環,累計服務上千家商家。
¤?拓展閱讀?¤
3DXR技術?|?終端技術?|?音視頻技術
服務端技術?|?技術質量?|?數據算法