淘寶直播數字人:音視頻算法工程技術

圖片

本專題是我們打造智能數字人的部分實踐總結。我們將探討六大核心環節:LLM文案生產賦予數字人思考和內容生成能力,如同其“大腦”;LLM互動能力則聚焦對話邏輯與擬人化交流,是實現自然交互的關鍵;TTS(語音合成)技術負責將文字轉化為富含情感、個性化的“聲音”;形象驅動技術讓語音與表情、口型、肢體動作精準同步,塑造逼真視覺形象;音視頻工程解決實時渲染、低延遲傳輸與高質量畫面輸出的技術挑戰;最后,服務端工程構建穩定、彈性、高并發的后端支撐平臺,確保數字人服務高效穩定運行。歡迎大家一起交流進步。

第一篇:《淘寶直播數字人LLM推理優化:模型蒸餾與路徑壓縮實踐》

第二篇:《淘寶直播數字人:LLM文案生成技術》

第三篇:《淘寶直播數字人:LLM彈幕互動技術》

第四篇:《淘寶直播數字人:TTS技術語音合成技術》

第五篇:《淘寶直播數字人:形象技術》

圖片

文章價值與思路說明

本文給大家帶來的價值:

  • 分享直播核心鏈路,幫助大家快速了解直播上下游鏈路

  • 分享數字人核心技術,幫助大家快速了解

  • 數字人核心技術與鏈路分享淘寶直播數字人項目各個階段過程與思考

  • 希望能幫助到新的創新,給大家帶來一些小的思路和啟發

  • 如果能稍微幫助大家,是最開心的事情了~

文章分享思路:

帶著問題出發:

  • 數字人業務背景是什么?有什么作用?

  • AI與工程如何結合,如何與音視頻技術結合?

  • 直播核心的鏈路是什么?一個字節的旅行

  • 音視頻工程如何與AI結合?

  • 如何產品化,產品化流程是怎么樣的?

  • 數字人后續的發展方向和展望


業務背景與價值

???數字人直播

商家核心痛點問題:

  • 非播時間段空窗:真實主播開播時長有限,我們通過主播形象克隆及云端開播,實現非播時間段自助開播(凌晨、主播休息時間段、24h)

  • 主播運營講解成本高:通過自研LLM大模型自動生成商品講解文案,降低主播商品講解成本

  • 直播間無法同時回復大量評論:通過自研LLM大模型對話能力,實現彈幕實時互動

  • 直播間商品展示操作復雜:通過自動化展示商品物料、同步彈商品卡&特效等能力,完善商品展示,促成交轉化

???公益&助農

偏遠地區招聘優質主播比較困難,且難以負擔主播的昂貴費用。數字人直播則不受地域、環境限制,我們可以提供官方形象及開播方案,實現低成本開播。

???業務服務對象:

目前已成功服務多個行業:

  • 自營商家:天貓超市,喵速達,淘寶秒殺,百億補貼,淘寶買菜,天天熱賣,淘工廠等

  • 行業:3C,食品,大家電,快消,家居,汽車等

    通過提供24小時不間斷的直播服務能力,淘寶直播數字人為商家提供更高效、更經濟的解決方案。


核心鏈路總覽

工程鏈路

問題:

AI與工程如何結合,如何與音視頻技術結合?

???直播核心鏈路+一個字節的旅行

如何開始一場直播,接下來剖析下直播過程中發生了什么、有哪些環節以及為什么會有這些環節。

以淘寶直播為例,在直播的過程主要包括了音視頻采集、渲染/混音、編碼、傳輸/協議、GRTN、播放器這幾個主要的環節。為了方便清晰的展示出這些鏈路,以一張大圖呈現如下,其中同時注明了每個環節存在的必要性:

經過上一節可以大致了解直播的基本流程,眾所周知程序員喜歡刨根問底,接下來我們把數據拆分成一個字節,觀察一個字節在整個過程中是如何流轉的。這里拆分了音頻和視頻兩個鏈路來介紹音頻和視頻是如何流轉的,并且標明了其在每個環節的數據狀態:

???整體架構與流程

LiveCopilot包含了渲染+音視頻+AI工程,負責AI能力(LLM、TTS、唇部驅動等)在直播場景落地。其圍繞 AI工程、音視頻渲染、直播與短視頻 三大核心能力建設。(因部分內容因涉及內部模塊,特此進行模糊處理,望見諒)

架構圖:

???降成本與創新

本節主要分享降成本與技術創新的一些思路與路徑

因為篇幅原因,主要列出和核心思路及實現方式,歡迎溝通交流!

降成本(端云結合)

通過端云結合降低數字人整體成本,已線上落地,并有效降低了整體成本。

TTS拆分

通過TTS拆分提升TTS線上效果,降低機器成本

素材與文案結合

通過拉取商詳素材,結合前景分鏡視頻,有效的豐富了直播講解內容。(因部分內容因涉及內部模塊,特此進行模糊處理,望見諒)

更多....(歡迎找我們討論交流,不一一列舉)

數據與產品化

???產品化思考與小方法

  • 技術探索

核心思路

  • 方向:技術成熟度、行業發展情況

  • 快:和時間賽跑、快速出Demo&驗證效果

小方法

  • 關注業內新技術,特別是落地情況

  • 關注行業情況,體驗競品效果

  • 單/半周迭代,每周1-2個Demo

  • 可行性驗證

核心思路

  • 種子用戶:尋找&培養種子用戶

  • 與用戶建立信任:服務好用戶,贏得信任

小方法

  • 關注核心且積極商家&用戶,如榮耀/小米等

  • 線下走訪,如天下網商

  • 從用戶答疑中與商家建聯,服務好商家,贏得信任

  • 產品化

核心思路

  • 深入挖掘用戶訴求:建立信任、多溝通。

  • 產品需求來自用戶:設身處地、同理心

  • 簡單、再簡單:減少步驟(哪怕一個點擊)、減少功能文檔

小方法

  • 種子用戶體驗群,快速迭代,收集訴求

  • 交互簡單,不需要文檔就是最好的文檔

  • 提升規模

核心思路

  • 核心競爭力:價格、易用性、效果

  • 差異性:新的功能,別人做不到的功能

小方法

  • 競品調研,試用競品

  • 可以多問用戶,為什么用他,而不用我

???挑戰

  • 肢體驅動

  • 數字人成本進一步降低(端+云)

應用場景展望

  • 數字分身&客服:專屬人設大模型,讓多個一樣的你同時直播、交流!(我們正在做)

  • 幫助殘疾人直播:幫助聾啞人講話,表達自己;幫助殘障人士開播!(我們正在做)

  • 千人千面:讓每個人擁有一個專屬數字人助理,有顏聲音甜,陪你講話、聊天、答疑!(我們正在做)

  • 教育普惠:教師人設大模型+數字人,讓每個孩子擁有專屬老師,共享普惠教育!

  • 數字記憶:克隆自己、親人的人設、聲音、形象,保留一份永久的分身和記憶,留給自己與兒女!可以聊天、可以述說,可以嘮家常~

團隊介紹

本文作者景江,來自淘天集團-直播AIGC團隊。本團隊作為直播電商智能化領域的先行者,始終致力于通過AI原生技術創新重構電商直播場景中的人貨場交互范式。團隊基于對大語言模型研發、多模態語義理解、語音合成、數字人形象建模、AI工程化部署及音視頻處理技術的深厚沉淀和積累,已搭建起覆蓋直播全鏈路的AI技術矩陣。自主研發的數字人直播解決方案通過商業化驗證,成功實現從技術研發到商業變現的完整閉環,累計服務上千家商家。

¤?拓展閱讀?¤

3DXR技術?|?終端技術?|?音視頻技術

服務端技術?|?技術質量?|?數據算法

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/913312.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/913312.shtml
英文地址,請注明出處:http://en.pswp.cn/news/913312.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

MySQL回表查詢深度解析:原理、影響與優化實戰

引言 作為后端開發或DBA,你是否遇到過這樣的場景: 明明給字段加了索引,查詢還是慢?EXPLAIN一看,執行計劃里type是ref,但數據量不大卻耗時很久? 這時候,你很可能遇到了MySQL中常見的…

任務管理器看不到的內存占用:RAMMap 深度分析指南

前言:任務管理器看不到的內存真相 在日常使用 Windows 系統時,我們有時會遇到一種令人費解的情況: 剛剛開機,什么軟件都沒運行,系統內存卻已經占用了 7~8 GB。 打開任務管理器一看,前幾個進程加…

從傳統倉庫到智能物流樞紐:艾立泰的自動化蛻變之旅

在物流行業智能化浪潮中,艾立泰從依賴人工的傳統倉庫轉型為智能物流樞紐,其自動化升級路徑為行業提供了典型范本。?曾幾何時,艾立泰倉庫內人工搬運、紙質單據流轉、手工盤點是常態,效率低下、差錯率高、人力成本攀升等問題制約發…

408第三季part2 - 計算機網絡 - 滑動窗口

理解 幀本質就是一堆二進制,后面會將幀的格式 流量控制就是 B:急急急急急急 A:別急 A控制B,B控制C,C控制D,但D無法控制A,這就是相鄰節點 abc在發送的過程中發送完了 怎么才能繼續發送呢 沒…

RedHat高可用集群深度解析與優化

一、RHCS核心組件深度解析1. Corosync(消息層)通信機制改進說明: Totem協議采用環形令牌傳遞機制,在10節點以下集群中使用UDP/IP組播(224.0.0.12),超過10節點建議改用UDP/UDP單播。典型配置示例…

為什么使用 XML Schema?

為什么使用 XML Schema? XML(可擴展標記語言)是一種廣泛使用的標記語言,它被設計用來存儲和傳輸數據。XML Schema 是一種用于定義 XML 文檔結構的語言,它為 XML 文檔提供了嚴格的驗證機制。以下是使用 XML Schema 的幾個主要原因: 1. 結構化數據定義 XML Schema 允許開…

ESP32藍牙學習筆記

藍牙 官網:https://www.bluetooth.com/zh-cn/learn-about-bluetooth/tech-overview/ 概述 分類:Bluetooth經典、Bluetooth低能耗(LE) GAP 通用訪問配置文件(Generic Access Profile, GAP)簡稱GAP,該Profile保證不同的Bluetooth產品可以互…

C#擴展方法全解析:給現有類型插上翅膀的魔法

C#擴展方法全解析:給現有類型插上翅膀的魔法 在 C# 的類型系統中,當我們需要為現有類型添加新功能時,傳統方式往往意味著繼承、重寫或修改源代碼 —— 但如果是string、int這樣的系統類型,或是第三方庫中的密封類,這些…

YOLOv11在邊緣計算設備上的部署與優化:從理論到實踐

邊緣計算與YOLOv11的融合背景 邊緣計算的崛起與核心價值 邊緣計算作為一種分布式計算范式,正深刻改變著人工智能應用的部署方式。其核心在于將數據處理從云端下沉到網絡邊緣,在靠近數據源的位置完成計算任務。根據國際數據公司(IDC&#xf…

Solidity——pure 不消耗gas的情況、call和sendTransaction區別

/ pure: 純純牛馬 function addPure(uint256 _number) external pure returns(uint256 new_number){ new_number _number 1; }不會消耗gas對吧。傳的不是狀態變量 你的理解基本對了,但我們來更嚴謹、深入地回答這個問題。 ? 你這段 pure 函數代碼: …

柔性電路芯片賦能腦機接口:技術融合、應用突破與前景展望

柔性電路芯片賦能腦機接口:技術融合、應用突破與前景展望 一、引言 1.1 研究背景與意義 在科技飛速發展的時代,柔性電路芯片與腦機接口的融合展現出巨大的潛力,為醫療、科研等多個領域帶來了新的機遇與變革。 從醫療領域來看,隨著人口老齡化的加劇以及神經系統疾病患者…

全面解析存儲芯片:從Flash到DDR、鐵電、內存條與SD卡

一、存儲芯片分類概述 存儲芯片是電子設備中用于數據存儲的核心組件,根據數據保存方式可分為 易失性存儲器(Volatile Memory) 和 非易失性存儲器(Non-Volatile Memory)。 類型代表芯片特點典型應用易失性存儲器DRAM、…

編譯ADI NO-OS工程

1,先在WINdows下安裝git bush 可以參考下面博客 https://blog.csdn.net/Natsuago/article/details/145647536 2.安裝make 工具 可參考一下鏈接 https://blog.csdn.net/weixin_40727233/article/details/110353240 3,參考ADI官方鏈接 https://wiki.analo…

自存bro code java course 筆記(2025 及 2020)

Java Full Course for free ? System 是 Java 中的一個 final 類,定義在 java.lang 包中。它的 構造方法是 private 的,意味著你無法通過 new System() 來創建對象。它的所有常用成員(如 System.out, System.in, System.err, currentTimeMil…

opencv基礎的圖像操作

目錄 1.安裝opencv-python 2.基礎的圖像操作 3.繪制幾何圖形 3.1.繪制直線 3.2.繪制矩形 3.3.繪制圓形 3.4.向圖像中添加文字 總結 1.安裝opencv-python pip install -i https://pypi.tuna.tsinghua.edu.cn/simple opencv-python 2.基礎的圖像操作 # 導入庫 import c…

Kali制作Linux木馬

環境描述:攻擊機:kali-Linux2025靶機:Linux-Centos8本文章主要介紹怎么通過kali制作Linux木馬控制linux,不要用于非法用途,法律是底線不要觸碰,提升自己的網絡安全技能,如有用于非法用途自行承擔…

常見user agent

常見user agent pc端ua chrome “Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36”“Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11”“Mo…

Windows 11 Enterprise LTSC 轉 IoT

Windows 11 Enterprise LTSC 轉 Windows 11 IoT Enterprise LTSC 微軟官方并未給出Windows 11 IoT Enterprise LTSC中文版的鏡像文件,但可以通過Windows 11 Enterprise LTSC版本的進行轉換。 二者主要區別概覽 特性Windows 11 Enterprise LTSCWindows 11 IoT Ent…

【手動安裝并啟動后, 如何查看mysql數據庫密碼以及重置密碼(centos8)】

在 CentOS 8 上手動安裝 MySQL 后,初始密碼的位置取決于安裝方式。以下是查找密碼的步驟: 1. 通過 yum/dnf 安裝的 MySQL 8.0 如果使用官方 RPM 源安裝,初始密碼會在安裝時自動生成并記錄在日志中: # 查看 MySQL 初始密碼 sudo…

STM32第十四天串口

一:串口發送字符和字符串和printf重定向 usart.c #include "stm32f10x.h" #include "usart.h" #include "stdio.h"void my_usart_Init()//千萬不要和32庫里面串口定于的名字一樣,不然會報錯 {GPIO_InitTypeDef my_usart…