視頻級虛擬試衣技術在淘寶的產品化實踐

圖片

作為一種新的商品表現形態,內容幾乎存在于手淘用戶動線全流程,例如信息流種草內容、搜索消費決策內容、詳情頁種草內容等。通過低成本、高時效的AIGC內容生成能力,能夠從供給端緩解內容生產成本高的問題,通過源源不斷的低成本供給倒推消費生態的建立。過去一年,我們通過在視頻生成、圖文聯合生成、個性化文案、人設Agent等核心技術上的持續攻關,AIGC內容生成在手淘多個場景取得了規模化落地價值。本專題《淘寶的AIGC內容生成技術總結》是我們摸索出的一部分實踐經驗,我們將開啟一段時間的內容AI專題連載,歡迎大家一起交流進步。

第一篇《淘寶內容AI團隊2024年8篇論文總結》

第二篇《內容AI: 目標驅動的圖像生成》

第三篇《OpenAI o1模型的前世今生》

第四篇《多模態人物視頻驅動技術回顧與業務應用》

圖片

背景介紹

視頻虛擬試穿任務定義為將指定服飾穿著到視頻中的人物身上,以實現視頻級別的服飾上身展示效果。在此之前,大多數的方法主要聚焦在基于圖像的虛擬試穿領域。然而,僅僅依靠靜態圖像進行虛擬試穿存在一定的局限性,靜態試衣圖不夠生動活潑,并且也無法充分展現服飾所具有的更多物理特性。當直接把基于圖像的試穿方法逐幀應用到視頻級別的輸入時,所生成的換衣視頻常常會因為幀與幀之間的不一致性,從而導致時間上出現不連續的情況。從更細節的維度來看,我們對圖像換衣和視頻換衣的價值進行了系統性的對比,具體內容可參見下方表格。


圖像換衣

視頻換衣

評價

動態展示

?

?

視頻虛擬換衣可以展示服裝在不同角度和動作下的效果,更加立體和真實。

物理特性

?

?

視頻虛擬換衣可以在動態展示中,讓用戶對衣物的質感、剪裁和擺動等物理特性有更全面的了解。

吸引力

?

?

視頻能夠吸引用戶的眼球,增強用戶參與感和體驗感,提高他們對產品的興趣。

信息價值

????????

???????????????

在視頻中,服裝的移動、光影變化等細節都更容易展示,讓用戶對服裝材質和款式有更詳細的認識。

商業價值

????????

???????????????

視頻可以更好展示商品特性,吸引用戶注意力,提升點擊率促進成交;視頻更容易融入豐富的營銷內容,比如廣告、動態展示等。

難度

?????????

???????????????

不論是數據收集還是建模訓練,視頻虛擬試衣模型研發難度要遠高于圖像換衣。

成本

????????

???????????????

視頻換衣模型的參數量和計算的FLOPs都高于圖像換衣模型,這導致視頻換衣的訓練和推理的成本更高。

成熟度

???????

??????

圖像換衣因為起步早、難度成本較低,相較于視頻換衣技術成熟度更高一些,不過視頻換衣也達到了業務可用水平

圖像換衣和視頻換衣的價值對比

根據我們之前的研究,我們假設視頻虛擬試穿的任務從技術的層面可以分解為兩個關鍵方面。

  1. 我們關注的是單幀結果的真實性和自然性,同時還要確保服裝與人物形象的一致性。這意味著我們需要在每一幀中精確地呈現出人物的皮膚顏色、紋理和形狀,以及服裝的顏色、紋理和款式,使其看起來就像真實的人物在試穿一樣。

  2. 我們還關注人的動作和服裝在整個視頻中的連貫性。這意味著我們需要在視頻中平滑地過渡不同幀之間的動作,并確保服裝的顏色和款式與前一幀保持一致。

針對這兩個方面,我們提出了一個流暢換衣視頻生成方案,實現了高清、高幀率、連貫、一致性的換衣視頻。

服飾

圖像換衣

視頻換衣

2e67d10d6b7a4605cb5544b0a6786ae7.png

94060100463bb2a2492ca724245ede70.png

直觀對比圖像和視頻換衣效果

我們依托視頻換衣生成方案,針對不同業務場景進行了一系列的建設工作,打造出了三種類型的產品級能力。具體內容呈現在如下表所示當中。

產品級能力

應用場景

營銷視頻自動投放

面向平臺,自動圈選缺乏營銷視頻的品類,并生成相應的含有賣點信息的營銷視頻以供投放

模特試穿素材生成

面向商家,幫助商家便捷的產出高質量試穿視頻,豐富其店鋪營銷素材

買家試穿效果生成

面向買家,幫助買家直觀的看到自己心儀的服飾上身后的效果

產品級能力和應用場景對應關系

圖片

算法能力建設

早期的方案對視頻換衣技術的可行性進行了驗證。在早期的方案中,成功地初步實現了將一件衣服移植到視頻中的模特身上這一功能,并且很好地保留了服飾的款式、紋理等重要特性。然而,早期方案存在一些局限性,導致其無法達到業務可用的水準。具體來說,有以下幾個方面的問題:其一,訓練數據集的規模較小,這使得模型的泛化能力相對較弱。其二,由于受到基礎模型能力的限制,無法生成非常精細的視頻細節。其三,受限于傳統的 2D VAE 和雙 UNet 結構,模型無法有效地使用高清且長時序的訓練數據。其四,受限于重建損失,很多服飾的 logo 細節無法得到準確還原。以上這些局限性使得視頻換衣的產出結果常常出現模糊、畸形、偽影、logo 損失等問題。針對上述這些問題,我們對視頻換衣的整體框架進行了系統性的升級,具體涵蓋以下幾個方面:

  1. 持續迭代DiT方案的人物垂領圖生視頻(img2video)基礎模型,作為視頻換衣模型的預訓練,提升模型對服飾電商領域的泛化性,DiT 結構在參數量和數據集的規模擴展方面更加容易。

  2. 運用 3D vae,對視頻的空間時序進行壓縮處理,這顯著地提升了輸入數據的分辨率以及幀率。

  3. 建立了高質量視頻級換衣數據收集鏈路,持續擴增優質、多樣的視頻換衣數據。以及精心設計的視頻換衣模型訓練以及推理方案。

圖片

產品能力建設

???模版庫建設

為了提升用戶與換衣產品的交互門檻,我們建設了一個具備高質量且多樣化的模版庫以及一個能夠做到精確匹配商品與模版的機制。使得用戶得以在僅僅輸入一個服飾圖或者商品ID的前提下,就能一鍵生成完整的試穿視頻。


  • 真實風格模版生成

首先,我們精心收集了一批授權的服飾類營銷視頻,并且安排專業人員進行了細致的人工標注。在眾多視頻中,挑選出一批適用于淘寶服飾展示的原始視頻。接著,運用視頻級重繪(video2video)方法,以標注的授權視頻為藍本,模仿其風格成功生成一段全新的視頻,極大地豐富了平臺自有版權的模版視頻的數量和多樣性。

(左)參考視頻(中)生成模版(右)生成模版換衣

基于真實風格模版所生成的完整換衣視頻內容具體如下。這個視頻是依據輸入的商品,成功匹配到了多個真實風格的模版片段。隨后,通過一系列自動化的后期處理步驟,包括智能剪輯、講解文案生成、智能配樂以及語音生成技術(TTS)等,最終為 C 端用戶完整地展示了一個有關“風衣”類服飾的營銷廣告視頻。

(左)原始視頻片段手工拼接,(右)基于真實風格模版所生成的完整換衣視頻

  • 模版與服飾匹配能力

考慮到服飾的調性和算法生成的局限性,在自動化生產基于視頻換衣的營銷視頻時,將服飾和模版做隨機匹配是不合常理的,例如無衣兜服飾配插兜動作,男性模版配吊帶女裝等。

(左)插兜動作輸入視頻。(右)換上無衣兜服飾后效果

(左)男性視頻模版。(右)換上女裝后的效果

為了系統性解決服飾與候選模版不搭調的問題,我們提出了一個對輸入服飾和候選模版進行精確匹配的方法,首先我們對服飾和視頻模版定義了最多30種標簽,我們通過大規模圖文模型對模版庫離線提取出相應標簽,對于每一個輸入的服飾,我們通過圖文大模型判斷其合法性,并實時提取出對應的標簽,最終通過一套匹配規則將兩者關聯起來。

24dd40f029b0458f82fca50b81cfe896.png模版和服飾的打標與匹配

???產品形態建設

為了幫助商品更好的被展示,我們設計了一套成品模特試穿視頻生成鏈路。這套鏈路可以僅僅根據輸入的服飾itemid或者商品圖,自動生成符合商品特性的、時長約1分鐘的多分鏡、多姿態模特換衣視頻。這意味著用戶可以輕松地通過我們的平臺,選擇他們想要展示的服飾,并生成一系列精美的試穿視頻。除了生成視頻之外,我們的系統還串聯了配樂、tts、文案生成等功能,可以進一步提升視頻的展示效果。通過這些能力,1)平臺可以批量產出幫助商家成交導流的視頻內容;2)商家可以制作出更加吸引人的服飾展示廣告視頻,吸引更多的潛在客戶。3)買家可以上傳自己視頻,來身臨其境的感受心儀服飾的上身效果。

通過我們的產品,用戶可以輕松地制作出高質量的服飾展示廣告視頻,并展示商品賣點和特性。我們的目標是通過展示服飾在人體上的逼真效果,來促成交易,提升銷售額。


  • For平臺-批量化營銷視頻生成


產品介紹

此產品支持根據圈選的一系列服飾商品的ID,自動化的選擇商品展示圖并匹配合適的視頻模版。對于常見的男女老少的初夏秋冬季服飾都能支持。目前該能力已經落地。

f23925896f593dc7b53797e2b4ca3df2.png批量化營銷視頻生成鏈路

效果展示

其中,我們的營銷視頻自動投放能力,目前已經應用在一些場景。以下為該算法的實際輸出效果。

輸入服飾圖和對應商品ID

生成視頻

輸入服飾圖和對應商品ID

生成視頻

21ad2e9f2ae28b2577a792a219fc0bbe.png

414c5747b3df9dd57c39f988c042081c.png

1c17d3c6ee45a04d038306ddb923e88d.png

5f72ef7eee87be19da721c24571bcf88.png

服飾搭配生成的營銷視頻效果

  • For商家-模特試穿素材生成


產品介紹

除了能夠依據自動圈選的商品池來自動生成完整的營銷視頻之外,我們同時也是面向商家端的創意工具。我們擁有幫助商家利用商品圖制作出模特試穿短片以及混剪視頻的能力。詳細而言,在商家端,當商家上傳一張服飾圖,或者是一組服飾圖的組合品時,系統會為商家自動推薦適宜的換衣模版。商家既可以在候選模版集中進行挑選,也可以自行上傳多個換衣模版。最終,我們將會產出與之對應的視頻換衣結果。目前該產品在推進落地中。

d3c90e999cd4c824d997625f76f9290e.jpeg面向商家的模特試穿素材生成產品示意圖

84a81b18209aa0402f3ba46267e54d6e.png商家與系統的一輪交互流程

效果展示

服飾

模版

生成結果

9545533d072eb6b2208938cd23169cde.png
a1e74fbaeb413677840d5c58f3a49d4c.png

模特試穿展示

  • For買家-個性化試穿效果生成


產品介紹

我們的產品能力上還設計了支持C端買家的功能,根據用戶選擇的服飾和用戶自己的視頻生成對應的服飾換衣視頻。幫助買家身臨其境的感受試穿后的形象。目前該產品還在設計籌備中。


真實買家視頻

由于視頻換衣對輸入視頻形式要求較高,我們設計了基于模版-服飾匹配系統的匹配度評價方法,對用戶上傳視頻提取模版標簽(參見【模版與服飾匹配能力】章節),同時提取輸入服飾的標簽,并計算出視頻與服飾之間的匹配度,對低分模版返回模版改進建議,如上半身模版不適合換下裝、性別不符、背景季節不合適、場景人物過多等。


虛擬買家視頻

為了降低用戶與系統交互成本,我們還建設了根據用戶人臉形象生成合適模版,具體來說,首先根據用戶人臉以及用戶提供的外形信息(如身高、體重、年齡等)生成一個全身形象,再通過pose driven的Image-to-Video模型生成一個符合標準的模版視頻。


效果展示

服飾

用戶視頻

生成視頻

0192e36f9add0f9022d8cda9bfae7ebf.jpeg

買家試穿展示

圖片

總結

我們在過去一段時間對視頻級虛擬換衣的基礎模型和產品能力建設做了一系列的迭代更新,在部分業務場景上已經初步取得了一定的正向效果,未來我們還為繼續提升基礎模型能力,繼續完善產品化能力,幫助平臺、商家、買家更好的服務。

圖片

團隊介紹

我們是淘寶業務技術內容AI團隊-視頻生成組,專注于服飾時尚領域,持續迭代服飾上身視頻生成基礎模型和下游服飾應用模型效果,并持續完善 FashionVideoGen 服飾視頻產品化解決方案,面向商家和內容場域,做更靈活可控和多樣化的視頻生成產品化能力,讓AIGC技術充分發揮業務價值。歡迎關注。

¤?拓展閱讀?¤

3DXR技術?|?終端技術?|?音視頻技術

服務端技術?|?技術質量?|?數據算法

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/72013.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/72013.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/72013.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

藍橋備賽(三)- 條件判斷與循環(下)

一、for循環 1.1 for 循環語法形式 for 循環是三種循環中使用最多的 , for 循環的語法形式如下: 1.2 執行流程 for 循環中 , 表達式1(初始化)只執行一次 ! 1.3 實踐 練習:使用 for 循環在屏幕…

VMware Fusion 虛擬機Mac版 安裝CentOS 7 系統

介紹 CentOS是Community Enterprise Operating System的縮寫,也叫做社區企業操作系統。是企業Linux發行版領頭羊Red Hat Enterprise Linux的再編譯版本(是一個再發行版本),而且在RHEL的基礎上修正了不少已知的 Bug ,相…

如果更換ip地址會怎么樣?網絡ip地址怎么更換

IP地址,作為網絡設備的數字身份證,其穩定性和安全性對于網絡通訊至關重要。然而,在某些特定情況下,我們可能需要更換設備的IP地址,以滿足安全、隱私或網絡管理的需求。那么,如果更換IP地址會怎么樣&#xf…

網絡通信/IP網絡劃分/子網掩碼的概念和使用

文章目錄 概述子網的考題子網掩碼的歷史有/無類地址子網劃分!子網掩碼超網技術/CIDR子網掩碼和路由IP子網掩碼定義 網絡規劃網絡規劃-拆子網網絡規劃-組超網子網劃分案例 區分于其他特殊IP地址IP地址和網絡地址子網掩碼和網絡地址子網掩碼和廣播地址 子網間的通信其他 概述 本…

評估自動駕駛(AD)策略性能的關鍵指標

以下是針對自動駕駛(AD)策略性能評測指標的詳細解讀,結合其物理意義與工程價值: 核心評測指標分類與含義 1. 安全性指標(Safety) 動態碰撞率(Dynamic Collision Ratio, DCR) 定義&a…

C++11相較于C++98的新特性介紹:列表初始化,右值引用與移動語義

一,列表初始化 1.1C98中傳統的{} C98中一般數組和結構體可以使用{}進行初始化: struct Date {int _year;int _month;int _day; };int main() {int a[] { 1,2,3,4,5 };Date _date { 2025,2,27 };return 0; } 1.2C11中的{} C11以后想統一初始化方式&…

序列化是什么?常見的序列化方式有哪些?什么時候我們會用到序列化?

序列化(Serialization)是指將對象的狀態信息轉換為可以存儲或傳輸的形式(如字節序列、XML 文檔、JSON 字符串等)的過程。反序列化則是序列化的逆過程,它將存儲或接收到的字節序列、XML 文檔、JSON 字符串等轉換回對象的…

Python解決“比賽配對”問題

Python解決“比賽配對”問題 問題描述測試樣例解決思路代碼 問題描述 小R正在組織一個比賽,比賽中有 n 支隊伍參賽。比賽遵循以下獨特的賽制: 如果當前隊伍數為 偶數,那么每支隊伍都會與另一支隊伍配對。總共進行 n / 2 場比賽,…

uniapp中使用leaferui使用Canvas繪制復雜異形表格的實現方法

需求: 如下圖,要實現左圖的樣式,先實現框架,文字到時候 往里填就行了,原來的解決方案是想用css,html來實現,發現實現起來蠻麻煩的。我也沒找到合適的實現方法,最后換使用canvas來實現&#xff…

大模型與呼叫中心融合:未來發展的潛力何在?

大模型與呼叫中心的結合,為企業帶來了前所未有的發展機遇。通過提升服務效率、優化營銷效果、降低運營成本、增強數據管理與分析能力、提升客戶體驗以及推動行業創新與變革,大模型呼叫中心正在重塑客戶服務與營銷的未來。 大模型與呼叫中心的結合具有巨…

vue3+ts+uniapp+unibest 微信小程序(第二篇)—— 圖文詳解自定義背景圖頁面布局、普通頁面布局、分頁表單頁面布局

文章目錄 簡介一、自定義背景圖布局1.1 效果預覽1.2 實現思路1.3 custom-page 組件全量代碼1.4 頁面使用 二、普通頁面布局2.1 效果預覽2.2 實現思路2.3 公共樣式部分2.4 頁面使用 三、分頁表單頁面布局3.1 效果預覽3.2 實現思路3.3 頁面代碼 簡介 開發工具:VsCode…

華為交換機堆疊方法

堆疊配置: 先把接口shutdown 第一臺: int stack-port 0/1 port interface XGigabitEthernet0/0/3 enable y qu int stack-port 0/2 port interface XGigabitEthernet0/0/4 enable y qu stack slot 0 priority 200 y 第二臺: int stack…

AI革命下的多元生態:DeepSeek、ChatGPT、XAI、文心一言與通義千問的行業滲透與場景重構

前言 人工智能技術的爆發式發展催生了多樣化的AI模型生態,從通用對話到垂直領域應用,從數據挖掘到創意生成,各模型憑借其獨特的技術優勢與場景適配性,正在重塑全球產業格局。本文將以DeepSeek、ChatGPT、XAI(可解釋人…

nginx 配置https

參考文檔:nginx 文檔 -- nginx官網|nginx下載安裝|nginx配置|nginx教程 配置 HTTPS 服務器 HTTPS 服務器優化 SSL 證書鏈 單個 HTTP/HTTPS 服務器 基于名稱的 HTTPS 服務器 具有多個名稱 的 SSL 證書 服務器名稱指示 兼容性 要配置 HTTPS 服務器,ssl…

python-leetcode-乘積最大子數組

152. 乘積最大子數組 - 力扣&#xff08;LeetCode&#xff09; class Solution:def maxProduct(self, nums: List[int]) -> int:if not nums:return 0max_prod nums[0]min_prod nums[0]result nums[0]for i in range(1, len(nums)):if nums[i] < 0:max_prod, min_prod…

前端或者后端通常用到數組使用方式

第一個是:Array.from() 將具有length屬性或者可迭代的對象轉化為數組 Array.from(abcdef) // 返回值[a1, b1, c1, d1, e1, f1] Array.from(new Map([[b1, 1 ], [a1, 2 ]])) Array.from(new Set([ 1 , 2 , 3 ])) 第二個是:Array.reduce() 遍歷數組,將函數的返回值,存儲到累加器中…

最大子數組和力扣--53

目錄 題目 思路 代碼 題目 給你一個整數數組 nums &#xff0c;請你找出一個具有最大和的連續子數組&#xff08;子數組最少包含一個元素&#xff09;&#xff0c;返回其最大和。 子數組是數組中的一個連續部分。 示例 1&#xff1a; 輸入&#xff1a;nums [-2,1,-3,4,-1…

JavaScript 深淺拷貝全面解析

在 JavaScript 中&#xff0c;深淺拷貝是處理對象復制的重要概念。它們的核心區別在于對 引用類型數據 的處理方式&#xff0c;理解這一點對避免程序中的意外數據污染至關重要。 一、核心概念解析 1. 基本類型 vs 引用類型 基本類型&#xff1a;Number, String, Boolean, null…

【大模型】大模型推理能力深度剖析:從通用模型到專業優化

大模型推理能力深度剖析&#xff1a;從通用模型到專業優化 大模型推理能力深度剖析&#xff1a;從通用模型到專業優化一、通用語言模型與推理模型的區別&#xff08;一&#xff09;通用語言模型&#xff1a;多任務的“萬金油”&#xff08;二&#xff09;推理模型&#xff1a;復…

RISC-V架構的平臺級中斷控制器(PLIC:platform-level interrupt controller)詳解

英文縮寫 英文縮寫中文含義PLICplatform-level interrupt controller&#xff0c;平臺級中斷控制器SMTsimultaneous multi-threading&#xff0c;并發多線程HARTRISC-V架構中的硬件線程SMTsimultaneous multi-threading&#xff0c;多線程執行M-MODEmachine mode&#xff0c;機…