作為一種新的商品表現形態,內容幾乎存在于手淘用戶動線全流程,例如信息流種草內容、搜索消費決策內容、詳情頁種草內容等。通過低成本、高時效的AIGC內容生成能力,能夠從供給端緩解內容生產成本高的問題,通過源源不斷的低成本供給倒推消費生態的建立。過去一年,我們通過在視頻生成、圖文聯合生成、個性化文案、人設Agent等核心技術上的持續攻關,AIGC內容生成在手淘多個場景取得了規模化落地價值。本專題《淘寶的AIGC內容生成技術總結》是我們摸索出的一部分實踐經驗,我們將開啟一段時間的內容AI專題連載,歡迎大家一起交流進步。
第一篇《淘寶內容AI團隊2024年8篇論文總結》
第二篇《內容AI: 目標驅動的圖像生成》
第三篇《OpenAI o1模型的前世今生》
第四篇《多模態人物視頻驅動技術回顧與業務應用》
背景介紹
視頻虛擬試穿任務定義為將指定服飾穿著到視頻中的人物身上,以實現視頻級別的服飾上身展示效果。在此之前,大多數的方法主要聚焦在基于圖像的虛擬試穿領域。然而,僅僅依靠靜態圖像進行虛擬試穿存在一定的局限性,靜態試衣圖不夠生動活潑,并且也無法充分展現服飾所具有的更多物理特性。當直接把基于圖像的試穿方法逐幀應用到視頻級別的輸入時,所生成的換衣視頻常常會因為幀與幀之間的不一致性,從而導致時間上出現不連續的情況。從更細節的維度來看,我們對圖像換衣和視頻換衣的價值進行了系統性的對比,具體內容可參見下方表格。
圖像換衣 | 視頻換衣 | 評價 | |
動態展示 | ? | ? | 視頻虛擬換衣可以展示服裝在不同角度和動作下的效果,更加立體和真實。 |
物理特性 | ? | ? | 視頻虛擬換衣可以在動態展示中,讓用戶對衣物的質感、剪裁和擺動等物理特性有更全面的了解。 |
吸引力 | ? | ? | 視頻能夠吸引用戶的眼球,增強用戶參與感和體驗感,提高他們對產品的興趣。 |
信息價值 | ???????? | ??????????????? | 在視頻中,服裝的移動、光影變化等細節都更容易展示,讓用戶對服裝材質和款式有更詳細的認識。 |
商業價值 | ???????? | ??????????????? | 視頻可以更好展示商品特性,吸引用戶注意力,提升點擊率促進成交;視頻更容易融入豐富的營銷內容,比如廣告、動態展示等。 |
難度 | ????????? | ??????????????? | 不論是數據收集還是建模訓練,視頻虛擬試衣模型研發難度要遠高于圖像換衣。 |
成本 | ???????? | ??????????????? | 視頻換衣模型的參數量和計算的FLOPs都高于圖像換衣模型,這導致視頻換衣的訓練和推理的成本更高。 |
成熟度 | ??????? | ?????? | 圖像換衣因為起步早、難度成本較低,相較于視頻換衣技術成熟度更高一些,不過視頻換衣也達到了業務可用水平 |
圖像換衣和視頻換衣的價值對比
根據我們之前的研究,我們假設視頻虛擬試穿的任務從技術的層面可以分解為兩個關鍵方面。
我們關注的是單幀結果的真實性和自然性,同時還要確保服裝與人物形象的一致性。這意味著我們需要在每一幀中精確地呈現出人物的皮膚顏色、紋理和形狀,以及服裝的顏色、紋理和款式,使其看起來就像真實的人物在試穿一樣。
我們還關注人的動作和服裝在整個視頻中的連貫性。這意味著我們需要在視頻中平滑地過渡不同幀之間的動作,并確保服裝的顏色和款式與前一幀保持一致。
針對這兩個方面,我們提出了一個流暢換衣視頻生成方案,實現了高清、高幀率、連貫、一致性的換衣視頻。
服飾 | 圖像換衣 | 視頻換衣 |
直觀對比圖像和視頻換衣效果
我們依托視頻換衣生成方案,針對不同業務場景進行了一系列的建設工作,打造出了三種類型的產品級能力。具體內容呈現在如下表所示當中。
產品級能力 | 應用場景 |
營銷視頻自動投放 | 面向平臺,自動圈選缺乏營銷視頻的品類,并生成相應的含有賣點信息的營銷視頻以供投放 |
模特試穿素材生成 | 面向商家,幫助商家便捷的產出高質量試穿視頻,豐富其店鋪營銷素材 |
買家試穿效果生成 | 面向買家,幫助買家直觀的看到自己心儀的服飾上身后的效果 |
產品級能力和應用場景對應關系
算法能力建設
早期的方案對視頻換衣技術的可行性進行了驗證。在早期的方案中,成功地初步實現了將一件衣服移植到視頻中的模特身上這一功能,并且很好地保留了服飾的款式、紋理等重要特性。然而,早期方案存在一些局限性,導致其無法達到業務可用的水準。具體來說,有以下幾個方面的問題:其一,訓練數據集的規模較小,這使得模型的泛化能力相對較弱。其二,由于受到基礎模型能力的限制,無法生成非常精細的視頻細節。其三,受限于傳統的 2D VAE 和雙 UNet 結構,模型無法有效地使用高清且長時序的訓練數據。其四,受限于重建損失,很多服飾的 logo 細節無法得到準確還原。以上這些局限性使得視頻換衣的產出結果常常出現模糊、畸形、偽影、logo 損失等問題。針對上述這些問題,我們對視頻換衣的整體框架進行了系統性的升級,具體涵蓋以下幾個方面:
持續迭代DiT方案的人物垂領圖生視頻(img2video)基礎模型,作為視頻換衣模型的預訓練,提升模型對服飾電商領域的泛化性,DiT 結構在參數量和數據集的規模擴展方面更加容易。
運用 3D vae,對視頻的空間時序進行壓縮處理,這顯著地提升了輸入數據的分辨率以及幀率。
建立了高質量視頻級換衣數據收集鏈路,持續擴增優質、多樣的視頻換衣數據。以及精心設計的視頻換衣模型訓練以及推理方案。
產品能力建設
???模版庫建設
為了提升用戶與換衣產品的交互門檻,我們建設了一個具備高質量且多樣化的模版庫以及一個能夠做到精確匹配商品與模版的機制。使得用戶得以在僅僅輸入一個服飾圖或者商品ID的前提下,就能一鍵生成完整的試穿視頻。
真實風格模版生成
首先,我們精心收集了一批授權的服飾類營銷視頻,并且安排專業人員進行了細致的人工標注。在眾多視頻中,挑選出一批適用于淘寶服飾展示的原始視頻。接著,運用視頻級重繪(video2video)方法,以標注的授權視頻為藍本,模仿其風格成功生成一段全新的視頻,極大地豐富了平臺自有版權的模版視頻的數量和多樣性。
(左)參考視頻(中)生成模版(右)生成模版換衣
基于真實風格模版所生成的完整換衣視頻內容具體如下。這個視頻是依據輸入的商品,成功匹配到了多個真實風格的模版片段。隨后,通過一系列自動化的后期處理步驟,包括智能剪輯、講解文案生成、智能配樂以及語音生成技術(TTS)等,最終為 C 端用戶完整地展示了一個有關“風衣”類服飾的營銷廣告視頻。
(左)原始視頻片段手工拼接,(右)基于真實風格模版所生成的完整換衣視頻
模版與服飾匹配能力
考慮到服飾的調性和算法生成的局限性,在自動化生產基于視頻換衣的營銷視頻時,將服飾和模版做隨機匹配是不合常理的,例如無衣兜服飾配插兜動作,男性模版配吊帶女裝等。
(左)插兜動作輸入視頻。(右)換上無衣兜服飾后效果
(左)男性視頻模版。(右)換上女裝后的效果
為了系統性解決服飾與候選模版不搭調的問題,我們提出了一個對輸入服飾和候選模版進行精確匹配的方法,首先我們對服飾和視頻模版定義了最多30種標簽,我們通過大規模圖文模型對模版庫離線提取出相應標簽,對于每一個輸入的服飾,我們通過圖文大模型判斷其合法性,并實時提取出對應的標簽,最終通過一套匹配規則將兩者關聯起來。
模版和服飾的打標與匹配
???產品形態建設
為了幫助商品更好的被展示,我們設計了一套成品模特試穿視頻生成鏈路。這套鏈路可以僅僅根據輸入的服飾itemid或者商品圖,自動生成符合商品特性的、時長約1分鐘的多分鏡、多姿態模特換衣視頻。這意味著用戶可以輕松地通過我們的平臺,選擇他們想要展示的服飾,并生成一系列精美的試穿視頻。除了生成視頻之外,我們的系統還串聯了配樂、tts、文案生成等功能,可以進一步提升視頻的展示效果。通過這些能力,1)平臺可以批量產出幫助商家成交導流的視頻內容;2)商家可以制作出更加吸引人的服飾展示廣告視頻,吸引更多的潛在客戶。3)買家可以上傳自己視頻,來身臨其境的感受心儀服飾的上身效果。
通過我們的產品,用戶可以輕松地制作出高質量的服飾展示廣告視頻,并展示商品賣點和特性。我們的目標是通過展示服飾在人體上的逼真效果,來促成交易,提升銷售額。
For平臺-批量化營銷視頻生成
產品介紹
此產品支持根據圈選的一系列服飾商品的ID,自動化的選擇商品展示圖并匹配合適的視頻模版。對于常見的男女老少的初夏秋冬季服飾都能支持。目前該能力已經落地。
批量化營銷視頻生成鏈路
效果展示
其中,我們的營銷視頻自動投放能力,目前已經應用在一些場景。以下為該算法的實際輸出效果。
輸入服飾圖和對應商品ID | 生成視頻 | 輸入服飾圖和對應商品ID | 生成視頻 |
服飾搭配生成的營銷視頻效果
For商家-模特試穿素材生成
產品介紹
除了能夠依據自動圈選的商品池來自動生成完整的營銷視頻之外,我們同時也是面向商家端的創意工具。我們擁有幫助商家利用商品圖制作出模特試穿短片以及混剪視頻的能力。詳細而言,在商家端,當商家上傳一張服飾圖,或者是一組服飾圖的組合品時,系統會為商家自動推薦適宜的換衣模版。商家既可以在候選模版集中進行挑選,也可以自行上傳多個換衣模版。最終,我們將會產出與之對應的視頻換衣結果。目前該產品在推進落地中。
面向商家的模特試穿素材生成產品示意圖
商家與系統的一輪交互流程
效果展示
服飾 | 模版 | 生成結果 |
![]() | ||
![]() |
模特試穿展示
For買家-個性化試穿效果生成
產品介紹
我們的產品能力上還設計了支持C端買家的功能,根據用戶選擇的服飾和用戶自己的視頻生成對應的服飾換衣視頻。幫助買家身臨其境的感受試穿后的形象。目前該產品還在設計籌備中。
真實買家視頻
由于視頻換衣對輸入視頻形式要求較高,我們設計了基于模版-服飾匹配系統的匹配度評價方法,對用戶上傳視頻提取模版標簽(參見【模版與服飾匹配能力】章節),同時提取輸入服飾的標簽,并計算出視頻與服飾之間的匹配度,對低分模版返回模版改進建議,如上半身模版不適合換下裝、性別不符、背景季節不合適、場景人物過多等。
虛擬買家視頻
為了降低用戶與系統交互成本,我們還建設了根據用戶人臉形象生成合適模版,具體來說,首先根據用戶人臉以及用戶提供的外形信息(如身高、體重、年齡等)生成一個全身形象,再通過pose driven的Image-to-Video模型生成一個符合標準的模版視頻。
效果展示
服飾 | 用戶視頻 | 生成視頻 |
總結
我們在過去一段時間對視頻級虛擬換衣的基礎模型和產品能力建設做了一系列的迭代更新,在部分業務場景上已經初步取得了一定的正向效果,未來我們還為繼續提升基礎模型能力,繼續完善產品化能力,幫助平臺、商家、買家更好的服務。
團隊介紹
我們是淘寶業務技術內容AI團隊-視頻生成組,專注于服飾時尚領域,持續迭代服飾上身視頻生成基礎模型和下游服飾應用模型效果,并持續完善 FashionVideoGen 服飾視頻產品化解決方案,面向商家和內容場域,做更靈活可控和多樣化的視頻生成產品化能力,讓AIGC技術充分發揮業務價值。歡迎關注。
¤?拓展閱讀?¤
3DXR技術?|?終端技術?|?音視頻技術
服務端技術?|?技術質量?|?數據算法