MajicTryOn(基于wanvideo的虛擬試穿項目)

網絡結構

?Attention模塊詳解

????????左邊服裝通過qwen2.5-VL-7B來生成詳細的服裝描述；線條提取器產生相應的線條map；garment和line map通過vae轉換為潛在空間特征，然后分別經過patchfier,最后通過zero proj得到Garment Tokens和Line Tokens;右邊是dit中的attention block模塊(只包括cross attention部分)，首先是Input Tokens 經過線性層和經過clip的圖像tokens做交叉注意力計算，Text Tokens (文本通過umt5 文本編碼器得到)經過線性層和經過線性層的Input Tokens 進行交叉注意力計算，后面將經過交叉注意力計算的文本特征和圖像特征相加在一起；FGCA也同樣是交叉注意力，只不過他們是將Line Tokens和Garment Tokens經過Linear得到的K，V分別堆疊在一起后再和Input Tokens進行叉注意力計算。最后將所有的經過注意力計算的特征相加在一起。需要注意的是一個輕量化Adapter模塊：自適應服裝特征分布 .

訓練目標函數

?引入了一個mask區域loss計算，加強需要生成的衣服區域的生成保真度。

?數據和評估指標

?數據

VITON-HD

DressCode

ViViD

?評估指標

?SSIM, LPIPS, FID, and KID；前兩個主要專注于兩個圖像像素的相似度，后兩個主要專注于兩個圖像像素分布的相似度

?實現細節

預訓練模型Wan2.1-Fun-14B-Control

第一階段使用分辨率256-512的分辨率訓練，第二階段繼續訓練，在512-1024分辨率上

訓練視頻49幀，batch_size為2。第一階段15k步數，第二階段10K步數。

優化器 AdamW,學習率1e-5

機器配置8 NVIDIA H20 (96GB) GPUs

參考論文

https://arxiv.org/pdf/2505.21325

目前代碼未開源

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/83899.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/83899.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/83899.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！