MajicTryOn(基于wanvideo的虛擬試穿項目)

網絡結構

?Attention模塊詳解

????????左邊服裝通過qwen2.5-VL-7B來生成詳細的服裝描述;線條提取器產生相應的線條map;garment和line map通過vae轉換為潛在空間特征,然后分別經過patchfier,最后通過zero proj得到Garment Tokens和Line Tokens;右邊是dit中的attention block模塊(只包括cross attention部分),首先是Input Tokens 經過線性層和經過clip的圖像tokens做交叉注意力計算,Text Tokens (文本通過umt5 文本編碼器得到)經過線性層和經過線性層的Input Tokens 進行交叉注意力計算,后面將經過交叉注意力計算的文本特征和圖像特征相加在一起;FGCA也同樣是交叉注意力,只不過他們是將Line Tokens和Garment Tokens經過Linear得到的K,V分別堆疊在一起后再和Input Tokens進行叉注意力計算。最后將所有的經過注意力計算的特征相加在一起。需要注意的是一個輕量化Adapter模塊:自適應服裝特征分布 .

訓練目標函數

?

?引入了一個mask區域loss計算,加強需要生成的衣服區域的生成保真度。

?數據和評估指標

?數據

VITON-HD

DressCode

ViViD

?評估指標

?SSIM, LPIPS, FID, and KID;前兩個主要專注于兩個圖像像素的相似度,后兩個主要專注于兩個圖像像素分布的相似度

?實現細節

預訓練模型Wan2.1-Fun-14B-Control

第一階段使用分辨率256-512的分辨率訓練,第二階段繼續訓練,在512-1024分辨率上

訓練視頻49幀,batch_size為2。第一階段15k步數,第二階段10K步數。

優化器 AdamW,學習率1e-5

機器配置8 NVIDIA H20 (96GB) GPUs

?

參考論文

https://arxiv.org/pdf/2505.21325

目前代碼未開源

?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/83899.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/83899.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/83899.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

JAVA-什么是JDK?

1.JDK 的定義 JDK(Java Development Kit)是 Java 開發工具包,是 Oracle 官方提供的用于開發、編譯和運行 Java 應用程序的核心工具集。它包含了編寫 Java 程序所需的編譯器、調試工具、庫文件以及運行時環境(JRE)。 2…

Palo Alto Networks Expedition存在命令注入漏洞(CVE-2025-0107)

免責聲明 本文檔所述漏洞詳情及復現方法僅限用于合法授權的安全研究和學術教育用途。任何個人或組織不得利用本文內容從事未經許可的滲透測試、網絡攻擊或其他違法行為。使用者應確保其行為符合相關法律法規,并取得目標系統的明確授權。 對于因不當使用本文信息而造成的任何直…

分布式光纖傳感(DAS)技術應用解析:從原理到落地場景

近年來,分布式光纖傳感(Distributed Acoustic Sensing,DAS)技術正悄然改變著眾多傳統行業的感知方式。它將普通的通信光纜轉化為一個長距離、連續分布的“聽覺傳感器”,對振動、聲音等信號實現高精度、高靈敏度的監測。…

獨家首發!低照度環境下YOLOv8的增強方案——從理論到TensorRT部署

文章目錄 引言一、低照度圖像增強技術現狀1.1 傳統低照度增強方法局限性1.2 深度學習-based方法進展 二、Retinexformer網絡原理2.1 Retinex理論回顧2.2 Retinexformer創新架構2.2.1 光照感知Transformer2.2.2 多尺度Retinex分解2.2.3 自適應特征融合 三、YOLOv8-Retinexformer…

96. 2017年藍橋杯省賽 - Excel地址(困難)- 進制轉換

96. Excel地址(進制轉換) 1. 2017年藍橋杯省賽 - Excel地址(困難) 標簽:2017 省賽 1.1 題目描述 Excel 單元格的地址表示很有趣,它使用字母來表示列號。 比如, A 表示第 1 列,…

EtherNet/IP轉DeviceNet協議網關詳解

一,設備主要功能 疆鴻智能JH-DVN-EIP本產品是自主研發的一款EtherNet/IP從站功能的通訊網關。該產品主要功能是連接DeviceNet總線和EtherNet/IP網絡,本網關連接到EtherNet/IP總線中做為從站使用,連接到DeviceNet總線中做為從站使用。 在自動…

Druid連接池實現自定義數據庫密碼加解密功能詳解

Druid連接池實現自定義數據庫密碼加解密功能詳解 在企業級應用開發中,數據庫密碼的明文存儲是一個顯著的安全隱患。Druid作為阿里巴巴開源的高性能數據庫連接池組件,提供了靈活的密碼加密與解密功能,允許開發者通過自定義邏輯實現數據庫密碼…

生成 Git SSH 證書

🔑 1. ??生成 SSH 密鑰對?? 在終端(Windows 使用 Git Bash,Mac/Linux 使用 Terminal)執行命令: ssh-keygen -t rsa -b 4096 -C "your_emailexample.com" ??參數說明??: -t rsa&#x…

Java并發編程實戰 Day 12:阻塞隊列與線程協作

【Java并發編程實戰 Day 12】阻塞隊列與線程協作 開篇 歡迎來到“Java并發編程實戰”系列的第12天!今天我們將深入探討阻塞隊列(BlockingQueue)及其在線程協作中的應用。阻塞隊列是Java并發編程中一個非常重要的工具,它不僅簡化…

Linux 前后端項目問題排查命令手冊

一、系統資源監控類命令? 1. CPU 資源排查? top - 動態實時監控進程? top [選項] 常用選項: -d 2 # 每2秒刷新一次 -H # 顯示線程信息 -p 1234 # 僅監控PID為1234的進程 輸出解讀:? %Cpu(s):總 CPU 使用率,用戶態 + 內核態?KiB Mem:內…

Git 3天2K星標:Datawhale 的 Happy-LLM 項目介紹(附教程)

引言 在人工智能飛速發展的今天,大語言模型(Large Language Models, LLMs)已成為技術領域的焦點。從智能寫作到代碼生成,LLM 的應用場景不斷擴展,深刻改變了我們的工作和生活方式。然而,理解這些模型的內部…

vue3前端實現導出Excel功能

前端實現導出功能可以使用一些插件 我使用的是xlsx庫 1.首先我們需要在vue3的項目中安裝xlsx庫。可以使用npm 或者 pnpm來進行安裝 npm install xlsx或者 pnpm install xlsx2.在vue組件中引入xlsx庫 import * as XLSX from xlsx;3.定義導出實例方法 const exportExcel () …

【C++特殊工具與技術】優化內存分配(一):C++中的內存分配

目錄 一、C 內存的基本概念? 1.1 內存的物理與邏輯結構? 1.2 C 程序的內存區域劃分? 二、棧內存分配? 2.1 棧內存的特點? 2.2 棧內存分配示例? 三、堆內存分配? 3.1 new和delete操作符? 4.2 內存泄漏與懸空指針問題? 4.3 new和delete的重載? 四、智能指針…

DeepSeek 賦能智慧能源:微電網優化調度的智能革新路徑

目錄 一、智慧能源微電網優化調度概述1.1 智慧能源微電網概念1.2 優化調度的重要性1.3 目前面臨的挑戰 二、DeepSeek 技術探秘2.1 DeepSeek 技術原理2.2 DeepSeek 獨特優勢2.3 DeepSeek 在 AI 領域地位 三、DeepSeek 在微電網優化調度中的應用剖析3.1 數據處理與分析3.2 預測與…

Redis配合唯一序列號實現接口冪等性方案

1.原理 可以在客戶端每次請求服務端的時候,客戶端請求中攜帶一個短時間內唯一不重復的序列號來確保其唯一性,這個序列號常見的幾種形式有:基于時間戳、用戶ID和隨機數的組合;基于請求的來源與客戶端生成的唯一序列號組合 2.方案…

代碼安全規范1.1

命令注入是指應用程序執行命令的字符串或字符串的一部分來源于不可信賴的數據源,程序沒有對這 些不可信賴的數據進行驗證、過濾,導致程序執行惡意命令的一種攻擊方式。 例 1 :以下代碼通過 Runtime.exec() 方法調用 Windows 的 dir 命…

Jenkins實現自動化部署Springboot項目到Docker容器(Jenkinsfile)

Jenkins實現自動化部署Springboot項目到Docker容器 引言:為什么需要自動化部署? 在軟件開發中,頻繁的手動部署既耗時又容易出錯。通過 Docker + Jenkins + Git 的組合,您可以實現: ? 一鍵部署:代碼推送后自動構建和部署?? 環境一致性:Docker 確保開發、測試、生產環…

第二屆智慧教育與計算機技術國際學術會議(IECT 2025)

在數字化浪潮中,智慧教育與計算機技術的深度融合正重構教育生態。智能教學系統打破傳統課堂的單向灌輸模式,通過機器學習分析學習數據,為學生生成個性化學習路徑,推動被動接受向主動探索轉型。這對教育體系提出核心訴求&#xff1…

驅控邊界在哪里?知名舵機品牌偉創動力CNTE2025展帶來答案

2025年6月12日,北京國防科技裝備展將再度啟幕。作為微型驅控領域的代表性廠商,偉創動力(Kpower)將帶來覆蓋舵機、減速齒輪箱、無刷電機及一體化驅控模組在內的全系解決方案,舵機產品回應一個至關重要的技術命題——“國…

Day46 Python打卡訓練營

知識點回顧: 1. 不同CNN層的特征圖:不同通道的特征圖 2. 什么是注意力:注意力家族,類似于動物園,都是不同的模塊,好不好試了才知道。 3. 通道注意力:模型的定義和插入的位置 4. 通道注意力后…