試衣不再有界:Tunnel Try-on開啟視頻試衣應用新紀元

論文:https://arxiv.org/pdf/2404.17571

主頁:https://mengtingchen.github.io/tunnel-try-on-page/

一、摘要總結

????????隨著虛擬試衣技術的發展,消費者和時尚行業對于能夠在視頻中實現高質量虛擬試衣的需求日益增長。這項技術允許用戶在不實際穿上衣物的情況下,通過視頻序列體驗穿著不同服裝的效果。盡管基于圖像的虛擬試衣方法已經得到了廣泛的研究,但視頻虛擬試衣面臨著保持服裝細節和模擬連貫動作的雙重挑戰,這在以往的研究中并未得到很好的解決。

????????本文介紹了一種名為“Tunnel Try-on”的新型視頻虛擬試衣框架,旨在解決以往方法在處理復雜場景時的不足。該框架的核心思想是在輸入視頻中挖掘一個“聚焦隧道”(focus tunnel),以便近距離拍攝服裝區域,從而更好地保留服裝的細微細節。為了生成連貫的動作,研究者們首先利用卡爾曼濾波器(Kalman filter)構建平滑的裁剪框,并注入隧道的位置嵌入到注意力層中,以提高生成視頻的連貫性。此外,還開發了一個環境編碼器來提取隧道外的上下文信息,作為輔助線索。通過這些技術,Tunnel Try-on不僅保持了服裝的精細細節,還合成了穩定和平滑的視頻。該方法在視頻虛擬試衣領域取得了突破性進展,為電商/時尚行業的實際應用提供了新的可能性,并為未來虛擬試衣應用的研究提供了新的方向。

二、網絡結構

a.)核心創新

本文的核心創新主要體現在以下幾個方面:

  1. 聚焦隧道(Focus Tunnel):提出了一種新的視頻處理策略,通過在視頻中創建一個聚焦隧道來放大服裝區域,從而更好地捕捉和保留服裝的細微特征。

  2. 隧道平滑和嵌入(Tunnel Smoothing and Embedding):使用卡爾曼濾波器對隧道坐標進行平滑處理,并引入隧道嵌入機制,以增強視頻幀之間的連貫性和一致性。

  3. 環境編碼器(Environment Encoder):開發了一種新的編碼器,用于提取并融合視頻中隧道區域外的全局上下文信息,以改善背景生成的質量。

  4. 擴散模型應用:將擴散模型應用于視頻虛擬試衣,利用其在圖像生成中的優勢,提高了視頻試衣結果的質量和真實感。

b.)核心網絡

Tunnel Try-on的網絡結構包括以下幾個關鍵組件:

  1. 主網絡(Main U-Net):作為基礎的圖像試衣模型,使用掩碼視頻幀、潛在噪聲和衣物無關掩碼作為輸入。

  2. 參考網絡(Ref U-Net):用于編碼參考服裝的細粒度特征。

  3. CLIP圖像編碼器:捕獲目標服裝圖像的高級語義信息。

  4. 姿態編碼器:將人體姿態信息編碼為特征,用于輔助視頻生成。

  5. 時間注意力模塊(Temporal-Attention):在Main U-Net的每個階段后插入,用于確保幀之間的平滑過渡。

  6. 環境編碼器(Environment Encoder):由一個凍結的CLIP圖像編碼器和一個可學習的線性映射層組成,用于提取和融合環境上下文信息。

  7. 隧道嵌入(Tunnel Embedding):將隧道的位置和大小信息編碼為嵌入,注入到時間注意力模塊中。

  8. 訓練和測試流程:訓練分為兩個階段,第一階段專注于圖像級別的試衣生成,第二階段整合所有策略和模塊,訓練視頻試衣數據集。

  9. 后處理:使用高斯模糊技術將生成的試衣視頻與原始視頻融合,以獲得最終的試衣效果。

通過這些創新點和詳細的算法流程,Tunnel Try-on能夠處理復雜的背景和多樣的人體動作,生成高保真的虛擬試衣視頻。

三、實驗結果

a.)總體指標

b.)ablation study

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/11130.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/11130.shtml
英文地址,請注明出處:http://en.pswp.cn/web/11130.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

目標檢測——印度車輛數據集

引言 親愛的讀者們,您是否在尋找某個特定的數據集,用于研究或項目實踐?歡迎您在評論區留言,或者通過公眾號私信告訴我,您想要的數據集的類型主題。小編會竭盡全力為您尋找,并在找到后第一時間與您分享。 …

弱監督語義分割學習筆記

目錄 partial cross entropy loss GitHub - LiheYoung/UniMatch: [CVPR 2023] Revisiting Weak-to-Strong Consistency in Semi-Supervised Semantic Segmentation partial cross entropy loss import torch import torch.nn.functional as Fdef partial_cross_entropy_loss…

區塊鏈中的APP與傳統APP的區別

一、技術 區塊鏈中的APP是基于區塊鏈技術開發的,而傳統APP則基于傳統的應用程序商店或網頁。區塊鏈中的APP利用區塊鏈技術的去中心化、數據不可篡改等特點,使得應用程序的開發和分發更加安全、透明和可信。與傳統APP相比,區塊鏈中的APP無需中…

如何實現嵌套路由

實現步驟 1. 新建子頁面 2. 在router/index.js中的父路由節點添加children數組 3. 在children中添加子路由 {path: /,name: home,component: HomeView,children: [ {path: /pageA,name: pageA,component: pageA},{path: /pageB,name: pageB,component: pageB}] }, 5.在父路…

Web安全:SQL注入之布爾盲注原理+步驟+實戰操作

「作者簡介」:2022年北京冬奧會網絡安全中國代表隊,CSDN Top100,就職奇安信多年,以實戰工作為基礎對安全知識體系進行總結與歸納,著作適用于快速入門的 《網絡安全自學教程》,內容涵蓋系統安全、信息收集等…

前端VUE基礎之創建腳手架

創建腳手架 第一步(僅第一次執行):全局安裝vue/cli。 npm install -g vue/cli 到你要創建項目的目錄,然后使用命令創建項目 vue create xxxx 第三步:啟動項目 npm run serv 備注: 1. 如出現下載緩慢請…

PHP流程控制

PHP 流程控制主要是 if 和 switch 流程控制。 當您編寫代碼時,您常常需要為不同的判斷執行不同的動作。您可以在代碼中使用條件語句來完成此任務。 在 PHP 中,提供了下列條件語句: if 語句 - 在條件成立時執行代碼if...else 語句 - 在條件…

訪客管理系統對于校園安全的重要性

校園訪客辦理計劃是針對校園安全需求規劃的安全辦理體系,主要用于對校園外來人員的科學辦理。要做好校園安全作業,把風險分子拒之門外尤為要害。校園訪客辦理計劃實現訪客實名制,并結合公安網、黑名單功用,對風險人員進行提前預警…

沒有公網ip,如何實現外網訪問內網?

目前撥號上網是最廣泛的上網方式,這種方式優點是價格便宜,缺點是沒有固定公網ip,每次重新您撥號ip地址都會變。如果有一臺服務器,需要實現外網訪問,在沒有固定公網ip的環境下,該如何實現呢?使用…

【CTF Web】QSNCTF 文章管理系統 Writeup(SQL注入+Linux命令+RCE)

文章管理系統 題目描述 這是我們的文章管理系統,快來看看有什么漏洞可以拿到FLAG吧?注意:可能有個假FLAG哦 解法 SQL 注入。 ?id1 or 11 --取得假 flag。 爆庫名。 ?id1 union select 1,group_concat(schema_name) from information_sch…

華為OD機試【統一限載貨物數最小值】(java)(200分)

1、題目描述 火車站附近的貨物中轉站負責將到站貨物運往倉庫,小明在中轉站負責調度 2K 輛中轉車(K輛干貨中轉車,K 輛濕貨中轉車)貨物由不同供貨商從各地發來,各地的貨物是依次進站,然后小明按照卸貨順序依次裝貨到中轉車&#xf…

二維數組 和 變長數組

在上一期的內容中,為諸君講解到了一維數組,在一維數組的基礎上,C語言中還有著多維數組,其中,比較典型且運用較為廣泛的就是我們今天的主角——二維數組 一 . 二維數組的概念 我們把單個或者多個元素組成的數組定義為一…

VScode 修改 Markdown Preview Enhanced 主題與字體

VScode 修改 Markdown Preview Enhanced 主題與字體 1. 修改前后效果對比2. 修改主題2.1 更改默認主題2.2 修改背景色 3. 修改字體 VS Code基礎入門使用可查看: VS Code 基礎入門使用(配置)教程 其他Vs Code 配置可關注查看: Vs C…

2024年如何選什么版本FL Studio才適合自己編曲?

fl studio是什么軟件 水果編曲軟件 FL Studio,全稱為Fruity Loops Studio,是一款全能音樂制作環境或數字音頻工作站(DAW),集編曲、錄音、剪輯、混音等多種功能于一身。 FL Studio最初名為Fruity Loops,因…

外網如何訪問內網?快解析

由于公網IP資源短缺,我們的電腦大多處于內網環境,如何在外網訪問內網電腦,成為一個令人頭疼的問題,下面我給大家推薦一個非常實用的方法。 1:訪問快解析下載安裝快解析服務器 2:運行軟件,點擊“…

2.4 輸入和顯示

本節必須掌握的知識點: 示例五源代碼 代碼分析 匯編解析 2.4.1 示例五 ■格式化輸入函數scanf scanf函數可以從鍵盤讀取輸入的信息。scanf函數同樣可以像printf函數那樣,通過轉換說明“%d”來限制函數只能讀取十進制數。scanf函數的參數為可變參數…

【算法訓練 day25 修剪二叉搜索樹、將有序數組轉化為二叉搜索樹、把二叉樹搜索轉化為累加樹】

目錄 一、修剪二叉搜索樹-LeetCode 669思路實現代碼個人代碼視頻鏈接代碼 個人問題 二、將有序數組轉化為二叉搜索樹-LeetCode 108思路實現代碼個人問題 三.把二叉樹搜索轉化為累加樹-LeeCode 538思路實現代碼個人問題 一、修剪二叉搜索樹-LeetCode 669 Leecode鏈接: leetcode…

項目管理-計算題公式【復習】2/2

2.【成本】相關公式 2.1掙值分析 三個參數 (1)計劃價值(PV,Plan Value): PV:計劃工作分配的經批準的預算,是為完成某活動或 WBS 組成部分而準備的一份經批準的預算。不包括管理儲備。 注意:按照計劃截止目…

LwIP 之九 詳解 UDP RAW 編程、示例、API 源碼、數據流

我們最為熟知的網絡通信程序接口應該是 Socket。LwIP 自然也提供了 Socket 編程接口,不過,LwIP 的 Socket 編程接口都是使用最底層的接口來實現的。我們這里要學習的 UDP RAW 編程則是指的直接使用 LwIP 的最底層 UDP 接口來直接實現應用層功能。這里先來一張圖,對 LwIP 內部…

React 和 Vue兩個流行的前端 JavaScript 框架有什么區別?

設計理念: React 是由 Facebook 開發的,專注于構建 UI 組件。它采用了一種聲明式的、組件化的開發模式,通過使用虛擬 DOM 來實現高效的 UI 更新。 Vue 是由尤雨溪開發的,旨在提供一個靈活且易于上手的框架。Vue 也支持組件化開發…