ICCV 2025 | 清華IEDA提出GUAVA,單圖創建可驅動的上半身3D化身!實時、高效,還能捕捉細膩的面部表情和手勢。

從單張圖片重建高質量、可動畫化且面部與手部動作豐富的 3D 人體化身,應用前景廣闊。但傳統重建方法依賴多視角或單目視頻,還要針對不同個體訓練,復雜又耗時,且受 SMPLX 限制,難以捕捉面部表情。為解決這些問題,清華大學和 IDEA(粵港澳大灣區數字經濟研究院)研究團隊先引入富有表現力的人體模型(EHM)增強面部表現,開發精確跟蹤方法,進而提出首個快速重建可動畫化上半身 3D 高斯化身的框架 GUAVA。它借助逆紋理映射等技術推斷模型,經優化后,在渲染質量和速度上表現優異,相關代碼已開源。

介紹

創建逼真且富有表現力的上半身人體化身,例如包含細致的面部表情和豐富的手勢,在電影、游戲和虛擬會議等領域具有重要價值 。同時,易于創建和支持實時渲染也是關鍵要求 。然而,僅憑單張圖像實現這些目標仍然是一個的重大挑戰 。

3D Gaussian splatting (3DGS) 的興起催生了許多3D化身重建方法,它們利用 3DGS 實現實時、高質量的化身重建 。然而,這些方法仍然存在一些局限性 :

  • 逐ID練:每個個體都需要單獨訓練 。

  • 訓練復雜性:該過程耗時,需要標定的多視圖或單目視頻 。

  • 表現力有限:頭部重建方法缺乏身體動作表示,而全身方法則忽略了細致的面部表情 。

擴散模型在視頻生成方面取得了顯著成果 。一些工作通過添加額外條件,如關鍵點或 SMPLX渲染圖,來引導擴散模型的生成過程,擴展了模型在生成可控人體動畫視頻上的應用。盡管這些方法實現了良好的視覺效果,但它們仍然面臨一些局限性 :

  • ID一致性:難以保持一致的 ID,尤其是在姿勢發生大變化時 。

  • 效率:高計算成本和多步去噪導致推理速度慢,阻礙了實時應用 。

  • 視點控制:2D 方法無法輕松調整相機姿勢,從而限制了視點控制 。

我們提出了 GUAVA,第一個從單張圖像創建可驅動上半身 3D高斯化身的框架。與需要多視圖視頻或單人訓練的3D方法不同,GUAVA 可以在秒級時間內完成推理重建,并支持實時動畫和渲染 。與基于擴散模型的2D方法相比,GUAVA使用 3D高斯來確保更好的ID一致性和實時渲染 。并引入一種富有表現力的人體模型EHM,解決了現有模型在捕捉細致面部表情方面的局限性 。還利用逆紋理映射技術以準確地預測高斯紋理,并結合一個神經渲染器來提高渲染質量 。通過充分的實驗也展示了其在渲染質量和效率方面優于現有2D和3D方法 。

相關鏈接

  • 論文地址: https://arxiv.org/pdf/2505.03351

  • 項目主頁:https://eastbeanzhang.github.io/GUAVA/

  • 開源代碼:https://github.com/Pixel-Talk/GUAVA

  • 視頻Demo: GUAVA: Generalizable Upper Body 3D Gaussian Avatar_嗶哩嗶哩_bilibili

方法

  • EHM 模型與精確跟蹤:為了解決SMPLX 模型在捕捉面部表情上的不足,GUAVA 引入了 EHM(Expressive Human Model)。EHM 結合了 SMPLX 和 FLAME 模型,能夠實現更準確的面部表情表示 。同時我們設計了對應的通過兩階段追蹤方法,實現從單張圖像到姿態的準確估計。首先利用預訓練模型進行粗略估計,然后使用 2D 關鍵點損失進行精細優化,從而為重建提供精確的姿勢和表情參數 。

  • 快速重建與雙分支模型: GUAVA基于追蹤后的圖像通過單次前向推理方式完成化身的重建。它包含兩個分支:一個分支根據 EHM 頂點和投影特征預測粗略的“模板高斯”,另一個分支則通過“逆紋理映射”技術,將屏幕特征映射到 UV 空間,生成捕捉精細細節的“UV 高斯”。這兩種高斯組合成完整的 Ubody 高斯,從而在保持幾何結構的同時,捕捉豐富的紋理細節。

  • 實時動畫與渲染:重建完成后,Ubody 高斯可以根據新的姿勢參數進行變形和動畫 。最后,通過神經細化器對渲染的圖像進行優化,以增強細節和渲染質量 。

實驗

實驗設置

我們從 YouTube、OSX和 HowToSign收集視頻數據集,主要關注人體上半身視頻。其中訓練集包含超過 62 萬幀,測試集包含 58 個 ID 。為確保評估的全面性,實驗采用了多種指標:自重演(self-reenactment)場景下,通過 PSNR、L1、SSIM 和 LPIPS 評估動畫結果的圖像質量 ;跨重演(cross-reenactment)場景下,使用 ArcFace 計算身份保留分數(IPS)以衡量 ID 一致性 。評估中與 MagicPose、Champ、MimicMotion 等2D方法以及 GART、GaussianAvatar 和 ExAvatar 3D方法進行比較。

定量結果

Self-reenactment:與 2D 方法相比,GUAVA 在所有指標(PSNR, L1?, SSIM, LPIPS)上均表現最佳,并在動畫和渲染速度上達到約 50 FPS,而其他方法僅為每秒幾幀 。與 3D 方法相比,GUAVA 的重建時間僅為 0.1 秒左右,而其他方法需要數分鐘到數小時 。

Cross-reenactment:GUAVA 在身份保留分數(IPS)上顯著優于其他所有 2D 方法,證明了其在不同姿勢下保持 ID 一致性的能力 。

定性結果

盡管 2D 方法能生成高質量圖像,但它們在保持 ID 一致性和準確恢復復雜手勢及面部表情方面存在不足 。例如,Champ 的手部模糊 ,MagicPose 存在失真 ,而 MimicMotion 則無法保持 ID 一致性 。3D 方法在處理精細的手指和面部表情方面存在困難,也缺乏泛化能力,在未見區域或極端姿勢下會產生偽影 。GUAVA 則能對未見區域生成合理的結果,在極端姿勢下表現出更好的魯棒性,并提供更準確、更細致的手部和面部表情 。

消融實驗

為了驗證方法中各個部分的有效性,在論文中進行了充分的消融實驗。

論文總結

該論文介紹了 GUAVA,一個用于從單張圖像重建可動畫、具有細膩表現力上半身 3D化身的快速框架 。研究通過引入 EHM 模型及其精確跟蹤方法,增強了面部表情、形狀和姿勢的捕捉能力 。論文通過UV 高斯和模板高斯的兩個推理分支共同構建一個上半身高斯 。實驗結果表明,GUAVA 在渲染質量和效率方面均優于現有方法 。它實現了約 0.1 秒的重建時間,并支持實時動畫和渲染 。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/95402.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/95402.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/95402.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

LC正弦波振蕩電路

LC正弦波振蕩電路LC正弦波振蕩電路與RC橋式正弦波振蕩電路的組成原則在本質上是一致的,只是選頻網絡采用LC振蕩電路!引言 在RC正弦波振蕩電路中,我們了解到——RC正弦波振蕩電路的振蕩頻率一般在1MHz以下。為了得到1MHz以上的信號&#xff0c…

從網絡層接入控制過渡到應用層身份認證的過程

這個過程非常經典,它涉及到了現代企業網絡管理中幾項核心的安全和控制技術。簡單來說,這是一個從網絡層接入控制過渡到應用層身份認證的過程。 其核心原理是:先保證設備是合法的(加域),再保證使用設備的人是合法的(網頁認證)。 下面我為您詳細分解其中的技術原理: 第…

【筆記】float類型的精度有限,無法精確表示123456.6789

一、前情提要 有個Java數據轉換的小示例: public class Example2_2 {public static void main(String[] args) {float f 123456.6789f;System.out.printf("f%30.12f", f);} }輸出的結果是:123456.679687500000這里就發現了個問題,…

西安電子科技大學金融專碩復試線為325分,推薦報考!

西安電子科技大學的金融碩士專業,不僅依托銀行、保險和證券三大子行業,強調數理分析與信息技術的融合,還擁有優越的就業前景和公平的招生政策,吸引了眾多學子報考。西安電子科技大學西安電子科技大學“金融碩士專業”碩士點設立于…

阿里云創建自己的博客,部署wordpress

目錄 1. 基礎環境介紹與規劃 1.1 操作系統 1.2 數據庫環境 1.3 Web 服務器 1.4 PHP 環境 1.5 WordPress 應用環境 1.6 網絡與安全 1.7 基礎環境總覽表 2.安裝流程 2.1 準備環境 2.2 安裝 MySQL 5.7 2.3 安裝 PHP 及擴展 2.4 安裝 Nginx(或 Apache&…

CoreShop微信小程序商城框架開啟多租戶-添加一個WPF客戶端以便進行上傳產品信息和圖片(6)

前幾天已將基于開源CoreShop框架的微信小程序開啟多租戶功能,還開發了一個輔助客戶端,已經完成了以下工作: 修改管理員表格,添加上所管理的店鋪列表,兩個產品信息表也全部加上所屬店鋪信息。 開發一個WPF客戶端,能與服務器登錄并能正常通信。尤其是添加了一個輔助類CoreH…

LabVIEW虛擬實驗平臺設計

?為突破實物實驗教學的時空限制,解決實驗設備不足、操作風險高等問題,設計基于專業軟件的虛擬實驗平臺,以 “信號與系統” 無失真傳輸實驗為實例,融合仿真與網絡技術,適配高校工科實驗教學,提升教學質量與…

PHP Composer 依賴管理完整指南 入門到精通

PHP Composer 依賴管理完整指南 入門到精通 Composer 改變了整個 PHP 開發生態,我用了 10 年,可以說它是 PHP 生態里最重要的工具,沒有之一。不過我和 Composer 的關系一開始并不順利——從剛接觸時的一臉懵逼,到后來真正理解它的…

【開題答辯全過程】以 基于SpringBoot的校園一卡通管理系統的設計與實現為例,包含答辯的問題和答案

個人簡介一名14年經驗的資深畢設內行人,語言擅長Java、php、微信小程序、Python、Golang、安卓Android等開發項目包括大數據、深度學習、網站、小程序、安卓、算法。平常會做一些項目定制化開發、代碼講解、答辯教學、文檔編寫、也懂一些降重方面的技巧。感謝大家的…

深度學習中常用的激活函數

參考文章: Activation Functions — All You Need To Know! | by Sukanya Bag | Analytics Vidhya | Medium 深度學習筆記:如何理解激活函數?(附常用激活函數) - 知乎 part-0_13.pdf 機器學習中的數學——激活函數&…

無惡意軟件勒索:Storm-0501如何轉向云原生攻擊

Storm-0501基于云的勒索攻擊鏈概覽 | 圖片來源:微軟微軟威脅情報部門最新研究顯示,以經濟利益為目的的威脅組織Storm-0501已將其勒索軟件攻擊模式從傳統本地部署系統顯著轉向云原生攻擊。報告警告稱,該組織"持續優化攻擊活動&#xff0c…

k8s--etcd

目錄 靜態pod 使用步驟: 關鍵特性說明: 常見使用場景: 案例: 環境變量 配置全景解析 實操:?? 查看etcd集群節點信息 查看集群健康狀態 數據庫操作命令 增加(put) 查詢(get) 刪除(del) 租約命令 添加…

PowerPoint和WPS演示如何在放映PPT時用鼠標劃重點

在播放PPT的時候,可以在屏幕上右鍵,在WPS演示中設置“墨跡畫筆”為鼠標以外的其他筆形,在PowerPoint中設置指針選項為其他筆形,然后點擊鼠標左鍵即可對屏幕上的內容進行標記。如果要退出,同樣的路徑操作取消鼠標形狀即…

銷售事業十年規劃,并附上一套能幫助銷售成長的「軟件工具組合」

銷售事業十年規劃,并附上一套能幫助銷售成長的 軟件工具組合。這樣你既有職業發展的路線圖,也有日常可用的工具支撐。🔟 年銷售事業規劃 第1-2年:打基礎目標:掌握銷售流程,建立第一個客戶池。重點&#xff…

如何在賽中完整的呈現數學建模模型

數模的完備性一直是國賽中評審的重點,也是大家賽中最容易失分的點。具體來講,2023年C題國一使用了ARIMA,很多省三論文也是ARIMA。二者之所以出現這種巨大的等級差異不是因為模型問題,而是后者模型并不完備,缺少很多模型必要元素。…

蜂窩物聯網模組:電動兩輪車新國標實施下的關乎安全與智能化支撐

蜂窩物聯網模組正成為電動兩輪車新國標實施后不可或缺的關鍵部件,這一轉變源于新國標對電動自行車安全性和智能化的強制性要求 。2025年9月1日起正式實施的GB17761—2024《電動自行車安全技術規范》不僅強化了防火阻燃、防篡改等安全標準,還首次將北斗定…

DevOps篇之利用Jenkins實現多K8S集群的版本發布

重點說明 在 Jenkins 中實現多 K8s 集群的版本發布與版本控制,核心在于解決集群身份認證、配置隔離、發布策略協調、版本統一追溯四大問題。以下是具體實現方案,結合工具鏈集成與流水線設計,確保多集群環境下的發布一致性與可控性。 一、核心…

Day16_【機器學習—KNN算法】

一、KNN 簡介KNN:K-近鄰算法 (K Nearest Neighbor)算法思想:一個樣本最相似的 k 個樣本中的大多數屬于某一個類別,則該樣本也屬于這個類別距離計算:歐氏距離二、KNN 解決兩類問題分類問題與回歸問題分類流程…

《架構師手記:SpringCloud整合Nacos實戰·一》

《架構師手記:SpringCloud整合Nacos實戰一》 🌈 第一章:SpringCloud與Nacos的初識之旅 引言 在微服務架構的浪潮中,服務發現和配置管理成為了每個架構師必須面對的挑戰。今天,我們將開啟一段SpringCloud與Nacos的探…

卷積神經網絡訓練全攻略:從理論到實戰

卷積神經網絡(Convolutional Neural Networks, CNN)作為深度學習的重要分支,已成為計算機視覺領域的核心技術。從圖像分類到目標檢測,從人臉識別到醫學影像分析,CNN 展現出了強大的特征提取和模式識別能力。本文將全面…