人臉生成3d模型 Era3D

從單視圖圖像進行3D重建是計算機視覺和圖形學中的一項基本任務,因為它在游戲設計、虛擬現實和機器人技術中具有潛在的應用價值。早期的研究主要依賴于直接在體素上進行3D回歸,這往往會導致過于平滑的結果,并且由于3D訓練數據的限制,難以泛化到現實世界中的未見物體。最近,擴散模型(DMs)通過在極大規模的數據集上進行訓練,在圖像或視頻合成上展現了強大的生成能力。這些擴散模型是用于單視圖3D重建的有前途的工具,因為可以從給定圖像生成新穎視圖的圖像以實現3D重建。

為了利用圖像DMs進行單視圖3D重建,一項開創性的工作DreamFusion嘗試通過Score Distillation Sampling(SDS)損失從2D圖像擴散中提煉出像NeRF或Gaussian Splatting這樣的3D表示,許多后續工作在質量和效率上改進了基于蒸餾的方法。然而,這些方法存在不穩定收斂和退化質量的問題。另外,最近的工作如MVDream、Sync-Dreamer、Wonder3D和Zero123++通過多視圖擴散明確生成多視圖圖像,然后通過神經重建方法或大型重建模型(LRMs)從生成的圖像中重建3D模型。明確生成多視圖圖像使這些方法比SDS方法更具可控性和效率,因此在單視圖3D重建任務中更受歡迎。

盡管多視圖擴散方法取得了令人印象深刻的進步,但如何為高質量3D重建高效生成新視角圖像仍然是一個懸而未決的挑戰。當前的多視圖擴散方法面臨三個顯著挑戰。

(1)預定義的相機類型不一致。大多數多視圖擴散方法假設輸入圖像是由具有預定義焦距的相機捕獲的。當輸入圖像是由不同類型的相機或具有不同內在特性的相機捕獲時,這會導致不希望的失真(例如,當輸入圖像是由焦距較小的透視相機捕獲時,Wonder3D對正交相機的假設會導致網格扭曲)。

(2)多視圖擴散效率低下。多視圖擴散方法通常依賴于多視圖注意力層來交換不同視圖之間的信息,以生成多視圖一致的圖像。然而,這些多視圖注意力層通常是通過將Stable Diffusion中的自注意力擴展到所有多視圖圖像來實現的(密集多視圖注意力),并導致計算復雜度和內存消耗顯著增加。

(3)生成的圖像分辨率低。上述限制使得大多數現有的多視圖擴散模型僅能達到256×256的分辨率,這阻礙了它們重建詳細的網格。解決上述挑戰對于開發實用且可擴展的多視圖擴散方法至關重要。

在本文中,我們介紹了Era3D,這是一種新穎的多視角擴散方法,能夠高效地生成高分辨率(512×512)的單視角3D重建一致多視角圖像。與現有方法不同,Era3D允許使用常用相機類型的圖像作為輸入,同時緩解不同相機模型帶來的不必要畸變。為此,我們采用了一種獨特的方法:使用不同的相機模型對輸入圖像和生成圖像進行訓練,這意味著輸入圖像可以有任意的焦距和仰角,而生成圖像則使用正交相機和固定的0?仰角視角。然而,這需要擴散模型在生成過程中隱式地推斷和糾正輸入圖像的焦距和視角,這是一項具有挑戰性的任務,會降低生成質量。為了克服這一挑戰并提高生成質量,我們提出了一種新穎的回歸和條件方案,并利用UNet在每個去噪步驟中的低級特征圖來預測輸入圖像的相機信息。我們發現,這種回歸和條件方案比現有方法更準確地預測相機姿態,并導致生成更多的細節。Era3D成功地避免了不同相機類型和焦距帶來的上述畸變問題。

此外,受到極線注意力的啟發,Era3D通過引入一種新穎的行級多視角注意力,實現了高分辨率多視角生成的高效訓練。極線約束可用于約束跨視角的注意力區域,從而提高注意力的效率。然而,對于一般的相機設置直接應用這種極線注意力在內存和計算上仍然效率不高,因為我們必須對極線上的多個點進行采樣以進行注意力計算。這需要我們為多視角圖像在視錐體中構建一個3D特征網格,這既慢又消耗內存。相反,由于Era3D使用正交相機在0?視角下生成圖像,我們發現我們的相機設置中的極線在不同視角的圖像行之間是對齊的,這使得我們能夠提出一種高效的行級注意力層。與密集的多視角注意力相比,行級注意力顯著減少了多視角注意力的內存消耗(35.32GB vs. 1.66GB)和計算復雜度(220.41ms vs. 2.23ms)。即使使用Xformers,一個加速注意力計算的庫,行級注意力的效率仍然比現有方法高出大約十二倍。因此,提出的行級注意力使我們能夠輕松地將Era3D擴展到512×512的高分辨率,以重建更詳細的3D網格。

下面一起來閱讀一下這項工作~

1. 論文信息

標題:Era3D: High-Resolution Multiview Diffusion using Efficient Row-wise Attention

作者:Peng Li, Yuan Liu, Xiaoxiao Long, Feihu Zhang, Cheng Lin, Mengfei Li, Xingqun Qi, Shanghang Zhang, Wenhan Luo, Ping Tan, Wenping Wang, Qifeng Liu, Yike Guo

機構:HKUST、HKU、DreamTech、PKU、Light Illusions

原文鏈接:https://arxiv.org/pdf/2405.11616

代碼鏈接:https://github.com/pengHTYX/Era3D

官方主頁:https://penghtyx.github.io/Era3D/

2. 摘要

在本文中,我們介紹了Era3D,這是一種新穎的多視圖擴散方法,可以從單視圖圖像生成高分辨率的多視圖圖像。盡管多視圖生成領域取得了顯著進展,但現有方法仍受到相機先驗不匹配、無效性和低分辨率的困擾,導致生成的多視圖圖像質量較差。具體而言,這些方法假設輸入圖像應符合預定義的相機類型,例如具有固定焦距的透視相機,當假設不成立時會導致形狀扭曲。此外,它們采用的全圖像或密集多視圖注意力隨著圖像分辨率的增加會導致計算復雜度的指數爆炸,從而產生令人望而卻步的訓練成本。為了彌合假設與現實之間的差距,Era3D首先提出了一個基于擴散的相機預測模塊來估計輸入圖像的焦距和仰角,這使得我們的方法能夠生成無形狀扭曲的圖像。此外,我們還使用了一個簡單但高效的注意力層,稱為逐行注意力,來在多視圖擴散中加強極線先驗,促進有效的跨視圖信息融合。因此,與最先進的方法相比,Era3D能夠生成高達512*512分辨率的高質量多視圖圖像,同時將計算復雜度降低了12倍。綜合實驗表明,Era3D可以從各種單視圖輸入圖像中重構高質量且詳細的3D網格,顯著優于基線多視圖擴散方法。

3. 效果展示

新視角合成。首先,圖1展示了Era3D生成的多視角圖像和法線圖的幾個示例。結果顯示,給定具有不同焦距和視角的輸入圖像,Era3D能夠生成高質量且一致的多視角圖像和法線圖。當輸入圖像由透視相機捕獲且其視角不在0?仰角時,Era3D能夠正確感知視角的仰角和透視畸變。然后,我們的方法學習使用標準視角下的正交相機生成同一對象的高保真圖像,有效減少了透視畸變引起的偽影,提高了重建質量。此外,Era3D能夠生成512×512分辨率的圖像,從而能夠生成更多的細節,如圖1中“Armor”上的精細紋理和“Mecha”上的復雜結構。

重建。我們進一步進行了實驗來評估重建的3D網格的質量。我們將我們的方法與RealFusion、Zero-1-to-3、One-2-3-45、Shap-E、Magic123、Wonder3D、SyncDreamer和LGM進行了比較。GSO數據集上的重建網格及其紋理如圖5所示,而基于文本生成的圖像上的重建網格的渲染效果如圖6所示。從結果中可以看出,Shap-E無法生成完整的結構。One-2-3-45和LGM重建的網格由于Zero-1-to-3或ImageDream生成圖像中的多視角不一致性而趨于過度平滑且缺乏細節。Wonder3D在使用35mm焦距渲染的這些輸入圖像上的結果往往會出現扭曲,因為它假設輸入圖像是由正交相機捕獲的。相比之下,我們的結果在完整性和細節方面都比這些基線方法有了顯著的改進。

4. 主要貢獻

總體而言,我們的主要貢獻總結如下:

(1)Era3D是首個嘗試解決3D生成中不一致的相機內參所帶來的畸變問題的方法;

(2)我們設計了一種新穎的回歸和條件方案,使擴散模型能夠接收任意相機拍攝的圖像作為輸入,并在標準相機設置下輸出正交圖像;

(3)我們提出了逐行多視角注意力機制,這是一種用于高分辨率多視角圖像生成的高效注意力層;

(4)我們的方法在單視角3D生成方面取得了最先進的性能。

5. 基本原理是啥?

Era3D旨在從單視角圖像生成3D網格。其概述如圖4所示,包含三個關鍵組件。給定一個具有常用焦距和任意視角的輸入圖像,Era3D在標準相機設置下生成多視角圖像。為了提高生成質量,我們提出了一種回歸和條件方案,使擴散模型能夠預測準確的相機姿態和焦距,并指導去噪過程。最后,我們通過提出行式多視角注意力,顯著減少了內存消耗并提高了計算效率,該方案通過多視角圖像之間交換信息來維持多視角一致性。最后,我們使用諸如NeuS之類的神經重建方法從生成的圖像和法線圖中重建3D網格。

6. 實驗結果

Chamfer距離(CD)和交并比(IoU)的定量比較如表1所示。Era3D在所有其他方法中表現最佳,展現出更低的Chamfer距離和更高的體積IoU,這表明它生成的網格與實際3D模型更為接近。

除了已討論的任務之外,我們還在GSO數據集上進一步評估了Era3D的姿態預測。我們使用[-10, 40]度的仰角和{35, 50, 85, 105, 135, ∞}的焦距分別渲染圖像。作為基準方法,我們采用dinov2_vitb14特征來預測姿態,并使用相同的數據集進行訓練。我們將我們的預測與這個基準方法和One-2-3-45進行了比較。如表2所示,Era3D在誤差和方差方面均取得了優越的性能。

行式多視角注意力。如圖1所示,我們提出的行式多視角注意力(RMA)有效地促進了多視角圖像之間的信息交換,產生了與密集多視角注意力層相當的一致結果。在N視角相機系統中,假設潛在特征的大小為S×S,我們的RMA設計通過將注意力層的計算復雜度從O(N2S4)降低到O(N2S3),顯著提高了訓練效率。盡管極線注意力也實現了將復雜度降低到O(N2S2K),其中K是樣本數量,但這是以增加內存和時間消耗為代價的,因為需要進行采樣過程。為了進一步突出RMA相對于密集多視角注意力的效率,我們展示了256和512分辨率下的內存使用情況和運行時間。我們使用了中的極線注意力實現。如表3所列,隨著分辨率的增加,RMA的優勢變得越來越明顯。在512分辨率下,RMA實現了內存使用量的三十倍減少和運行時間的近百倍減少。即使使用xFormers,我們的方法也大大提高了訓練效率(22.9毫秒對比1.86毫秒)。這種效率使得在更高分辨率或更密集的視角下訓練模型成為可能,而不會顯著增加計算效率和需求,從而保持了一個輕量級的框架。

7. 限制性 & 總結

局限性。雖然Era3D在多視角生成任務上取得了改進,但我們的方法在生成如薄結構等復雜幾何形狀時存在困難,因為我們僅生成6個多視角圖像,這些稀疏生成的圖像難以建模復雜的幾何形狀。由于重建算法基于神經符號距離函數(Neural SDF),Era3D無法重建具有開放表面的網格。在未來的工作中,我們可以將我們的框架與其他3D表示法(如高斯濺射)相結合,以提高渲染和幾何質量。

結論。在本文中,我們提出了Era3D,一種用于單視角3D重建的高質量多視角生成方法。在Era3D中,我們建議在標準相機設置下生成圖像,同時允許輸入圖像具有任意的相機內參和視角。為了提高生成質量,我們設計了一種回歸和條件方案來預測輸入圖像的焦距和仰角,這些參數進一步作為擴散過程的條件。此外,我們采用行式多視角注意力機制來替代密集注意力,顯著降低了計算工作量,并促進了高分辨率跨視角生成。與基線方法相比,Era3D在單視角3D重建中實現了更高的幾何質量。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/63937.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/63937.shtml
英文地址,請注明出處:http://en.pswp.cn/web/63937.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【點估計】之Python實現

點估計是一種統計推斷方法,它利用樣本數據來估計總體的未知參數。在概率論和數理統計的框架下,點估計將總體的未知參數視為一個確定的值或一個具體的點,并試圖通過樣本數據來找到這個值的最佳估計。以下是對點估計的詳細解釋: 一、定義與原理 定義:點估計是根據樣本數據估…

rust與python互通

互通三件套 rust側與python互通的三個庫: pyo3 pythonize serde pyo3 pyo3跟用Python C API寫python擴展有點類似,核心是: #[pymodule] #[pyfunction]兩個注解。前者對應Py_InitModule,后者對應PyMethodDef。 下面是其它博…

Ubuntu系統下 npm install -g tauri 報錯問題處理

處理在安裝 Tauri 時遇到的問題,可以按照以下步驟進行操作 npm install -g taurinpm warn deprecated inflight1.0.6: This module is not supported, and leaks memory. Do not use it. Check out lru-cache if you want a good and tested way to coalesce async …

信貸域——互聯網金融理論基礎

摘要 互聯網金融這種新興的金融業態近幾年飛速發展,規模不斷擴大,互聯網金融在對我國金融體系和經濟發展影響中所占的分量越來越重,一定程度上也推動了互聯網金融理論的發展。 互聯網金融與傳統金融都是金融,有著相近的理論基礎。…

C++軟件設計模式之享元模式(FlyWeight)

享元(Flyweight)模式的動機與意圖 動機 享元模式的主要動機是通過共享對象來減少內存使用,從而提高系統的性能。在某些情況下,系統中可能有大量細粒度的對象,這些對象具有共同的部分狀態,而這些狀態可以共…

LightGBM分類算法在醫療數據挖掘中的深度探索與應用創新(上)

一、引言 1.1 醫療數據挖掘的重要性與挑戰 在當今數字化醫療時代,醫療數據呈爆炸式增長,這些數據蘊含著豐富的信息,對醫療決策具有極為重要的意義。通過對醫療數據的深入挖掘,可以發現潛在的疾病模式、治療效果關聯以及患者的健康風險因素,從而為精準醫療、個性化治療方…

|-牛式-|

題目描述 下面是一個乘法豎式,如果用我們給定的那幾個數字來取代 * ,可以使式子成立的話,我們就叫這個式子牛式。 * * * x * * ------- * * * * * * ------- * * * * 數字只能取代 * ,當然第一位不能為 0 。 寫一個程序找…

es 3期 第18節-分頁查詢使用避坑的一些事

#### 1.Elasticsearch是數據庫,不是普通的Java應用程序,傳統數據庫需要的硬件資源同樣需要,提升性能最有效的就是升級硬件。 #### 2.Elasticsearch是文檔型數據庫,不是關系型數據庫,不具備嚴格的ACID事務特性&#xff…

STM32串口第一次接收數據時第一個字節丟失的問題

解決方法:開啟中斷之前,先清除標志位【1】。 串口清除標志位: __HAL_UART_CLEAR_PEFLAG(&huart1); HAL_UART_Receive_IT(&huart1,&RxUart, 1); 定時器清除標志位: __HAL_TIM_CLEAR_FLAG(&htim3,TIM_FLAG_UPDATE);…

深度學習中的殘差網絡、加權殘差連接(WRC)與跨階段部分連接(CSP)詳解

隨著深度學習技術的不斷發展,神經網絡架構變得越來越復雜,而這些復雜網絡在訓練時常常遇到梯度消失、梯度爆炸以及計算效率低等問題。為了克服這些問題,研究者們提出了多種網絡架構,包括 殘差網絡(ResNet)、…

Pytorch | 從零構建EfficientNet對CIFAR10進行分類

Pytorch | 從零構建EfficientNet對CIFAR10進行分類 CIFAR10數據集EfficientNet設計理念網絡結構性能特點應用領域發展和改進 EfficientNet結構代碼詳解結構代碼代碼詳解MBConv 類初始化方法前向傳播 forward 方法 EfficientNet 類初始化方法前向傳播 forward 方法 訓練過程和測…

Vue 2 中實現雙擊事件的幾種方法

在 Vue 2 中處理用戶交互,特別是雙擊事件,是一個常見的需求。Vue 提供了一種簡潔的方式來綁定事件,包括雙擊事件。本文將介紹幾種在 Vue 2 中實現雙擊事件的方法。 1. 使用 dblclick 指令 Vue 允許你直接在模板中使用 dblclick 指令來監聽雙…

音視頻入門基礎:MPEG2-TS專題(20)——ES流簡介

《T-REC-H.222.0-202106-S!!PDF-E.pdf》第27頁對ES進行了定義。ES流是PES packets(PES包)中編碼的視頻、編碼的音頻或其他編碼的比特流。一個ES流(elementary stream)在具有且只有一個stream_id的PES packets序列中攜帶&#xff1…

天水月亮圈圈:舌尖上的歷史與傳承

在天水甘谷縣,有一種美食如同夜空中的明月,散發著獨特的魅力,它就是有著百年歷史的月亮圈圈。月亮圈圈原名甘谷酥圈圈,據傳,由大像山鎮蔣家莊一姓李的廚師創制而成,后經王明玖等廚師的光大傳承,…

YOLOv11融合[CVPR2023]FFTformer中的FSAS模塊

YOLOv11v10v8使用教程: YOLOv11入門到入土使用教程 YOLOv11改進匯總貼:YOLOv11及自研模型更新匯總 《Efficient Frequency Domain-based Transformers for High-Quality Image Deblurring》 一、 模塊介紹 論文鏈接:https://arxiv.org/abs…

java如何使用poi-tl在word模板里渲染多張圖片

1、poi-tl官網地址 http://deepoove.com/poi-tl/ 2、引入poi-tl的依賴 <dependency><groupId>com.deepoove</groupId><artifactId>poi-tl</artifactId><version>1.12.1</version></dependency>3、定義word模板 釋義&#xf…

《信管通低代碼信息管理系統開發平臺》Windows環境安裝說明

1 簡介 《信管通低代碼信息管理系統應用平臺》提供多環境軟件產品開發服務&#xff0c;包括單機、局域網和互聯網。我們專注于適用國產硬件和操作系統應用軟件開發應用。為事業單位和企業提供行業軟件定制開發&#xff0c;滿足其獨特需求。無論是簡單的應用還是復雜的系統&…

8K+Red+Raw+ProRes422分享5個影視級視頻素材網站

Hello&#xff0c;大家好&#xff0c;我是后期圈&#xff01; 在視頻創作中&#xff0c;電影級的視頻素材能夠為作品增添專業質感&#xff0c;讓畫面更具沖擊力。無論是廣告、電影短片&#xff0c;還是品牌宣傳&#xff0c;高質量的視頻素材都是不可或缺的資源。然而&#xff…

Git遠程倉庫的使用

一.遠程倉庫注冊 1.github&#xff1a;GitHub Build and ship software on a single, collaborative platform GitHub 2.gitee&#xff1a;GitHub Build and ship software on a single, collaborative platform GitHub github需要使用魔法&#xff0c;而gitee是國內的倉…

Echarts連接數據庫,實時繪制圖表詳解

文章目錄 Echarts連接數據庫&#xff0c;實時繪制圖表詳解一、引言二、步驟一&#xff1a;環境準備與數據庫連接1、環境搭建2、數據庫連接 三、步驟二&#xff1a;數據獲取與處理1、查詢數據庫2、數據處理 四、步驟三&#xff1a;ECharts圖表配置與渲染1、配置ECharts選項2、動…