3D 生成重建009-DreamGaussian使用gaussian splatting在兩分鐘內生成3d
文章目錄
- 0 論文工作
- 1 論文方法
- 2 效果
0 論文工作
DreamGaussian是第一個使用gaussian splatting方法進行3d生成的工作。論文最先使用gaussian splatting替代原來用nerf表示3d。整體架構依然保留了原來的SDS方法。論文采用了兩階段方法,第一階段用sds損失生成一個GS3d表示并提出一個粗體的mesh表示。第二階段用MSE對mesh的紋理進行表示。這個方法能用文本生成也能用圖像生成。他的核心優勢還是圖像生成3d,因為他用到了zero123和MVD等3d-aware的擴散模型,可以根據輸入圖像生成偏移的新視圖。
這個論文速度基本上在兩分鐘左右,這遠遠超越了原來的nerf表達形式的優化方法。能達到這一速度的原因有以下幾點:1)GS表達的優化速度快,2)zero123等3d感知擴散模型,降低了SDS的尋優時間,3)二階段的mesh表達等。
1 論文方法
如下圖所示,整個過程分為三個步驟,兩個階段。第一階段包括GS的生成和mesh提取。
對于生成GS,使用一個隨機初始化的GS,用輸入圖像和隨機旋轉后的新視角圖像進行約束,他的約束包含原始圖的sds和新視圖的MSE。由于zero123等MVD具備3d空間感知能力,一定程度解決多面問題,而且不需要額外的3d先驗知識的引入。然后就是從GS的點云中提取mesh。在第二階段就是對紋理進行優化,因為sds的很大程度會導致過平滑和缺少細節。在第二階段通過對噪聲程度進行控制,然后進行多步降噪計算MSE損失,對細節進行補充。可以確定的是這種策略還是限制細節能力。一種解決思路應該就是更好的MVD模型,另外一種就是改進第二階段的優化策略。
第二階段有挺大的改進策略,或者是使用更好的mesh提取方法,因為第一階段的更好的幾何也很重要。值得一提的是,這個方法在速度上的優勢,GS和MVD的結合,可以確定這會是比較好的base。
2 效果
文本生成3d的效果,還是存在比較嚴重的多面問題和模糊缺乏細節。這種情況下多面比較嚴重,但是挑選的例子本身都是沒有真正人腦所理解的正反面,所以不嚴重。當使用小動物或者人進行生成時,就會發現這個多面問題。常規引入額外3d先驗知識的方法會有較大時間消耗。
圖像生成3d的效果,能緩解多面問題,但是細節確實還是比較嚴重。論文中使用卡通例子的時候細節問題并不明顯,但是當用其他風格圖片的時候問題就會比較明顯。這也是一個值得思考改進的點。