?CVPR 3D 生成新框架|Kiss3DGen 讓 2D 擴散模型玩轉 3D 資產生成
📄論文題目:Kiss3DGen: Repurposing Image Diffusion Models for 3D Asset Generation
??作者及機構:Jiantao Lin、Xin Yang、Meixi Chen 等(HKUST (GZ)、HKUST、廣州趣丸網絡技術)
🧩面臨問題:當前 3D 內容生成在質量和泛化性上存在局限。一方面,優化型方法(如 DreamFusion)需密集迭代優化,推理耗時;另一方面,直接生成法(如 InstantMesh)依賴大規模 3D 數據集,但高質量 3D 數據稀缺(Objaverse-XL 約 70% 數據存在紋理缺失等問題)。此外,2D 擴散模型雖含強大 3D 先驗,卻多僅生成 depth/normal 等 2.5D 表示,無法支持完整 3D 生成。
🎯創新點及其具體研究方法:
1?? 提出 “3D Bundle Image” 表示與 Kiss3DGen 基礎框架:將 3D 物體渲染為 4 個視角的 RGB 圖及對應法線圖,組合為 “3D Bundle Image” 這一 2D 表示,將 3D 生成轉化為 2D 圖像生成任務,最大化復用預訓練 2D 擴散模型知識。通過 GPT-4V 為 Bundle Image 生成描述性文本,結合 LoRA 微調 Flux 模型得到 Kiss3DGen-Base,實現文本驅動生成 Bundle Image,再經 ISOMER 重建 3D 網格。
2?? 集成 ControlNet 擴展多任務能力:提出 Kiss3DGen-ControlNet,通過 ControlNet 實現 3D 增強、編輯和圖像到 3D 生成。3D 增強中用 ControlNet-Tile 優化低質量網格的紋理和幾何細節;3D 編輯通過調整 ControlNet 權重(λ?=0.3、λ?=0.5)支持屬性修改;圖像到 3D 則先由 InstantMesh 生成粗網格,再經增強 pipeline 優化。
3?? 小數據高效訓練機制:對 Objaverse 數據集精篩得到 147k 高質量 3D 物體,僅用 3 天在 8 張 A800 GPU 上完成訓練;即使縮減至 50k 數據集,在文本到 3D、圖像到 3D 等任務中仍保持競爭力,驗證數據效率優勢。