?CVPR2025 3D 生成新框架｜Kiss3DGen 讓 2D 擴散模型玩轉 3D 資產生成

?CVPR 3D 生成新框架｜Kiss3DGen 讓 2D 擴散模型玩轉 3D 資產生成
📄論文題目：Kiss3DGen: Repurposing Image Diffusion Models for 3D Asset Generation
??作者及機構：Jiantao Lin、Xin Yang、Meixi Chen 等（HKUST (GZ)、HKUST、廣州趣丸網絡技術）
🧩面臨問題：當前 3D 內容生成在質量和泛化性上存在局限。一方面，優化型方法（如 DreamFusion）需密集迭代優化，推理耗時；另一方面，直接生成法（如 InstantMesh）依賴大規模 3D 數據集，但高質量 3D 數據稀缺（Objaverse-XL 約 70% 數據存在紋理缺失等問題）。此外，2D 擴散模型雖含強大 3D 先驗，卻多僅生成 depth/normal 等 2.5D 表示，無法支持完整 3D 生成。
🎯創新點及其具體研究方法：
1?? 提出 “3D Bundle Image” 表示與 Kiss3DGen 基礎框架：將 3D 物體渲染為 4 個視角的 RGB 圖及對應法線圖，組合為 “3D Bundle Image” 這一 2D 表示，將 3D 生成轉化為 2D 圖像生成任務，最大化復用預訓練 2D 擴散模型知識。通過 GPT-4V 為 Bundle Image 生成描述性文本，結合 LoRA 微調 Flux 模型得到 Kiss3DGen-Base，實現文本驅動生成 Bundle Image，再經 ISOMER 重建 3D 網格。
2?? 集成 ControlNet 擴展多任務能力：提出 Kiss3DGen-ControlNet，通過 ControlNet 實現 3D 增強、編輯和圖像到 3D 生成。3D 增強中用 ControlNet-Tile 優化低質量網格的紋理和幾何細節；3D 編輯通過調整 ControlNet 權重（λ?=0.3、λ?=0.5）支持屬性修改；圖像到 3D 則先由 InstantMesh 生成粗網格，再經增強 pipeline 優化。
3?? 小數據高效訓練機制：對 Objaverse 數據集精篩得到 147k 高質量 3D 物體，僅用 3 天在 8 張 A800 GPU 上完成訓練；即使縮減至 50k 數據集，在文本到 3D、圖像到 3D 等任務中仍保持競爭力，驗證數據效率優勢。

在這里插入圖片描述

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/917693.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/917693.shtml
英文地址，請注明出處：http://en.pswp.cn/news/917693.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！