【圖片轉 3D 模型】北大·字節跳動·CMU攜手——單圖15 秒生成結構化3D模型!


??引言:單圖生成結構化 3 D 模型的技術突破?

image.png
?
PartCrafter 由北京大學、字節跳動與卡耐基梅隆大學聯合研發,是全球首個??端到端生成結構化 3 D 網格??的模型。它僅需單張 RGB 圖像,即可在 34 秒內生成帶語義分解的 3 D 部件(如機械關節、家具組件),跳過傳統“分割-重建”流程,直接輸出可編輯的零件級模型。其核心突破在于將物理世界的組合邏輯融入 AI 生成過程,甚至能推斷圖像中被遮擋的隱藏結構。


??一、傳統 3 D 建模的瓶頸與 PartCrafter 的革新??

??傳統方法的兩大局限??:

  1. ??整體生成法??(如 TripoSR):輸出單一網格,無法分離部件,二次編輯困難。
  2. ??兩階段法??(如 HoloPart):需先分割圖像再獨立重建部件,導致部件連接錯誤或懸空,且耗時長達 18 分鐘。

??PartCrafter 的解決方案??:

  • ??統一生成架構??:無需預分割輸入,直接端到端輸出多部件 3 D 模型。
  • ??物理邏輯內嵌??:模型通過部件關系先驗,自動補全被遮擋結構(如從椅面圖像推斷完整椅腿)。
    image.png

??二、核心技術解析:組合生成與分層推理??

??1. 組合式潛在空間:像樂高一樣編碼部件??

每個 3 D 部件由??獨立潛在令牌(Latent Tokens)??表示,并綁定可學習的部件 ID 嵌入。這種設計支持:

  • ??粒度控制??:按需輸出粗粒度(椅子=椅背+座墊)或細粒度分解(椅腿→連接件+支撐桿)。
  • ??獨立編輯??:生成后可直接調整單個部件的位置、旋轉或縮放。
    image.png
??2. 分層注意力機制:雙軌信息流協同??

模型通過??21 層交替的局部-全局注意力??實現協同優化:

  • ??局部注意力??(奇數層):聚焦部件內部細節(如齒輪齒距、曲面弧度)。
  • ??全局注意力??(偶數層):協調部件關系(如軸承與軸孔對齊),避免碰撞或懸空。
??3. 預訓練模型遷移:繼承與超越??

復用預訓練的 3 D 網格擴散 Transformer(DiT)的權重與解碼器。實驗證明,其生成保真度??超越底層 DiT 模型??(Chamfer 距離降低 18%),驗證結構化理解提升整體質量。


??三、性能實測:效率與精度雙突破??

??生成質量(Objaverse 數據集)??:
??指標????PartCrafter????HoloPart????提升??
Chamfer 距離0.17260.2103↓18%
F-Score@0.10.74720.6815↑9.6%
網格錯誤率0.0330.100↓67%
??生成效率??:
  • ??4 部件模型生成僅需 34 秒??,比 HoloPart 快 30 倍;
  • 支持 1080 P 圖像輸入,單張 NVIDIA RTX 3090 GPU 可部署。

??四、真實應用場景??

  1. ??游戲開發??:輸入角色原畫,生成帶關節的恐龍尾部模型,直接導入 Unity 引擎。
  2. ??工業設計??:生成齒輪組+軸承的裝配體,導出. STL 格式用于 3 D 打印。
  3. ??教育可視化??:分解內燃機模型,動態演示活塞運動過程。
  4. ??建筑場景??:輸入室內草圖,生成帶門窗結構的可編輯房屋模型。
    image.png
    image.png
    image.png

??五、部署指南:本地運行步驟??

??環境要求??:
  • 系統:Ubuntu 20.04+
  • GPU:NVIDIA RTX 3090(24 GB 顯存)
  • 依賴:Python 3.8+, PyTorch 2.0+
??部署流程??:
# 1. 克隆代碼庫  
git clone https://github.com/wgsxm/PartCrafter  # 2. 安裝依賴  
pip install -r requirements.txt  # 3. 下載預訓練權重(暫用占位符,7月15日前發布完整版)  
wget https://partcrafter.models/pretrained_vae.pth  # 4. 生成示例(輸入圖像+指定部件數)  
python generate.py --input_image chair.jpg --part_count 4

??輸出格式??:支持. obj/. glb,兼容 Blender、Maya 等工具。
??注意事項??:當前預訓練權重為占位版本,完整版預計 7 月 15 日發布于 Hugging Face。


??結語:結構化生成——虛擬與現實的幾何橋梁??

PartCrafter 的突破不僅在于速度,更在于??將物理世界的組裝規則編碼進 AI??。它證明:理解“椅子由椅腿和椅背組成”這一常識,能讓 3 D 生成更合理、更易用。隨著 7 月完整開源,這項技術或將重塑游戲、工業、教育領域的 3 D 內容生產流程。

??延伸價值??:若未來融入物理引擎約束(如動力學模擬),生成模型可直接用于機器人運動規劃——結構化生成,正成為連接數字與物理世界的核心技術。


往期回顧:
【7 天 Python 速成指南】極客必備:從零到項目實戰的高效路徑
WWDC25 技術彩蛋三行代碼調用30億參數大模型:蘋果為何賭定設備端AI?
當 Java 遇上大模型,LangChain4j 如何成為開發者的「AI 膠水」???
突破性輕量OCR:3B參數的MonkeyOCR如何吊打Gemini與72B巨頭?
【本地部署教程】Qwen2.5-VL 阿里最新開源最強的開源視覺大模型,支持視頻!
一鍵解鎖智能文檔問答新體驗!開源 RAG 引擎 RAGFlow 重磅來襲

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/909488.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/909488.shtml
英文地址,請注明出處:http://en.pswp.cn/news/909488.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

零基礎RT-thread第二節:按鍵控制

我這里依然使用的是野火開發板,F767芯片。 這一節寫一下按鍵控制LED亮滅。 這是按鍵以及LED的原理圖。 按鍵對應的引腳不按下時是低電平,按下后是高電平。 LED是在低電平點亮。 接下來是key.c: /** Copyright (c) 2006-2021, RT-Thread Development T…

《Gulp與SCSS:解構前端樣式開發的底層邏輯與實戰智慧》

探尋Gulp與SCSS協作的底層邏輯 Gulp,作為任務自動化的佼佼者,其核心價值在于將一系列復雜的任務,如文件的編譯、合并、壓縮等,以一種流暢且高效的方式串聯起來,形成一個自動化的工作流。它基于流(stream&a…

OpenCV CUDA模塊圖像變形------對圖像進行GPU加速的透視變換函數warpPerspective()

操作系統:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 編程語言:C11 算法描述 該函數用于對圖像進行 GPU 加速的透視變換(Perspective Transformation),是 cv::warpPerspective 的 CUDA 版…

吳恩達機器學習筆記(2)—單變量線性回歸

目錄 一、模型表示 二、代價函數 三、代價函數的直觀理解(1) 四、代價函數的直觀理解(2) 五、梯度下降 六、梯度下降的直觀理解 七、線性回歸的梯度下降 在本篇內容中,我們將介紹第一個機器學習算法——線性回歸…

最新華為 HCIP-Datacom(H12-821)

最新 HCIP-Datacom(H12-821),完整題庫請上方訪問,更新完畢。 在OSPF網絡中,NSSA區域與STUB區域都是為了減少LSA數量,兩者最主要的區別在于,NSSA區域可以引入外部路由,并同時接收OSPF…

vba學習系列(11)--批退率通過率等數據分析

系列文章目錄 文章目錄 系列文章目錄前言一、外觀報表1.產能2.固定傷排查3.鏡片不良TOP4.鏡片公式計算5.鏡片良率計算6.鏡片批退率7.鏡筒不良TOP8.鏡筒公式計算9.鏡筒良率計算10.鏡筒批退率 二、反射率報表1.機臺通過率2.鏡片通過率圈數分析3.鏡片通過率罩次分析4.鏡筒通過率圈…

成功在 Conda Python 2.7 環境中安裝 Clipper(eCLIP peak caller)

🔬 成功在 Conda Python 2.7 環境中安裝 Clipper(eCLIP peak caller) 本文記錄了如何在無 root 權限下使用 Conda 環境,解決依賴、構建擴展模塊并成功安裝運行 clipper 的詳細流程。適用于再現 eCLIP 分析流程時遇到 clipper 安裝…

通過 VS Code 連接 GitLab 并上傳項目

通過 VS Code 連接 GitLab 并上傳項目,請按照以下步驟操作: 1. 安裝必要工具 確保已安裝 Git 并配置用戶名和郵箱: git config --global user.name "你的用戶名" git config --global user.email "你的郵箱" 在 VS Cod…

開源夜鶯支持MySQL數據源,更方便做業務指標監控了

夜鶯監控項目最核心的定位,是做一個告警引擎,支持多種數據源的告警。這個版本的更新主要是增加了對 MySQL 數據源的支持,進一步增強了夜鶯在業務指標監控方面的能力。 之前版本的夜鶯主要聚焦在 Prometheus、VictoriaMetrics、ElasticSearch…

SpringCloud + MybatisPlus:多租戶模式與實現

一、多租戶的基本概念 多租戶(Multi-Tenancy) 是指在一套軟件系統中,多個租戶(客戶)共享相同的基礎設施和應用程序,但數據和配置相互隔離的架構模式。其核心目標是 降低成本 和 保證數據安全。 核心特點: 資源共享:租戶共享服務器、數據庫、代碼等資源。數據隔離:通…

Kafka入門:解鎖核心組件,開啟消息隊列之旅

一、引言 Kafka以超高速吞吐、精準的路由策略和永不掉線的可靠性,讓海量數據在分布式系統中暢行無阻。無論你是剛接觸消息隊列的技術小白,還是尋求性能突破的開發老手,掌握 Kafka 核心組件的運作原理,都是解鎖高效數據處理的關鍵…

前端項目Excel數據導出同時出現中英文表頭錯亂情況解決方案。

文章目錄 前言一、Excel導出出現中英文情況。二、解決方案數據處理 三、效果展示總結 前言 在前端項目中實現Excel導出功能時,數據導出excel是常見的業務需求。但excel導出完表頭同時包含了中文和英文的bug,下面是我的經驗分享,應該可以幫助…

《開竅》讀書筆記8

51.學會贊美他人,能凈化心靈,建立良好人際關系,讓生活充滿陽光。 52.欣賞他人的學習過程,能激發潛能,促進相互成長,讓有點共存。 53.別因“自我”一葉障目,要關注他人,欣賞與別欣賞式…

基于 Spring Cloud Gateway + Sentinel 實現高并發限流保護機制

基于 Spring Cloud Gateway Sentinel 實現視頻播放接口限流保護機制 作者:NovaTube 開發者 | 時間:2025-06 標簽:Spring Cloud Gateway、Sentinel、微服務、限流、接口保護 一、背景介紹 在我們開發的在線視頻分享平臺 NovaTube…

CountDownLatch入門代碼解析

文章目錄 核心思想:火箭發射倒計時 🚀最簡單易懂的代碼示例代碼解析運行流程分析 核心思想:火箭發射倒計時 🚀 想象一下發射火箭的場景,在按下最終的發射按鈕之前,必須有好幾個系統同時完成自檢&#xff0…

用Python寫一個可視化大屏

用Python打造可視化大屏:數據洞察新視界 在當今數據爆炸的時代,數據可視化成為了理解和傳達復雜信息的關鍵工具。Python作為一門強大且靈活的編程語言,提供了豐富的庫和工具,讓我們能夠創建出令人驚嘆的可視化大屏。本文將帶你逐步…

20250611讓NanoPi NEO core開發板在Ubuntu core16.04系統下開機自啟動的時候拉高GPIOG8

rootNanoPi-NEO-Core:/# touch open_4g_ec20.sh rootNanoPi-NEO-Core:/# vi open_4g_ec20.sh 【打開使能引腳200 IOG8】 echo 200 > /sys/class/gpio/export echo out > /sys/class/gpio/gpio200/direction echo 1 > /sys/class/gpio/gpio200/value 【切記&#xff1a…

解惑1、為何大容量電容濾低頻,小容量電容濾高頻

一、電容的種類: 鏈接: 二、疑惑 理論推算: 1)Zc1/wc,那么大容量和小容量的電容,不應該都是 越高頻越阻抗低,越容易通過? 2)大容量,積蓄電荷速度慢&#…

如何有效監控JVM環境,保障應用性能

緩慢的Java應用程序、意外崩潰和晦澀的內存問題——這些都是JVM可能在默默承受壓力的信號。JVM監控對于保障Java應用的正常運行時間和最佳性能至關重要,它提供了對Java虛擬機內存、線程和CPU資源使用情況的可見性,使管理員能夠在影響終端用戶之前識別性能…

python:PyQt5 開發一個郵件客戶端,能編寫郵件,發送郵件及附件

PyQt5 郵件客戶端 下面是一個簡潔高效的郵件客戶端實現,支持編寫郵件、添加附件和發送郵件功能: 編寫 eMailClient_qt.py 如下 # -*- coding: utf-8 -*- """ 用 PyQt5 開發一個郵件客戶端,能編寫郵件,發送郵件及…