開發者說 | EmbodiedGen:為具身智能打造可交互3D世界生成引擎

概述

具身智能的發展離不開高質量、多樣化的可交互3D仿真環境。為突破傳統構建方式的瓶頸,我們提出了EmbodiedGen,一個基于生成式AI技術的自動化3D世界生成引擎,助力低成本、高效率地創建真實且可交互的3D場景。用戶僅需輸入任務定義或場景圖像,即可自動化生成多樣化、可交互的3D世界。EmbodiedGen代碼已開源并上線Hugging Face服務,歡迎大家關注使用。

? GitHub代碼**:**

https://github.com/HorizonRobotics/EmbodiedGen

? 技術報告:

https://arxiv.org/abs/2506.10600

? 項目主頁:

https://horizonrobotics.github.io/robot_lab/embodied_gen

圖片

總體框架

為了解決傳統機器人仿真環境因高度依賴人工建模,所導致的高成本、低效率瓶頸,我們提出EmbodiedGen,面向具身智能的可交互3D世界的生成式平臺。系統通過多模態Agent (Scene Designer) 智能解析用戶輸入的場景圖像或任務文本描述,自動化生成符合交互規則與任務流程的結構化布局 (Scene Graph) ,實現高度定制化的場景設計。基于布局藍圖智能調用資產生成模塊,高效生成物理合理的多樣性3D資產:圖像生成3D(從圖像生成物理真實的3D資產),文本生成3D(從自然語言生成3D資產),活動關節物體生成(從雙狀態圖像生成可活動的3D資產),紋理生成編輯(多風格的3D紋理生成與編輯),場景生成(多樣化3D環境背景生成)。最終輸出高保真的可交互3D世界,為機器人感知-決策-執行閉環提供物理精確的仿真環境。

圖片

單圖生成物理真實3D資產賦能高保真數字孿生

圖片

核心能力:

  • 生成的3D資產具有業界領先的幾何質量,真實物理屬性、水密性與簡化網格,可無縫導入多種仿真器中使用;
  • 自動標注語義與質檢標簽,包括資產描述、紋理美學打分、前景提取質量檢驗與幾何質量校驗等;
  • 消除紋理高光,結合法線信息多視角融合,輸出2K分辨率紋理,細節更精致。

自然語言生成3D資產資產庫規模化低成本構建

圖片

核心能力:

  • 支持通過自然語言描述(中&英)生成具備語義一致性、物理真實性的3D資產;
  • 通過Agent系統智能拆解復雜生成需求(如“生成100種風格的杯子”)為不同的風格與形狀描述,并通過質檢標簽自動篩選出視覺效果美觀并且物理幾何合理3D物體資產。

活動關節物體生成雙狀態圖像構建可活動3D資產

圖片

核心能力:

  • 支持櫥柜、抽屜等常見活動關節物體的生成,捕捉幾何結構的同時建模部件之間的連接關系與運動行為;
  • 采用擴散模型實現高質量的可控生成,通過雙狀態消除運動歧義,準確建模物體的關節關系;
  • 輸出的3D物體資產具備物理合理性,適用于交互式仿真環境中的操作與交互,詳見我們發表的另一篇工作 DIPO。

紋理生成與編輯3D資產視覺風格化增廣

圖片

核心能力:

  • 支持以3D網格和文本描述為輸入,生成語義一致、幾何視角一致的高質量2K分辨率紋理;
  • 采用可插拔的可學習模塊,將社區文生圖基礎模型能力遷移到3D紋理生成,最小化再訓練成本;
  • 輸出資產紋理清晰、風格豐富,具備真實感與藝術表現力,支持3D文字紋理生成。

圖片

多樣性場景生成幾何一致的背景3D資產

圖片

核心能力:

  • 自然語言或圖像輸入,生成語義一致、結構合理、尺度真實的3D場景資產;
  • 良好的可擴展性,主要包括全景圖像生成、3D場景生成&迭代補全與尺度坐標對齊三個模塊;
  • 輸出場景包含3D網格與3DGS兩種表達,可作為機器人仿真中的背景資產。

任務驅動的布局生成構建可交互3D世界藍圖

圖片

圖片

圖片

核心能力:

  • 支持輸入自然語言任務描述(如"Franka robotic arm picks shoes")或圖片,一鍵生成語義合理、結構完整的3D可交互世界;
  • 采用多叉樹結構表達3D世界布局藍圖,節點為3D資產描述,邊表示父子從屬關系與空間布局關系;
  • 利用LLM實現低代碼布局搭建,結合物理引擎求解穩態位姿,確保物理可行與交互合理。

具身智能應用

EmbodiedGen以生成式AI重構3D世界構建范式,低成本生成幾何精確、渲染真實的仿真資產(網格+3DGS混合表示),可快速導入仿真引擎,支撐機器人感知-決策-執行全流程閉環,賦能仿真數據生成與算法閉環評測等核心應用,包括以下具體示例:

圖片

通過EmbodiedGen構建物理精確數字孿生,在MuJoCo仿真環境中進行動態交互仿真。

圖片

通過EmbodiedGen生成待評測3D資產,并在Isaac中對操作模型性能進行仿真評測。

圖片

通過EmbodiedGen編輯物體紋理,生成多樣性場景,對RoboTwin搭建的操作任務進行數據資產增廣。

圖片

通過EmbodiedGen生成3D物體資產,用于OpenAI Gym中的導航及避障任務仿真。

總結與展望

EmbodiedGen通過整合圖像、文本等多模態輸入,打通從單體資產生成到物理真實的可交互式3D世界構建的全流程。模塊化設計與生成式AI的深度融合,提高具身智能數據獲取效率與仿真環境多樣性。未來,EmbodiedGen將作為開放平臺持續演進,助力通用智能體的開發與評測,推動具身智能從研究走向應用落地。

致謝

EmbodiedGen涉及以下出色的開源模型和項目:

[1] Jianfeng Xiang, et al. TRELLIS: Structured 3D Latents for Scalable and Versatile 3D Generation. arXiv preprint arXiv:2412.01506.

[2] Tencent Hunyuan3D Team. Hunyuan3D?Delight?v2.0 Model Card, 2025.

[3] Wu Ruiqi, et al. DIPO: Dual-state images controlled articulated object generation powered by diverse data. arXiv preprint arXiv:2505.20460, 2025.

[4] Kirillov Alexander, et al. Segment anything. arXiv preprint arXiv:2304.02643, 2023.

[5] Daniel Gatis, et al. Rembg: A tool to remove images background. 2022.

[6] Xintao Wang, et al. Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data. ICCVW, 2021.

[7] Kolors Team. Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis.

[8] Guo Pu, et al. Pano2Room: Novel View Synthesis from a Single Indoor Panorama. SIGGRAPH Asia 2024.

[9] Feng Mingyuan, et al. Diffusion360: Seamless 360 Degree Panoramic Image Generation based on Diffusion Models. arXiv preprint arXiv:2311.13141, 2023.

[10] Stability AI. Stable Diffusion 3.5 Medium. 2024.

[11] Eftekhar Ainaz, et. Omnidata: A Scalable Pipeline for Making Multi-Task Mid-Level Vision Datasets from 3D Scans. ICCV 2021.

[12] Qwen2.5-VL team. Qwen2.5-VL Technical Report. arXiv preprint arXiv:2502.13923. 2025.

ar Ainaz, et. Omnidata: A Scalable Pipeline for Making Multi-Task Mid-Level Vision Datasets from 3D Scans. ICCV 2021.

[12] Qwen2.5-VL team. Qwen2.5-VL Technical Report. arXiv preprint arXiv:2502.13923. 2025.

[13] OpenAI. GPT-4o https://openai.com/index/hello-gpt-4o 2024.

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/919172.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/919172.shtml
英文地址,請注明出處:http://en.pswp.cn/news/919172.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

GitHub Copilot:AI編程助手的架構演進與真實世界影響

本文由「大千AI助手」原創發布,專注用真話講AI,回歸技術本質。拒絕神話或妖魔化。搜索「大千AI助手」關注我,一起撕掉過度包裝,學習真實的AI技術! 1. 技術背景與核心架構 GitHub Copilot 是由 GitHub 與 OpenAI 聯合開…

PDF OCR + 大模型:讓文檔理解不止停留在識字

在企業數字化的實際場景中,PDF OCR 已經很普遍了:從掃描件提取文本、表格到生成可搜索 PDF。但這類技術往往停留在"把圖片變成文字",對文檔背后的語義、邏輯、業務價值理解不足。 而當 OCR 遇上大語言模型(LLM&#xff…

半敏捷衛星觀測調度系統的設計與實現

半敏捷衛星觀測調度系統的設計與實現 摘要 本文詳細闡述了一個基于Python的半敏捷衛星觀測調度系統的設計與實現過程。系統針對半敏捷衛星特有的機動能力限制,綜合考慮了地面目標觀測需求、衛星資源約束、能源管理等多重因素,提出了一種混合啟發式算法解…

軟件測試中,常用的抓包工具有哪些?抓包的原理是什么?

回答重點在軟件測試中,常用的抓包工具主要有:1)Fiddler2)Wireshark3)Charles4)Postman(它的攔截器功能也可以用于抓包)5)tcpdump抓包的原理大致是通過安裝在本地的抓包工…

Cesium學習(二)-地形可視化處理

Cesium地形可視化是其核心功能之一,允許開發者在3D地球中展示真實的地形數據。以下是關于Cesium地形可視化的詳細處理方法: 文章目錄1. 啟用地形可視化基本地形加載自定義地形提供者2. 地形相關操作地形高度采樣地形夸張效果3. 地形可視化設置地形照明效…

《告別 if-else 迷宮:Python 策略模式 (Strategy Pattern) 的優雅之道》

《告別 if-else 迷宮:Python 策略模式 (Strategy Pattern) 的優雅之道》 大家好,我是你的朋友,一位與 Python 代碼相伴多年的開發者。在我們的編程生涯中,幾乎都曾與一種“代碼怪獸”搏斗過,它就是那冗長、復雜、牽一發而動全身的 if-elif-else 結構。 每當一個新的需求…

Redis--day7--黑馬點評--優惠券秒殺

(以下內容全部來自上述課程)優惠券秒殺 1. 全局唯一ID 每個店鋪都可以發布優惠券:當用戶搶購時,就會生成訂單并保存到tb voucher order這張表中,而訂單表如果使用數據庫自增ID就存在一些問題: id的規律性太明顯受單表數據量的限制…

Vue 與 React 深度對比:設計哲學、技術差異與應用場景

一、核心設計理念對比 特性 Vue React 設計目標 漸進式框架,降低學習曲線 構建大型應用,保持靈活性 設計哲學 “約定優于配置” “配置優于約定” 核心思想 響應式數據綁定 函數式編程 + 虛擬DOM 模板語言 HTML-based 模板 JSX(JavaScript XML) 狀態管理 內置響應式系統 依…

軟件開發 - foreground 與 background

foreground 與 background 1、foreground詞性含義n.前景;最突出的位置.v使突出;強調# 例詞in the 【foreground】(在最顯眼的位置)【foreground】 task(前臺任務)【foreground】 color(前景色&a…

深度學習——03 神經網絡(2)-損失函數

2 損失函數 2.1 概述作用:衡量模型預測結果(y^\hat{y}y^?)和真實標簽(yyy)的差異,差異越大,說明模型參數“質量越差”(需要調整);本質:深度學習訓…

【大模型微調系列-04】 神經網絡基礎與小項目實戰

【大模型微調系列-04】 神經網絡基礎與小項目實戰💡 本章目標:通過構建一個能識別手寫數字的AI模型,讓你真正理解神經網絡是如何"學習"的。2-3小時后,你將擁有第一個自己訓練的AI模型!4.1 理論講解&#xff…

JavaWeb前端(HTML,CSS具體案例)

前言 一直在學習B站黑馬程序員蒼穹外賣。現在已經學的差不多了,但是我學習一直是針對后端開發的,前端也沒太注重去學(他大部分都給課程資料嘻嘻🤪),但我還是比較感興趣,準備先把之前學JavaWeb&…

核心數據結構:DataFrame

3.3.1 創建與訪問什么是 DataFrame?DataFrame 是 Pandas 中的核心數據結構之一,多行多列表格數據,類似于 Excel 表格 或 SQL 查詢結果。它是一個 二維表格結構,具有行索引(index)和列標簽(colu…

深入探索Go語言標準庫 net 包中的 IP 處理

深入探索Go語言標準庫 net 包中的 IP 處理 文章目錄深入探索Go語言標準庫 net 包中的 IP 處理引言核心知識type IP常用函數常用方法代碼示例常見問題1. DNS 查詢失敗怎么辦?2. 如何區分 IPv4 和 IPv6 地址?使用場景1. 服務器端編程2. 網絡監控和調試3. 防…

2.4 雙向鏈表

目錄 引入 結構定義 結構操作 初始化 插入 刪除 打印 查找 隨機位置插入 隨機位置刪除 銷毀 總結 數據結構專欄https://blog.csdn.net/xyl6716/category_13002640.html 精益求精 追求卓越 【代碼倉庫】:Code Is Here 【合作】 :apollomona…

開發指南132-DOM的寬度、高度屬性

寬度、高度類似。這里以高度為例來說明DOM中有關高度的概念:1、height取法:element.style.height說明:元素內容區域的高度,不含padding、border、margin該屬性可寫2、clientHeight取法:element..clientHeight&#xff…

魔改chromium源碼——解除 iframe 的同源策略

在進行以下操作之前,請確保已完成之前文章中提到的 源碼拉取及編譯 部分。 如果已順利完成相關配置,即可繼續執行后續操作。 同源策略限制了不同源(協議、域名、端口)的網頁腳本訪問彼此的資源。iframe 的跨域限制由 Blink 渲染引擎和 Chromium 的安全層共同實現。 咱們直…

在鴻蒙中實現深色/淺色模式切換:從原理到可運行 Demo

摘要 現在幾乎所有主流應用都支持“深色模式”和“淺色模式”切換,這已經成了用戶習慣。鴻蒙(HarmonyOS)同樣提供了兩種模式(dark / light),并且支持應用根據系統主題切換,或者應用內手動切換。…

Redux搭檔Next.js的簡明使用教程

Redux 是一個用于 JavaScript 應用的狀態管理庫,主要解決組件間共享狀態和復雜狀態邏輯的問題。當應用規模較大、組件層級較深或多個組件需要共享/修改同一狀態時,Redux 可以提供可預測、可追蹤的狀態管理方式,避免狀態在組件間混亂傳遞。Red…

SCAI采用公平發射機制成功登陸LetsBonk,60%代幣供應量已鎖倉

去中心化科學(DeSci)平臺SCAI宣布,其代幣已于今日以Fair Launch形式在LetsBonk.fun平臺成功發射。為保障資金安全與透明,開發團隊已將代幣總量的60%進行鎖倉,進一步提升社區信任與項目合規性。SCAI是一個專注于高質量科…