CVPR 2025 | 具身智能 | HOLODECK:一句話召喚3D世界,智能體的“元宇宙練功房”來了

關注gongzhonghao【CVPR頂會精選

1.導讀

1.1 論文基本信息

  • 論文標題:《HOLODECK: Language Guided Generation of 3D Embodied AI Environments》

  • 作者Yue Yang*1, Fan-Yun Sun*2, Luca Weihs*4, Eli Vanderbilt4, Alvaro Herrasti4,Winson Han4, Jiajun Wu2, Nick Haber2, Ranjay Krishna3,4, Lingjie Liu1,Chris Callison-Burch1, Mark Yatskar1, Aniruddha Kembhavi3,4, Christopher Clark4

  • 作者單位賓夕法尼亞大學、斯坦福大學、華盛頓大學、艾倫人工智能研究所等

  • 發表會議:CVPR(計算機視覺與模式識別會議)

  • 論文鏈接https://arxiv.org/abs/2312.09067

圖靈學術論文輔導

2.論文概述

2.1 問題與背景

該論文提出了一種名為HOLODECK的系統,旨在通過文本描述自動生成多樣化、可定制且可交互的3D具身智能環境,以解決現有3D環境生成方法需要大量人工投入且多樣性受限的問題。HOLODECK利用大型語言模型的常識知識來理解復雜的用戶查詢,并通過約束優化方法來合理布局場景中的物體,從而確保生成環境的物理合理性和語義一致性

圖片

2.2 系統模塊核心

HOLODECK系統的核心在于其模塊化設計,它將復雜的3D場景生成任務分解為四個子模塊:樓層與墻體、門窗、物體選擇和基于約束的布局設計。這種方法使其能夠根據用戶輸入的提示詞,自動生成符合特定風格或包含精細化需求的場景。論文通過大規模人類評估,證明HOLODECK生成的住宅場景優于現有的程序化基線方法,并且能夠生成高質量的多樣化場景。此外,研究還展示了HOLODECK在具身智能中的應用,證明了使用HOLODECK生成的新穎場景訓練智能體,可以顯著提升其在零樣本物體導航任務中的泛化能力 。

圖片

3.研究背景及相關工作

3.1 具身智能環境的挑戰

具身智能體的訓練通常依賴于模擬器環境。然而,現有的3D環境生成方法面臨著諸多挑戰。傳統方法如人工設計或3D掃描,需要耗費大量人力和專業知識,且難以大規模擴展和保證場景的多樣性。雖然程序化生成框架能夠生成大規模交互式環境,但其依賴于硬編碼規則,限制了場景的豐富性和可定制性。

圖片

3.3 2D基礎模型與3D場景生成

一些工作嘗試將2D基礎模型應用于文本驅動的3D場景生成。然而,這些方法通常會產生網格失真等明顯偽影,且缺乏具身智能所需的交互性。另一些模型雖然專注于特定的任務,如平面圖生成或物體排列,但它們通常缺乏整體場景的一致性,且嚴重依賴于特定任務的數據集。

圖片

3.3 文本驅動的3D生成

早期的文本驅動3D生成工作主要側重于從類別特定的數據集中學習3D形狀或紋理。隨著大型視覺-語言模型的出現,實現了零樣本的3D紋理和物體生成。但這些方法在生成復雜3D場景時表現不佳。與這些方法不同,HOLODECK利用了一個包含海量資產的3D數據庫,以生成語義精確、空間高效且可交互的3D環境 。

4.實驗設計和方法

4.1 總體架構設計

HOLODECK是一個基于A12-THOR框架并結合了Objaverse海量資產的系統,其核心思想是利用大型語言模型將高級別的自然語言描述轉化為一系列用于構建3D場景的低級別指令。整個場景的生成過程被分解為四個相互協作的模塊,每個模塊都通過與LLM進行多輪對話來完成特定的任務。

樓層與墻體模塊:

  • 該模塊負責創建房間的平面圖、構建墻體結構,并為地板和墻壁選擇合適的材料。LLM會直接生成房間的坐標和連接信息,每個房間被定義為由四個元組坐標確定的矩形。該模塊能夠根據復雜的輸入生成精細的多房間平面圖。此外,它還能從236種材料和148種顏色中進行匹配,以實現場景的語義定制化。

圖片

物體選擇模塊:

  • 該模塊允許LLM根據場景描述來選擇合適的物體。HOLODECK利用龐大的Objaverse資產庫,根據LLM建議的描述和尺寸來檢索最佳的3D資產。

基于約束的布局設計模塊:

  • HOLODECK預定義了十種空間關系約束,分為五類:全局、距離、位置、對齊和旋轉。這些約束被視為軟約束,并通過一個優化算法來解決,以找到滿足最多約束的合理布局。同時,系統還強制執行硬約束,以防止物體碰撞并確保所有物體都在房間邊界內。

圖靈學術論文輔導

5. 實驗結果分析

5.1 住宅場景的人類評估

在一項與PROCTHOR的對比研究中,680名參與者對HOLODECK和PROCTHOR生成的住宅場景進行了評估。結果顯示,在資產選擇、布局一致性和整體偏好三個方面,人類評估者都明顯偏向HOLODECK。

在整體偏好上,64.4%的評估者更喜歡HOLODECK,而只有23.3%的評估者更喜歡PROCTHOR。此外,使用CLIP分數進行的視覺一致性量化評估也顯示,HOLODECK的得分顯著高于PROCTHOR,且接近人類專家設計的場景,進一步證明了其生成視覺連貫場景的能力。

圖片

5.2 多樣化場景的生成能力

為了評估HOLODECK在住宅場景之外的表現,研究人員讓人類對52種不同類型的場景進行了評分。結果表明,HOLODECK在超過一半(28/52)的場景類型上獲得了比PROCTHOR更高的平均偏好分數。

圖片

5.3 在具身智能中的應用

論文展示了HOLODECK在具身智能中的一個激動人心的應用:零樣本物體導航。研究人員在一個名為NOVELTYTHOR的新穎基準上進行了實驗。結果顯示,使用HOLODECK生成的新場景進行微調的智能體,其零樣本導航成功率和路徑長度加權成功率都顯著高于基線模型。這表明HOLODECK生成的訓練環境能夠幫助智能體更好地泛化到以前未見過的場景和物體類型。論文指出,HOLODECK在物體放置上的能力,是其優于基線的主要原因之一 。

圖片

6.論文總結展望

6.1 論文總結

該論文成功地提出了HOLODECK系統,一個由大型語言模型驅動的、能夠從文本描述中生成多樣化和可交互的3D具身智能環境的系統。

HOLODECK通過將生成過程分解為多個模塊,并利用LLM的常識知識和一種新穎的基于空間關系約束的布局優化方法,克服了傳統方法在多樣性、可定制性和物理合理性方面的局限。

大規模的人類評估結果一致表明,HOLODECK生成的場景質量優于現有基線,且能夠很好地泛化到各種場景類型。此外,通過零樣本物體導航實驗,研究還驗證了HOLODECK生成的場景在訓練具身智能體方面的實用性。

圖片

6.2 論文展望

盡管HOLODECK取得了顯著成就,但論文也指出了一些局限性。目前,該系統在處理需要非常復雜布局或需要其資產庫中不存在的獨特物體(如牙科診所的X光機)的場景時仍然面臨挑戰。未來工作的方向可以包括擴大資產庫,并引入更復雜的布局算法來解決這些問題。此外,該系統為進一步探索文本驅動的3D交互式場景生成開辟了新的途徑。

本文選自gongzhonghao【CVPR頂會精選

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/93909.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/93909.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/93909.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

迅為RK3568開發板搭建Ubuntu環境

本小節介紹開發所需 Ubuntu 環境的搭建方法。系統要求:Ubuntu 系統要求:Ubuntu18.04~21.10 版本。推薦使用 20.04 版本,內存 16GB 及以上,硬盤 100GB 及以上。Ubuntu 系統的用戶名不能包含中文字符。建議 Ubuntu 和 Windows 系統上安裝的 Dev…

【數據結構】用堆解決TOPK問題

設計一個算法,找出數組中最小的k個數。以任意順序返回這k個數均可。示例:輸入: arr [1,3,5,7,2,4,6,8], k 4 輸出: [1,2,3,4]比較替換堆頂的數時,不需要讓堆頂與數組的每一個數再進行比較,比較數組減去k個…

【深度長文】Anthropic發布Prompt Engineering全新指南

目錄 1.什么時候適合用提示工程? 2.如何進行提示工程 2.1 使用提示模板 2.1.1 使用提示模板和變量 2.1.2 何時使用提示模板和變量 2.1.3 提示模板示例 2.2 保持清晰和直接 2.2.1 如何保持清晰、具有上下文和具體 2.2.2 示例 ?2.3 使用示例(多示例提示…

【基礎-判斷】HarmonyOS提供了基礎的應用加固安全能力,包括混淆、加密和代碼簽名能力

正確 解釋如下: 應用加固: 這是指對應用程序進行保護,使其更難被逆向工程、篡改或盜版。HarmonyOS 作為現代操作系統,確實提供了這樣的基礎安全能力。 混淆: HarmonyOS 的 SDK 提供了代碼混淆工具(通常基于 ProGuard 或類似技術)。開發者在構建應用時啟用混淆,可以將類…

HTML 框架:構建網頁布局的基石

HTML 框架:構建網頁布局的基石 引言 HTML 框架是網頁設計中不可或缺的一部分,它為網頁內容的布局提供了強大的支持。本文將深入探討 HTML 框架的概念、種類、應用以及如何有效地使用它們來構建網頁布局。 什么是 HTML 框架? HTML 框架是一種網…

[Linux]學習筆記系列 -- [mm][memblock]

文章目錄mm/memblock.c: Linux內核的“拓荒時代”內存管理器一、 核心問題:為什么需要 memblock?二、 核心原理與設計三、 在內核啟動流程中的角色四、 關鍵 API五、 總結include/linux/memblock.hmm/memblock.cmemblock_reserve 預留內存塊for_each_mem…

Java 面試八股文匯總(1000 道附答案解析)

在過 2 個月即將進入金九銀十了,然而面對今年的大環境而言,跳槽成功的難度比往年高了很多,很明顯的感受就是:對于今年的 java 開發朋友跳槽面試,無論一面還是二面,都開始考驗一個 Java 程序員的技術功底和基…

給純小白的Python操作 PDF 筆記

一、文件基礎打開與關閉 推薦用 with open(path, mode, encodingutf-8) as f:,自動完成 close(),避免泄露文件句柄。常見模式:r 讀,w 寫覆蓋,a 追加,rb/wb 二進制。Windows 默認編碼為 GBK,Linu…

vue使用vue-cropper實現圖片裁剪之單圖裁剪

vue制作的pc系統中(如若依系統),需要實現按照固定尺寸進行裁剪后再進行圖片上傳,以下代碼講述的是實現單張圖片裁剪上傳。1.第一步需要安裝vue-croppernpm install vue-cropper2.第二步在需要的頁面進入代碼引入import {VueCropper} from "vue-crop…

后臺管理系統-5-vue3之子路由渲染首頁及卡片容器和表格容器實現

文章目錄 1 子路由的實現 1.1 router/index.js 1.2 views/Home.vue(首頁) 1.3 Main.vue 2 左上方的卡片 2.1 分欄間隔(Layout布局) 2.2 卡片容器(el-card) 2.3 整體代碼Home.vue 3 左下方的table(靜態實現) 3.1 準備數據 3.2 渲染表格(el-table) 3.3 整體代碼Home.vue 4 附錄 子…

在CentOS系統中查詢已刪除但仍占用磁盤空間的文件

在CentOS系統中查詢已刪除但仍占用磁盤空間的文件在CentOS系統中查詢已刪除但仍占用磁盤空間的文件1. 檢查磁盤整體使用情況2. 查找被刪除但仍被進程占用的文件3. 釋放磁盤空間4. 替代方案(不終止進程)注意事項補充工具在CentOS系統中查詢已刪除但仍占用…

正點原子【第四期】Linux之驅動開發學習筆記-1.1 Linux驅動開發與裸機開發的區別

前言: 本文是根據嗶哩嗶哩網站上“正點原子【第四期】手把手教你學Linux系列課程之 Linux驅動開發篇”視頻的學習筆記,該課程配套開發板為正點原子alpha/mini Linux開發板。在這里會記錄下正點原子 I.MX6ULL 開發板的配套視頻教程所作的實驗和學習筆記內…

Android SystemServer 中 Service 的創建和啟動方式

今天導師給我將講了一些如何新建一個系統服務,以及如何去初始化。 Android SystemServer 中 Service 的創建和啟動方式 在 Android 系統中,SystemServer 是系統服務的核心進程,負責啟動和管理各種系統服務。以下是 SystemServer 中服務創建和…

SQL SERVER中位數

有11家門店數據,要求每天所有門店的各個指標的中位數1.第一種做法,使用PERCENTILE_CONT() 函數 SQL SERVER 2012 版本及以上PERCENTILE_CONT 函數簡介PERCENTILE_CONT 是 SQL 中的窗口函數,用于計算連續百分位數&#…

【java中springboot引入geotool】

學習目標: 在Spring Boot項目中引入GeoTools庫,可以按照以下步驟進行:理解GeoTools庫的基本信息和用途 GeoTools是一個開源的Java庫,用于處理地理信息系統(GIS)數據。它提供了對空間數據的讀取、寫入、查詢…

多項目開發環境:如何使用update-alternatives管理多版本Java JDK?(Windows、Mac、Ubuntu)

如何使用update-alternatives管理多版本Java JDK?(Windows、Mac、Ubuntu) 📖 摘要 在實際開發中,往往會遇到既要維護老項目又要跟進新特性的場景,這就需要在一臺機器上同時安裝并切換多個Java JDK版本。本…

力扣57:插入區間

力扣57:插入區間題目思路代碼題目 給你一個 無重疊的 ,按照區間起始端點排序的區間列表 intervals,其中 intervals[i] [starti, endi] 表示第 i 個區間的開始和結束,并且 intervals 按照 starti 升序排列。同樣給定一個區間 newInterval […

KVM虛擬化技術解析:從企業應用到個人創新的開源力量

1 .KVM:開源虛擬化的核心引擎 KVM(Kernel-based Virtual Machine)作為Linux內核原生集成的開源虛擬化模塊,徹底改變了現代數據中心的虛擬化格局。它通過將Linux內核轉變為Type-1型虛擬機監控器(Hypervisor)…

28.Linux :通過源代碼編譯安裝lamp

Linux :通過源代碼編譯安裝lamp 區別特性源代碼編譯安裝yum 安裝安裝方式從源代碼編譯構建預編譯的二進制包自定義程度高度可定制有限定制性能優化可針對特定硬件優化通用優化依賴管理手動解決依賴關系自動解決依賴安裝復雜度復雜,需技術經驗簡單&#x…

應用控制技術

一、 應用特征識別技術1.傳統行為檢測技術1.1 五元組檢測原理1.2 配置思路1.3 效果展示需求背景21.4 傳統行為檢測的缺陷無法識別應用層內容:若應用更換端口(如QQ改用隨機端口)或偽裝協議(如HTTPS加密),傳統…