直擊3D內容創作痛點-火山引擎多媒體實驗室首次主持SIGGRAPH Workshop,用前沿技術降低沉浸式內容生成門檻

當3D、VR技術在游戲、教育、醫療、文化領域遍地開花,“內容短缺”卻成了制約行業爆發的關鍵瓶頸——傳統3D/4D創作不僅耗時耗力、依賴專業技能,還難以適配消費級設備,讓許多創作者望而卻步。近日,由火山引擎多媒體實驗室聯合領域頂尖學者與產業專家,發起了“Efficient 3D Content Creation for Immersive Experiences”專題Workshop,在今年的SIGGRAPH會議上和與會學者一起展開熱烈討論,以“降低創作門檻,鏈接技術與產業”為核心,用前沿技術為3D、VR內容生態破局!

在SIGGRAPH上,火山引擎多媒體實驗室以“ 3D內容創作”為核心,帶來了三大價值:

  • 前沿技術深度解析:從“稀疏數據快速重建3D物體、數字人、場景”、“單目視頻生成4D動態內容”,到“AIG3D”,多媒體實驗室的研發人員聯合了領域頂尖研究者一起揭秘SoTA技術的進展,以及如何讓先進3D技術適配手機、VR頭顯等消費級設備。

  • 沉浸式交互體驗:現場,很多參與者戴上Apple Vision Pro、Pico頭顯,以及通過手機終端,親自體驗火山引擎多媒體實驗室提供的“體積視頻”、“單目生成VR”內容,以及AI生成的3D內容進行交互--讓技術不在停留在論文,而是可感知的真實體驗。

  • 產學研對話閉環:多媒體實驗室的研發人員在會上帶來了從VR應用、到視頻直播等行業的落地案例,并連同現場學者共同探討“降低3D內容生成成本”“3D視頻標準”等關鍵問題,推動科研成果轉化為可落地的解決方案。

體積視頻

不同于傳統的二維視頻,立體的體積視頻打破了屏幕的限制,更加沉浸式的提供了自由視角的觀看體驗。火山引擎多媒體實驗室圍繞著高保真的多模態體積視頻生成展開了一系列的研究并進行了相關研究成果的分享。這些研究針對于資產高效率生成、實時交互、以及運動遷移等多方面展開算法構建,相關成果已發表于CVPR、Siggraph等國際頂級會議。

運動估計聯合表征解耦的一致性體積視頻建模

針對復雜運動場景中靜態與動態物體的協同建模需求,多媒體實驗室提出了新穎的基于高斯的體積視頻表示方法,實現了穩健的人體表演跟蹤與高保真渲染。該研究的核心思想是利用雙高斯,以實現運動與外觀的解耦與分層表示。該方法顯著提升了時間一致性與跟蹤精度,并支持高效的壓縮策略。此外,本方法在存儲效率上表現突出,每幀僅需約 350KB 存儲空間。同時,該方案在渲染質量上保持高度競爭力,并在各種具有挑戰性的場景中持續展現出卓越的渲染效果與時間一致性。

對偶高斯動態建模方案

實驗室利用緊湊數量的運動感知關節高斯來捕捉全局運動,并結合更多的外觀感知皮膚高斯來進行視覺表示。為了建立雙高斯之間的關系,每個皮膚高斯會錨定于多個關節高斯,從而支持位置與旋轉的插值并輔助后續的序列優化。隨后,在逐幀的人體表演跟蹤中,實驗室提出了一種新穎的由粗到細的優化策略,以同時提升時間一致性與渲染保真度。

在上述顯式表達的基礎上,實驗室更進一步設計了相關的壓縮方案,通過可持久化碼本的方式,最高可達 120 倍 的壓縮比。使得多個 4D 資產能夠無縫集成至 VR 環境并實現實時渲染。

沉浸式PICO VR渲染

可驅動的沉浸式體積視頻建模

面對目前的體積視頻受限于傳統形式的播放的問題,實驗室創新性的實際了可驅動的體積視頻方案,不僅實現準確的自由視角播放,還要能夠在相似但全新的動作驅動下逼真地再現動態場景,與以往工作形成鮮明對比。該方案依賴于對動態高斯表示的細粒度、分層式解耦。進一步地,該研究將稠密的外觀高斯解耦為結構化的位置映射與高斯屬性映射,并與具備泛化能力的神經網絡相結合,通過跟蹤,訓練,重演的三部曲,能夠將形變傳遞方案擴展到運動高斯,在新動作下實現照片級渲染。

運動泛化模型訓練管線

面向人體體積視頻的拓撲感知高斯基元優化

另一個長期被忽視的關鍵挑戰——也是本研究的核心關注點——在于對具有拓撲變化的通用動態場景的長時序跟蹤與建模,例如脫下外套。這類拓撲變化以及頻繁的人體-物體交互在真實世界場景中極為普遍,無法簡單地歸結為固定拓撲或僅限人體的假設。針對于此,火山引擎多媒體實驗室提出了一種新的動態高斯表示方法,能夠自適應地處理新觀測的出現與過時觀測的消失。該方法在保持訓練高效與壓縮友好的同時,支持穩健的跟蹤與拓撲自適應。其核心思想是利用稀疏的拓撲感知高斯來表示底層場景運動,并在時空跟蹤器與光度線索的引導下捕捉新出現的觀測,并持續更新局部形變圖。在其生命周期內,每個運動高斯可以派生并激活多個高斯,以建模細粒度的視覺細節。

拓樸感知建模與視頻壓縮

該方案生成的拓撲感知的高斯表示,不僅能夠在拓撲變化下支持高保真渲染,還能自然適配基于標準視頻編解碼的體積視頻格式。對于全局查找表中的持久高斯,我們采用 Morton 編碼將其投影到二維網格,以保持空間一致性,并提升視頻編解碼中的幀內預測效率;對于瞬態高斯,我們則按照激活時間排序,以契合幀間預測機制。由此,該研究提供了一種統一的、自適應的解決方案,能夠在存在拓撲變化的情況下實現可擴展的體積視頻表示,捕捉“動中之雅”與“靜中之力”的瞬間,呈現與真實世界相融合的沉浸式體驗。

重建渲染結果示意圖

三維重建

火山引擎多媒體實驗室致力于研發三維重建技術,近年來積極探索傳統三維重建技術與大模型技術的結合,三維重建領域產出了多項行業領先成果。

物體重建

多媒體實驗室研發幾何重建大模型,用于降低傳統三維重建鏈路中的采集門檻,可以采用輕量級的采集數據實現高精度場景還原 —— 僅需通過普通相機拍攝幾十張多角度照片,模型即可依托深度學習算法,精準復現物體的三維幾何結構、表面材質細節與空間光影效果,真正達成從實景到數字模型的 “全真復刻”。在技術架構上,該方案采用輕量化前饋設計,通過融合大規模 3D 素材與物品數據,結合 Transformer 架構的全局建模能力,讓模型在單次前向傳播中同步完成相機姿態估計、幾何形態計算、點云自動對齊等核心任務,大幅壓縮重建流程耗時,兼顧效率與精度。目前該模型在3D多個應用領域嶄露頭角,在電商業務中,多媒體實驗室搭建專屬電商采集倉,實現 “商品圖片采集 —3D 模型重建 — 商品首視頻生成” 全流程鏈路,為商家提供一站式 3D / 視頻素材解決方案,助力商家呈現更真實的交互體驗效果。? ? ??

商品運鏡效果

商品光照效果

商品交互展示

同時,在車輛等大型物品的建模中,多媒體實驗室研發算法可實現:用戶使用手機環繞車輛拍攝,即可完成車輛數據采集,并可高質量高效率生成媲美專業設備采集和重建得到的3D素材,最終在客戶端實現沉浸式展示。

用戶環繞拍攝

3D重建

客戶端3D看車

場景重建

火山引擎多媒體實驗室在24年就提出了一種“高質量3D Gaussian-Splatting場景重建及低延遲重渲染技術”,用于對場景進行高質量的重建,并支持復雜的重打光及實時渲染。并已率先落地虛擬直播、XR/AR等場景。該成果被計算機圖形學頂會 SIGGRAPH 2024 收錄,并受邀在 NeRFs & Lighting 專場做正式報告,并在近期入選了SIGGRAPH官方Blog(https://blog.siggraph.org/2025/03/gaussian-splatting-based-rendering-for-high-quality-3d-content-creation.html/)。針對傳統 3D Gaussian-Splatting 難以呈現復雜光影的問題,團隊提出幾何增強算法,首次為每個 3D 高斯引入法線屬性,通過正則化深度/法線約束和外觀嵌入,實現無需額外輸入即可輸出高精度深度與法線圖;并設計基于高斯光柵化的延遲渲染管線,兼容 Unity/UE 全光源類型、實時陰影及 Mesh 混合渲染,可在毫秒級延遲下完成重打光與二次編輯。

原始高斯渲染
重新照明

目前,該技術已集成至 Unity/UE 插件,助力創作者零成本打造可實時交互的虛擬舞臺,全面拓寬 3D Gaussian-Splatting 在商業內容與沉浸式體驗中的應用邊界。

場景重建用于虛擬直播

多媒體實驗室一直致力于推動三維重建技術的VR應用,在場景重建方面,多媒體實驗室與Pico團隊早在2023年就共同合作“德爺闖東非”“古籍巡游記”等項目,創新性采用三維重建和VR視頻相結合的技術,實現真實大場景的數字化建模,并在Pico中可體驗高自由度的場景漫游。近期,多媒體實驗室進一步迭代了場景重建技術,在超大規模場景(>100km2級別)應用下,可以通過融合高分辨率立體衛星數據、無人機航空數據以及地面單反相機數據,實現現實場景的1:1高精度復刻,并極大程度的降低掃描重建成本。該項技術同Pico美術團隊合作,助力該團隊的美術工作從“純粹創造”轉向了“智能編輯與再創作”,極大地解放了生產力,將現實場景轉化為具有高度藝術表現力的VR場景,搬進PICO產品的大熒幕上。

場景重建用于Pico自由漫游VR場景

AIGC3D

火山引擎多媒體實驗室推出豆包·3D生成模型- Beaver3D—— 一款聚焦 “物理真實、可泛化、可交互” 的 AIGC 3D 基礎大模型,具備高質量網格布線、PBR 紋理生成、真實物理屬性生成以及大尺度3D場景生成能力,推動 3D 生成從 “視覺可信” 向 “物理可用” 跨越。Beaver3D 賦能工業設計、機器人研發、游戲素材制作等領域,降低 3D 內容生產與仿真成本,為多行業提供 “可交互、可驗證” 的虛擬資產解決方案,加速數字化轉型。

多模態3D模型生成

Beaver3D是一款原生3D大模型,依托深度學習架構創新,支持文本、圖像、點云等多模態輸入,能夠在 30 秒內快速輸出具備復雜細節與規整拓撲結構的3D模型,為數字內容創作、數字資產構建、工業設計等場景帶來 “即輸即得” 的高效解決方案。其底層以 Transformer 為核心,結合自主研發的 3DVAE(3D 變分自編碼器)網絡,實現了細節捕捉與指令遵循的雙重突破 —— 通過 3DVAE 高效編碼百萬級 3D 特征點,精準捕捉物體表面局部細節,解決傳統 3D 生成細節模糊丟失的痛點;基于高密度3D特征空間訓練,能夠精準還原用戶輸入指令,生成具備復雜細節和規整拓撲結構的幾何模型。

Beaver3D-幾何生成框架圖

除了高效的3D幾何生成能力,Beaver3D也支持4K高清紋理與完整 PBR 材質生成,可輸出漫反射、法線、金屬度、粗糙度等多類貼圖,為模型提供極具真實感的渲染支持。其紋理生成框架以 UNet 為底層架構,創新擴展為多分支架構,能同時滿足多種材質屬性的生成需求,實現 PBR 材質屬性的精準還原(如金屬的磨砂質感、木材的紋理細節均能細膩呈現)。借助 AI+3D 基礎模型的融合方式,Beaver3D有效的改善了傳統3D素材制作流程:傳統手工制作需數小時的高精細紋理與材質,現在僅需數分鐘即可完成,且無需專業建模或材質編輯知識,讓創作者從繁瑣的技術實現中解放,更專注于創意表達。這一突破不僅大幅降低了 3D 內容制作的時間與人力成本,更讓 “快速生成高真實感 3D 資產” 成為普通創作者可觸及的能力,推動 3D 內容創作向 “創意優先、技術賦能” 的新階段演進。

Beaver-3D 紋理生生成框架圖

Beaver3D - 紋理生成框架圖

物理屬性生成

Beaver3D憑借突破性的圖像到物理模型生成技術,實現了從2D圖像到具備真實物理運動關系的3D模型的端到端生成,不僅完美還原物體的外觀細節,更自動學習并賦予其符合真實世界規律的物理屬性 —— 包括質量、尺度、鉸鏈結構、材質摩擦系數、形變特性及碰撞響應等,使生成的 3D 模型具備 “可交互、可仿真、可遷移” 的核心能力,打破傳統 3D 模型 “重外觀、輕物理” 的局限性。此外,Beaver3D生成模型可以無縫導入物理仿真平臺,比如nvidia isaac,支持機器人抓取、碰撞模擬、動態場景交互等核心仿真場景。Beaver3D不僅為3D內容創作與物理仿真之間搭建了一條高效、精準的橋梁,更賦能工業設計、機器人研發等多領域開發者,以更低成本、更高效率構建 “可交互、可驗證” 的虛擬環境。

物理屬性生成框架圖

場景生成

Beaver3D針對大尺度 3D 場景生成的核心難題,創新性采用前饋式生成技術,實現從單張圖像到完整三維場景的端到端合成。通過在潛在空間中同步生成相機軌跡控制下的RGBD 序列,無需額外后處理即可直接轉化為稠密點云,不僅顯著提升了空間精度與幾何完整性,更輸出了高質量、可直接部署的場景重建結果。依托這一高精度幾何特性,生成的點云與三維場景無縫支持三維重建、虛擬環境搭建、沉浸式交互、機器人仿真等多場景核心任務,為圖像級輸入與真實空間理解構建起高效、精準的轉化橋梁。

場景生成框架

Beaver3D 功能展示

附錄

火山引擎多媒體實驗室的前沿探索

火山引擎多媒體實驗室是字節跳動旗下的研究團隊,致力于探索多媒體領域的前沿技術,參與國際標準化工作,其眾多創新算法及軟硬件解決方案已經廣泛應用在抖音、西瓜視頻等產品的多媒體業務,并向火山引擎的企業級客戶提供技術服務。實驗室成立以來,多篇論文入選國際頂會和旗艦期刊,并獲得數項國際級技術賽事冠軍、行業創新獎及最佳論文獎。

關于火山引擎

火山引擎是字節跳動旗下的云服務平臺,將字節跳動快速發展過程中積累的增長方法、技術能力和工具開放給外部企業,提供云基礎、視頻與內容分發、大數據、人工智能、開發與運維等服務,幫助企業在數字化升級中實現持續增長。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/96877.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/96877.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/96877.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

華為基本命令

我們使用的是華為官方的模擬器eNSP 一、華為設備的模式 華為的設備有兩種模式: 用戶視圖和系統視圖 用戶視圖只能讀取,或者進行一些基礎查詢 系統視圖能對設備和接口進行一些配置管理,和一些高級操作 在“用戶視圖”下使用system-view系統可…

2025.9.14英語紅寶書【必背16-20】

單詞組合 中文速記句子 英文句子 confine, misery, necessitate, negotiate, preach, precaution, precision, stretch 病人被 confine(限制) 在床上,感受 misery(痛苦),情況 necessitate(需要) 醫生 negotiate(商討),牧師 preach(布道) 并提醒 precaution(預防)…

HUST-STAR電控組視覺任務

視覺任務 注意:視覺部分建議采用 python 完成,下面教程也大多針對 python。其原因在于 python 配置相應環境更為輕松,且內置庫較為豐富,屬于初學者友好類型。沒接觸過 python 也不必擔心,它的大體邏輯與 C 相近&#…

壓縮和歸檔 文件傳輸

壓縮和歸檔壓縮:4G----1.5Gbzip2-bunzip2 gzip-gunzip xz-unxzgzip 要壓縮的文件原來的文件就會被刪除 (壓縮和解壓縮)會生成一個 aaa.gz 的文件歸檔: 4G----4G 打包tarc 創建歸檔文件 v 看到創建的詳細過程 f 文件類型 t 不展開歸檔文件&…

深入探索 C++ 元組:從基礎到高級應用

在現代 C 編程中,元組(std::tuple)是一個強大且靈活的容器,能夠存儲和操作多個不同類型的數據。它在標準庫中扮演著重要角色,并在實際開發中提供了諸多便利。本文將全面探討 C 元組的各個方面,從基礎用法到…

Excel批量處理一列數據---分列功能

0 Preface/Foreword當有多行數據需要處理時,為了減少手動操作,可以EXCEL數據分列功能可以提高效率。1 數據分列1.1 數據分類步驟如下:選中需要處理的一列數據;選擇菜單欄中的“數據”;選擇分列按照需求設置即可1.2 查找…

HTTPS + 域名 + 雙向證書認證(下)

文章目錄1. .p12文件1.1 主要特點1.2 常見用途1.3 常見操作1.4 與其他格式的區別1.5 與公鑰的區別和聯系1.6 安全性注意事項2. Nginx 配置2.1 location指令2.2 alias 與 root 指令的區別3 雙向認證配置3.1 創建根證書3.1.1 生成根CA的私鑰3.1.2 生成請求證書3.1.3 生成自簽署CA…

嵌入式 - ARM3

一、arm啟動C語言1. 配置異常向量表2. 實現了軟件中斷的部分注:ldmfd sp!, {r0-r12, lr} ldmfd sp!, {r0-r12, pc}^ bx lr 左半部分:繁瑣易理解的返回方式:先彈出所有通用寄存器和lr &…

如何通過標簽和分類提升知識復用效率

通過標簽和分類提升知識復用效率,其核心在于構建一個結構化與靈活性兼備的知識組織體系。這需要將分類的“確定性”與標簽的“多維性”進行有效結合,為知識的存儲與檢索建立清晰的“骨架”和豐富的“神經網絡”。具體實踐中,要求我們進行頂層…

ZYNQ PS讀寫PL BRAM

一、實驗室任務 本章的實驗任務是 PS 將數據寫入BRAM,然后從 BRAM 中讀出數據,并通過串口打印出來;與此同時,PL 從通過自定義ip核從BRAM中同樣讀出數據,并通過ILA 來觀察讀出的數據與串口打印的數據是否一致。這里是通…

LinuxC++項目開發日志——高并發內存池(5-page cache框架開發)

PageCachepage cache 設計邏輯一、PageCache 的核心定位:理解它與 CentralCache 的本質區別二、PageCache 的內存分配流程:從 “精確匹配” 到 “拆分適配”三、PageCache 的內存釋放流程:合并小 Span,解決內存碎片問題page cache…

Matplotlib:繪制你的第一張折線圖與散點圖

Matplotlib入門:繪制你的第一張折線圖與散點圖導語 歡迎來到 Matplotlib 的世界!對于任何使用 Python 進行數據分析或機器學習的人來說,數據可視化都是一項至關重要的技能。Matplotlib 是 Python 中最流行、最基礎的可視化庫,它功…

MySQL保姆級安裝教程

MySQL 安裝詳細文檔,適用于 Windows、macOS 和 Linux 系統,包含了從下載到驗證安裝的完整步驟: 一、Windows 系統安裝 MySQL 1. 下載 MySQL 安裝包 訪問 MySQL 官方下載頁:https://dev.mysql.com/downloads/installer/選擇 “MySQ…

重塑你的大腦:從理解突觸到掌控人生

重塑你的大腦:從理解突觸到掌控人生你是否曾對自己的某些行為感到無力?明知應該早睡,卻總忍不住刷手機;下定決心要鍛煉,卻常常半途而廢。這些困擾我們的習慣,并非簡單的意志力問題,其根源深深植…

《C++進階之STL》【哈希表】

【哈希表】目錄前言------------概念介紹------------1. 什么是哈希?------------核心術語------------一、哈希函數1. 哈希函數的核心特點是什么?2. 哈希函數的設計目標是什么?3. 常見的哈希函數有哪些?直接定址法除法散列法乘法…

機器學習-模型驗證

驗證泛化誤差 在一個數據集上估計誤差,數據集只能使用一次驗證數據集:可以被使用多次 基本是訓練數據集中的一部分 當使用“test”時,大多數時候指的是驗證數據集 生成驗證數據集方法 1、數據隨機分入訓練集或驗證集 總是隨機選n%的數據作為驗…

Qt中自定義控件的三種實現方式

Qt中自定義控件的三種實現方式 在 Qt 應用開發中,標準控件往往無法滿足所有需求。自定義控件允許開發者創建具有特定功能和外觀的控件,提高代碼復用性和界面一致性。Qt 提供了多種方式來開發自定義控件,從簡單的組合現有控件到完全自定義繪制…

少兒舞蹈小程序(14)在線預約

目錄1 創建數據模型2 搭建預約按鈕3 搭建表單4 搭建管理功能整體效果總結目前我們的首頁已經開發完畢了,包含輪播圖、機構介紹、校區展示、作品與活動展示功能。家長在小程序了解了機構的基本情況之后,下一步就是參加試聽,在線下真實體驗一下…

TDengine 數據寫入詳細用戶手冊

TDengine 數據寫入用戶手冊 概述 TDengine 提供了多種靈活的數據寫入方式,以滿足不同應用場景的需求。本手冊將以智能電表場景為例,向初學者詳細介紹各種數據寫入方法的使用。 智能電表場景設定 假設我們需要為智能電表系統建立數據庫: …

PTA 天梯賽 7-43:字符串關鍵字的散列映射

【題目來源】 https://pintia.cn/problem-sets/15/exam/problems/type/7?problemSetProblemId890 【題目描述】 給定一系列由大寫英文字母組成的字符串關鍵字和素數 P,用移位法定義的散列函數 H(Key) 將關鍵字 Key 中的最后 3 個字符映射為整數,每個字…