當3D、VR技術在游戲、教育、醫療、文化領域遍地開花,“內容短缺”卻成了制約行業爆發的關鍵瓶頸——傳統3D/4D創作不僅耗時耗力、依賴專業技能,還難以適配消費級設備,讓許多創作者望而卻步。近日,由火山引擎多媒體實驗室聯合領域頂尖學者與產業專家,發起了“Efficient 3D Content Creation for Immersive Experiences”專題Workshop,在今年的SIGGRAPH會議上和與會學者一起展開熱烈討論,以“降低創作門檻,鏈接技術與產業”為核心,用前沿技術為3D、VR內容生態破局!
在SIGGRAPH上,火山引擎多媒體實驗室以“ 3D內容創作”為核心,帶來了三大價值:
-
前沿技術深度解析:從“稀疏數據快速重建3D物體、數字人、場景”、“單目視頻生成4D動態內容”,到“AIG3D”,多媒體實驗室的研發人員聯合了領域頂尖研究者一起揭秘SoTA技術的進展,以及如何讓先進3D技術適配手機、VR頭顯等消費級設備。
-
沉浸式交互體驗:現場,很多參與者戴上Apple Vision Pro、Pico頭顯,以及通過手機終端,親自體驗火山引擎多媒體實驗室提供的“體積視頻”、“單目生成VR”內容,以及AI生成的3D內容進行交互--讓技術不在停留在論文,而是可感知的真實體驗。
-
產學研對話閉環:多媒體實驗室的研發人員在會上帶來了從VR應用、到視頻直播等行業的落地案例,并連同現場學者共同探討“降低3D內容生成成本”“3D視頻標準”等關鍵問題,推動科研成果轉化為可落地的解決方案。
體積視頻
不同于傳統的二維視頻,立體的體積視頻打破了屏幕的限制,更加沉浸式的提供了自由視角的觀看體驗。火山引擎多媒體實驗室圍繞著高保真的多模態體積視頻生成展開了一系列的研究并進行了相關研究成果的分享。這些研究針對于資產高效率生成、實時交互、以及運動遷移等多方面展開算法構建,相關成果已發表于CVPR、Siggraph等國際頂級會議。
運動估計聯合表征解耦的一致性體積視頻建模
針對復雜運動場景中靜態與動態物體的協同建模需求,多媒體實驗室提出了新穎的基于高斯的體積視頻表示方法,實現了穩健的人體表演跟蹤與高保真渲染。該研究的核心思想是利用雙高斯,以實現運動與外觀的解耦與分層表示。該方法顯著提升了時間一致性與跟蹤精度,并支持高效的壓縮策略。此外,本方法在存儲效率上表現突出,每幀僅需約 350KB 存儲空間。同時,該方案在渲染質量上保持高度競爭力,并在各種具有挑戰性的場景中持續展現出卓越的渲染效果與時間一致性。

實驗室利用緊湊數量的運動感知關節高斯來捕捉全局運動,并結合更多的外觀感知皮膚高斯來進行視覺表示。為了建立雙高斯之間的關系,每個皮膚高斯會錨定于多個關節高斯,從而支持位置與旋轉的插值并輔助后續的序列優化。隨后,在逐幀的人體表演跟蹤中,實驗室提出了一種新穎的由粗到細的優化策略,以同時提升時間一致性與渲染保真度。
在上述顯式表達的基礎上,實驗室更進一步設計了相關的壓縮方案,通過可持久化碼本的方式,最高可達 120 倍 的壓縮比。使得多個 4D 資產能夠無縫集成至 VR 環境并實現實時渲染。

可驅動的沉浸式體積視頻建模
面對目前的體積視頻受限于傳統形式的播放的問題,實驗室創新性的實際了可驅動的體積視頻方案,不僅實現準確的自由視角播放,還要能夠在相似但全新的動作驅動下逼真地再現動態場景,與以往工作形成鮮明對比。該方案依賴于對動態高斯表示的細粒度、分層式解耦。進一步地,該研究將稠密的外觀高斯解耦為結構化的位置映射與高斯屬性映射,并與具備泛化能力的神經網絡相結合,通過跟蹤,訓練,重演的三部曲,能夠將形變傳遞方案擴展到運動高斯,在新動作下實現照片級渲染。

面向人體體積視頻的拓撲感知高斯基元優化
另一個長期被忽視的關鍵挑戰——也是本研究的核心關注點——在于對具有拓撲變化的通用動態場景的長時序跟蹤與建模,例如脫下外套。這類拓撲變化以及頻繁的人體-物體交互在真實世界場景中極為普遍,無法簡單地歸結為固定拓撲或僅限人體的假設。針對于此,火山引擎多媒體實驗室提出了一種新的動態高斯表示方法,能夠自適應地處理新觀測的出現與過時觀測的消失。該方法在保持訓練高效與壓縮友好的同時,支持穩健的跟蹤與拓撲自適應。其核心思想是利用稀疏的拓撲感知高斯來表示底層場景運動,并在時空跟蹤器與光度線索的引導下捕捉新出現的觀測,并持續更新局部形變圖。在其生命周期內,每個運動高斯可以派生并激活多個高斯,以建模細粒度的視覺細節。

該方案生成的拓撲感知的高斯表示,不僅能夠在拓撲變化下支持高保真渲染,還能自然適配基于標準視頻編解碼的體積視頻格式。對于全局查找表中的持久高斯,我們采用 Morton 編碼將其投影到二維網格,以保持空間一致性,并提升視頻編解碼中的幀內預測效率;對于瞬態高斯,我們則按照激活時間排序,以契合幀間預測機制。由此,該研究提供了一種統一的、自適應的解決方案,能夠在存在拓撲變化的情況下實現可擴展的體積視頻表示,捕捉“動中之雅”與“靜中之力”的瞬間,呈現與真實世界相融合的沉浸式體驗。

三維重建
火山引擎多媒體實驗室致力于研發三維重建技術,近年來積極探索傳統三維重建技術與大模型技術的結合,三維重建領域產出了多項行業領先成果。
物體重建
多媒體實驗室研發幾何重建大模型,用于降低傳統三維重建鏈路中的采集門檻,可以采用輕量級的采集數據實現高精度場景還原 —— 僅需通過普通相機拍攝幾十張多角度照片,模型即可依托深度學習算法,精準復現物體的三維幾何結構、表面材質細節與空間光影效果,真正達成從實景到數字模型的 “全真復刻”。在技術架構上,該方案采用輕量化前饋設計,通過融合大規模 3D 素材與物品數據,結合 Transformer 架構的全局建模能力,讓模型在單次前向傳播中同步完成相機姿態估計、幾何形態計算、點云自動對齊等核心任務,大幅壓縮重建流程耗時,兼顧效率與精度。目前該模型在3D多個應用領域嶄露頭角,在電商業務中,多媒體實驗室搭建專屬電商采集倉,實現 “商品圖片采集 —3D 模型重建 — 商品首視頻生成” 全流程鏈路,為商家提供一站式 3D / 視頻素材解決方案,助力商家呈現更真實的交互體驗效果。? ? ??
商品運鏡效果
商品光照效果
商品交互展示
同時,在車輛等大型物品的建模中,多媒體實驗室研發算法可實現:用戶使用手機環繞車輛拍攝,即可完成車輛數據采集,并可高質量高效率生成媲美專業設備采集和重建得到的3D素材,最終在客戶端實現沉浸式展示。
用戶環繞拍攝
3D重建
客戶端3D看車
場景重建
火山引擎多媒體實驗室在24年就提出了一種“高質量3D Gaussian-Splatting場景重建及低延遲重渲染技術”,用于對場景進行高質量的重建,并支持復雜的重打光及實時渲染。并已率先落地虛擬直播、XR/AR等場景。該成果被計算機圖形學頂會 SIGGRAPH 2024 收錄,并受邀在 NeRFs & Lighting 專場做正式報告,并在近期入選了SIGGRAPH官方Blog(https://blog.siggraph.org/2025/03/gaussian-splatting-based-rendering-for-high-quality-3d-content-creation.html/)。針對傳統 3D Gaussian-Splatting 難以呈現復雜光影的問題,團隊提出幾何增強算法,首次為每個 3D 高斯引入法線屬性,通過正則化深度/法線約束和外觀嵌入,實現無需額外輸入即可輸出高精度深度與法線圖;并設計基于高斯光柵化的延遲渲染管線,兼容 Unity/UE 全光源類型、實時陰影及 Mesh 混合渲染,可在毫秒級延遲下完成重打光與二次編輯。


目前,該技術已集成至 Unity/UE 插件,助力創作者零成本打造可實時交互的虛擬舞臺,全面拓寬 3D Gaussian-Splatting 在商業內容與沉浸式體驗中的應用邊界。
場景重建用于虛擬直播
多媒體實驗室一直致力于推動三維重建技術的VR應用,在場景重建方面,多媒體實驗室與Pico團隊早在2023年就共同合作“德爺闖東非”“古籍巡游記”等項目,創新性采用三維重建和VR視頻相結合的技術,實現真實大場景的數字化建模,并在Pico中可體驗高自由度的場景漫游。近期,多媒體實驗室進一步迭代了場景重建技術,在超大規模場景(>100km2級別)應用下,可以通過融合高分辨率立體衛星數據、無人機航空數據以及地面單反相機數據,實現現實場景的1:1高精度復刻,并極大程度的降低掃描重建成本。該項技術同Pico美術團隊合作,助力該團隊的美術工作從“純粹創造”轉向了“智能編輯與再創作”,極大地解放了生產力,將現實場景轉化為具有高度藝術表現力的VR場景,搬進PICO產品的大熒幕上。
場景重建用于Pico自由漫游VR場景
AIGC3D
火山引擎多媒體實驗室推出豆包·3D生成模型- Beaver3D—— 一款聚焦 “物理真實、可泛化、可交互” 的 AIGC 3D 基礎大模型,具備高質量網格布線、PBR 紋理生成、真實物理屬性生成以及大尺度3D場景生成能力,推動 3D 生成從 “視覺可信” 向 “物理可用” 跨越。Beaver3D 賦能工業設計、機器人研發、游戲素材制作等領域,降低 3D 內容生產與仿真成本,為多行業提供 “可交互、可驗證” 的虛擬資產解決方案,加速數字化轉型。
多模態3D模型生成
Beaver3D是一款原生3D大模型,依托深度學習架構創新,支持文本、圖像、點云等多模態輸入,能夠在 30 秒內快速輸出具備復雜細節與規整拓撲結構的3D模型,為數字內容創作、數字資產構建、工業設計等場景帶來 “即輸即得” 的高效解決方案。其底層以 Transformer 為核心,結合自主研發的 3DVAE(3D 變分自編碼器)網絡,實現了細節捕捉與指令遵循的雙重突破 —— 通過 3DVAE 高效編碼百萬級 3D 特征點,精準捕捉物體表面局部細節,解決傳統 3D 生成細節模糊丟失的痛點;基于高密度3D特征空間訓練,能夠精準還原用戶輸入指令,生成具備復雜細節和規整拓撲結構的幾何模型。

除了高效的3D幾何生成能力,Beaver3D也支持4K高清紋理與完整 PBR 材質生成,可輸出漫反射、法線、金屬度、粗糙度等多類貼圖,為模型提供極具真實感的渲染支持。其紋理生成框架以 UNet 為底層架構,創新擴展為多分支架構,能同時滿足多種材質屬性的生成需求,實現 PBR 材質屬性的精準還原(如金屬的磨砂質感、木材的紋理細節均能細膩呈現)。借助 AI+3D 基礎模型的融合方式,Beaver3D有效的改善了傳統3D素材制作流程:傳統手工制作需數小時的高精細紋理與材質,現在僅需數分鐘即可完成,且無需專業建模或材質編輯知識,讓創作者從繁瑣的技術實現中解放,更專注于創意表達。這一突破不僅大幅降低了 3D 內容制作的時間與人力成本,更讓 “快速生成高真實感 3D 資產” 成為普通創作者可觸及的能力,推動 3D 內容創作向 “創意優先、技術賦能” 的新階段演進。

Beaver3D - 紋理生成框架圖
物理屬性生成
Beaver3D憑借突破性的圖像到物理模型生成技術,實現了從2D圖像到具備真實物理運動關系的3D模型的端到端生成,不僅完美還原物體的外觀細節,更自動學習并賦予其符合真實世界規律的物理屬性 —— 包括質量、尺度、鉸鏈結構、材質摩擦系數、形變特性及碰撞響應等,使生成的 3D 模型具備 “可交互、可仿真、可遷移” 的核心能力,打破傳統 3D 模型 “重外觀、輕物理” 的局限性。此外,Beaver3D生成模型可以無縫導入物理仿真平臺,比如nvidia isaac,支持機器人抓取、碰撞模擬、動態場景交互等核心仿真場景。Beaver3D不僅為3D內容創作與物理仿真之間搭建了一條高效、精準的橋梁,更賦能工業設計、機器人研發等多領域開發者,以更低成本、更高效率構建 “可交互、可驗證” 的虛擬環境。

場景生成
Beaver3D針對大尺度 3D 場景生成的核心難題,創新性采用前饋式生成技術,實現從單張圖像到完整三維場景的端到端合成。通過在潛在空間中同步生成相機軌跡控制下的RGBD 序列,無需額外后處理即可直接轉化為稠密點云,不僅顯著提升了空間精度與幾何完整性,更輸出了高質量、可直接部署的場景重建結果。依托這一高精度幾何特性,生成的點云與三維場景無縫支持三維重建、虛擬環境搭建、沉浸式交互、機器人仿真等多場景核心任務,為圖像級輸入與真實空間理解構建起高效、精準的轉化橋梁。

Beaver3D 功能展示
附錄
火山引擎多媒體實驗室的前沿探索
火山引擎多媒體實驗室是字節跳動旗下的研究團隊,致力于探索多媒體領域的前沿技術,參與國際標準化工作,其眾多創新算法及軟硬件解決方案已經廣泛應用在抖音、西瓜視頻等產品的多媒體業務,并向火山引擎的企業級客戶提供技術服務。實驗室成立以來,多篇論文入選國際頂會和旗艦期刊,并獲得數項國際級技術賽事冠軍、行業創新獎及最佳論文獎。
關于火山引擎
火山引擎是字節跳動旗下的云服務平臺,將字節跳動快速發展過程中積累的增長方法、技術能力和工具開放給外部企業,提供云基礎、視頻與內容分發、大數據、人工智能、開發與運維等服務,幫助企業在數字化升級中實現持續增長。