XR技術體系淺析:VR、AR與MR的區別、聯系與應用實踐
作者:EQ 雪梨蛋花湯
本文是技術分享文檔,淺析VR(虛擬現實)、AR(增強現實)、MR(混合現實)的定義、特性、技術演進路線,并分析AR中的OST(光學透視)與VST(視頻透視)兩大實現路徑,及其與MR技術的融合趨勢。
第一章:XR概念總覽與技術譜系
XR(Extended Reality)是虛擬與現實空間融合的綜合技術名,包括VR、AR和MR。其本質是用數字信息擴展或更新現實感知,實現用戶與虛擬內容、現實場景的高度融合和交互。
1.1 基本概念介紹
- VR(虛擬現實):構建純虛擬的世界,用戶被完全隔絕于現實世界,中心是“深度沉浸”。
- AR(增強現實):將虛擬元素、信息、動畫在現實環境中加以重新視覺擴展,重點是“現實上的增強”。
- MR(混合現實):將虛擬世界與現實世界規劃為一個可以相互作用、環境共享的空間,其核心是“虛實融合、物理交互”。
1.2 XR技術聯系
XR三類技術(VR、AR、MR)在硬件架構、數據流、顯示技術、交互方式方面各有側重,但又存在強關聯性。如下圖所示:
1.3 XR發展脈絡與趨勢
XR并非單一技術進化結果,而是由以下幾條技術路徑交匯而成:
- 計算平臺:從PC -> 移動端 -> 邊緣計算 -> 云渲染;
- 感知能力:由視覺為主擴展至多模態傳感器(IMU、深度、語音);
- 網絡演進:從4G到5G/6G推動了低延遲XR體驗;
- 人機交互:從手柄到裸手再到腦機接口探索。
第二章:AR技術分析:OST與VST方案
增強現實技術的核心是“在現實的基礎上進行信息擴展”。根據環境采集和展示方式,分為OST和VST兩類基本實現路徑。
2.1 OST(Optical See Through)原理與特性
OST通過半透鏡直接觀看現實世界,將虛擬圖像投射于用戶眼前。是一種光學線路雙路并行的設計。
技術特點
- 現實圖像無需處理,無延遲。
- 虛擬圖像需要出光光路與觀感光路完美對齊,否則有錯位感。
- 因光學透明,無法做好虛實遮擋,虛擬物體很難擋住現實物體。
工作流程
應用特征
- 更適合室外強光場景下的信息提示。
- 通常使用空間定位技術進行圖像錨定。
- 對顯示器亮度與視場角要求較高。
2.2 VST(Video See Through)原理與特性
VST方案采用攝像頭拍攝現場環境,通過應用程序進行虛擬圖像結合和添加,最后返回到顯示屏幕。
技術特點
- 無光學通道,所有觀看內容由數字編輯。
- 可精確控制虛擬遮擋,進行深度挖掘。
- 對硬件和后端處理性能要求高,容易造成延遲。
數據流基本流程
應用特征
- 適合需要復雜交互或遮擋效果的增強現實。
- 室內場景表現優于OST。
- 支持與AI視覺分析、SLAM等系統結合。
2.3 OST與VST技術格式對比
組合項 | OST(光學透視) | VST(視頻透視) |
---|---|---|
環境觀看路徑 | 光學直視 | 數字轉換 |
虛實遮擋效果 | 不可精確控制 | 可完全支持深度遮擋 |
延遲 | 極低/無 | 有延遲(取決于系統效率) |
補光、帶寬 | 光影易變 | 可由后端調整 |
實現難點 | 光學對齊、視覺校準 | 攝像頭同步、圖像畸變矯正 |
2.4 AR內容的空間錨定機制
AR體驗核心在于“穩定”的虛擬物體放置,這依賴于錨定技術:
- 圖像錨定(Image Anchoring):識別預定義圖案,如海報、書本等;
- 平面錨定(Plane Tracking):自動識別水平/垂直平面;
- 空間錨定(World Anchors):記錄某一三維位置,便于回訪。
ARCore 是 Google 推出的用于打造增強現實體驗的平臺。ARCore 利用不同的 API 讓您的手機能夠感知其環境、理解世界并與信息進行交互。其中一些 API 在 Android 和 iOS 上提供,以實現共享 AR 體驗。
ARCore 的運動跟蹤技術使用手機的攝像頭來識別興趣點(稱為特征),并跟蹤這些點隨時間的移動情況。ARCore 會綜合考慮這些點的移動和手機慣性傳感器的讀數,確定手機在空間移動時的位置和方向。
除了識別關鍵點之外,ARCore 還可以檢測平坦的表面(例如桌子或地板),還可以估算周圍區域的平均光照強度。這些功能相結合,讓 ARCore 可以構建自己對周圍世界的理解。
當您的手機在現實世界中移動時,ARCore 會使用視覺SLAM來理解手機相對于周圍環境的位置。ARCore 會檢測捕獲的攝像頭圖像中視覺上不同的特征(稱為特征點),并使用這些點來計算其位置變化。這些視覺信息會與設備 IMU 的慣性測量結果相結合,以估算攝像頭相對于周圍世界的姿態(位置和方向)。
環境識別:
第三章:VR技術結構與基礎實現
虛擬現實是構建一個完全由計算機生成的三維空間,用戶沉浸其中,通過交互裝置進行導航、交互、觀察等操作。該系統核心是“沉浸性”與“交互性”的結合。
3.1 VR系統構成模塊
- 空間追蹤系統:負責獲取頭部和手部的位置變化,實現視角跟蹤。
- 圖形渲染模塊:由游戲引擎(如Unity)實時生成虛擬世界圖像。
- 音頻系統:實現3D空間音效渲染,增強沉浸感。
- 交互系統:支持控制器輸入、手勢操作、眼動跟蹤等。
3.2 虛擬場景設計原則
- 一致性:用戶行為與視覺反饋之間保持一致。
- 響應性:快速響應用戶操作,避免延遲感知。
- 沉浸性:通過視覺、聽覺、觸覺構建完整虛擬空間。
- 導航性:提供良好的移動與空間感知機制,如傳送、搖桿、手勢位移等。
3.3 VR交互方式
- 空間控制器:按鍵+空間定位。
- 手勢識別:攝像頭識別用戶手部動作。
- 語音識別:語義命令驅動行為。
- 眼動追蹤:焦點驅動選擇與界面互動。
3.4 VR圖形渲染流水線詳解
現代VR圖像通常由游戲引擎(如Unity/Unreal)根據以下步驟生成:
- 用戶位置更新(傳感器);
- 構建視角投影矩陣;
- 渲染左右眼視圖;
- 圖像畸變矯正;
- 推送至屏幕顯示。
第四章:MR核心機制與VST融合路徑
混合現實不僅強調在現實世界中加入虛擬內容,更要求虛擬內容與現實環境的物理屬性發生交互,例如遮擋、碰撞、共享空間等。
4.1 MR實現基礎
MR通常在VST的基礎上增加以下模塊:
- 空間定位與建圖(SLAM):實時構建用戶所處空間地圖。
- 深度傳感與理解:利用結構光、ToF或AI視覺理解環境深度。
- 虛實遮擋融合:判斷虛實物體位置關系實現正確遮擋。
- 交互管理:響應手勢、眼動、語音命令,驅動虛擬物體行為。
4.2 MR與VST的融合邏輯
- MR繼承VST的圖像路徑,增強其深度感知能力。
- 使用空間錨點與真實世界場景構建虛擬映射。
- 實現雙向交互(如“碰撞虛擬墻體”或“用手推動虛擬按鈕”)。
4.3 虛實遮擋技術原理
MR核心在于虛擬物體正確“遮擋”現實對象,或被現實對象遮擋。這需要:
- 精確獲取真實世界深度圖;
- 建立真實物體的三維包圍盒(bounding box);
- 在渲染管線中依據Z-buffer處理遮擋優先級。
4.4 MR場景中的物理交互
在MR環境中,虛擬物體不僅要“看上去存在”,還需“行為上真實”。這涉及:
- 虛擬物體受真實物理世界影響(如地面重力、碰撞);
- 虛擬與現實的互動(如推門、拿杯子);
- 跨模態輸入:語音控制虛擬助手、手勢拖動現實界面。
總結與推薦
本文系統梳理了XR技術的核心內容,重點解析了VR、AR、MR的定義及實現方案,特別是AR的OST與VST技術路線和MR的融合機制。
希望能幫助你全面理解XR技術的全貌與應用趨勢。
如果你想深入學習XR相關技術,推薦關注我的專欄:
- 我的XR開發記錄
不定期分享XR開發的原創文檔。包含但不限于3D、AR、VR相關內容
- VR 360°全景視頻開發
專欄內容涵蓋安卓原生VR播放器開發、Unity VR視頻渲染與手勢交互、360°全景視頻制作與優化,以及高分辨率視頻性能優化等實戰技巧。敬請關注每周更新的技術分享!