新的視頻會議模式：StarlineProject

- 效果展示部分
- 用戶參與度部分
- 技術細節
- - 機械裝置以及硬件配置。
  - 視頻系統
  - - 照明
    - 人臉跟蹤
    - 壓縮和傳輸
    - 圖像渲染
  - 音頻系統
  - - step1：捕獲音頻
    - step2：音頻去噪處理
    - step3：壓縮、傳輸、解壓
    - step4：渲染
- 可以改進的點

效果展示部分

〔映維網〕谷歌光場顯示屏Project Starline

Starline 本質上是一個 3D 視頻聊天室，旨在取代一對一的 2D 視頻電話會議，讓用戶感覺就像坐在真人面前一樣。

相互視頻的人，不需要佩戴任何眼鏡或者頭盔，真實的就像坐在對面聊天。

用戶參與度部分

google組織了117名參與者在九個月期間共舉行308次會議，平均持續時間為35.2分鐘，并產生了共有296份調查回復。

超過87%的調查回復Starline項目在在場感、注意力、個人聯系、反應評估四個方面，比傳統視頻會議略好或好得多。

(W-P)統計表明，所有情緒改善在統計上顯著

他們回憶的會議內容相較于傳統視頻回憶大約多了28% ，參與者在我們的系統中也顯著地表現出更多的非語言行為(手勢、點頭和眉毛運動)，這有利于促進融洽的人際關系。

觀察到的平均延遲為105.8 ms(標準偏差9.1 ms)，在人類參與者感知同步對話所需的250 ms上限之內。

綜合表明，即使Starline的3D重建在視覺上存在缺陷，仍然提供了一場更投入的交流體驗。

技術細節

機械裝置以及硬件配置。

首先來看看機械裝置以及硬件配置。

Project Starline 系統圍繞一個以 60Hz 運行的大型 65 英寸 8K 面板構建，三個用于捕獲彩色圖像和深度數據的「捕獲 pod」，還包括四個額外的追蹤攝像頭、四個麥克風、兩個揚聲器和一個紅外投影儀。

系統需要捕獲來自四個視角的彩色圖像以及三個深度圖，共計七個視頻流。系統還需要捕獲 44.1 kHz 的音頻，并以 256 Kbps 編碼。

Project Starline 配備了四塊高端 Nvidia 顯卡（兩塊 Quadro RTX 6000 卡和兩塊 Titan RTX）來對所有這些數據進行編碼和解碼。

基于屏幕的系統的原因：
1、當前大多數AR和VR頭盔的重量和不適
2、還消除了通過耳機捕捉人臉的困難
3、目前沒有一款AR頭盔有足夠的視野跨越人體坐姿的寬度和高度。
所以選擇了基于65英寸8K面板、33.1M全彩像素在60赫茲更新的頭跟蹤自動立體顯示器。

視頻系統

照明

選擇漫射源的原因：
1、這種擴展的光線也比明亮的led直接照明更舒適。
2、完全一致的入射光線使人臉和其他3D形狀看起來扁平和人造，阻礙了系統中的其他3D線索。

人臉跟蹤

3D人臉追蹤的重點在于定位眼睛、嘴巴、耳朵的位置。
眼睛的位置決定了渲染的立體視點，并且在顯示的時候我們是需要引導左右視圖指向對應的眼睛的。
嘴巴的位置使得音頻捕獲中的波束形成成為可能。
嘴和耳朵的位置有助于空間化音頻渲染和串擾消除
3D人臉追蹤的延遲大約是33ms，通過預測跟蹤功能緩解延遲，但是又會放大噪聲，導致渲染的視點抖動。采用雙指數平滑 + 遲滯濾波器解決這個問題。

壓縮和傳輸

對于壓縮和傳輸方面
我們使用的是傳統視頻壓縮傳輸多幅圖像+立體重構的深度圖。延遲融合，直到在接受端才渲染出左右眼視圖。
顏色數據流和深度數據流使用H265編解碼器和 YUV420色度分采樣進行編碼。
顏色流每個channel使用8位，深度流每個channel10位。
省略雙向編碼(B)幀來減少編碼和解碼延遲。
這樣就有7個視頻流 + 跟蹤的人臉點。將這個視頻包到一個單一數據負載，使用WebRTC傳輸。
若傳輸超時，發送所有7個視頻流的內部(I)幀來重新初始化。
最終效果：產生的傳輸帶寬在30~100Mbit/s，這取決于用戶衣服中的紋理細節和他們手勢的大小