【Unity Shader入門精要第13章】使用深度和法線紋理（一）

1. 原理

深度紋理的本質是一張RenderTexture，只不過其中記錄的不是顏色值，而是一個深度值

這些深度值來自于頂點在空間變換后得到的歸一化設備坐標（NDC）的Z值

由于NDC坐標的分量取值范圍在[-1, 1]之間，要使顏色值能夠覆蓋所有范圍，需要對其進行映射：d = (Z_NDC + 1) / 2

當 d 為0時，距離攝像機最近，此時位于近剪裁面上
當 d 為1時，距離攝像機最遠，此時位于遠剪裁面上

2. 數據來源

在延遲渲染中，由于第一個 Pass 會將深度/法線等信息都渲染到 G-Buffer 中，因此對于延遲渲染來講，要生成深度紋理，可以直接從G緩沖區中讀取數據

在前向渲染中，沒有生成 G-Buffer 數據的過程，此時 Unity 會使用著色器替換技術，選擇所有 Pass 設置了標簽 “RenderType” = “Opaque” 的物體，然后檢查"Queue"標簽，如果該標簽設置的渲染隊列所對應的值小于2500，該物體就會參與深度紋理的計算，并使用一個單獨的 Pass 渲染深度紋理。

也就是說，無論前向渲染還是延遲渲染，在生成深度紋理時，都需要先計算深度信息，此時Unity會查找參與深度計算的物體身上是否有“LightMode” = “ShadowCaster” 的 Pass，如果有，則使用該 Pass 進行計算，否則不計算。

如果設置的是生成深度 + 法線紋理，還會使用另外一個特定的Pass生成法線信息。

如果生成的是深度紋理，根據所用的深度緩存的精度，深度紋理的精度通常是24或16位，如果生成的是深度 + 法線紋理，Unity會創建一張和屏幕相同分辨率的32位紋理，其中，觀察空間的法線寫入RG通道，深度寫入BA通道。

3. 獲取紋理

3.1 獲取深度紋理

在腳本中設置攝像機的深度紋理類型：_camera.depthTextureMode = DepthTextureMode.Depth
在Shader中聲明變量：_CameraDepthTexture

3.2 獲取深度+法線紋理

在腳本中設置攝像機的深度紋理類型：_camera.depthTextureMode = DepthTextureMode.DepthNormals
在Shader中聲明變量：_CameraDepthNormalsTexture

4. 采樣紋理

4.1 采樣深度紋理

可以通過tex2D對深度紋理直接進行采樣，Unity也提供了一系列采樣深度紋理的方法，通過使用這些方法，可以兼容各個平臺的差異

float d = SMAPLE_DEPTH_TEXTURE(_CameraDepthTexture, i.uv);

我們上面說過，深度紋理中存儲的是NDC坐標映射到[0, 1]范圍內的值，我們這里可以把它大體等同于NDC坐標來分析。NDC坐標是怎么來的呢？是觀察空間內的坐標先經過投影變換，然后除以w得到的。投影變換的矩陣 ( M_frustum ) 如下：
$\left( \begin{matrix} XXX & 0 & 0 & 0\\ 0 & YYY & 0 & 0\\ 0 & 0 & -(Far + Near)/(Far - Near) & -2(Far * Near/(Far - Near))\\ 0 &0&-1&0 \end{matrix} \right)$
假設觀察空間內有一點P_view = (X_view, Y_view, Z_view)，我們用 M_frustum * P_view 即可得到該點在齊次裁剪空間下的對應坐標P_clip = （X_clip, Y_Clip, Z_clip, W_Clip） = ( _, _, -(Far + Near)/(Far - Near) * Z_view - 2(Far * Near/(Far - Near)), -Z_view)

然后對該坐標進行齊次除法得到NDC坐標，這里我們只看Z分量： Z_NDC = (Far + Near)/(Far - Near) + 2(Far * Near/(Far - Near)) * （1 / Z_view）

因為Far和Near都是常數，為了使式子看起來更清晰，我們用A、B代替其中常數的部分，于是得到： Z_NDC = A + B / Z_view

而上面通過 SMAPLE_DEPTH_TEXTURE 方法采樣得到的深度值 d 就是 Z_NDC 映射到 [0, 1] 區間得到的值：d = 0.5 * （A + B / Z_view） + 0.5 = （0.5A + 0.5） + 0.5B / Z_view

我們這里不需要關心常數的值，依然用AB代替，因此 d 也可表達成 d = A + B / Z_view

可見，深度紋理（包括深度緩沖區）中記錄的深度值 d 與點在觀察空間中的實際深度 Z_view 并不成線性關系。這就導致在實現一些效果時，直接對d插值會得到錯誤的結果。

比如有兩個點A、B，它們在觀察空間中真實的深度為Z_A、Z_B，轉換成深度紋理中的深度值為 d_A、d_B，同時在AB的中間有一點C，其在觀察空間的真實深度為 Z_C = （Z_B + Z_A）/ 2，通過上面的分析我們已經知道，d 與 Z_view 并不成線性關系，也就是說 C 點在深度紋理中記錄的深度值 d_C ≠ （d_B + d_A）/ 2。因此，當需要求C點的真實深度時（比如根據法線重構世界坐標），不能直接對d_A、d_B進行線性插值。我們需要先將 d 轉換到一個線性空間中，然后在這個線性空間中再進行插值。Unity為此提供了兩個方法：

LinearEyeDepth：將 d 轉換到觀察空間的線性值，由于觀察空間的Z向范圍是從近剪裁面到遠剪裁面，因此該方法得到的值也在[Near, Far]的范圍內
Linear01Depth：將 d 值轉換到觀察空間的線性值，但是結果除以了Far，因此最終值被限定到了[0, 1]的范圍內

除此以外，Unity還提供了其他類似的宏方法，如SAMPLE_DEPTH_TEXTURE_PROJ 和 SAMPLE_DEPTH_TEXTURE_LOD。

4.2 采樣深度+法線紋理

對于深度+法線紋理，通常直接使用 tex2D 方法對 _CameraDepthNormalsTexture 進行采樣，采樣得到的顏色值包括了深度和法線兩部分信息，Unity提供了函數幫我們對其進行解碼：

inline void DecodeDepthNormal( float4 enc, out float depth, out float3 normal)
{depth = DecodeFloatRG (enc.zw);normal= DecodeViewNormalStereo(enc);
}

其中：

enc 為對深度 + 法線紋理的采樣結果
depth 用于接收解碼得到的深度，這個深度值為[0, 1]之間的線性值，相當于直接解碼出一個 Linear01Depth 的值，因此不需要再手動處理
normal 用于接收解碼得到的法線，該法線同樣是觀察空間下的法線

5. 基于深度紋理重建世界坐標的兩種方式

5.1 NDC坐標逆向變換

回想【Unity Shader入門精要第4章】數學基礎（二）中提到的Unity的五個空間，對于世界空間中的一個點，經過 VP 變換后轉換到齊次剪裁空間，然后通過齊次除法得到NDC坐標，最后通過屏幕映射映射到屏幕上。

第一種重建世界坐標的思路就是將上述過程逆向進行。

首先需要通過屏幕像素構建出NDC坐標。

在Unity中，NDC坐標的范圍在[-1, 1]，我們在片元著色器中采樣使用的uv坐標的范圍在[0, 1]，其實就是NDC坐標的XY分量經過（NDC + 1）/ 2 得到的，因此：XY_NDC = 2 * XY_UV - 1
對深度紋理進行采樣得到深度值d，上面說過，d = (Z_NDC + 1) / 2，因此：Z_NDC = 2*d - 1
NDC坐標的W分量固定為1：W_NDC = 1
最終得到：P_NDC = （ 2 * X_UV - 1， 2 * Y_UV - 1， 2*d - 1， 1 ）

構建出NDC坐標后，就可以推導出重建世界坐標的公式，整個推導過程是建立在如下四條已知條件上的：

P_clip = Matrix_vp * P_world
XYZ_NDC = XYZ_clip / W_clip
W_NDC = 1
W_world = 1

推導過程：

XYZ_NDC = XYZ_clip / W_clip ?
XYZ_clip = W_clip * XYZ_NDC ?
P_clip = （ XYZ_clip, W_clip ） = ( W_clip * XYZ_NDC, W_clip )
由 P_clip = Matrix_vp * P_world 可得：
Matrix_vp ^-1 * P_clip = P_world ?
Matrix_vp ^-1 * ( W_clip * XYZ_NDC, W_clip ) = P_world ?
W_clip * Matrix_vp ^-1 * ( XYZ_NDC, 1 ) = P_world
由于 W_NDC = 1，因此：
W_clip * Matrix_vp ^-1 * ( XYZ_NDC, 1 ) = P_world ?
W_clip * Matrix_vp ^-1 * ( XYZ_NDC, W_NDC ) = P_world ?
W_clip * Matrix_vp ^-1 * P_NDC = P_world
我們只看W分量：
W_clip * ( Matrix_vp ^-1 * P_NDC ).W = W_world = 1 ?
W_clip = 1 / ( Matrix_vp ^-1 * P_NDC ).W
將W_clip代入上面標黃的式子得到：
Matrix_vp ^-1 * P_NDC / ( Matrix_vp ^-1 * P_NDC ).W = P_world

最終得到： P_world = Matrix_vp ^-1 * P_NDC / ( Matrix_vp ^-1 * P_NDC ).W

5.2 射線插值

射線插值重建像素世界坐標的原理基于下圖：

在這里插入圖片描述
對于屏幕上的一點P’，假設其對應的3D空間中的真實點的位置為P，則P點的位置可以通過攝像機的位置O加上向量OP來求得：

P = O + OP

O可以直接通過 _WorldSpaceCameraPos 變量獲得，那么如何獲得OP向量呢？

可以看到，上圖中的黃色虛線部分是兩個相似三角形，根據相似三角形的性質可知：

OP = Ray * LinearEyeDepth / Near

其中 LinearEyeDepth 可以通過深度紋理獲得，Near為攝像機近剪裁面距離，也可以通過攝像機獲得，于是問題只剩下求Ray向量。

首先我們想一下，屏幕后處理中處理的是什么？

屏幕后處理所處理的對象，是當前攝像機渲染的 RenderTexture，其實就是一個由四個頂點、兩個三角面構成的四邊形網格，如下圖所示：

在這里插入圖片描述
在屏幕后處理引用的 Shader 中，頂點著色器要處理的只有上圖中 LeftUp、LeftDown、RightDown、RightUp 四個頂點。

那 P’ 又是什么？
在這里插入圖片描述
P’ 是在片元著色器中處理的一個片元，它對應的是某個三角面覆蓋的一個像素，如上圖所示。我們在頂點著色器中并沒有（也沒有辦法）對 P’ 直接設置數據，但是在片元著色器中依然可以獲得 P’ 的uv坐標、法線等信息。之所以 P’ 有這些信息，是因為我們為每個頂點設置了這些信息，并且將這些信息放到了 v2f 結構的各種插值寄存器中（v2f 中定義的各種字段）。在后續三角形遍歷階段，引擎發現 P’ 被 LeftUp、RightDown 和 RgihtUp 三個頂點圍成的三角面覆蓋到了，然后就會將三個頂點插值寄存器中的各種數據進行插值，計算出 P’ 點對應每個字段的值。

所以攝像機到 P’ 的射線可以通過攝像機到LeftUp、RightDown 和 RgihtUp三個頂點的射線插值獲得（下方三角面同理），于是問題又變成求攝像機到四個頂點的射線。

攝像機到四個頂點的射線很好求，就是向量的加減乘除：

在這里插入圖片描述

上圖藍色四邊形代表攝像機的近剪裁面，ToRight 和 ToTop分別表示近剪裁面中心到最右邊和最上邊的向量，則從攝像機到近剪裁面右上角的向量：

O_RU = Camera.Forward * Near + RoRight + ToTop

同理：

O_LU = Camera.Forward * Near - RoRight + ToTop
O_LD = Camera.Forward * Near - RoRight - ToTop
O_RD = Camera.Forward * Near + RoRight - ToTop

在這里插入圖片描述
注意，與上面一張圖不同，這張圖里紫線表示的是距離而不是向量，根據圖中所示，定義:

HalfHeight = | ToTop | = Near * Tangent(Fov / 2)

則：

ToTop = Camera.Up * HalfHeight 
ToRight = Camera.Right * HalfHeight  * aspect

將 ToTop 和 ToRight 代入即可求出O_RU，同理還可求出 O_LU、O_LD、O_RD

然后我們再看一下最初要求的射線Ray：

OP = Ray * LinearEyeDepth / Near

這一部分是需要在片元著色器中逐像素計算的，為了節省性能，可以把式子中 Ray/Near 的部分合并成一個 ScaledRay，也就是說我們提供給頂點著色器的就是一個經過了（ /Near）處理的射線。

最終，整理一下涉及到的代碼

HalfHeight = Near * Tangent(Fov / 2)
ToTop = Camera.Up * HalfHeight 
ToRight = Camera.Right * HalfHeight  * aspect
Scale = 1 / Near
Scaled_O_LD = ( Camera.Forward * Near - ToRight - ToTop ) * Scale
Scaled_O_RD = ( Camera.Forward * Near + ToRight - ToTop ) * Scale
Scaled_O_RU = ( Camera.Forward * Near + ToRight + ToTop ) * Scale
Scaled_O_LU = ( Camera.Forward * Near - ToRight + ToTop ) * ScaleWorldPos = WorldSpaceCameraPos + ScaledRay * LinearEyeDepth