99、NeRF ray space

CG相機模型

在圖形學中最常用的相機模型的原理和小孔成像是類似的。
在這里插入圖片描述
不同之處在于，如上圖，小孔成像得到的圖像是倒立的，但是我們希望得到的圖像是正向的，因此，我們選擇小孔前成像。

從 3D 到 2D 的投影，就是根據 3D 物體的坐標，計算其投影到 2D 成像平面上的坐標。對于一個已有的相機而言，只有在恰當位置范圍內的 3D 物體才可能投影到成像平面上。這個恰當范圍，跟成像平面的大小，以及相機中心到平面距離等因素有關。

在圖形學中有一個專門的模型來定義這個范圍：
在這里插入圖片描述
上圖這個形似棱錐的模型，就是相機的可視范圍。其中，有兩個重要的概念：Near clipping plane 和 Far clipping plane。

Near clipping plane 是相機前方的平面，也就是成像平面，Far clipping plane 是更遠處的平面，限制了相機最遠可視的范圍，它們都與相機的 z 軸垂直。在這兩個平面之間的空間，就是相機的可視范圍。在這個范圍內的物體，才能投影到相機的成像平面上。在圖形學中，這個可視范圍被稱為視錐體 (Viewing Frustum)。

在真實的相機中，Far clipping plane 一般是無限遠的，但在圖形學中，為了簡化計算，一般將其設置為有限的距離。
在這里插入圖片描述

3D坐標到2D坐標

在這里插入圖片描述
上圖是一個典型的物體投影到屏幕上的過程。我們假設已經獲得了物體在世界坐標系中的坐標，在世界坐標系轉換到圖像坐標系的過程中，涉及以下過程。

世界坐標系轉換到相機坐標系

對三維物體投影的第一步，是將三維物體從世界坐標系轉換到以相機為中心的坐標系統，這樣方便后續的投影計算。

相機坐標系是以相機為中心的坐標系 (也叫 eye coordinates)，由于相機和世界坐標系的原點可能不同，且其坐標軸方向和世界坐標系可能不同，因此世界坐標系和相機坐標系的轉換一般涉及旋轉平移兩項操作。

在圖形學中，通常使用齊次坐標，并配合 4x4 的矩陣來完成兩個坐標系統的轉換。

相機坐標系到屏幕坐標系

獲得物體的相機坐標系（Near clipping plane 和 Far clipping plane 之間）后，接下來就可以計算物體投影到成像平面上的坐標。

這個過程可以根據相似三角形的原理計算得出。
在這里插入圖片描述

如上圖所示，假設相機的中心在 A 點，三維物體在 C 點，其在成像平面上的投影為 C’。

由于我們已經獲得了物體在相機坐標系中的坐標，因此可以計算出 AB、BC 的長度。而 AB’、B’C’ 的長度，可以根據相似三角形的原理計算出來 (上圖假設相機焦距是 1，但實際情況中不做限制，我們用 $Z_{near}$ 表示)：

$\frac{BC}{AB} = \frac{B'C'}{AB'}$

即

$\frac{P.y}{|P.z|} = \frac{P'.y}{Z_{near}} \\ P'.y = \frac{Z_{near}*P.y}{|P.z|}$

同樣的，可以算出 : $\frac{Z_{near}*P.x}{|P.z|}$

對于 z 軸坐標來說，由于 Near clipping plane 和 z 軸是垂直的，因此所有投影到成像平面上的點，z 坐標都是相同的。而事實上在投影到 2D 坐標后，z 軸坐標已經沒有意義了，因此可以直接忽略。

從 $P^{'} . x$ 和 $P^{'} . y$ 可以發現，投影到成像平面上的坐標，其 x 和 y 坐標都是除以 z 坐標得到的。因此這種投影變換也被稱為 z divide 或者 perspective divide。這也是透視投影的特點，投影到成像平面上的坐標，其 x 和 y 坐標都是與 z 坐標絕對值成反比的。也因此，物體越遠，其在屏幕上的大小越小。

屏幕坐標系到圖像坐標系

轉換到屏幕坐標系后，我們理論上已經獲得了物體的 2D 坐標，但這個坐標并不是最終圖像上的坐標。

在第 2 步相機坐標系到屏幕坐標系的轉換中，不難發現，屏幕坐標系的原點是在屏幕中心的，但在圖像坐標系中，原點一般是在左上角或者左下角。因此，要轉換到圖像坐標系，還需要一步歸一化的過程。

在不同的系統中，圖像坐標系的原點是存在差異的。比如，有些系統中的圖像原點位于左下角，y 軸朝上，但有些則反著來。而 NDC 坐標系是一個跟設備無關的坐標系統，它將圖像的 x/y/z 軸都統一歸一化到 [0, 1]，并規定了坐標軸方向 (在有些圖形系統中，也會將 x/y/z 軸歸一化到 [-1, 1])，如下圖所示 (中間即是 NDC 坐標系)。

NDC 全稱是 Normalized Device Coordinate，也即歸一化的設備坐標系。這是從屏幕坐標系轉換到圖像坐標系的中間媒介。
在這里插入圖片描述
用上圖的例子來演示 屏幕坐標系 -> NDC 坐標系 -> 圖像坐標系 (即上圖的 raster 坐標系) 的轉換過程。

假設 投影屏幕 長寬分別為 height、width，NDC 的原點在左下角，y 軸朝上，那么，屏幕坐標系到 NDC 坐標系的轉換公式為：

$P_{bdc}.x = \frac{P'.x+width/2}{width} \\ P_{bdc}.y = \frac{P'.y+height/2}{height}$

假設圖像大小為 image_height、image_width，圖像原點位于左上角，y 軸朝下。那么，NDC 坐標系到圖像坐標系的轉換公式為：

$P_{image}.x = P_{ndc}.x * image\_width \\ P_{image}.y = (1-P_{ndc}.y) * image\_height$

NDC 坐標系是連續的坐標系，只有轉換到圖像坐標系，才會對坐標進行取整操作。此外，NDC 坐標系仍是三維坐標系，不過在考慮投影的時候，z 軸通常會被忽略

OpenGL 中，NDC 坐標到 raster 圖像坐標的轉換過程，也被稱為 viewport transform

采用 NDC 坐標的好處是，我們可以將 NDC 看作是一個通用的坐標系統，并將不同系統的坐標統一起來。比如，我們在將屏幕坐標系轉換到圖像坐標系時，可以先換算到統一的 NDC 坐標系中，再實現二者的相互轉化。在 NDC 坐標系中進行處理的時候，就不需要關心投影屏幕長寬、圖像大小等信息了。

投影矩陣(Projection Matrix)

從上面三維坐標到二維坐標的轉換過程中，不難發現，整個過程涉及步驟很多，非常繁瑣。為了簡化計算，在很多圖形系統中，會將物體從相機坐標系到 NDC 坐標系的過程，用一個矩陣串聯起來 (即投影矩陣)。

即完成所有操作總共需要兩個矩陣：世界坐標系和相機坐標系之間的變換矩陣、投影矩陣。

理解投影矩陣，對后面 NeRF 中 NDC 坐標系統的推導至關重要。因此，這里先詳細介紹投影矩陣的由來，并補充一些相關的數學知識。

不同坐標系統的轉換

三維坐標轉二維坐標的第一步，就是將物體從世界坐標系轉換到相機坐標系。

這一步在投影矩陣的求解中是不需要的。不過，由于圖形學中，不同坐標系之間的轉換是一個基本操作。

任何三維坐標系統，都可以用三個互相垂直的坐標軸以及坐標原點來唯一確定。

這三個坐標軸，在線性代數中，也被稱為基向量v={ $v_1,v_2,v_3$ } 。通常情況下，我們會用標準向量 $e_1=[1,0,0]$ 、 $e_1=[0,1,0]$ 、 $e_1=[0,0,1]$ 來表示這三個坐標軸。不過事實上也可以隨意定義，只要它們線性無關，可以表達出整個三維空間即可。

現在，假設有兩個不同的坐標系統 A 和 B。A 的基向量 $v=\{v_1,v_2,v_3\}$ ，B 的基向量 $u=\{u_1,u_2,u_3\}$ 。根據線性無關，可以得出：

$u_1 = \gamma_{11}v_1+\gamma_{12}+\gamma_{13}v_3 \\ u_2 = \gamma_{21}v_1+\gamma_{22}+\gamma_{23}v_3 \\ u_3 = \gamma_{31}v_1+\gamma_{32}+\gamma_{33}v_3 \\$

用矩陣方程的形式表示為：
$u = M v$

對于三維空間中的某個點 w 來說，均可以由 u、v 這兩個坐標系表示：
$w=a^Tv=b^Tu$

其中的 $a^T$ 和 $b^T$ 其實就是 w 在這兩個坐標系統中的坐標。再結合公式 (2)，可以得到：

$w=b^Tu=b^TMv=a^Tv$

由此推出， $a=M^Tb,b=(M^T)^{-1}a$

到這里，我們就發現：對于點 w 來說，想要從坐標系 A 轉換到坐標系 B，只需要對原坐標系 A 中的坐標，乘以一個矩陣 M 即可。反之，則是乘以矩陣的逆 $M^T)^{-1}$ 。而這個矩陣M ，可以通過兩個坐標系統的基向量，也就是坐標軸，通過公式 (1) 的矩陣方程進行求解。

在將物體從世界坐標系轉到相機坐標系的過程中，只需要將這個矩陣應用到世界坐標系的物體坐標上，就可以得到三維物體相對于相機坐標系的位置坐標。

這個過程中，物體的實際位置沒有發生任何改變，只不過它的坐標，從相對于世界坐標系，變成相對于相機坐標系。

在這里插入圖片描述

齊次坐標(Homogenous Coordinates)

上面提到的變換矩陣 M 存在一點不足，那就是它只能表達旋轉和縮放操作，但無法表達平移。具體原因有很多資料已做了描述，這里不再贅述。

在三維世界中，旋轉、縮放、平移是三個最基礎的操作，因此，為了將平移也融入矩陣運算中，人們引入了齊次坐標。

齊次坐標相比普通的三維坐標，就是在 x、y、z 之外，再引入一維 w:[x,y,z,w]。

同時我們規定 [x,y,z]=[x,y,z,w=1]，即當 w=1 時，齊次坐標可以等價于普通的三維坐標。

如果 $w\neq1$ ，那換算方法是： $\frac{x}{w},\frac{y}{w},\frac{z}{w}]$ 。

引入齊次坐標后，變換矩陣自然也可以拓展成 4x4 的維度。

$\left[ \begin{matrix} m_{00} & m_{01} & m_{02} & T_x \\ m_{10} & m_{11} & m_{12} & T_y \\ m_{20} & m_{21} & m_{22} & T_z \\ 0 & 0 & 0 & 1 \end{matrix} \right] * \left[ \begin{matrix} x \\ y \\ z \\ w=1 \end{matrix} \right]$

在 w=1 的情況下，矩陣第 4 列代表的，就是 x、y、z 對應的平移量。

在之后投影矩陣的計算過程中，齊次坐標的作用會更加明顯。

投影矩陣推導

假設我們已經獲得了物體在相機坐標系中的坐標 $P_e=[x_e,y_e,z_e]$ (如果只有世界坐標系，也可以通過前面所講的不同坐標系統的變換，來轉換到相機坐標系，這一步也屬于相機外參標定的流程)。

將 $P_e$ 從相機坐標系轉換到 NDC 的過程，其實就是將 $P_e$ 從下圖左邊的棱錐轉換到右邊的立方體的過程 (這里使用 OpenGL 中的坐標習慣，NDC 將 x/y/z 軸都歸一化到 [-1, 1])：
在這里插入圖片描述
假設 Near Clipping Plane 到相機中心的距離為 n。在 OpenGL 等圖形庫中，由于相機坐標系的 z 軸是朝向屏幕外的，因此 Near Clipping Plane 上，點的 z 坐標均為 z = -n。

再假設 Near Clipping Plane 平面上，x 軸的屏幕范圍是 [l,r]，y 軸的屏幕范圍是 [b,t]，那么屏幕上四個邊界點的坐標分別是：(l,t,-n)、(r,t,-n)、(l,b,-n)、(r,b,-n)

首先，將點 $P_e$ 投影到 Near Clipping Plane 上。根據上文的介紹，這就是 z divide 的過程，由此得到投影后的坐標為：

$x_p = \frac{n*x_e}{-z_e} \\ y_p = \frac{n*y_e}{-z_e} \\$

在投影后需要考慮把超出屏幕的點裁剪掉，不過這一步也可以放在后面進行，我們先跳過。

接下來就是把投影后的點轉換到 NDC 空間了，這是歸一化的過程，把 [l,r] 和 [b,t] 這兩個區間的數值歸一化到 [-1,1] 。可以分兩步完成。

先把 $x_p$ 歸一化到 [0,1]： $\frac{x_p-l}{r-l}$ 。

再從 [0,1] 歸一化到 [-1,1]： $2*\frac{x_p-l}{r-l}-1$ 。

$x_{ndc} = 2 * \frac{x_p-l}{r-l}-1 \\ = \frac{2x_p}{r-l} - \frac{r+l}{r-l}$

同理可得 $y_{ndc}$ :
$y_{ndc} = \frac{2y_p}{t-b} - \frac{t+b}{t-b}$

由此我們已經得到了 NDC 中的 x/y 坐標（將上述 $y_p,x_p$ 代入）。完整的轉換公式：

$x_{ndc} = \frac{2n*x_e}{-z_e*(r-l)} - \frac{r+l}{r-l} \\ y_{ndc} = \frac{2n*y_e}{-z_e*(t-b)} - \frac{t+b}{t-b}$

這個公式看起來復雜，但可以融入到齊次坐標中，變成矩陣運算：

$\left[ \begin{matrix} x_c \\ y_c \\ z_c \\ w_c \end{matrix} \right ] = \left[ \begin{matrix} \frac{2n}{r-l} & 0 & \frac{r+l}{r-l} & 0 \\ 0& \frac{2n}{t-b} & \frac{t+b}{t-b} & 0 \\ 0& 0 & A & B \\ 0& 0 & -1 & 0 \\ \end{matrix} \right] * \left[ \begin{matrix} x_e \\ y_e \\ z_e \\ w_e = 1 \end{matrix} \right]$

其中 A、B是待求解的參數。

以 $x_c$ 為例，計算過程如下：
$x_c = \frac{2nx_e}{r-l} + \frac{r+l}{r-l} * z_e \\ w_c = -z_e$

由于 $w\neq1$ ，需要除去 w 才能得到最終的坐標

$x_{ndc} = \frac{x_c}{w_c} \\ = \frac{2n*x_e}{-z_e*(r-l)} - \frac{r+l}{r-l}$

這樣子求出的 $x_{ndc}$ 和上述的一致，這就是使用齊次坐標的好處。

由于 r 和 l 是沿中心對稱的，即 l=-r，所以 r-l=2r，r+l=0。同理 t-b=2t，t+b=0 。所以矩陣可以簡化為：
$\left[ \begin{matrix} \frac{n}{r} & 0 & 0 & 0 \\ 0 & \frac{n}{t} & 0 & 0 \\ 0 & 0 & A & B \\ 0 & 0 & -1 & 0 \end{matrix} \right]$

上面的矩陣中，還缺失 $z_e$ 對應的參數 A、B。由于 z 軸的計算和 x/y 無關，因此矩陣第三行 x/y 對應的參數可以直接設為 0，我們單獨看A、B 如何求解。

由上面的矩陣可以算出： $z_{ndc} = \frac{A*z_e+B}{-z_e}$

假設 Far Clipping Plane 到相機中心的距離為 f 。那么 z 軸是從 [-n,-f] 歸一化到 [-1,1]，即 $z_e=-n$ 時， $z_{ndc} = -1$ ， $z_e=-f$ 時， $z_{ndc}=1$ 。由此可以得到兩個等式：

$\frac{-A*f+B}{f} = 1 \\ \frac{A*n+B}{n} = -1$

解得: $A=-\frac{f+n}{f-n}$ 、 $B=-\frac{-2fn}{f-n}$

最終的矩陣為:

$\left[ \begin{matrix} \frac{n}{r} & 0 & 0 & 0 \\ 0 & \frac{n}{t} & 0 & 0 \\ 0 & 0 & -\frac{f+n}{f-n} & \frac{-2fn}{f-n} \\ 0 & 0 & -1 & 0 \end{matrix} \right]$

這個矩陣，即是所謂的投影矩陣，它可以完成相機坐標系到 NDC 坐標系的轉換。

對于投影點的坐標 $x_{ndc},y_{ndc},z_{ndc})$ ，如果數值超出 [-1,1] 的范圍，就說明投影后的點超出了屏幕范圍，可以直接舍棄。

NeRF中的NDC ray space

NeRF 中的坐標，是以射線的形式表示：o+td，其中 o 是射線起點，d 是方向向量，t 是射線長度。

所謂的 NDC ray space，就是把這種射線形式表示的坐標，從相機坐標系投影到 NDC 坐標系。因此，轉換的媒介仍然是投影矩陣：

$\left( \begin{matrix} \frac{n}{r} & 0 & 0 & 0 \\ 0 & \frac{n}{t} & 0 & 0 \\ 0 & 0 & -\frac{f+n}{f-n} & \frac{-2fn}{f-n} \\ 0 & 0 & -1 & 0 \end{matrix} \right) \left( \begin{matrix} x \\ y \\ z \\ 1 \end{matrix} \right) = \left( \begin{matrix} \frac{n}{r} x\\ \frac{n}{t}y \\ -\frac{f+n}{f-n}z - \frac{2fn}{f-n} \\ -z \end{matrix} \right) \\ project \rightarrow \left( \begin{matrix} \frac{n}{r} \frac{x}{-z}\\ \frac{n}{t}\frac{y}{-z} \\ \frac{f+n}{f-n} - \frac{2fn}{f-n}\frac{1}{-z} \end{matrix} \right)$

不過，由于坐標的表達形式換了，因此公式上也發生了一些變動

假設我們已經獲得了相機坐標系中的坐標點 $P_e=o+td$ ，對應 x/y/z 軸的坐標分別為 (注意區分這里的 t 和投影平面的邊界 t )：
$x_e = o_x+t*d_x \\ y_e = o_y+t*d_y \\ z_e = o_z+t*d_z$

現在需要求出它在 NDC 坐標系中的投影坐標，假設是 $P^{'} = o^{'} + t^{'} d^{'}$

那么根據投影矩陣， $P_e$ 轉換到 P’ 的過程可以表示為：

$o'_x +t'*d'_x = - \frac{n}{r} * \frac{o_x+t*d_x}{o_z+t*d_z} \\ y' = o'_y +t'*d'_y = - \frac{n}{t} * \frac{o_y+t*d_y}{o_z+t*d_z} \\ z' = o'_z +t'*d'_z = \frac{f+n}{f-n} + \frac{2fn}{f-n}*\frac{1}{o_z+t*d_z}$

為了簡潔一些，假設 $-\frac{n}{r} = a_x$ ， $-\frac{n}{t}=a_y$ ， $\frac{f+n}{f-n}=a_z$ ， $\frac{2fn}{f-n} = b_z$ 。那么上面這堆復雜的式子可以簡化為：

$a_x * \frac{o_x+t*d_x}{o_z+t*d_z} \\ y' =a_y * \frac{o_y+t*d_y}{o_z+t*d_z} \\ z' =a_z * \frac{b_z}{o_z+t*d_z}$

接下來就是要把 o’、t’、d’ 求解出來。

首先，對于 o’ 來說，可以直接通過 o 投影得到，即讓上述公式中 t為0：

$\left[ \begin{matrix} o'_x \\ o'_y \\ o'_z \\ \end{matrix} \right] = \left[ \begin{matrix} a_x * \frac{o_x}{o_z} \\ a_y * \frac{o_y}{o_z} \\ a_z+\frac{b_z}{o_z} \end{matrix} \right]$

在 o’確定后，t‘*d’ 可以表示為：

$\left[ \begin{matrix} t'*d'_x \\ t'*d'_y \\ t'*d'_z \end{matrix} \right] = \left[ \begin{matrix} x'-o'_x \\ y'-o'_y \\ y'-o'_z \\ \end{matrix} \right]$
代入 $o'_x,o'_y,o'_z$ 并化簡得到
在這里插入圖片描述
解得：
$\frac{t*d_z}{o_z+t*d_z} = 1- \frac{o_z}{o_z+t*d_z} \\ d' = \left[ \begin{matrix} a_x * (\frac{d_x}{d_z} - \frac{o_x}{o_z}) \\ a_y * (\frac{d_y}{d_z} - \frac{o_y}{o_z}) \\ -b_z*\frac{1}{o_z} \end{matrix} \right]$

當 t = 0時，t’=0，當 $t\rightarrow \infty$ 時 $\rightarrow 1$ 。所以，在相機坐標系對光線進行采樣 ( $t\in(0,\infty)$ )，就等價于在 NDC ray space 中，對 t’ 在 [0,1] 范圍內進行采樣。

對于投影屏幕來說，可以設定最后成像的圖片長寬 (H*W) 和屏幕大小一致，由于投影屏幕的中心即是坐標原點，因此 r=w/2 ，t=H/2。再假定相機的焦距 $f_{cam}$ 和 Near Clipping Plane 到相機中心的距離相等，即 $n=f_{cam}$ 。則 $a_x,a_y$ 可以重新表示為：

$a_x = -\frac{f_{cam}}{W/2} \\ a_y = -\frac{f_{cam}}{H/2} \\$

(所謂焦距，指的是相機光圈到成像平面的距離。但正如文章開始提到的，由于圖形學中的相機是模擬的，所以并不存在焦距的概念。只是由于投影平面一般和 Near Clipping Plane 重合，因此可以簡單認為 $f_{cam} = n$ ，但二者其實是不同的概念)

對于 $a_z$ 和 $b_z$ ，由于論文將 f 設定為無窮遠，因此：

$a_z = \lim_{f \rightarrow \infty} \frac{f+n}{f-n} \\ =\lim_{f \rightarrow \infty}(1+\frac{2n}{f-n}) \\ = 1$

$b_z = \lim_{f \rightarrow \infty} \frac{2fn}{f-n} \\ =\lim_{f \rightarrow \infty} \frac{2n}{1-\frac{n}{f}} \\ = 2n$

可以得到最終的 o’ 和 d’
在這里插入圖片描述

在 $t\ \in [0,1]$ 內采樣，等價于相機坐標系中在 $t\in[0,\infty]$ 范圍內采樣。但是，如前文描述的，相機坐標系的可視范圍是從 Near Clipping Plane 到 Far Clipping Plane 之間，也就是在 $z\in[-\infty],-n$ 這個區間。為了保證光線上每個采樣點可見，需要把光線起點對齊到 Near Clipping Plane 上。