【論文閱讀筆記】NeRF+Mip-NeRF+Instant-NGP

前言

NeRF是NeRF系列的開山之作，將三維場景隱式的表達為神經網絡的權重用于新視角合成。
MipNeRF和Instant NGP分別代表了NeRF的兩個研究方向，前者是抗鋸齒，代表著渲染質量提升方向；后者是采用多分辨率哈希表用于加速NeRF的訓練與推理速度。

NeRF

Title：NeRF: Representing Scenes asNeural Radiance Fields for View Synthesis
Code：nerf-pytorch
From：ECCV 2020 Oral - Best Paper Honorable Mention

神經輻射場

在這里插入圖片描述
輻射場可以理解光線場，給定多張帶有相機內外參的二維圖片，從攝像機出發，引出到每一個像素的光線，通過對這條光線經歷過的空間點的顏色 $c$ 和體密度體密度 $\sigma$ 進行累積，以得到二維圖片上像素點的顏色，從而實現端到端訓練。在這個過程中，沒有顯式的三維結構，如點云、體素或者Mesh，而是通過神經網絡的權重 $F_{\theta}$ 將三維場景連續的存儲起來，通過空間位置（三維點 $[x, y, z]$ ）和視角方向（球坐標系下的極角和方位角 $[\theta,\phi]$ ）作為查詢條件，查詢出給定攝像機下的光線所經過的空間點顏色 $c$ 和體密度 $\sigma$ ，通過**體渲染（Volume Rendering）**得到該條光線對應像素點的顏色。

體渲染

P為三維空間中的一個點；o是攝像機的光心在世界坐標系的坐標；d為視角方向，單位向量；t為實數，表示o沿視角方向到P點的距離r(t)；t _n ≤ t ≤ t _f ; t _f,t _f 分別為三維場景的近和遠邊界

沿著視角方向的光線上的點P可以用上圖來表示，盡管論文中提到視角方向是使用 $\theta,\phi$ 來表示的，但代碼中還是使用單位向量 $d$ 來表示的。

連續體渲染

體渲染實際上就是將視線r上所有的點通過某種方式累計投射到圖像上形成像素顏色 $C (r)$ 的過程：
${C}(\boldsymbol{r})=\int_{t_n}^{t_f} T(t) \sigma(\boldsymbol{r}(t)) \boldsymbol{c}(\boldsymbol{r}(t), \boldsymbol{d}) dt \\ \text{where } T(t)=\exp \left(-\int_{t_n}^t \sigma(\boldsymbol{r}(s)) d s\right)\tag{1}$

其中， $\boldsymbol{c}(\boldsymbol{r}(t), \boldsymbol{d})$ 為三維點 $r (t)$ 從 $d$ 這個方向看到的顏色值; $\sigma(\boldsymbol{r}(t))$ 為體密度函數，反映的是該三維點的物理材質吸收光線的能力； $T (t)$ 反映的是射線上從 $t_n$ 到 $t$ 的累積透射率。tn和tf首先確定了nerf的邊界，而不至于學習到無窮遠；其次避免了光心到近景范圍內無效采樣。
直觀上理解σ，可以解釋為每個三維點吸收光線的能力，光經過該點，一部分被吸收，一部分透射，光的強度（可以理解為 $T (t)$ ）在逐漸減小，當光強為0時，后面的三維點即便可以吸收顏色，也不會對像素顏色有貢獻。指數函數保證了隨著σ的累積，光的強度從1逐漸減為0。

體渲染離散化

其實就是函數離散化的形式，將tn到tf拆分成N個均勻的分布空間，從每個區間中隨機選取一個樣本ti:

$t_i \sim \mathcal{U}\left[t_n+\frac{i-1}{N}\left(t_f-t_n\right), t_n+\frac{i}{N}\left(t_f-t_n\right)\right] \quad i \text{ 從1到N}$

然后將連續體渲染公式離散化：

$\hat{C}(\mathbf{r})=\sum_{i=1}^N T_i\left(1-\exp \left(-\sigma_i \delta_i\right)\right) \mathbf{c}_i \quad \tag 2 \\ \text{where } T_i=\exp \left(-\sum_{j=1}^{i-1} \sigma_j \delta_j\right)$
where $T_i=\exp \left(-\sum_{j=1}^{i-1} \sigma_j \delta_j\right)$
其中， $\delta_i=t_{i+1}-t_i$ 表示相鄰采樣點之間的距離

在這里插入圖片描述
但均勻采樣有明顯的問題，比如體密度較大的點如果在兩個采樣點之間，那么永遠不可能采樣到。從上圖中可看出，左半張代表均勻采樣，右半張代表真實分布，左邊由于表面兩側被采樣到，只能反應這個區間內可能存在表面，但估計的σ不一定準確。
作者提出了分層采樣來試圖解決這個問題。

方法

位置編碼

在這里插入圖片描述
網絡結構由如上圖所示全連接網絡組成，輸入x，d分別分三維點的空間位置和視線方向。該三維點的體密度只與空間位置相關，顏色還和視角相關。

$\gamma(p)=\left(\sin \left(2^0 \pi p\right), \cos \left(2^0 \pi p\right), \cdots, \sin \left(2^{L-1} \pi p\right), \cos \left(2^{L-1} \pi p\right)\right)$

還可以注意到γ(x)和γ(d)分別是對位置坐標和方向坐標的位置編碼（標準正余弦位置編碼），這是由于單純坐標只能體現低頻信息，位置編碼可以有效的區分開兩個距離很近的坐標（即低頻接近但高頻編碼分開【但或許也有問題，離得特別近的兩個點或許低頻信息也不相似，私以為mipnerf考慮三維點鄰域的區間，在一定程度上可以緩解】），從而幫助網絡學習到高頻幾何和紋理細節。如下圖所示，視角信息有效反應高光信息，位置編碼有助于恢復高頻細節。
在這里插入圖片描述

分層采樣

除了上述提到的均勻采樣可能導致i真實表面難以正好采樣到，還有均勻采樣帶來了很多無意義空間的無效采樣，簡單來說，只有空氣的地方沒必要進行采樣，或者被遮擋區域（可見性問題，不可見區域也沒必要采樣，需要提前判斷累積透射率是否為降為0）。
在這里插入圖片描述

首先均勻采樣可以得到crose color，wi可以理解為同條射線被采樣的 $N_c$ 個三維點顏色的權重：
$\widehat{C}_c(\mathbf{r})=\sum_{i=1}^{N_c} w_i c_i, \quad w_i=T_i\left(1-\exp \left(-\sigma_i \delta_i\right)\right)$

根據均勻采樣點的權重值歸一化后按重要性重新采樣得到新的 $n_f$ 個位置

$\widehat{w}_i=w_i / \sum_{j=1}^{N_c} w_j$

最后損失函數可以表示為：

$\mathcal{L}=\sum_{\mathbf{r} \in \mathcal{R}}\left[\left\|\widehat{C}_c(\mathbf{r})-C(\mathbf{r})\right\|_2^2+\left\|\widehat{C}_f(\mathbf{r})-C(\mathbf{r})\right\|_2^2\right]$

這里為什么選用兩個網絡來分別做粗糙采樣和精細采樣，參考大佬【
】。crose網絡是用于均勻采樣的，包含更多的是低頻信息的查詢，而fine網絡用于重要性采樣，適用于三維點高頻細節的查詢，兩個網絡起到了類似濾波器的作用。

「待做實驗驗證！！！Todo」

體渲染推導公式（1）到公式（2）

首先，光線通過區間 $[0, t + d t)$ 的概率：
光線通過區間 $[0, t + d t)$ 的概率：
$\begin{aligned} \mathcal{T}(t+d t) & =\mathcal{T}(t) \cdot(1-d t \cdot \sigma(t)) \end{aligned}$
可以得到
$\begin{aligned} \frac{\mathcal{T}(t+d t)-\mathcal{T}(t)}{d t} & \equiv \mathcal{T}^{\prime}(t)=-\mathcal{T}(t) \cdot \sigma(t) \end{aligned}$
$1-\mathcal{T}(t)$ 為光線在區間 $[0, t)$ 被終止的累積分布函數(CDF)；
$\mathcal{T}(t) \sigma(t)$ 為其對應的概率密度函數 (PDF)

其中， $\mathcal{T}(t)$ 為光線通過區間 $[0, t)$ 透射率，也就是沒被終止的概率，從1->0； $\sigma(t)$ 為體密度函數； $dt \cdot \sigma(t)$ 為光線在 $[t, t + d t)$ 區間被吸收的概率，也就是被終止概率。
$\begin{aligned} \mathcal{T}^{\prime}(t) & =-\mathcal{T}(t) \cdot \sigma(t) \\ \frac{\mathcal{T}^{\prime}(t)}{\mathcal{T}(t)} & =-\sigma(t) \\ \int_a^b \frac{\mathcal{T}^{\prime}(t)}{\mathcal{T}(t)} d t & =-\int_a^b \sigma(t) d t \\ \left.\log \mathcal{T}(t)\right|_a ^b & =-\int_a^b \sigma(t) d t \\ \mathcal{T}(a \rightarrow b) \equiv \frac{\mathcal{T}(b)}{\mathcal{T}(a)} & =\exp \left(-\int_a^b \sigma(t) d t\right) \end{aligned}$
$\mathcal{T}(a \rightarrow b)$ 表示光線通過 $a$ 到 $b$ 區間沒被終止的概率，假設 $[a, b)$ 共享 $a$ 點體密度和顏色

$C=\int_0^D \mathcal{T}(t) \cdot \sigma(t) \cdot \mathbf{c}(t) d t+\mathcal{T}(D) \cdot \mathbf{c}_{\mathrm{bg}}$
$c_{b g}$ 表示背景色彩

$\begin{aligned} \boldsymbol{C}(a \rightarrow b) & =\int_a^b \mathcal{T}(a \rightarrow t) \cdot \sigma(t) \cdot \mathbf{c}(t) d t \\ & =\sigma_a \cdot \mathbf{c}_a \int_a^b \mathcal{T}(a \rightarrow t) d t \\ & =\sigma_a \cdot \mathbf{c}_a \int_a^b \exp \left(-\int_a^t \sigma(u) d u\right) d t \\ & =\sigma_a \cdot \mathbf{c}_a \int_a^b \exp \left(-\left.\sigma_a u\right|_a ^t\right) d t \\ & =\sigma_a \cdot \mathbf{c}_a \int_a^b \exp \left(-\sigma_a(t-a)\right) d t \\ & =\left.\sigma_a \cdot \mathbf{c}_a \cdot \frac{\exp \left(-\sigma_a(t-a)\right)}{-\sigma_a}\right|_a ^b \\ & =\mathbf{c}_a \cdot\left(1-\exp \left(-\sigma_a(b-a)\right)\right)\end{aligned}$

$\begin{aligned} \mathcal{T}(a \rightarrow c)= & =\exp \left(-\left[\int_a^b \sigma(t) d t+\int_b^c \sigma(t) d t\right]\right) \\ & =\exp \left(-\int_a^b \sigma(t) d t\right) \exp \left(-\int_b^c \sigma(t) d t\right) \\ & =\mathcal{T}(a \rightarrow b) \cdot \mathcal{T}(b \rightarrow c)\end{aligned}$

$\mathcal{T}_n=\mathcal{T}\left(t_n\right)=\mathcal{T}\left(0 \rightarrow t_n\right)=\exp \left(-\int_0^{t_n} \sigma(t) d t\right)=\exp \left(\sum_{k=1}^{n-1}-\sigma_k \delta_k\right)$

$\begin{aligned} \boldsymbol{C}\left(t_{N+1}\right) & =\sum_{n=1}^N \int_{t_n}^{t_{n+1}} \mathcal{T}(t) \cdot \sigma_n \cdot \mathbf{c}_n d t \\ & =\sum_{n=1}^N \int_{t_n}^{t_{n+1}} \mathcal{T}\left(0 \rightarrow t_n\right) \cdot \mathcal{T}\left(t_n \rightarrow t\right) \cdot \sigma_n \cdot \mathbf{c}_n d t \\ & =\sum_{n=1}^N \mathcal{T}\left(0 \rightarrow t_n\right) \int_{t_n}^{t_{n+1}} \mathcal{T}\left(t_n \rightarrow t\right) \cdot \sigma_n \cdot \mathbf{c}_n d t \\ & =\sum_{n=1}^N \mathcal{T}\left(0 \rightarrow t_n\right) \cdot\left(1-\exp \left(-\sigma_n\left(t_{n+1}-t_n\right)\right)\right) \cdot \mathbf{c}_n\end{aligned}$

$\mathcal{T}\left(0 \rightarrow t_n\right) \cdot\left(1-\exp \left(-\sigma_n\left(t_{n+1}-t_n\right)\right)\right)$ 表示光線正好在 $t_{N+1}$ 位置的顏色的權重（**透射率*該點的顏色吸收率=該點顏色的貢獻率，對應代碼中的weights，代碼中的 $\alpha$ 指代 $1-exp(-\sigma*\delta)**$ ）

$\boldsymbol{C}\left(t_{N+1}\right)=\sum_{n=1}^N \mathcal{T}_n \cdot\left(1-\exp \left(-\sigma_n \delta_n\right)\right) \cdot \mathbf{c}_n, \quad \\ \text{where} \quad \mathcal{T}_n=\exp \left(\sum_{k=1}^{n-1}-\sigma_k \delta_k\right)$