計算機圖形學中MVP變換的理論推導

課程地址：Computing the Pixel Coordinates of a 3D Point

知識鋪墊：矩陣的真實內涵

矩陣的每一列/行（左乘和右乘的區別）代表了新坐標系的基向量在原基向量構成的坐標系中的坐標，這些新基向量（單位軸）構成新坐標系（用矩陣表示）

如果此時用這個矩陣乘一個向量，則向量中每個元素的含義是新坐標系中每個軸的對應分量，三個軸分量線性組合得到一個新坐標，這個坐標就是用這個新坐標系描述的
例如：矩陣A乘以向量d得到一個新向量f，矩陣A中的每一列代表用原坐標系（標準正交基）中的新向量作為新坐標系的基向量，向量d表示新坐標系中三個軸的對應分量，這些分量線性組合得到新向量f,整個過程可以描述為矩陣A將向量d變換到向量f

總之，矩陣的每一列或行元素代表在原坐標系 $(1, 0, 0) 、 (0, 1, 0) 、 (0, 0, 1)$ 中找三個正交向量作為新基向量（坐標系的軸），之后矩陣乘別的向量就是用這個新基向量線性組合得到新向量

世界坐標系

世界坐標系描述了一切，包括相機的位置、物體的頂點等等，為了能夠讓我們看見世界坐標系中的物體，我們就需要將世界坐標系中的頂點轉到相機視角下，這樣才能讓我們看到某個視角下的物體
我們假設世界坐標系為identity matrix,即
$\begin{pmatrix} 1,0,0\\ 0,1,0\\ 0,0,1 \end{pmatrix}$
我們可以定義一個模型，比如這里的立方體，我可以假想一個坐標系（原點(0,0,0)+三個互相垂直的軸），我可以在這個假想的坐標系中直接寫出立方體的每個頂點的坐標
$p_1=[-0.5, -0.5, 0.5]\\ p_2=[-0.5, 0.5, 0.5]\\ p_3=[-0.5, 0.5, -0.5]\\ ~\\ ……$
其實這些坐標都是我們在想象的一個空間坐標系（并非真的用代碼實現了一個坐標系）內描述的這些頂點，該坐標系原點為 $[0, 0, 0]$ ，三個軸互相垂直

重點！！！務必理解，我們并非明確地變換坐標系；而是平移、縮放和旋轉對象（頂點）完成所謂坐標系的轉換。一個 4x4 矩陣表示這些變換，并且該矩陣可以被視為一個坐標系，也就是說我們對這些頂點乘以一個變換矩陣就相當于換了一個坐標系

世界坐標系到相機坐標系的變換（相機外參矩陣）

相機外參矩陣的結構

每個相機的初始位置其實是與我們想象的“世界坐標系”重合的，我們需要將這些定義在世界坐標系的頂點乘以一個矩陣（本質是變換，看作一個新坐標系）轉換到用其他坐標系表示，這個矩陣就是world_to_camera矩陣（相機外參矩陣），這個矩陣的構成：

齊次坐標：在三維空間中，為了能用矩陣同時表示旋轉和平移，引入四維齊次坐標，將三維點 $(x, y, z)$ 表示為 $(x, y, z, 1)$
矩陣結構：4×4 矩陣可分為兩部分：
左上 3×3 子矩陣 𝑅：表示旋轉，用于對齊世界坐標系的軸到相機坐標系的軸（即相機的方向基向量）
右上 3×1 向量 𝑡：表示平移，用于將世界原點“搬到”相機原點的位置（注意是逆變換，所以常帶負號）

將旋轉和平移整合到一個矩陣中就是這里所說的相機外參矩陣M

相機外參矩陣中的平移向量

相機外參矩陣中的旋轉矩陣

知識鋪墊：
旋轉一共三個自由度，繞 $x, y, z$ 旋轉，如果分別繞x、y、z軸旋轉可以得到三個方向上的旋轉矩陣 $R_x、R_y、R_z$ ，而相機外參矩陣中的旋轉矩陣是這三者的乘積
$R=R_x*R_y*R_z$
下圖來自：TEK5030 - Computer Vision

推導 $R_x、R_y、R_z$ ，頂點 $P_w$ 原先用坐標系 $X_wY_wZ_w$ 表示，現在用新坐標系 $X_cY_cZ_c$ 表示，也就是說頂點 $P_w$ 原先用坐標系 $X_wY_wZ_w$ 的三個基向量線性組合而成，現在想要用新坐標系 $X_cY_cZ_c$ 基向量線性組合表示頂點 $P_w$ 重新命名為 $P_c$
下圖來自：計算機視覺之— 相機內參與外參

相機外參矩陣中的旋轉矩陣是三個單純繞軸旋轉矩陣的乘積
$R=R_x*R_y*R_z$
先對世界坐標系描述的頂點做旋轉R，之后再進行平移 t 得到了用新坐標系（相機坐標系）描述的頂點

向量與點的區別
(1)向量（如基向量）只關心起點到終點的方向與長度，通常被視為從原點出發的箭頭；它們本身不附帶“起點位置”的信息。

(2)點才有“坐標位置”，平移才會改變它。

旋轉（R）：將世界坐標系的向量或點圍繞原點旋轉到相機坐標系方向。
平移（t）：將旋轉后的點平移到相機中心位置。
向量只經過旋轉，不經歷步驟平移；
而點則經歷旋轉+平移，最終同時擁有新的方向和位置

世界坐標系與相機坐標系互轉的應用場景

（1）從相機坐標系轉到世界坐標系（相機外參矩陣的逆c2w）應用場景
在多視圖立體重建或 SLAM（同步定位與建圖）等應用中，每臺相機先以其自身坐標系表示重建出的三維點,為了融合這些不同相機獲得的數據，需要將它們變換到同一世界坐標系。
將來自多臺相機或多時刻的點統一到全球參照系，用于點云拼接、稠密建圖和地圖創建等

三維模型點未知，僅知道模型在相機坐標系下點的坐標（模型的一部分點），這時候我們想要得到三維模型的所有點，就需要把每幀相機坐標系下的點都統一轉換到世界坐標系下

$P_w=P_c*M_{c2w}$
$P_w.x=P_c.x*M_{00}+P_c.y*M_{10}+P_c.z*M_{20}+M_{30}\\ ~\\ P_w.y=P_c.x*M_{01}+P_c.y*M_{11}+P_c.z*M_{21}+M_{31}\\ ~\\ P_w.z=P_c.x*M_{02}+P_c.y*M_{12}+P_c.z*M_{22}+M_{32}$

（2）從世界坐標系轉到相機坐標系（相機外參矩陣w2c）應用場景

在渲染、投影或相機標定（Camera Calibration）過程中，需要將已知的三維模型點映射到相機坐標系下，以便進一步投影到圖像平面

$M_{w2c}=M_{c2w}^{-1}\\ ~\\ P_c=P_w*M_{w2c}$
$P_c.x=P_w.x*M_{00}+P_w.y*M_{10}+P_w.z*M_{20}+M_{30}\\ ~\\ P_c.y=P_w.x*M_{01}+P_w.y*M_{11}+P_w.z*M_{21}+M_{31}\\ ~\\ P_c.z=P_w.x*M_{02}+P_w.y*M_{12}+P_w.z*M_{22}+M_{32}$