詳解SLAM中的李群和李代數（上）

1 概述

最近閱讀高翔大神的《視覺SLAM十四講》這本書，感覺整本書寫的非常的平實，用非常接地氣的語言毫無保留的介紹了視覺SLAM的相關知識，非常值得一讀。不過，在第4章出現的李群和李代數的相關概念就有點令人難以費解了。其實這段不是這本書的作者故意寫的晦澀難懂，而是這部分知識屬于數學或者物理專業才會學習的知識，普通的理工科專業的讀者沒有接觸過這方面的知識。筆者也是在這個地方卡了殼，因此在本文中將李群和李代數相關的知識總結一下。

2 群

在數學中，群是一個基礎但非常重要的代數結構，它由一個集合和一種滿足特定條件的二元運算組成。具體來說，如果一個集合 $G$ 和其上的一個二元運算 $\cdot$ 滿足以下四個公理，則稱 $\cdot)$ 為一個群：

封閉性（Closure）：對于 $G$ 中任意兩個元素 $a$ 和 $b$ ，它們通過運算 $\cdot$ 得到的結果也是 $G$ 的一個元素。即，如果 $\in G$ ，那么 $\cdot b \in G$ 。
結合律（Associativity）：對于 $G$ 中任意三個元素 $a$ 、 $b$ 和 $c$ ，它們之間的運算滿足結合律。即， $\cdot b) \cdot c = a \cdot (b \cdot c)$ 。
單位元（Identity element）：存在一個 $G$ 中的特殊元素 $e$ （稱為單位元），使得對于 $G$ 中的任何元素 $a$ 都有 $\cdot a = a \cdot e = a$ 。
逆元（Inverse element）：對于 $G$ 中的每一個元素 $a$ ，都存在一個 $G$ 中的元素 $b$ （記作 $a^{-1}$ ，稱為 $a$ 的逆元），使得 $\cdot a^{-1} = a^{-1} \cdot a = e$ ，這里 $e$ 是上述的單位元。

概念說出來都是很抽象的，那么接下來直接舉兩個具體的例子。

2.1 整數集與加法運算

如果集合 $\mathbb{Z}= \{ \dots, -2, -1, 0, 1, 2, \dots\ \}$ ，運算 $\cdot = +$ ，那么整數集與加法運算 $(Z, +)$ 就是一個群，因為其符合群的四個公理：

封閉性：
對于任意兩個整數 $\in \mathbb{Z}$ ， $a + b$ 仍然是一個整數。例如， $3 + (? 5) = ? 2$ ，結果仍然在 $\mathbb{Z}$ 中。
因此，封閉性成立。
結合律：
加法是結合的，即對于任意 $\in \mathbb{Z}$ ，有

$(a + b) + c = a + (b + c)$

因此，結合律成立。
單位元：
單位元是 $e = 0$ ，因為對于任意 $\in \mathbb{Z}$ ，有

$a + 0 = 0 + a = a$

因此，單位元存在。
逆元：
對于任意 $\in \mathbb{Z}$ ，它的逆元是 $? a$ ，因為

$a + (? a) = (? a) + a = 0$

因此，每個元素都有逆元。

2.2 非零實數集與乘法運算

如果集合 $\mathbb{R}^* = \{ x \in \mathbb{R} \mid x \neq 0 \}$ ，運算 $\cdot = \times$ ，那么非零實數集與乘法運算 $(\mathbb{R}^*,\times)$ 就是一個群，因為其符合群的四個公理：

封閉性：
對于任意兩個非零實數 $\in \mathbb{R}^*$ ， $\times b$ 仍然是一個非零實數。例如， $\times (-2) = -6$ ，結果仍然在 $\mathbb{R}^*$ 中。
因此，封閉性成立。
結合律：
乘法是結合的，即對于任意 $\in \mathbb{R}^*$ ，有

$\times b) \times c = a \times (b \times c)$

因此，結合律成立。
單位元：
單位元是 $e = 1$ ，因為對于任意 $\in \mathbb{R}^*$ ，有

$\times 1 = 1 \times a = a$

因此，單位元存在。
逆元：
對于任意 $\in \mathbb{R}^*$ ，它的逆元是 $\frac{1}{a}$ ，因為

$\times \frac{1}{a} = \frac{1}{a} \times a = 1$

因此，每個元素都有逆元。

這樣來看的話，群的概念還是很好理解的。數學上的語言都是很抽象很概括的，我們不妨結合具體的例子來理解。那么，為什么會有群這個概念呢，因為數學家發現這種二元運算的集合有非常規律良好的性質，因此將其歸納總結了出來。

3 李群

李群是具有光滑性質的群。群的定義我們剛才論述過，那么這個“光滑”指的是一個怎么樣的概念呢？要說清楚這個概念，可能需要更加專業的數學知識（比如《微分幾何》），但是我們可以用簡單一點的概念進行類比，那就是高數中的可導。

回憶一下高數中關于可導的定義：設 $\to \mathbb{R}$ 是一個實值函數，定義在某個區間 $D$ 上，并且 $x_0 \in D$ 是該區間中的一個內點。如果極限

$f'(x_0) = \lim_{h \to 0} \frac{f(x_0+h) - f(x_0)}{h}$

存在，則稱函數 $f$ 在點 $x_0$ 處是可導的，這個極限稱為 $f$ 在 $x_0$ 處的導數，記作 $f'(x_0)$ 或 $\frac{df}{dx}(x_0)$ 。

直觀地說，這個極限衡量了當輸入 $x$ 發生微小變化時，輸出 $f (x)$ 的變化率。如果一個函數在某區間內處處可導，那么這個函數在該區間內不僅連續，而且是“光滑”的，沒有尖點或間斷。這是一個非常優良的性質，它意味著這個函數的每個點都可以用切線方程來近似，從而使得復雜的問題可以通過簡單的線性問題來解決，極大地簡化了計算。

李群的光滑性質就類似于高數中的可導性。光滑意味著群運算是可以進行微分的，李群上的任何點都可以研究其局部變化率（即導數），并通過這些導數來分析群的性質。函數的導數就是導函數，而李群在單位元附近的局部性質的描述就是李代數，它通過切空間捕捉了李群的局部線性化信息。

SLAM中兩個重要的李群是特殊正交群 $SO (n)$ 和 特殊歐式群 $SE (n)$ ，特殊正交群是旋轉變換的集合和運算，特殊歐式群是歐式變換/剛性變換的集合和運算。旋轉變換和歐式變換是SLAM中的兩個重要的幾何變換，要理解這兩個概念，需要重點看《視覺SLAM十四講》第3講三維空間剛體運動的知識；或者對計算機圖形學、計算機視覺中幾何變換的知識有所了解。

3.1 特殊正交群 $SO (3)$

如果集合 $G$ 是所有的三維旋轉矩陣，運算 $\cdot$ 是矩陣乘法，這樣構成的群就是特殊正交群 $\{ R \in \mathbb{R}^{3\times3} \mid R^T R = I, \det(R) = 1\}$ 。

特殊正交群符合群的四個公理：

封閉性：如果 $R_1, R_2 \in SO(3)$ ，則 $R_1 R_2 \in SO(3)$ 。兩個旋轉矩陣的乘積仍然是正交矩陣，且行列式仍為1。從圖形學的角度上來說，旋轉兩次得到的姿態，旋轉一次也可以得到。
結合律：矩陣乘法本身是結合的，因此 $SO (3)$ 滿足結合律。
單位元：單位矩陣 $\in SO(3)$ ，因為 $I^T I = I$ 且 $\det(I) = +1$ 。
逆元：對于任意 $\in SO(3)$ ，其逆元是 $R^{-1} = R^T$ （正交矩陣的性質），且 $det(R^{-1}) = 1$ 。

特殊正交群具有光滑特性，這一點我們可以結合旋轉變換本身的特性來理解。設想這樣的一個場景：三維空間中有一個魔方，這個魔方以自己的中心點位置進行旋轉。無論這個魔方怎么旋轉，到任何位置，旋轉過程都是平滑的。在計算機圖形學中，很容易實現這樣的一個任務：給定一個起點旋轉矩陣、終點旋轉矩陣以及起終點的時間差，很容易線性插值出任意時刻的旋轉矩陣。能夠平滑地旋轉物體，也很符合我們對客觀物理現象的認知。

3.2 特殊歐式群 $SE (3)$

如果集合 $G$ 是所有的歐式變換（剛體變換）矩陣，運算 $\cdot$ 是矩陣乘法，這樣構成的群就是特殊歐式群 $SE(3)=\bigg\{ T = \begin{bmatrix} R & t \\ 0 & 1 \end{bmatrix} \in \mathbb{R}^{4\times4} \mid R \in SO(3) ,t \in \mathbb{R}^3 \bigg\}$ 。在這里， $R$ 表示旋轉矩陣， $t$ 是平移向量。

特殊歐式群符合群的四個公理：

封閉性：如果 $T_1, T_2 \in SE(3)$ ，則 $T_1 T_2 \in SE(3)$ 。歐式變換是齊次變換矩陣，相乘后仍然保持旋轉矩陣在左上角，平移向量在右上角的形式。從圖形學的角度上來說，歐式變換兩次得到的位姿，歐式變換一次也可以得到。
結合律：矩陣乘法本身是結合的，因此 $SE (3)$ 滿足結合律。
單位元：單位矩陣 $I_{4 \times 4}$ （包含 $\times 3$ 單位矩陣和零平移向量）是 $SE (3)$ 的單位元。
逆元：對于任意 $\in SE(3)$ ，其逆元是

$T^{-1} = \begin{bmatrix} R^T & -R^T t \\ 0 & 1 \end{bmatrix}.$

特殊歐式群具有光滑特性，這一點同樣可以結合歐式變換本身的特性來理解。歐式變換是旋轉變換與平移變換的組合，我們可以假設這樣一個場景：一個照相機要拍攝一個物體，需要移動到這個物體的前方，并且要調整相機朝向，才能準確生成這張物體的照片。相機無論怎么移動位置，調整朝向，這個過程都是平滑的。在計算機圖形學的場景中，經常會有這樣的需求，按照一條固定的軌跡飛行，這條飛行軌跡上的任意一點都可以通過插值得到，保證相機操作的平滑性。

4 李代數

4.1 預備

在進行李代數的論述之前，我們需要先學習一些預備知識。

4.1.1 反對稱矩陣

一個 $\times n$ 實矩陣 $A$ 是反對稱矩陣（或斜對稱矩陣），如果它滿足：

$A^T = -A.$

也就是說，矩陣的轉置等于它的負數，那么這個矩陣就是反對稱矩陣。一個反對稱矩陣的例子如下：

$\begin{bmatrix} 0 & -a_3 & a_2 \\ a_3 & 0 & -a_1 \\ -a_2 & a_1 & 0 \end{bmatrix}.$

反對稱矩陣有一個很重要的性質：每個三維向量都有唯一的反對稱矩陣對應。具體來說，給定一個三維實向量：

$\boldsymbol{a} = \begin{bmatrix} a_1 \\ a_2 \\ a_3 \end{bmatrix} \in \mathbb{R}^3,$

我們可以唯一地構造一個 $3\times3$ 的反對稱矩陣，記作：

$[\boldsymbol{a}]_\times = \begin{bmatrix} 0 & -a_3 & a_2 \\ a_3 & 0 & -a_1 \\ -a_2 & a_1 & 0 \end{bmatrix}.$

這個符號 $[\boldsymbol{a}]_\times$ 中的 $\times$ 表示“叉乘”，因為這個矩陣的作用就等價于與 $\boldsymbol{a}$ 做叉積。

等價于叉積運算是什么意思呢？設 $\boldsymbol{a}, \boldsymbol{b} \in \mathbb{R}^3$ ，那么：

$\boldsymbol{a} \times \boldsymbol{b} = [\boldsymbol{a}]_\times \boldsymbol{b}.$

即： $\boldsymbol{a}$ 和 $\boldsymbol{b}$ 的叉積等于反對稱矩陣 $[\boldsymbol{a}]_\times$ 作用在 $\boldsymbol{b}$ 上的結果。

舉例說明，設：

$\boldsymbol{a} = \begin{bmatrix}1 \\ 2 \\ 3\end{bmatrix}, \quad \boldsymbol{b} = \begin{bmatrix}4 \\ 5 \\ 6\end{bmatrix},$

則：

$[\boldsymbol{a}]_\times = \begin{bmatrix} 0 & -3 & 2 \\ 3 & 0 & -1 \\ -2 & 1 & 0 \end{bmatrix}$

$[\boldsymbol{a}]_\times \boldsymbol{b} = \begin{bmatrix} 0 & -3 & 2 \\ 3 & 0 & -1 \\ -2 & 1 & 0 \end{bmatrix} \begin{bmatrix}4 \\ 5 \\ 6\end{bmatrix} = \begin{bmatrix} -3 \\ 6 \\ -3 \end{bmatrix}$

而直接計算叉積：

$\boldsymbol{a} \times \boldsymbol{b} = \begin{vmatrix} \mathbf{i} & \mathbf{j} & \mathbf{k} \\ 1 & 2 & 3 \\ 4 & 5 & 6 \end{vmatrix} = -3\mathbf{i} + 6\mathbf{j} - 3\mathbf{k} = \begin{bmatrix} -3 \\ 6 \\ -3 \end{bmatrix}$

兩者的結果一致。

4.1.2 函數求導

1. 乘積法則

設 $f (t), g (t)$ 是兩個可導的實函數，那么它們乘積的導數為：

$\frac{d}{dt}(f(t)g(t)) = f'(t)g(t) + f(t)g'(t)$

例如，設 $f(t) = t^2, g(t) = \sin t$ ，則：

$fg)' = (t^2 \sin t)' = 2t \sin t + t^2 \cos t$

2. 鏈式法則

如果 $y = f (g (t))$ ，那么：

$\frac{dy}{dt} = f'(g(t)) \cdot g'(t).$

例如，令 $f(u) = e^u$ ， $u = g (t) = a t$ ，根據鏈式法則：

$\frac{d}{dt} e^{at} = \frac{d}{du} e^u \cdot \frac{d}{dt}(at) = e^u \cdot a = e^{at} \cdot a = a e^{at}.$

即：

$\frac{d}{dt} e^{at} = a e^{at}$

4.1.3 矩陣求導

對于一個隨自變量t變化的矩陣 $R (t)$ ，它的導數 $\frac{dR(t)}{dt}$ 是將該矩陣的每個元素分別對自變量 $t$ 求導得到的新矩陣。例如：

如果：

$\begin{bmatrix} r_{11}(t) & r_{12}(t) \\ r_{21}(t) & r_{22}(t) \end{bmatrix},$

那么：

$\frac{dR(t)}{dt} = \begin{bmatrix} \frac{dr_{11}}{dt} & \frac{dr_{12}}{dt} \\ \frac{dr_{21}}{dt} & \frac{dr_{22}}{dt} \end{bmatrix}.$

所以，矩陣對自變量求導 = 矩陣中每個元素對自變量求導。

通過上述概念可看出，矩陣轉置運算與微分運算是可交換的。可以理解為：

轉置是對矩陣元素做排列；
微分是對每個元素做導數；
所以先轉置再導數 = 先導數再轉置。

公式描述就是：

$\frac{d}{dt} R(t)^T = \left(\frac{dR(t)}{dt}\right)^T.$

4.1.4 微分方程

微分方程是數學中的一種方程，它涉及一個或多個未知函數及其導數，目標是找到滿足該方程的未知函數。后面會求解一個一階線性常微分方程如下：

$\frac{dx(t)}{dt} = a x(t), \quad x(0) = x_0,$

其中 $a$ 是常數。

先說答案，這個方程的通解是：

$x(t) = x_0 e^{at}.$

可以把這個解代入原方程驗證是否成立。對解的兩邊進行求導：

$\frac{dx(t)}{dt} = x_0 \cdot \frac{d}{dt}(e^{at}) = x_0 \cdot a e^{at} = a x_0 e^{at} = a x(t).$

左邊是 $\frac{dx(t)}{dt}$ ，右邊是 $a x (t)$ ，兩者相等，所以解成立。

如果需要嚴格推導這個解，需要使用分離變量法。

從原方程出發：

$\frac{dx}{dt} = a x.$

把變量分開：

$\frac{1}{x} dx = a dt.$

兩邊積分：

$\int \frac{1}{x} dx = \int a dt \\ \Rightarrow \ln|x| = at + C,$

其中 $C$ 是積分常數。

兩邊取指數：

$x| = e^{at + C} = e^C e^{at}.$

令 $x_0 = e^C$ ，得：

$x(t) = x_0 e^{at}.$

4.2 引出

前面我們介紹過，李群的光滑性質保證了是可以微分的，那我們就嘗試對李群 $SO (3)$ 進行求導。假設一個剛體在三維空間中繞某個軸旋轉，其旋轉狀態可以用一個旋轉矩陣 $R (t)$ 來描述，其中 $t$ 是時間參數。那么我們要求的就是 $R (t)$ 關于時間 $t$ 的導數：

$\frac{d}{dt} R(t)$

由于 $R (t)$ 是正交矩陣，滿足 $R(t)^T R(t) = I$ ，對兩邊關于 $t$ 求導：

$\frac{d}{dt} \big( R(t)^T R(t) \big) = \frac{d}{dt} I$

根據函數求導的乘積法則，展開左邊的導數：

$\frac{dR(t)^T}{dt} R(t) + R(t)^T \frac{dR(t)}{dt} = 0.$

根據預備知識，矩陣轉置運算與微分運算可交換，有 $\frac{dR(t)^T}{dt} = \big(\frac{dR(t)}{dt}\big)^T$ ，因此上式可以改寫為：

$\bigg(\frac{dR(t)}{dt}\bigg)^T R(t) + R(t)^T \frac{dR(t)}{dt} = 0.$

繼而：

$\frac{dR(t)}{dt} R(t)^T = -\bigg(\frac{dR(t)}{dt}\bigg)^T R(t)$

這表明 $\frac{dR(t)}{dt} R(t)^T$ 是一個反對稱矩陣，記作 $[\boldsymbol{\omega}(t)]_{\times}$ ，即：

$\frac{dR(t)}{dt} = [\boldsymbol{\omega}(t)]_{\times} R(t),$

上式是一個一階線性微分方程，有如下條件：

$\frac{dR(t)}{dt} = [\boldsymbol{\omega}]_\times R(t), \quad R(0) = I,$

這個方程我們在預備知識中求解過，它的解是：

$\exp([\boldsymbol{\omega}]_\times t).$

其中 $\exp$ 表示矩陣指數運算。 $\boldsymbol{\omega}(t)$ 描述了剛體在時刻 $t$ 的瞬時旋轉軸和旋轉速率，其實也就是表達旋轉矩陣的旋轉向量， $[\boldsymbol{\omega}(t)]_{\times}$ 是其對應的反對稱矩陣。這個公式給出了從旋轉向量到旋轉矩陣（李群）的映射，也就是指數映射。而這個旋轉向量，就是我們要論述的李代數。