盡管《機器學習數學基礎》這本書,耗費了比較長的時間和精力,怎奈學識有限,錯誤難免。因此,除了在專門的網頁( 勘誤和修訂 )中發布勘誤和修訂內容之外,對于重大錯誤,我還會以專題的形式發布,并做出更多的相關解釋。
更歡迎有識之士、廣大讀者朋友,指出其中的錯誤。非常感謝大家的幫助。
在《機器學習數學基礎》第29頁到第30頁,推導過渡矩陣和坐標變換的時候,原文有一些錯誤。下面將推導過程重新編寫如下,并且增加一些更詳細的說明。此說明沒有寫入原文,是為了協助理解這段推導而作。
針對性的修改,請參閱:勘誤與修訂
設 { α 1 , ? , α n } \{\pmb{\alpha}_1, \cdots, \pmb{\alpha}_n\} {α1?,?,αn?}( α i \pmb{\alpha}_i αi? 表示列向量) 是某個向量空間的一個基,則該空間中一個向量 O A → \overrightarrow{OA} OA 可以描述為:
O A → = x 1 α 1 + ? + x n α n (1.3.4) \overrightarrow{OA} = x_1\pmb{\alpha}_1 + \cdots + x_n\pmb{\alpha}_n\tag{1.3.4} OA=x1?α1?+?+xn?αn?(1.3.4)
其中的 ( x 1 , ? , x n ) (x_1, \cdots, x_n) (x1?,?,xn?) 即為向量 O A → \overrightarrow{OA} OA 在基 { α 1 , ? , α n } \{\pmb{\alpha}_1, \cdots, \pmb{\alpha}_n\} {α1?,?,αn?} 的坐標。
如果有另外一個基 { β 1 , ? , β n } \{\pmb{\beta}_1, \cdots, \pmb{\beta}_n\} {β1?,?,βn?}( β i \pmb{\beta}_i βi? 表示列向量),向量 O A → \overrightarrow{OA} OA 又描述為:
O A → = x 1 ′ β 1 + ? + x n ′ β n (1.3.5) \overrightarrow{OA} = x_1'\pmb{\beta}_1 + \cdots + x_n'\pmb{\beta}_n\tag{1.3.5} OA=x1′?β1?+?+xn′?βn?(1.3.5)
那么,同一個向量空間的這兩個基有沒有關系呢?有。不要忘記,基是一個向量組,例如基 { β 1 , ? , β n } \{\pmb{\beta}_1, \cdots, \pmb{\beta}_n\} {β1?,?,βn?} 中的每個向量也在此向量空間,所以可以用基 { α 1 , ? , α n } \{\pmb{\alpha}_1, \cdots, \pmb{\alpha}_n\} {α1?,?,αn?} 線性表出,即:
{ β 1 = b 11 α 1 + ? + b n 1 α n ? β n = b 1 n α 1 + ? + b n n α n \begin{cases}\begin{split}\pmb{\beta}_1 &= b_{11}\pmb{\alpha}_1 + \cdots + b_{n1}\pmb{\alpha}_n \\ \vdots \\\pmb{\beta}_n &= b_{1n}\pmb{\alpha}_1 + \cdots + b_{nn}\pmb{\alpha}_n \end{split}\end{cases} ? ? ??β1??βn??=b11?α1?+?+bn1?αn?=b1n?α1?+?+bnn?αn???
以矩陣(這里提前使用了矩陣的概念,是因為本書已經在前言中聲明,不假定讀者完全沒有學過高等數學。關于矩陣的更詳細內容,請參閱第2章)的方式,可以表示為:
[ β 1 ? β n ] = [ α 1 ? α n ] [ b 11 ? b 1 n ? b n 1 ? b n n ] (1.3.6) \begin{equation} \begin{split} \begin{bmatrix}\pmb{\beta}_1&\cdots&\pmb{\beta}_n\end{bmatrix} = \begin{bmatrix}\pmb{\alpha}_1&\cdots&\pmb{\alpha}_n\end{bmatrix}\begin{bmatrix}b_{11} & \cdots & b_{1n}\\\vdots\\b_{n1} & \cdots &b_{nn}\end{bmatrix} \end{split} \end{equation}\tag{1.3.6} [β1????βn??]=[α1????αn??] ?b11??bn1?????b1n?bnn?? ???(1.3.6)
其中:
P = [ b 11 ? b 1 n ? b n 1 ? b n n ] \pmb P = \begin{bmatrix}b_{11} & \cdots & b_{1n}\\\vdots\\b_{n1} & \cdots &b_{nn}\end{bmatrix} P= ?b11??bn1?????b1n?bnn?? ?
稱為基 { α 1 , ? , α n } \{\pmb{\alpha}_1, \cdots, \pmb{\alpha}_n\} {α1?,?,αn?} 向基 { β 1 , ? , β n } \{\pmb{\beta}_1, \cdots, \pmb{\beta}_n\} {β1?,?,βn?} 的過渡矩陣。顯然,過渡矩陣實現了一個基向另一個基的變換。
定義 在同一個向量空間,由基 { α 1 ? α n } \{\pmb{\alpha}_1\quad\cdots\quad\pmb{\alpha}_n\} {α1??αn?} 向基 { β 1 ? β n } \{\pmb{\beta}_1\quad\cdots\quad\pmb{\beta}_n\} {β1??βn?} 的過渡矩陣是 P \pmb{P} P ,則:
[ β 1 ? β n ] = [ α 1 ? α n ] P [\pmb{\beta}_1\quad\cdots\quad\pmb{\beta}_n] = [\pmb{\alpha}_1\quad\cdots\quad\pmb{\alpha}_n]\pmb P [β1??βn?]=[α1??αn?]P
根據(1.3.5)式,可得:
x 1 ′ β 1 + ? + x n ′ β n = x 1 ′ b 11 α 1 + ? + x 1 ′ b n 1 α n + ? + x n ′ b 1 n α 1 + ? + x n ′ b n n α n = ( x 1 ′ b 11 + ? + x n ′ b 1 n ) α 1 + ? + ( x 1 ′ b n 1 + ? + x n ′ b n n ) α n \begin{split}x_1'\pmb{\beta}_1 + \cdots + x_n'\pmb{\beta}_n &= x_1'b_{11}\pmb{\alpha}_1 + \cdots + x_1'b_{n1}\pmb{\alpha}_n \\ & \quad + \cdots \\ & \quad + x_n'b_{1n}\pmb{\alpha}_1 + \cdots + x_n'b_{nn}\pmb{\alpha}_n \\ &=(x_1'b_{11}+ \cdots + x_n'b_{1n})\pmb{\alpha}_1 \\ & \quad + \cdots \\ &\quad+(x_1'b_{n1} + \cdots + x_n'b_{nn})\pmb{\alpha}_n\end{split} x1′?β1?+?+xn′?βn??=x1′?b11?α1?+?+x1′?bn1?αn?+?+xn′?b1n?α1?+?+xn′?bnn?αn?=(x1′?b11?+?+xn′?b1n?)α1?+?+(x1′?bn1?+?+xn′?bnn?)αn??
(1.3.4)式 和(1.3.5)式描述的是同一個向量,所以:
{ x 1 = x 1 ′ b 11 + ? + x n ′ b 1 n ? x n = x 1 ′ b n 1 + ? + x n ′ b n n \begin{cases}\begin{split}x_1 &= x_1'b_{11} + \cdots + x_n'b_{1n}\\&\vdots\\x_n &= x_1'b_{n1} + \cdots + x_n'b_{nn}\end{split}\end{cases} ? ? ??x1?xn??=x1′?b11?+?+xn′?b1n??=x1′?bn1?+?+xn′?bnn???
如果寫成矩陣形式,即:
[ x 1 ? x n ] = [ b 11 ? b 1 n ? b n 1 ? b n n ] [ x 1 ′ ? x n ′ ] (1.3.7) \begin{bmatrix}x_1\\\vdots\\x_n\end{bmatrix} = \begin{bmatrix}b_{11} & \cdots & b_{1n}\\\vdots\\b_{n1} & \cdots &b_{nn}\end{bmatrix}\begin{bmatrix}x_1'\\\vdots\\x_n'\end{bmatrix}\tag{1.3.7} ?x1??xn?? ?= ?b11??bn1?????b1n?bnn?? ? ?x1′??xn′?? ?(1.3.7)
表示了在同一個向量空間中,向量在不同基下的坐標之間的變換關系,我們稱為坐標變換公式。
定義 在某個向量空間中,由基 { α 1 ? α n } \{\pmb{\alpha}_1\quad\cdots\quad\pmb{\alpha}_n\} {α1??αn?} 向基 { β 1 ? β n } \{\pmb{\beta}_1\quad\cdots\quad\pmb{\beta}_n\} {β1??βn?} 的過渡矩陣是 P \pmb{P} P 。某向量在基 { α 1 ? α n } \{\pmb{\alpha}_1\quad\cdots\quad\pmb{\alpha}_n\} {α1??αn?} 的坐標是 x = [ x 1 ? x n ] \pmb{x}=\begin{bmatrix}x_1\\\vdots\\x_n\end{bmatrix} x= ?x1??xn?? ?,在基 { β 1 ? β n } \{\pmb{\beta}_1\quad\cdots\quad\pmb{\beta}_n\} {β1??βn?} 的坐標是 x ′ = [ x 1 ′ ? x n ′ ] \pmb x'=\begin{bmatrix}x_1'\\\vdots \\x_n'\end{bmatrix} x′= ?x1′??xn′?? ?,這兩組坐標之間的關系是:
x = P x ′ \pmb x = \pmb P \pmb x' x=Px′
《機器學習數學基礎》第29頁到第30頁的錯誤,是我講授《機器學習數學基礎》的課程時發現的。現在深刻體會到:教,然后知不足。教學相長,認真地研究教學,也是自我提升。