（線性代數最小二乘問題）Normal Equation（正規方程）

Normal Equation（正規方程） 是線性代數中的一個重要概念，主要用于解決最小二乘問題（Least Squares Problem）。它通過直接求解一個線性方程組，找到線性回歸模型的最優參數（如權重或系數）。以下是詳細介紹：

1. 定義與數學表達式

給定一個超定方程組（方程數量多于未知數）：
$A\mathbf{x} = \mathbf{b}$
其中：

$\in \mathbb{R}^{m \times n}$ （ $m > n$ ）是一個設計矩陣（Design Matrix），
$\mathbf{x} \in \mathbb{R}^n$ 是未知參數向量，
$\mathbf{b} \in \mathbb{R}^m$ 是目標向量（通常不在 $A$ 的列空間中）。

由于 $A\mathbf{x} = \mathbf{b}$ 通常無解，Normal Equation 的目標是找到一個近似解 $\mathbf{x}$ ，使得殘差向量 $\mathbf{e} = \mathbf{b} - A\mathbf{x}$ 的 L2 范數最小（即最小化誤差平方和）。

Normal Equation 的公式為：
$A^T A \mathbf{x} = A^T \mathbf{b}$
如果 $A^T A$ 可逆，則最優解為：
$\mathbf{x} = (A^T A)^{-1} A^T \mathbf{b}$

2. 推導方法

方法一：矩陣求導

定義損失函數（誤差平方和）：
$J(\mathbf{x}) = \|\mathbf{b} - A\mathbf{x}\|_2^2 = (\mathbf{b} - A\mathbf{x})^T (\mathbf{b} - A\mathbf{x})$
對 $\mathbf{x}$ 求導并令導數為零：
$\frac{\partial J}{\partial \mathbf{x}} = -2A^T \mathbf{b} + 2A^T A \mathbf{x} = 0$
得到 Normal Equation：
$A^T A \mathbf{x} = A^T \mathbf{b}$

方法二：幾何投影

幾何視角：
- $A\mathbf{x}$ 是 $\mathbf{b}$ 在 $A$ 的列空間（Column Space, $C (A)$ ）上的投影 $\mathbf{p}$ 。
- 殘差向量 $\mathbf{e} = \mathbf{b} - \mathbf{p}$ 必須正交于列空間，即：
  $A^T \mathbf{e} = 0 \quad \Rightarrow \quad A^T (\mathbf{b} - A\mathbf{x}) = 0$
- 由此得到 Normal Equation：
  $A^T A \mathbf{x} = A^T \mathbf{b}$

3. 幾何解釋

列空間與投影：
$A$ 的列空間 $C (A)$ 是所有可能的 $A\mathbf{x}$ 組成的子空間。由于 $\mathbf{b}$ 不在 $C (A)$ 中，我們尋找 $\mathbf{x}$ 使得 $A\mathbf{x}$ 是 $\mathbf{b}$ 在 $C (A)$ 上的投影 $\mathbf{p}$ 。
正交性條件：
殘差 $\mathbf{e} = \mathbf{b} - \mathbf{p}$ 必須與列空間正交（即 $\mathbf{e} \in N(A^T)$ ），從而導出 Normal Equation。

4. 應用場景

Normal Equation 是線性回歸的核心工具，尤其適用于以下情況：

小規模數據集：當特征數 $n$ 較小時（如 $n < 10, 000$ ），計算 $A^T A)^{-1}$ 的開銷較小。
無需迭代：與梯度下降等迭代方法不同，Normal Equation 直接通過矩陣運算得到解析解。
理論分析：在數學推導中，Normal Equation 提供了最小二乘解的唯一性、存在性等性質。

5. 注意事項

矩陣可逆性：
- $A^T A$ 必須是可逆的（即 $A$ 列滿秩， $\text{rank}(A) = n$ ）。
- 如果 $A^T A$ 不可逆（如特征間線性相關），則有無窮多解，此時需選擇最小范數解（通過偽逆 $A^\dagger$ ）。
計算復雜度：
- 計算 $A^T A)^{-1}$ 的時間復雜度為 $O(n^3)$ ，當 $n$ 較大時效率較低。
- 此時通常改用梯度下降或正則化方法（如嶺回歸）。
數值穩定性：
- 若 $A$ 接近病態矩陣（條件數很大），可能導致 $A^T A$ 不可逆或結果不穩定。

6. 示例

假設我們有以下數據：
$\begin{bmatrix} 1 & 2 \\ 1 & 3 \\ 1 & 4 \end{bmatrix}, \quad \mathbf{b} = \begin{bmatrix} 2 \\ 3 \\ 4 \end{bmatrix}$

計算 $A^T A$ 和 $A^T \mathbf{b}$ ：
$A^T A = \begin{bmatrix} 3 & 9 \\ 9 & 29 \end{bmatrix}, \quad A^T \mathbf{b} = \begin{bmatrix} 9 \\ 29 \end{bmatrix}$
解 Normal Equation：
$\begin{bmatrix} 3 & 9 \\ 9 & 29 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} = \begin{bmatrix} 9 \\ 29 \end{bmatrix}$
解得 $\mathbf{x} = [0, 1]^T$ ，即最佳擬合直線為 $y = 0 + 1 x$ 。

7. 總結

項目	說明
目標	找到使殘差 $\|\mathbf{b} - A\mathbf{x}\|_2$ 最小的 $\mathbf{x}$ 。
公式	$\mathbf{x} = (A^T A)^{-1} A^T \mathbf{b}$ 。
適用場景	小規模數據、理論分析、無迭代需求。
局限性	計算復雜度高、要求 $A^T A$ 可逆。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/911743.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/911743.shtml
英文地址，請注明出處：http://en.pswp.cn/news/911743.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！