矩陣求導常用公式解析：標量、向量與矩陣的導數計算

矩陣求導常用公式解析：標量、向量與矩陣的導數計算
- 矩陣求導的布局問題
- - 1. 分子布局 vs 分母布局對比表
  - 2. 布局沖突的典型場景分析
  - 3. 混合布局的兼容性處理
- 一、標量對向量求導
- - 1. 線性函數求導
  - 2. 二次型函數（對稱矩陣）
  - 3. 二次型函數（非對稱矩陣）
- 二、向量對向量求導（分子布局）
- - 1. 線性變換的雅可比矩陣（詳細推導）
  - 2. 一般向量函數的雅可比矩陣（補充關鍵說明）
  - 3. 鏈式法則的矩陣形式
- 三、標量對矩陣求導

矩陣求導常用公式解析：標量、向量與矩陣的導數計算

矩陣求導是機器學習、優化理論中的重要數學工具。本文將系統推導標量對向量、向量對向量、標量對矩陣的求導公式，并解析分子布局與分母布局的核心差異。

矩陣求導的布局問題

1. 分子布局 vs 分母布局對比表

特性	分子布局 (Numerator Layout)	分母布局 (Denominator Layout)
導數維度	$\times n$	$\times m$
元素排列規則	$\frac{\partial y_i}{\partial x_j}$	$\frac{\partial y_j}{\partial x_i}$
線性變換示例	$\frac{\partial \mathbf{Ax}}{\partial \mathbf{x}} = \mathbf{A}$	$\frac{\partial \mathbf{Ax}}{\partial \mathbf{x}} = \mathbf{A}^T$
鏈式法則順序	從左到右自然順序	需要轉置調整順序

2. 布局沖突的典型場景分析

場景：計算 $\frac{\partial \mathbf{z}}{\partial \mathbf{x}}$ ，其中 $\mathbf{z} = \mathbf{W}\mathbf{x} + \mathbf{b}$

分子布局：
$\frac{\partial \mathbf{z}}{\partial \mathbf{x}} = \mathbf{W} \quad (\text{維度 } m \times n)$
分母布局：
$\frac{\partial \mathbf{z}}{\partial \mathbf{x}} = \mathbf{W}^T \quad (\text{維度 } n \times m)$

應用建議：

在反向傳播算法中，分母布局更自然（梯度維度與參數維度一致）
在理論推導中，分子布局更便于公式鏈式展開

3. 混合布局的兼容性處理

當不同文獻使用不同布局時，可通過以下規則轉換：
$\left( \frac{\partial \mathbf{y}}{\partial \mathbf{x}} \right)_{\text{Denominator}} = \left( \frac{\partial \mathbf{y}}{\partial \mathbf{x}} \right)_{\text{Numerator}}^T$

一、標量對向量求導

1. 線性函數求導

設向量 $\mathbf{a} = [a_1, a_2, \dots, a_n]^T$ ， $\mathbf{x} = [x_1, x_2, \dots, x_n]^T$ ，標量函數為：

$\mathbf{a}^T \mathbf{x} = \sum_{i=1}^n a_i x_i$

求導結果：
梯度向量為系數向量本身：

$\frac{\partial y}{\partial \mathbf{x}} = \begin{bmatrix} a_1 \\ a_2 \\ \vdots \\ a_n \end{bmatrix} = \mathbf{a}$

2. 二次型函數（對稱矩陣）

設對稱矩陣 $\mathbf{A} \in \mathbb{R}^{n \times n}$ ，標量函數：

$\mathbf{x}^T \mathbf{A} \mathbf{x} = \sum_{i=1}^n \sum_{j=1}^n a_{ij} x_i x_j$

求導過程：
對分量 $x_k$ 求偏導：

$\frac{\partial y}{\partial x_k} = 2 \sum_{i=1}^n a_{ik} x_i$

梯度向量：
$\frac{\partial y}{\partial \mathbf{x}} = 2 \mathbf{A} \mathbf{x}$

3. 二次型函數（非對稱矩陣）

當 $\mathbf{A}$ 非對稱時，標量函數展開同上。對 $x_k$ 求偏導：

$\frac{\partial y}{\partial x_k} = (\mathbf{A}\mathbf{x})_k + (\mathbf{A}^T \mathbf{x})_k$

梯度向量：
$\frac{\partial y}{\partial \mathbf{x}} = (\mathbf{A} + \mathbf{A}^T) \mathbf{x}$

二、向量對向量求導（分子布局）

1. 線性變換的雅可比矩陣（詳細推導）

設 $\mathbf{y} = \mathbf{A}\mathbf{x} + \mathbf{b}$ ，其中：

$\mathbf{A} \in \mathbb{R}^{m \times n}$ 為系數矩陣
$\mathbf{x} \in \mathbb{R}^n$ 為輸入向量
$\mathbf{b} \in \mathbb{R}^m$ 為偏置向量

分量化表示：
$y_i = \sum_{j=1}^n a_{ij} x_j + b_i \quad (i=1,2,\dots,m)$

對分量求偏導：
對每個 $y_i$ 關于 $x_j$ 求偏導：
$\frac{\partial y_i}{\partial x_j} = a_{ij}$

雅可比矩陣構造：
將所有偏導數按如下規則排列：

行索引對應輸出分量 $y_i$
列索引對應輸入分量 $x_j$

$\frac{\partial \mathbf{y}}{\partial \mathbf{x}} = \begin{bmatrix} \frac{\partial y_1}{\partial x_1} & \frac{\partial y_1}{\partial x_2} & \cdots & \frac{\partial y_1}{\partial x_n} \\ \frac{\partial y_2}{\partial x_1} & \frac{\partial y_2}{\partial x_2} & \cdots & \frac{\partial y_2}{\partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial y_m}{\partial x_1} & \frac{\partial y_m}{\partial x_2} & \cdots & \frac{\partial y_m}{\partial x_n} \end{bmatrix} = \mathbf{A}$

2. 一般向量函數的雅可比矩陣（補充關鍵說明）

對向量函數 $\mathbf{y} = \mathbf{f}(\mathbf{x}) = [f_1(\mathbf{x}), f_2(\mathbf{x}), \dots, f_m(\mathbf{x})]^T$ ，其雅可比矩陣的構造規則為：

每個元素 $\frac{\partial f_i}{\partial x_j}$ 表示第 $i$ 個輸出對第 $j$ 個輸入的偏導
行維度 $m$ 由輸出向量維度決定
列維度 $n$ 由輸入向量維度決定

關鍵特性：

若 $\mathbf{f}(\mathbf{x})$ 為線性函數（即 $\mathbf{f}(\mathbf{x}) = \mathbf{A}\mathbf{x}$ ），雅可比矩陣退化為系數矩陣 $\mathbf{A}$
若 $\mathbf{f}(\mathbf{x})$ 為非線性函數（如神經網絡激活函數），需逐元素計算偏導數

3. 鏈式法則的矩陣形式

設復合函數 $\mathbf{z} = \mathbf{g}(\mathbf{y}) = \mathbf{g}(\mathbf{f}(\mathbf{x}))$ ，則鏈式法則的矩陣形式為：
$\frac{\partial \mathbf{z}}{\partial \mathbf{x}} = \frac{\partial \mathbf{z}}{\partial \mathbf{y}} \cdot \frac{\partial \mathbf{y}}{\partial \mathbf{x}}$
其中：

$\frac{\partial \mathbf{z}}{\partial \mathbf{y}} \in \mathbb{R}^{p \times m}$
$\frac{\partial \mathbf{y}}{\partial \mathbf{x}} \in \mathbb{R}^{m \times n}$
最終結果維度為 $\times n$

三、標量對矩陣求導

1. 標量函數 $\text{tr}(\mathbf{A})$ 對矩陣 $\mathbf{A}$ 求導

矩陣的跡：
$\text{tr}(\mathbf{A}) = \sum_{i=1}^n a_{ii}$
對矩陣元素 $a_{ij}$ 求偏導：
- 當 $\neq j$ 時，
  $\frac{\partial y}{\partial a_{ij}} = 0$
- 當 $i = j$ 時，
  $\frac{\partial y}{\partial a_{ii}} = 1$
梯度矩陣：
$\frac{\partial y}{\partial \mathbf{A}} = \mathbf{I}$
（其中 $\mathbf{I}$ 是與 $\mathbf{A}$ 同維度的單位矩陣）

2. 標量函數 $\text{tr}(\mathbf{A} \mathbf{B})$ 對矩陣 $\mathbf{A}$ 求導（假設 $\mathbf{A}$ 和 $\mathbf{B}$ 可相乘）

跡的性質：
$\text{tr}(\mathbf{A} \mathbf{B}) = \text{tr}(\mathbf{B} \mathbf{A}) \quad (\text{若維度合適})$
展開形式：
設 $\mathbf{A}$ 為 $\times n$ 矩陣， $\mathbf{B}$ 為 $\times m$ 矩陣，則
$\sum_{i=1}^m \sum_{j=1}^n a_{ij} b_{ji}$
對 $a_{kl}$ 求偏導：
$\frac{\partial y}{\partial a_{kl}} = b_{lk}$
梯度矩陣：
$\frac{\partial y}{\partial \mathbf{A}} = \mathbf{B}^T$

3. 標量函數 $\mathbf{x}^T \mathbf{A} \mathbf{x}$ 對矩陣 $\mathbf{A}$ 求導（ $\mathbf{x}$ 為向量）

展開形式：
$\sum_{i=1}^n \sum_{j=1}^n a_{ij} x_i x_j$
對 $a_{kl}$ 求偏導：
$\frac{\partial y}{\partial a_{kl}} = x_k x_l$
梯度矩陣：
$\frac{\partial y}{\partial \mathbf{A}} = \mathbf{x} \mathbf{x}^T$

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/78785.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/78785.shtml
英文地址，請注明出處：http://en.pswp.cn/web/78785.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！