矩陣微積分的鏈式法則(chain rule)

矩陣微積分的鏈式法則(chain rule)與標量情況一樣,用于求復合函數的導數,但由于涉及矩陣和向量的求導,維度匹配和布局約定(numerator-layout vs. denominator-layout)必須格外小心。下面給出常見的三種場景,并分別給出鏈式法則的顯式表達。


  1. 標量對矩陣的鏈式法則
  • 標量函數 (L) 依賴于矩陣變量 (Y \in \mathbb{R}^{m\times n});
  • 而 (Y) 又是矩陣變量 (X \in \mathbb{R}^{p\times q}) 的函數:(Y = F(X))。

[
\frac{\partial L}{\partial X_{ij}} = \sum_{k=1}{m}\sum_{l=1}{n} \frac{\partial L}{\partial Y_{kl}}\frac{\partial Y_{kl}}{\partial X_{ij}}.
]

寫成“向量化”形式(vec 算子按列堆疊):

[
\frac{\partial L}{\partial \operatorname{vec}(X)} = \left(\frac{\partial \operatorname{vec}(Y)}{\partial \operatorname{vec}(X)}\right)^\top \frac{\partial L}{\partial \operatorname{vec}(Y)}.
]

注意:

  • 分子布局(numerator layout)下,(\frac{\partial \operatorname{vec}(Y)}{\partial \operatorname{vec}(X)}) 是 ((mn)\times(pq)) 的 Jacobian;
  • 轉置的出現取決于你采用的布局約定,務必維度匹配。

  1. 向量對向量的鏈式法則
  • 向量函數 (z \in \mathbb{R}^{r}) 依賴于向量 (y \in \mathbb{R}^{m});
  • 而 (y) 又依賴于向量 (x \in \mathbb{R}^{n}):(y = f(x))。

[
\frac{\partial z}{\partial x^\top} = \frac{\partial z}{\partial y^\top} \frac{\partial y}{\partial x^\top},
]

其中

  • (\frac{\partial z}{\partial y^\top}) 是 (r \times m);
  • (\frac{\partial y}{\partial x^\top}) 是 (m \times n);
  • 乘積給出 (r \times n) 的 Jacobian (\frac{\partial z}{\partial x^\top})。

若用分母布局(denominator layout),則寫作

[
\frac{\partial z}{\partial x} = \left(\frac{\partial y}{\partial x}\right)^\top \frac{\partial z}{\partial y}.
]


  1. 矩陣對矩陣的“完全鏈式法則”
    當外層函數本身也是矩陣值,且內層函數也是矩陣值時,最保險的做法是向量化:

  • (Z = G(Y)) 且 (Y = F(X)),
    其中 (X \in \mathbb{R}^{p\times q}),(Y \in \mathbb{R}^{m\times n}),(Z \in \mathbb{R}^{r\times s})。

[
\frac{\partial \operatorname{vec}(Z)}{\partial \operatorname{vec}(X)} = \frac{\partial \operatorname{vec}(Z)}{\partial \operatorname{vec}(Y)} \frac{\partial \operatorname{vec}(Y)}{\partial \operatorname{vec}(X)}.
]

  • 左側是 ((rs)\times(pq)) 的 Jacobian;
  • 右側兩個因子分別是 ((rs)\times(mn)) 與 ((mn)\times(pq)),維度恰好可乘。

記憶技巧
“維度從左到右連乘”:

  • 若使用分子布局,鏈式法則的 Jacobian 順序與函數復合順序相同(類比標量鏈式法則)。
  • 若使用分母布局,需要轉置中間 Jacobian。
    無論哪種約定,務必先固定一種,再檢查維度是否匹配。

小例子

  • (L = \tfrac{1}{2}|Y|_F^2),
  • (Y = AXB),(A,B) 為常數矩陣,

    [
    \frac{\partial L}{\partial X} = A^\top Y B^\top,
    ]
    可直接用上述鏈式法則驗證:
  • (\frac{\partial L}{\partial Y} = Y),
  • (\frac{\partial \operatorname{vec}(Y)}{\partial \operatorname{vec}(X)} = B^\top \otimes A),
  • 于是
    [
    \operatorname{vec}!\left(\frac{\partial L}{\partial X}\right) = (B \otimes A^\top)\operatorname{vec}(Y) = \operatorname{vec}(A^\top Y B^\top).
    ]

注: AI寫的,請大家審閱!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/95165.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/95165.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/95165.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

網絡編程4-并發服務器、阻塞與非阻塞IO、信號驅動模型、IO多路復用..

一、并發服務器1、單循環服務器(順序處理) 一次只能處理一個客戶端連接,只有當前客戶端斷開連接后,才能接受新的客戶端連接2、多進程/多線程并發服務器while(1) {connfd accept(listenfd);pid fork(); // 或 pthread_cr…

在 WSL2-NVIDIA-Workbench 中安裝Anaconda、CUDA 13.0、cuDNN 9.12 及 PyTorch(含完整環境驗證)

在 WSL-NVIDIA-Workbench(NVIDIA AI Workbench & Ubuntu 22.04)中 安裝 Anaconda、CUDA 13.0、cuDNN 9.12 及 PyTorch 步驟也可參閱: 在WSL2-Ubuntu中安裝Anaconda、CUDA13.0、cuDNN9.12及PyTorch(含完整環境驗證&#xf…

Shell編程核心入門:參數傳遞、運算符與流程控制全解析

Shell編程核心入門:參數傳遞、運算符與流程控制全解析 在Linux/Unix系統中,Shell作為命令解釋器和腳本語言,是自動化運維、批量處理任務的核心工具。掌握Shell腳本的參數傳遞、運算符使用和流程控制,能讓你從“手動執行命令”升級…

如何用 Kotlin 在 Android 手機開發一個應用程序獲取網絡時間

使用 NTP 協議獲取網絡時間在 build.gradle 文件中添加以下依賴:implementation commons-net:commons-net:3.6創建 NTP 時間獲取工具類:import org.apache.commons.net.ntp.NTPUDPClient import org.apache.commons.net.ntp.TimeInfo import java.net.In…

python智慧交通數據分析可視化系統 車流實時檢測分析 深度學習 車流量實時檢測跟蹤 軌跡跟蹤 畢業設計?

博主介紹:?全網粉絲50W,前互聯網大廠軟件研發、集結碩博英豪成立軟件開發工作室,專注于計算機相關專業項目實戰6年之久,累計開發項目作品上萬套。憑借豐富的經驗與專業實力,已幫助成千上萬的學生順利畢業,…

計算機視覺第一課opencv(四)保姆級教學

目錄 簡介 一、輪廓檢測 1.查找輪廓的API 2.代碼分析 2.1.圖像二值化處理 2.2輪廓檢測 2.3輪廓繪制 2.4輪廓面積計算 2.5輪廓周長計算 2.6篩選特定面積的輪廓 2.7查找最大面積的輪廓 2.8繪制輪廓的外接圓 2.9繪制輪廓的外接矩形 二、輪廓的近似 三、模板匹配 簡…

基于Vue2+elementUi實現樹形 橫向 合并 table不規則表格

1、實現效果 共N行&#xff0c;但是每一列對應的單元格列數固定&#xff0c;行數不固定2、實現方式說明&#xff1a;使用的是vue2 elementUI表格組件 js實現<template><div class"table-container" ><el-table height"100%" :span-metho…

深度學習在計算機視覺中的應用:對象檢測

引言 對象檢測是計算機視覺領域中的一項基礎任務&#xff0c;目標是在圖像或視頻幀中識別和定位感興趣的對象。隨著深度學習技術的發展&#xff0c;對象檢測的準確性和效率都有了顯著提升。本文將詳細介紹如何使用深度學習進行對象檢測&#xff0c;并提供一個實踐案例。 環境準…

node.js 安裝步驟

在Node.js中安裝包通常通過npm(Node Package Manager)來完成,這是Node.js的包管理工具。以下是安裝Node.js和通過npm安裝包的基本步驟: 1. 安裝Node.js 方法一:使用nvm(Node Version Manager) 推薦使用nvm來安裝Node.js,因為它允許你安裝多個Node.js版本,并輕松地在…

面試-故障案例解析

一、NFS故障&#xff0c;造成系統cpu使用率低而負載極高。故障概述: 公司使用NFS為web節點提供共享存儲服務,某一天下午發現web節點CPU使用率低,而負載極高.登錄web節點服務器排查發現后段NFS服務器故障. 影響范圍: 網站看不到圖片了。 處理流程: 通過ssh登錄NFS服務…

醫療AI時代的生物醫學Go編程:高性能計算與精準醫療的案例分析(一)

摘要: 隨著高通量測序、醫學影像和電子病歷等生物醫學數據的爆炸式增長,對高效、可靠、可擴展的計算工具需求日益迫切。Go語言憑借其原生并發模型、卓越的性能、簡潔的語法和強大的標準庫,在生物醫學信息學領域展現出獨特優勢。本文以“生物醫學Go編程探析”為主題,通過三個…

針對 “TCP 連接建立階段” 的攻擊

針對 “TCP 連接建立階段” 的攻擊一、定義二、共性防御思路三、攻擊手段3.1、SYN 洪水攻擊&#xff08;SYN Flood&#xff09;3.2、Land 攻擊&#xff08;Land Attack&#xff09;一、定義 什么是針對 “TCP 連接建立階段” 的攻擊&#xff1f;核心特征是利用 TCP “三次握手…

聊一聊 單體分布式 和 微服務分布式

微服務 與 單體架構對比維度單體架構微服務架構??架構本質??一個單一的、功能齊全的應用程序一組??小型、獨立??的服務集合??開發??團隊工作在同一個代碼庫&#xff0c;易產生沖突。技術棧統一。每個服務可以由?? 獨立的小團隊 ??負責&#xff0c;允許使用??…

【C++八股文】計算機網絡篇

網絡協議核心知識點詳解 TCP頭部結構 TCP頭部包含多個關鍵字段&#xff0c;每個字段都有其特定作用&#xff1a; 16位源端口&#xff1a;標識發送方應用程序的端口號16位目的端口&#xff1a;標識接收方應用程序的端口號32位序號&#xff1a;保證數據包有序傳輸的唯一標識32…

小迪Web自用筆記7

游戲一般不走http https協議&#xff0c;一般的抓包工具抓不到。科來&#xff0c;這個工具是從網卡抓包。你一旦打怪數據就會多起來↓但不是很專業。可以抓到https。wep↑這個西東是全部協議都做流量包&#xff0c;你不知道他是從哪兒來的&#xff0c;他全都抓&#xff08;專業…

現代 Linux 發行版為何忽略Shell腳本的SUID位?

在現代Linux系統中&#xff0c;為Shell腳本設置 SUID&#xff08;Set User ID&#xff09; 權限位幾乎是無效的。這個看似簡單的現象背后&#xff0c;是Linux內核設計者們在安全與便利性之間做出的一個至關重要的歷史性抉擇。要徹底理解這一點&#xff0c;我們需要深入到內核層…

Qt節點編輯器設計與實現:動態編輯與任務流可視化(一)

文章目錄一、項目概述二、整體架構&#xff1a;模型-視圖分離的設計哲學1. 模型層&#xff1a;數據與業務邏輯的核心2. 視圖層&#xff1a;圖形渲染與用戶交互3. 交互層&#xff1a;連接模型與視圖的橋梁三、核心模塊解析1. 樣式管理系統&#xff1a;視覺表現的基石2. 圖形數據…

MySQL常見報錯分析及解決方案總結(4)---ERROR 1040(00000):Too many connections

報錯信息&#xff1a;ERROR 1040(00000):Too many comnections異常效果&#xff1a;原因分析&#xff1a;“ERROR 1040 (00000): Too many connections” 是 MySQL 數據庫最常見的連接數超限錯誤&#xff0c;本質是 “當前試圖連接數據庫的客戶端數量&#xff0c;超過了 MySQL …

GRPO(組相對策略優化):大模型強化學習的高效進化

本文由「大千AI助手」原創發布&#xff0c;專注用真話講AI&#xff0c;回歸技術本質。拒絕神話或妖魔化。搜索「大千AI助手」關注我&#xff0c;一起撕掉過度包裝&#xff0c;學習真實的AI技術&#xff01; ? 1. GRPO概述&#xff1a;重新定義大模型強化學習效率 GRPO&#x…

【Canvas與戳記】藍底黃面十六角Premium Quality戳記

【成圖】【代碼】<!DOCTYPE html> <html lang"utf-8"> <meta http-equiv"Content-Type" content"text/html; charsetutf-8"/> <head><title>藍底黃面十六角Premium Quality戳記 Draft1</title><style ty…