大模型的底層運算線性代數

深度學習的本質是用數學語言描述并處理真實世界中的信息,而線性代數正是這門語言的基石。它不僅提供了高效的數值計算工具,更在根本上定義了如何以可計算、可組合、可度量的方式表示和變換數據。

1 如何描述世界

在這里插入圖片描述

📊 真實世界的數據(圖片、語音、文本)分布在在一個像“地毯”一樣彎曲的表面上。你從入口出發,沿著地毯走到終點(比如從一張圖片走到“貓”這個標簽)。你的路線可能經過很多彎曲的部分,每段直線對應著矩陣乘法(線性變換),每個拐彎對應著非線性激活切換。這樣一路走下去,你就完成了一次從輸入到輸出的旅程,這個過程在神經網絡里就是推理。

深入思考
如果世界僅由數字構成,我們如何唯一地描述一幅圖像、一段語音,或一次梯度更新?答案必須同時滿足:可計算、可組合、可度量。這逼迫我們尋找能被算術閉包、向量空間運算、范數度量共同支持的載體:張量。在線性代數中,向量與矩陣便是這種載體的最簡形態。深度學習把世界的結構落在三件事上:可計算(能被有限步算子執行)、可組合(小模塊可堆疊)、可度量(相似/距離可定義)。能同時滿足三者并與現代硬件高效耦合的,正是向量空間與線性映射。

📊 如果世界僅由數字構成,我們如何唯一地描述一幅圖像、一段語音,或一次梯度更新?答案必須同時滿足:可計算、可組合、可度量。這逼迫我們尋找能被算術閉包、向量空間運算、范數度量共同支持的載體:張量。深度學習把世界的結構落在三件事上:可計算(能被有限步算子執行)、可組合(小模塊可堆疊)、可度量(相似/距離可定義)

2 基礎元素-標量

標量:度量世界的起點,只含大小

標量是一維空間中的基本元素,只擁有大小而無方向。例如溫度、學習率等均是標量。

  • 記號:普通小寫 xxx,定義域 x∈Rx \in \mathbb{R}xR
  • 代碼示例:torch.tensor(3.0)

標量在深度學習中通常用作超參數或單一輸出(如分類概率),為更高階的數據表示提供度量基準。

3 基礎元素-向量

向量:信息的緊湊表達,有方向與幅值

向量通過有序的標量集合形成,擁有大小與方向,能高效地描述多維狀態。

  • 記號:粗體小寫 x,維度為 nnn,即 x ∈ ??
  • 實踐用途:用戶畫像、一幀心電圖、詞嵌入等
  • 代碼示例:torch.arange(4)tensor([0,1,2,3])

向量通過維度的長度直觀表示信息量,成為深度學習模型輸入特征的基本單位。

4 基礎元素-矩陣

矩陣:批量運算的萬能載體,向量的有序集合

矩陣是一組向量的集合,以二維表格形式表達數據。

  • 記號:粗體大寫 A ∈ ?^{m×n},其中行代表樣本,列代表特征。

  • 常用操作:轉置 ATA^TAT、索引 A[i,j]A[i,j]A[i,j]、對稱性檢查 A=ATA = A^TA=AT

  • 代碼示例:權重矩陣的批量處理

矩陣實現了數據批量處理,讓深度學習模型高效利用 GPU 并行計算能力。

5 基礎元素-張量

張量:多維數據的統一表達

張量是矩陣概念的自然延伸,能表示任意維度的數據結構。

  • 舉例:3D 圖像 (C,H,W),視頻 (T,C,H,W)
  • 代碼示例:torch.arange(24).reshape(2,3,4)

張量在深度學習框架中具有一等地位,支持廣播、切片、視圖變換等操作,讓數據與算法自然融合。

6 核心運算-Hadamard積

Hadamard 積:特征的高效交互

Hadamard 積指兩個同形狀張量逐元素相乘,捕捉特征間的局部交互。

  • 記號:A⊙BA \odot BAB
  • GPU 并行高效實現:A * B
  • 實踐示例:在推薦系統中,用戶向量與物品向量逐元素相乘,以快速捕捉用戶偏好。

7 核心運算-降維

降維:聚焦重要信息

降維技術通過沿某一軸匯總(如求和或平均)來減少數據冗余,突出關鍵信息。

  • 常見操作:A.sum(axis=0)meancumsum
  • 實踐示例:卷積神經網絡中的全局平均池化,壓縮圖像特征。

8 核心運算-點積

點積:相似度度量之基石

向量點積通過累加逐元素乘積來量化向量間的相似性。

  • 公式:x?y=∑xiyix \cdot y = \sum x_i y_ix?y=xi?yi?
  • 應用實例:注意力機制、Word2Vec、余弦相似度
  • 代碼示例:torch.dot(x,y)
  • 實踐示例:在搜索引擎中,利用余弦相似度衡量文檔與查詢詞的相關性。

9 核心運算-矩陣向量乘法

矩陣-向量乘法:快速線性變換

矩陣-向量乘積(Ax)實現了高效的線性變換。

  • 代碼示例:torch.mv(A,x)
  • 實踐示例:神經網絡全連接層將輸入特征映射到隱藏層。

10 核心運算-矩陣矩陣乘法

矩陣-矩陣乘法:批量線性映射

矩陣-矩陣乘法(AB)可視作一系列矩陣-向量乘法的集合。

  • 形狀要求:A(n×k)?B(k×m)=C(n×m)A(n \times k) \cdot B(k \times m) = C(n \times m)A(n×k)?B(k×m)=C(n×m)
  • 代碼示例:torch.mm(A,B)
  • 實踐示例:Transformer 模型中多頭注意力機制的批量計算。

11 核心運算-高維張量運算

在實際神經網絡中,我們往往需要對多個矩陣進行批量乘法,例如:

A = torch.randn(3, 3, 2) # 3個[3x2]矩陣
B = torch.randn(3, 2, 4) # 3個[2x4]矩陣
C = torch.matmul(A, B) # -> C.shape = [3, 3, 4]

每組進行 [3,2] × [2,4] 的矩陣乘法,最終得到 3 個 [3,4] 的矩陣,結果為 [3, 3, 4]

僅最后兩維按矩陣乘法計算:[…, m, k] @ […, k, n] -> […, m, n]。其余前綴維度 廣播對齊。

12 廣播機制

從右向左對齊維度,兩個維度相等,或其中一個為 1,才允許廣播。常見廣播是用于加偏置(行向量/列向量)。

a = torch.empty(3, 3, 2)
b = torch.empty(2, 4)
result = a @ b # 自動廣播為 [3, 3, 4]

  • a.shape = [3, 3, 2]
  • b.shape = [2, 4] → 自動變成 [1, 2, 4] → 廣播成 [3, 2, 4]
  • 執行 [3,3,2] @ [3,2,4] = [3,3,4]

13 核心運算-范數

范數:度量數據差異的標尺

范數為向量提供了量身定制的度量工具,直觀表示向量的大小和稀疏性。

  • L2 范數 ∥x∥2\|x\|_2x2?:歐式距離與正則化。

  • L1 范數 ∥x∥1\|x\|_1x1?:強調稀疏性,對異常數據更魯棒。

  • 實踐示例:L2 正則化在神經網絡訓練中防止過擬合。

綜上,線性代數以向量、矩陣、張量等核心概念為工具,深刻且全面地支撐了深度學習從數據表達到模型訓練的全過程,成為了所有AI技術發展的根本語言與方法論。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/93705.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/93705.shtml
英文地址,請注明出處:http://en.pswp.cn/web/93705.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Rust 中 i32 與 *i32 的深度解析

Rust 中 &i32 與 *i32 的深度解析 在 Rust 中,&i32 和 *i32 是兩種完全不同的指針類型,它們在安全性、所有權和使用方式上有本質區別。以下是詳細對比: 核心區別概覽 #mermaid-svg-rCa8lLmHB7MK9P6K {font-family:"trebuchet ms…

【PyTorch項目實戰】OpenNMT本地機器翻譯框架 —— 支持本地部署和自定義訓練

文章目錄一、OpenNMT(Neural Machine Translation,NMT)1. 概述2. 核心特性3. 系統架構4. 與其他翻譯工具的區別二、基于 OpenNMT-py 的機器翻譯框架1. 環境配置(以OpenNMT-py版本為例)(1)pip安裝…

基于prompt的生物信息學:多組學分析的新界面

以前總以為綜述/評論是假大空,最近在朋友的影響下才發現,大佬的綜述/評論內容的確很值得一讀,也值得分享的。比如這篇講我比較感興趣的AI輔助生信分析的,相信大家都是已經實踐中用上了,看看大佬的評論,拓寬…

Nacos-8--分析一下nacos中的AP和CP模式

Nacos支持兩種模式來滿足不同場景下的需求:AP模式(強調可用性)和CP模式(強調一致性)。 這兩種模式的選擇主要基于CAP理論,該理論指出在一個分布式系統中,無法同時保證一致性(Consist…

水閘安全監測的主要核心內容

水閘安全監測是指通過一系列技術手段和管理措施,對水閘的結構狀態、運行性能及環境條件進行實時或定期的觀測與評估,以確保水閘在設計壽命期內的安全性和可靠性。其核心目標是及時發現潛在的安全隱患,防止事故發生,保障水利工程的…

嵌入式系統學習Day19(數據結構)

數據結構的概念: 相互之間存在一種或多種特定關系的數據元素的集合。數據之間關系:邏輯關系:集合,線性(1對1,中間位置的值有且僅有一個前驅,一個后繼),樹(1對…

Pandas中數據清理、連接數據以及合并多個數據集的方法

一、簡介1.數據清理的重要性:在進行數據分析前,需進行數據清理,使每個觀測值成一行、每個變量成一列、每種觀測單元構成一張表格。2.數據組合的必要性:數據整理好后,可能需要將多張表格組合才能進行某些分析&#xff0…

JavaSSM框架從入門到精通!第二天(MyBatis(一))!

一、 Mybatis 框架1. Mybatis 框架簡介Mybatis 是 apache 的一個開源項目,名叫 iBatis ,2010 年這個項目由 apache 遷移到了 google,并命名為 Mybatis,2013 年遷移到了 GitHub,可以在 GitHub 下載源碼。2. Mybatis 的下…

Linux下Mysql命令,創建mysql,刪除mysql

在 Linux 系統下,您可以通過命令行來創建和刪除 MySQL 數據庫。以下是詳細的操作步驟,包括創建和刪除數據庫、用戶,以及常見的相關管理命令。1. 登錄 MySQL在執行任何 MySQL 操作之前,需要先登錄 MySQL。1.1 使用 root 用戶登錄 M…

假設檢驗的原理

假設檢驗是統計學中用于判斷樣本數據是否支持某個特定假設的方法。其核心思想是通過樣本數據對總體參數或分布提出假設,并利用統計量來判斷這些假設的合理性。假設檢驗的基本步驟如下:1. 假設(Hypothesis)在統計學中,假…

信號、內存共享等實現

信號&#xff08;signal&#xff09;#include <signal.h> #include <stdio.h> #include <unistd.h>void handler(int sig) {printf("收到信號: %d\n", sig); }int main() {signal(SIGUSR1, handler); // 注冊用戶自定義信號printf("進程 PI…

《從日常到前沿:AI 在教育、醫療、制造業的真實落地案例》文章提綱

引言&#xff1a;AI 落地的多元圖景?簡述 AI 從實驗室走向實際應用的發展趨勢?說明選擇教育、醫療、制造業的原因 —— 覆蓋民生與基礎產業&#xff0c;落地場景具有代表性?AI 在教育領域的落地案例?個性化學習&#xff1a;如某在線教育平臺利用 AI 分析學生學習數據&#…

決策樹(1)

一、樹模型與決策樹基礎決策樹概念&#xff1a;從根節點開始一步步走到葉子節點得出決策&#xff0c;所有數據最終都會落到葉子節點&#xff0c;既可用于分類&#xff0c;也可用于回歸。樹的組成根節點&#xff1a;第一個選擇點。非葉子節點與分支&#xff1a;中間決策過程。葉…

電視系統:開啟視聽新時代

在當今數字化浪潮席卷的時代&#xff0c;電視領域正經歷著一場深刻的變革&#xff0c;而電視系統無疑是這場變革中的耀眼明星。簡單來講&#xff0c;電視系統就是互聯網協議電視&#xff0c;它宛如一座橋梁&#xff0c;巧妙地利用寬帶有線電視網&#xff0c;將多媒體、互聯網、…

字節開源了一款具備長期記憶能力的多模態智能體:M3-Agent

貓頭虎AI分享&#xff5c;字節開源了一款具備長期記憶能力的多模態智能體&#xff1a;M3-Agent 近年來&#xff0c;多模態大模型的發展迅猛&#xff0c;但如何賦予智能體類似人類的長期記憶能力&#xff0c;一直是研究中的核心挑戰。字節跳動開源的 M3-Agent&#xff0c;正是面…

第十六屆藍橋杯青少組C++省賽[2025.8.10]第二部分編程題(6、魔術撲克牌排列)

參考程序&#xff1a;#include<bits/stdc.h> using namespace std; long long dp[105]; long long c(int n) {dp[0] 1;for(int i1; i< n; i){for(int j0; j<i; j){dp[i] dp[j] * dp[i -1-j];}}return dp[n]; } int main() {int n;cin >> n;cout <<c(n…

【實時Linux實戰系列】實時平臺下的圖像識別技術

在當今數字化時代&#xff0c;圖像識別技術已經廣泛應用于各個領域&#xff0c;如自動駕駛、安防監控、智能醫療等。它通過計算機對圖像進行分析和處理&#xff0c;從而實現對物體、場景或人的識別。實時Linux作為一種高效的實時操作系統&#xff0c;為圖像識別技術提供了強大的…

IPD流程執行檢查表

IPD流程執行檢查表 稽查

Jmeter的安裝與使用教程

基于jdk1.8版本的Jmeter的下載與安裝和使用教程。 一.安裝jmeter 官網下載就行下載壓縮包解壓就行 Jmeter下載官網&#xff1a;http://jmeter.apache.org/download_jmeter.cgi找到安裝包的下載位置&#xff0c;解壓進入文件夾的bin文件夾下jmeter.bat。二.配置環境變量 1、“此…

docker 數據卷、自定義鏡像操作演示分享(第二期)

數據卷1.1、背景前面有個docker go web demo應用示例&#xff0c;每次為了部署go_web_demo工程&#xff0c; 需要將使用到的cp的命令將宿主主機內的go_web_demo目錄下的代碼文件&#xff08;一般是編譯后的二進制執行文件&#xff09;復制到容器內部。 數據卷&#xff1a;將宿主…