標量(Scalar)、向量(Vector)、矩陣(Matrix)、張量(Tensor)與范數(Norm)詳解及其在機器學習中的應用
1. 標量(Scalar)
-
定義:標量是單個數字,僅具有大小(Magnitude),沒有方向。
- 數學表示:如 a = 5 a = 5 a=5, b = ? 3.2 b = -3.2 b=?3.2
- 特點:零維數據(0D Tensor)。
-
機器學習中的應用:
- 模型參數:如線性回歸中的偏置項(Bias)。
- 損失函數輸出:如均方誤差(MSE)的結果是一個標量。
- 超參數:學習率(Learning Rate)、正則化系數(Regularization Coefficient)等。
2. 向量(Vector)
-
定義:向量是一維數組,既有大小又有方向,表示空間中的點或變化量。
- 數學表示:如 v = [ v 1 , v 2 , … , v n ] T \mathbf{v} = [v_1, v_2, \dots, v_n]^T v=[v1?,v2?,…,vn?]T
- 特點:一維數據(1D Tensor),可看作標量的有序集合。
-
機器學習中的應用:
- 特征向量(Feature Vector):數據樣本的數值化表示(如圖像的像素值、文本的詞頻統計)。
- 嵌入(Embedding):將離散數據(如單詞、類別)映射為低維向量(如Word2Vec、GloVe)。
- 梯度(Gradient):優化算法中參數更新的方向(如隨機梯度下降SGD)。
- 輸出結果:分類任務中概率分布的輸出(如Softmax后的向量)。
3. 矩陣(Matrix)
-
定義:矩陣是二維數組,由行和列組成,可表示線性變換或數據關系。
- 數學表示:如 A = [ a 11 a 12 a 21 a 22 ] \mathbf{A} = \begin{bmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{bmatrix} A=[a11?a21??a12?a22??]
- 特點:二維數據(2D Tensor),矩陣運算(乘法、逆、特征分解)是核心工具。
-
機器學習中的應用:
- 數據集表示:每行代表樣本,每列代表特征(如表格型數據)。
- 權重矩陣(Weight Matrix):神經網絡中層與層之間的連接參數。
- 核方法(Kernel Methods):支持向量機(SVM)中通過核矩陣計算高維相似性。
- 矩陣分解:推薦系統(協同過濾)中將用戶-物品評分矩陣分解為低秩矩陣。
4. 張量(Tensor)
-
定義:張量是向量和矩陣的高維推廣,表示多維數組。
- 數學表示:三維張量 T ∈ R n × m × k \mathcal{T} \in \mathbb{R}^{n \times m \times k} T∈Rn×m×k
- 特點:N維數據(ND Tensor),如圖像(3D:高×寬×通道)、視頻(4D:幀×高×寬×通道)。
-
機器學習中的應用:
- 圖像處理:RGB圖像表示為三維張量(如 224 × 224 × 3 224 \times 224 \times 3 224×224×3。
- 深度學習輸入/輸出:卷積神經網絡(CNN)中張量在層間流動(如特征圖Feature Maps)。
- 自然語言處理(NLP):詞嵌入矩陣(如 句子長度 × 詞向量維度 \text{句子長度} \times \text{詞向量維度} 句子長度×詞向量維度。
- 高階關系建模:張量分解用于知識圖譜(如TransE模型)。
5. 范數(Norm)
-
定義:范數是向量或矩陣的“長度”度量,用于量化大小、距離或復雜度。
- 常見類型:
- L0范數:非零元素個數(常用于稀疏性約束)。
- L1范數:絕對值之和( ∣ ∣ x ∣ ∣ 1 = ∑ ∣ x i ∣ ||\mathbf{x}||_1 = \sum |x_i| ∣∣x∣∣1?=∑∣xi?∣,稀疏性正則化。
- L2范數:歐幾里得范數( ∣ ∣ x ∣ ∣ 2 = ∑ x i 2 ||\mathbf{x}||_2 = \sqrt{\sum x_i^2} ∣∣x∣∣2?=∑xi2??,防止過擬合。
- L∞范數:最大絕對值( ∣ ∣ x ∣ ∣ ∞ = max ? ∣ x i ∣ ||\mathbf{x}||_\infty = \max |x_i| ∣∣x∣∣∞?=max∣xi?∣。
- Frobenius范數:矩陣版本的L2范數( ∣ ∣ A ∣ ∣ F = ∑ a i j 2 ||\mathbf{A}||_F = \sqrt{\sum a_{ij}^2} ∣∣A∣∣F?=∑aij2??。
- 常見類型:
-
機器學習中的應用:
- 正則化(Regularization):
- L1正則化(Lasso):使模型參數稀疏化,選擇重要特征。
- L2正則化(Ridge):限制參數大小,防止過擬合。
- 優化算法:
- 梯度裁剪(Gradient Clipping):用L2范數限制梯度爆炸。
- 距離計算:K近鄰(KNN)中的歐氏距離(L2)或曼哈頓距離(L1)。
- 模型評估:
- 均方誤差(MSE)等價于預測值與真實值差向量的L2范數平方。
- 嵌入學習:對比學習(Contrastive Learning)中用余弦相似度(基于L2歸一化)。
- 正則化(Regularization):
總結:機器學習中的核心角色
概念 | 核心作用 | 典型應用 |
---|---|---|
標量 | 參數、超參數、損失值 | 學習率、損失函數輸出 |
向量 | 特征表示、梯度更新 | 特征向量、嵌入向量 |
矩陣 | 數據存儲、線性變換 | 權重矩陣、協方差矩陣 |
張量 | 高維數據建模 | 圖像、視頻、特征圖 |
范數 | 正則化、距離度量 | L1/L2正則化、KNN |
擴展思考
- 張量與深度學習框架:PyTorch/TensorFlow中所有數據均以張量形式處理,支持GPU加速。
- 范數選擇的影響:L1稀疏性適合特征選擇,L2穩定性適合參數約束。
- 高階應用:張量網絡(Tensor Networks)用于壓縮模型或建模復雜關系。