深度學習篇---深度學習中的范數

文章目錄

前言
一、向量范數
- 1.L0范數
- - 1.1定義
  - 1.2計算式
  - 1.3特點
  - 1.4應用場景
  - - 1.4.1特征選擇
    - 1.4.2壓縮感知
- 2.L1范數（曼哈頓范數）
- - 2.1定義
  - 2.2計算式
  - 2.3特點
  - 2.4應用場景
  - - 2.4.1L1正則化
    - 2.4.2魯棒回歸
- 3.L2范數（歐幾里得范數）
- - 3.1定義
  - 3.2特點
  - 3.3應用場景
- 4.L∞范數（最大范數）
- - 4.1定義
  - 4.2計算式
  - 4.3特點
  - 4.4應用場景
- 5.Lp范數（廣義范數）
- - 5.1定義
  - 5.2計算式
  - 5.3特點
二、矩陣范數
- 1. Frobenius范數（矩陣L2范數）
- - 1.1定義
  - 1.2特點
  - 1.3應用場景
- 2. 核范數（跡范數）
- - 2.1定義
  - 2.2計算式
  - 2.3特點
  - 2.4應用場景
- 3. 譜范數（最大奇異值范數）
- - 3.1定義
  - 3.2計算式
  - 3.3特點
  - 3.4應用場景
三、范數在深度學習中的核心應用
- 1. 正則化（防止過擬合）
- - 1.1L1正則化
  - 1.2L2正則化
- 2. 損失函數設計
- - 2.1L1損失
  - 2.2L2損失
- 3. 權重約束與優化
- - 3.1梯度裁剪
  - 3.2譜歸一化
- 4. 模型壓縮與稀疏化
- - 4.1L1正則化
  - 4.2結構化范數
- 5. 對抗防御
- - 5.1L∞范數
四、不同范數的對比與選擇
五、總結
- L1/L2范數
- 矩陣范數
范數選擇原則

前言

本文介紹了一系列范數的定義、計算、使用。比如L1\L2\L∞\Frobenius范數（矩陣L2范數），用于正則化（防止過擬合）、損失函數。

一、向量范數

1.L0范數

1.1定義

向量中非零元素的數量

1.2計算式

L0范數的定義

1.3特點

非凸且計算困難（NP難問題）。
用于稀疏性約束，但實際常用L1范數替代。

1.4應用場景

1.4.1特征選擇

特征選擇（稀疏特征提取）。

1.4.2壓縮感知

壓縮感知（信號稀疏表示）。

2.L1范數（曼哈頓范數）

2.1定義

定義：向量元素絕對值之和。

2.2計算式

L1范數

2.3特點

凸函數，可優化性強。
誘導稀疏性：優化過程中傾向于將部分參數置零。
幾何解釋：菱形等高線，在坐標軸處有“尖角”（稀疏性來源）。

2.4應用場景

2.4.1L1正則化

L1正則化（Lasso）：用于線性回歸、神經網絡權重稀疏化。

2.4.2魯棒回歸

魯棒回歸（如最小絕對偏差）。

3.L2范數（歐幾里得范數）

3.1定義

定義：向量元素平方和的平方根。

L2范數

3.2特點

嚴格凸，優化穩定。
抑制大參數值，防止過擬合。
幾何解釋：圓形等高線，各方向平滑下降。

3.3應用場景

L2正則化（嶺回歸、權重衰減）：防止模型過擬合。
損失函數（如均方誤差損失）。

4.L∞范數（最大范數）

4.1定義

定義：向量元素絕對值的最大值。

4.2計算式

L∞范數

4.3特點

關注最大幅值的元素。
在對抗樣本生成中用于約束擾動大小。

4.4應用場景

對抗訓練（限制擾動的最大幅度）。
梯度裁剪（防止梯度爆炸）。

5.Lp范數（廣義范數）

5.1定義

定義：向量元素絕對值的p次方和的1/p次冪。

5.2計算式

Lp范數

5.3特點

p=1時為L1范數，p=2時為L2范數，p→∞時趨近L∞范數。
不同p值對應不同的稀疏性和平滑性權衡。

二、矩陣范數

1. Frobenius范數（矩陣L2范數）

1.1定義

定義：矩陣元素平方和的平方根。
矩陣的L2范數

1.2特點

將矩陣視為向量后計算L2范數。
衡量矩陣的“總能量”。

1.3應用場景

權重矩陣的正則化（如全連接層參數約束）。
矩陣分解（如PCA、SVD）。

2. 核范數（跡范數）

2.1定義

定義：矩陣奇異值之和。

2.2計算式

核范數

2.3特點

反映矩陣的低秩性質。
用于低秩矩陣恢復。

2.4應用場景

推薦系統（矩陣補全，如Netflix問題）。
魯棒PCA（分離低秩矩陣與稀疏噪聲）。

3. 譜范數（最大奇異值范數）

3.1定義

定義：矩陣的最大奇異值。

3.2計算式

譜范數

3.3特點

衡量矩陣對向量的最大拉伸程度。
與Lipschitz連續性相關。

3.4應用場景

生成對抗網絡（GAN）：約束判別器的Lipschitz常數。
譜歸一化（穩定訓練過程）。

三、范數在深度學習中的核心應用

1. 正則化（防止過擬合）

1.1L1正則化

L1正則化：通過稀疏化權重減少模型復雜度（如Lasso回歸）。

1.2L2正則化

L2正則化：通過限制權重幅度防止過擬合（如嶺回歸、神經網絡權重衰減）。

2. 損失函數設計

2.1L1損失

L1損失（MAE）：對異常值魯棒，用于回歸任務。

2.2L2損失

L2損失（MSE）：對異常值敏感，但優化更穩定。

3. 權重約束與優化

3.1梯度裁剪

梯度裁剪：使用L2或L∞范數限制梯度大小，防止梯度爆炸。

3.2譜歸一化

譜歸一化：通過譜范數約束網絡層的Lipschitz常數（如WGAN）。

4. 模型壓縮與稀疏化

4.1L1正則化

L1正則化：生成稀疏權重矩陣，便于模型壓縮（如剪枝）。

4.2結構化范數

結構化范數（如Group Lasso）：約束特定參數組的稀疏性。

5. 對抗防御

5.1L∞范數

L∞約束：限制對抗擾動的大小（如對抗訓練中的PGD攻擊）。

四、不同范數的對比與選擇

范數類型稀疏性計算復雜度典型應用
L0 最強 NP難理論分析，實際中少用
L1 強低 特征選擇、稀疏模型
L2 無低 防止過擬合、穩定優化
L∞ 無低對抗訓練、梯度裁剪
Frobenius 無中 矩陣正則化、分解
核范數低秩性高 推薦系統、低秩恢復

五、總結

L1/L2范數

L1/L2范數：基礎正則化工具，分別誘導稀疏性和平滑性。

矩陣范數

矩陣范數：處理高維數據、低秩建模及穩定訓練。

范數選擇原則

根據任務需求（稀疏性、低秩性、魯棒性）。
考慮計算效率和優化難度。
結合模型結構（如卷積層常用Frobenius范數，全連接層用L2）。

理解不同范數的特性及其幾何意義，能夠幫助設計更高效的模型架構、正則化策略和優化方法，從而提升深度學習模型的性能和泛化能力。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/73019.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/73019.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/73019.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！