文章目錄
- 前言
- 一、向量范數
- 1.L0范數
- 1.1定義
- 1.2計算式
- 1.3特點
- 1.4應用場景
- 1.4.1特征選擇
- 1.4.2壓縮感知
- 2.L1范數(曼哈頓范數)
- 2.1定義
- 2.2計算式
- 2.3特點
- 2.4應用場景
- 2.4.1L1正則化
- 2.4.2魯棒回歸
- 3.L2范數(歐幾里得范數)
- 3.1定義
- 3.2特點
- 3.3應用場景
- 4.L∞范數(最大范數)
- 4.1定義
- 4.2計算式
- 4.3特點
- 4.4應用場景
- 5.Lp范數(廣義范數)
- 5.1定義
- 5.2計算式
- 5.3特點
- 二、矩陣范數
- 1. Frobenius范數(矩陣L2范數)
- 1.1定義
- 1.2特點
- 1.3應用場景
- 2. 核范數(跡范數)
- 2.1定義
- 2.2計算式
- 2.3特點
- 2.4應用場景
- 3. 譜范數(最大奇異值范數)
- 3.1定義
- 3.2計算式
- 3.3特點
- 3.4應用場景
- 三、范數在深度學習中的核心應用
- 1. 正則化(防止過擬合)
- 1.1L1正則化
- 1.2L2正則化
- 2. 損失函數設計
- 2.1L1損失
- 2.2L2損失
- 3. 權重約束與優化
- 3.1梯度裁剪
- 3.2譜歸一化
- 4. 模型壓縮與稀疏化
- 4.1L1正則化
- 4.2結構化范數
- 5. 對抗防御
- 5.1L∞范數
- 四、不同范數的對比與選擇
- 五、總結
- L1/L2范數
- 矩陣范數
- 范數選擇原則
前言
本文介紹了一系列范數的定義、計算、使用。比如L1\L2\L∞\Frobenius范數(矩陣L2范數),用于正則化(防止過擬合)、損失函數。
一、向量范數
1.L0范數
1.1定義
向量中非零元素的數量
1.2計算式
1.3特點
- 非凸且計算困難(NP難問題)。
- 用于稀疏性約束,但實際常用L1范數替代。
1.4應用場景
1.4.1特征選擇
特征選擇(稀疏特征提取)。
1.4.2壓縮感知
壓縮感知(信號稀疏表示)。
2.L1范數(曼哈頓范數)
2.1定義
定義:向量元素絕對值之和。
2.2計算式
2.3特點
- 凸函數,可優化性強。
- 誘導稀疏性:優化過程中傾向于將部分參數置零。
- 幾何解釋:菱形等高線,在坐標軸處有“尖角”(稀疏性來源)。
2.4應用場景
2.4.1L1正則化
L1正則化(Lasso):用于線性回歸、神經網絡權重稀疏化。
2.4.2魯棒回歸
魯棒回歸(如最小絕對偏差)。
3.L2范數(歐幾里得范數)
3.1定義
定義:向量元素平方和的平方根。
3.2特點
- 嚴格凸,優化穩定。
- 抑制大參數值,防止過擬合。
- 幾何解釋:圓形等高線,各方向平滑下降。
3.3應用場景
- L2正則化(嶺回歸、權重衰減):防止模型過擬合。
- 損失函數(如均方誤差損失)。
4.L∞范數(最大范數)
4.1定義
定義:向量元素絕對值的最大值。
4.2計算式
4.3特點
- 關注最大幅值的元素。
- 在對抗樣本生成中用于約束擾動大小。
4.4應用場景
- 對抗訓練(限制擾動的最大幅度)。
- 梯度裁剪(防止梯度爆炸)。
5.Lp范數(廣義范數)
5.1定義
定義:向量元素絕對值的p次方和的1/p次冪。
5.2計算式
5.3特點
p=1時為L1范數,p=2時為L2范數,p→∞時趨近L∞范數。
不同p值對應不同的稀疏性和平滑性權衡。
二、矩陣范數
1. Frobenius范數(矩陣L2范數)
1.1定義
定義:矩陣元素平方和的平方根。
1.2特點
- 將矩陣視為向量后計算L2范數。
- 衡量矩陣的“總能量”。
1.3應用場景
- 權重矩陣的正則化(如全連接層參數約束)。
- 矩陣分解(如PCA、SVD)。
2. 核范數(跡范數)
2.1定義
定義:矩陣奇異值之和。
2.2計算式
2.3特點
- 反映矩陣的低秩性質。
- 用于低秩矩陣恢復。
2.4應用場景
- 推薦系統(矩陣補全,如Netflix問題)。
- 魯棒PCA(分離低秩矩陣與稀疏噪聲)。
3. 譜范數(最大奇異值范數)
3.1定義
定義:矩陣的最大奇異值。
3.2計算式
3.3特點
- 衡量矩陣對向量的最大拉伸程度。
- 與Lipschitz連續性相關。
3.4應用場景
- 生成對抗網絡(GAN):約束判別器的Lipschitz常數。
- 譜歸一化(穩定訓練過程)。
三、范數在深度學習中的核心應用
1. 正則化(防止過擬合)
1.1L1正則化
L1正則化:通過稀疏化權重減少模型復雜度(如Lasso回歸)。
1.2L2正則化
L2正則化:通過限制權重幅度防止過擬合(如嶺回歸、神經網絡權重衰減)。
2. 損失函數設計
2.1L1損失
L1損失(MAE):對異常值魯棒,用于回歸任務。
2.2L2損失
L2損失(MSE):對異常值敏感,但優化更穩定。
3. 權重約束與優化
3.1梯度裁剪
梯度裁剪:使用L2或L∞范數限制梯度大小,防止梯度爆炸。
3.2譜歸一化
譜歸一化:通過譜范數約束網絡層的Lipschitz常數(如WGAN)。
4. 模型壓縮與稀疏化
4.1L1正則化
L1正則化:生成稀疏權重矩陣,便于模型壓縮(如剪枝)。
4.2結構化范數
結構化范數(如Group Lasso):約束特定參數組的稀疏性。
5. 對抗防御
5.1L∞范數
L∞約束:限制對抗擾動的大小(如對抗訓練中的PGD攻擊)。
四、不同范數的對比與選擇
范數類型 稀疏性 計算復雜度 典型應用
L0 最強 NP難 理論分析,實際中少用
L1 強 低 特征選擇、稀疏模型
L2 無 低 防止過擬合、穩定優化
L∞ 無 低 對抗訓練、梯度裁剪
Frobenius 無 中 矩陣正則化、分解
核范數 低秩性 高 推薦系統、低秩恢復
五、總結
L1/L2范數
L1/L2范數:基礎正則化工具,分別誘導稀疏性和平滑性。
矩陣范數
矩陣范數:處理高維數據、低秩建模及穩定訓練。
范數選擇原則
- 根據任務需求(稀疏性、低秩性、魯棒性)。
- 考慮計算效率和優化難度。
- 結合模型結構(如卷積層常用Frobenius范數,全連接層用L2)。
理解不同范數的特性及其幾何意義,能夠幫助設計更高效的模型架構、正則化策略和優化方法,從而提升深度學習模型的性能和泛化能力。