深度學習篇---深度學習中的范數


文章目錄

  • 前言
  • 一、向量范數
    • 1.L0范數
      • 1.1定義
      • 1.2計算式
      • 1.3特點
      • 1.4應用場景
        • 1.4.1特征選擇
        • 1.4.2壓縮感知
    • 2.L1范數(曼哈頓范數)
      • 2.1定義
      • 2.2計算式
      • 2.3特點
      • 2.4應用場景
        • 2.4.1L1正則化
        • 2.4.2魯棒回歸
    • 3.L2范數(歐幾里得范數)
      • 3.1定義
      • 3.2特點
      • 3.3應用場景
    • 4.L∞范數(最大范數)
      • 4.1定義
      • 4.2計算式
      • 4.3特點
      • 4.4應用場景
    • 5.Lp范數(廣義范數)
      • 5.1定義
      • 5.2計算式
      • 5.3特點
  • 二、矩陣范數
    • 1. Frobenius范數(矩陣L2范數)
      • 1.1定義
      • 1.2特點
      • 1.3應用場景
    • 2. 核范數(跡范數)
      • 2.1定義
      • 2.2計算式
      • 2.3特點
      • 2.4應用場景
    • 3. 譜范數(最大奇異值范數)
      • 3.1定義
      • 3.2計算式
      • 3.3特點
      • 3.4應用場景
  • 三、范數在深度學習中的核心應用
    • 1. 正則化(防止過擬合)
      • 1.1L1正則化
      • 1.2L2正則化
    • 2. 損失函數設計
      • 2.1L1損失
      • 2.2L2損失
    • 3. 權重約束與優化
      • 3.1梯度裁剪
      • 3.2譜歸一化
    • 4. 模型壓縮與稀疏化
      • 4.1L1正則化
      • 4.2結構化范數
    • 5. 對抗防御
      • 5.1L∞范數
  • 四、不同范數的對比與選擇
  • 五、總結
    • L1/L2范數
    • 矩陣范數
  • 范數選擇原則


前言

本文介紹了一系列范數的定義、計算、使用。比如L1\L2\L∞\Frobenius范數(矩陣L2范數),用于正則化(防止過擬合)、損失函數。


一、向量范數

1.L0范數

1.1定義

向量中非零元素的數量

1.2計算式

L0范數的定義

1.3特點

  1. 非凸計算困難(NP難問題)。
  2. 用于稀疏性約束,但實際常用L1范數替代

1.4應用場景

1.4.1特征選擇

特征選擇(稀疏特征提取)。

1.4.2壓縮感知

壓縮感知(信號稀疏表示)。

2.L1范數(曼哈頓范數)

2.1定義

定義:向量元素絕對值之和

2.2計算式

L1范數

2.3特點

  1. 凸函數,可優化性強
  2. 誘導稀疏性:優化過程中傾向于將部分參數置零
  3. 幾何解釋:菱形等高線,在坐標軸處有“尖角”(稀疏性來源)。

2.4應用場景

2.4.1L1正則化

L1正則化(Lasso):用于線性回歸、神經網絡權重稀疏化

2.4.2魯棒回歸

魯棒回歸(如最小絕對偏差)。

3.L2范數(歐幾里得范數)

3.1定義

定義:向量元素平方和的平方根。

L2范數

3.2特點

  1. 嚴格凸,優化穩定。
  2. 抑制大參數值,防止過擬合。
  3. 幾何解釋:圓形等高線,各方向平滑下降。

3.3應用場景

  1. L2正則化(嶺回歸、權重衰減):防止模型過擬合。
  2. 損失函數(如均方誤差損失)。

4.L∞范數(最大范數)

4.1定義

定義:向量元素絕對值的最大值

4.2計算式

L∞范數

4.3特點

  1. 關注最大幅值的元素。
  2. 對抗樣本生成中用于約束擾動大小

4.4應用場景

  1. 對抗訓練(限制擾動的最大幅度)。
  2. 梯度裁剪(防止梯度爆炸)。

5.Lp范數(廣義范數)

5.1定義

定義:向量元素絕對值的p次方和的1/p次冪。

5.2計算式

Lp范數

5.3特點

p=1時為L1范數,p=2時為L2范數,p→∞時趨近L∞范數
不同p值對應不同的稀疏性和平滑性權衡

二、矩陣范數

1. Frobenius范數(矩陣L2范數)

1.1定義

定義:矩陣元素平方和的平方根。
矩陣的L2范數

1.2特點

  1. 將矩陣視為向量后計算L2范數
  2. 衡量矩陣的“總能量”。

1.3應用場景

  1. 權重矩陣的正則化(如全連接層參數約束)。
  2. 矩陣分解(如PCA、SVD)。

2. 核范數(跡范數)

2.1定義

定義:矩陣奇異值之和。

2.2計算式

核范數

2.3特點

  1. 反映矩陣的低秩性質。
  2. 用于低秩矩陣恢復

2.4應用場景

  1. 推薦系統(矩陣補全,如Netflix問題)。
  2. 魯棒PCA(分離低秩矩陣與稀疏噪聲)。

3. 譜范數(最大奇異值范數)

3.1定義

定義:矩陣的最大奇異值

3.2計算式

譜范數

3.3特點

  1. 衡量矩陣對向量的最大拉伸程度
  2. Lipschitz連續性相關。

3.4應用場景

  1. 生成對抗網絡(GAN):約束判別器的Lipschitz常數。
  2. 譜歸一化(穩定訓練過程)。

三、范數在深度學習中的核心應用

1. 正則化(防止過擬合)

1.1L1正則化

L1正則化:通過稀疏化權重減少模型復雜度(如Lasso回歸)。

1.2L2正則化

L2正則化:通過限制權重幅度防止過擬合(如嶺回歸、神經網絡權重衰減)。

2. 損失函數設計

2.1L1損失

L1損失(MAE):對異常值魯棒,用于回歸任務

2.2L2損失

L2損失(MSE):對異常值敏感,但優化更穩定

3. 權重約束與優化

3.1梯度裁剪

梯度裁剪:使用L2或L∞范數限制梯度大小,防止梯度爆炸。

3.2譜歸一化

譜歸一化:通過譜范數約束網絡層的Lipschitz常數(如WGAN)。

4. 模型壓縮與稀疏化

4.1L1正則化

L1正則化:生成稀疏權重矩陣,便于模型壓縮(如剪枝)。

4.2結構化范數

結構化范數(如Group Lasso):約束特定參數組的稀疏性。

5. 對抗防御

5.1L∞范數

L∞約束:限制對抗擾動的大小(如對抗訓練中的PGD攻擊)。

四、不同范數的對比與選擇

范數類型 稀疏性 計算復雜度 典型應用
L0 最強 NP難 理論分析,實際中少用
L1 強 低 特征選擇、稀疏模型
L2 無 低 防止過擬合、穩定優化
L∞ 無 低 對抗訓練、梯度裁剪
Frobenius 無 中 矩陣正則化、分解
核范數 低秩性 高 推薦系統、低秩恢復

五、總結

L1/L2范數

L1/L2范數:基礎正則化工具,分別誘導稀疏性和平滑性。

矩陣范數

矩陣范數:處理高維數據、低秩建模及穩定訓練。

范數選擇原則

  1. 根據任務需求(稀疏性、低秩性、魯棒性)。
  2. 考慮計算效率和優化難度
  3. 結合模型結構(如卷積層常用Frobenius范數,全連接層用L2)。

理解不同范數的特性及其幾何意義,能夠幫助設計更高效的模型架構、正則化策略和優化方法,從而提升深度學習模型的性能和泛化能力。


本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/73019.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/73019.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/73019.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

星越L_燈光操作使用講解

目錄 1.開啟前照燈 2左右轉向燈、遠近燈 3.auto自動燈光 4.自適應遠近燈光 5.后霧燈 6.調節大燈高度 1.開啟前照燈 2左右轉向燈、遠近燈 3.auto自動燈光 系統根據光線自動開啟燈光

Stable Diffusion lora訓練(一)

一、不同維度的LoRA訓練步數建議 2D風格訓練 數據規模:建議20-50張高質量圖片(分辨率≥10241024),覆蓋多角度、多表情的平面風格。步數范圍:總步數控制在1000-2000步,公式為 總步數 Repeat Image Epoch …

AI 生成 PPT 網站介紹與優缺點分析

隨著人工智能技術不斷發展,利用 AI 自動生成 PPT 已成為提高演示文稿制作效率的熱門方式。本文將介紹幾款主流的 AI PPT 工具,重點列出免費使用機會較多的網站,并對各平臺的優缺點進行詳細分析,幫助用戶根據自身需求選擇合適的工具…

使用Systemd管理ES服務進程

Centos中的Systemd介紹 CentOS 中的 Systemd 詳細介紹 Systemd 是 Linux 系統的初始化系統和服務管理器,自 CentOS 7 起取代了傳統的 SysVinit,成為默認的初始化工具。它負責系統啟動、服務管理、日志記錄等核心功能,顯著提升了系統的啟動速…

【一維前綴和與二維前綴和(簡單版dp)】

1.前綴和模板 一維前綴和模板 1.暴力解法 要求哪段區間,我就直接遍歷那段區間求和。 時間復雜度O(n*q) 2.前綴和 ------ 快速求出數組中某一個連續區間的和。 1)預處理一個前綴和數組 這個前綴和數組設定為dp,dp[i]表示:表示…

在Windows和Linux系統上的Docker環境中使用的鏡像是否相同

在Windows和Linux系統上的Docker環境中使用的鏡像是否相同,取決于具體的運行模式和目標平臺: 1. Linux容器模式(默認/常見場景) Windows系統: 當Windows上的Docker以Linux容器模式運行時(默認方式&#xf…

植物來源藥用天然產物的合成生物學研究進展-文獻精讀121

植物來源藥用天然產物的合成生物學研究進展 摘要 大多數藥用天然產物在植物中含量低微,提取分離困難;而且這些化合物一般結構復雜,化學合成難度大,還容易造成環境污染。基于合成生物學技術獲得藥用天然產物具有綠色環保和可持續發…

JavaScript |(五)DOM簡介 | 尚硅谷JavaScript基礎實戰

學習來源:尚硅谷JavaScript基礎&實戰丨JS入門到精通全套完整版 筆記來源:在這位大佬的基礎上添加了一些東西,歡迎大家支持原創,大佬太棒了:JavaScript |(五)DOM簡介 | 尚硅谷JavaScript基礎…

瀏覽器工作原理深度解析(階段二):HTML 解析與 DOM 樹構建

一、引言 在階段一中,我們了解了瀏覽器通過 HTTP/HTTPS 協議獲取頁面資源的過程。本階段將聚焦于瀏覽器如何解析 HTML 代碼并構建 DOM 樹,這是渲染引擎的核心功能之一。該過程可分為兩個關鍵步驟:詞法分析(Token 化)和…

The Illustrated Stable Diffusion

The Illustrated Stable Diffusion 1. The components of Stable Diffusion1.1. Image information creator1.2. Image Decoder 2. What is Diffusion anyway?2.1. How does Diffusion work?2.2. Painting images by removing noise 3. Speed Boost: Diffusion on compressed…

yarn 裝包時 package里包含sqlite3@5.0.2報錯

yarn 裝包時 package里包含sqlite35.0.2報錯 解決方案: 第一步: 刪除package.json里的sqlite35.0.2 第二步: 裝包,或者增加其他的npm包 第三步: 在package.json里增加sqlite35.0.2,并運行yarn裝包 此…

一個免費 好用的pdf在線處理工具

pdf24 doc2x 相比上面能更好的支持數學公式。但是收費

buu-bjdctf_2020_babystack2-好久不見51

整數溢出漏洞 將nbytes設置為-1就會回繞,變成超大整數 從而實現棧溢出漏洞 環境有問題 from pwn import *# 連接到遠程服務器 p remote("node5.buuoj.cn", 28526)# 定義后門地址 backdoor 0x400726# 發送初始輸入 p.sendlineafter(b"your name…

DHCP 配置

? 最近發現,自己使用虛擬機建立的集群,在斷電關機或者關機一段時間后,集群之間的鏈接散了,并且節點自身的 IP 也發生了變化,發現是 DHCP 的問題,這里記錄一下。 DHCP ? DHCP(Dynamic Host C…

股指期貨合約的命名規則是怎樣的?

股指期貨合約的命名規則其實很簡單,主要由兩部分組成:合約代碼和到期月份。 股指期貨合約4個字母數字背后的秘密 股指期貨合約一般來說都是由字母和數字來組合的,包含了品種代碼和到期的時間,下面我們具體來看看。 咱們以“IF23…

OSPF 協議詳解:從概念原理到配置實踐的全網互通實現

什么是OSPF OSPF(開放最短路徑優先)是由IETF開發的基于鏈路狀態的自治系統內部路由協議,用來代替存在一些問題的RIP協議。與距離矢量協議不同,鏈路狀態路由協議關心網絡中鏈路活接口的狀態(包括UP、DOWN、IP地址、掩碼…

深入探究 JVM 堆的垃圾回收機制(二)— 回收

GC Roots 枚舉需要遍歷整個應用程序的上下文,而在進行可達性分析或者垃圾回收時,如果我們還是進行全堆掃描及收集,那么會非常耗時。JVM 將堆分為新生代及老生代,它們的回收頻率及算法不一樣。 1 回收算法 在進行可達性分析時&am…

藍橋杯 之 數論

文章目錄 習題質數找素數 數論,就是一些數學問題,藍橋杯十分喜歡考察,常見的數論的問題有:取模,同余,大整數分解,素數,質因數,最大公約數,最小公倍數等等 素…

Unity Shader編程】之渲染流程之深度及pass詳解

關于透明物體的渲染,首先需要了解以下部分 深度緩沖區深度寫入深度測試pass渲染和深度測試的過程深度測試和顏色混合過程 ** 一,深度緩沖區 ** 深度即物體距離相機的距離,深度寫入即是把物體的距離相機信息記錄下來,寫入一個名…

csv文件格式和excel數據格式有什么區別

CSV(Comma-Separated Values)和Excel(XLS/XLSX)數據格式的主要區別如下: 1. 文件格式 CSV:純文本格式,每一行表示一條記錄,字段之間用逗號(,)或其他分隔符&…