對神經正切核的理解和推導(1)

聲明:

本文是對Neural Tangent Kernel (NTK)基礎推導 - Gearlesskai - 博客園文章內容的理解與推導,里面很多東西對我這種新手來說不太好理解,所以我力求通過這種方式理解文章的大部分內容。希望我的理解可以幫助你更好的進行學習。 其他顏色的字是我寫的,黑色的是原文。

神經網絡的疑云

神經網絡在提出初期存在許多質疑,包括但不限于如下內容

  1. Non-convexity(非凹凸性)

    神經網絡不是凸函數,會存在許多局部極小值,梯度下降最終得到的結果與真正的極小值點是否有較大差別?

  2. Initialization

    從不同初始化下進行梯度下降,最終結果是否會有較大偏差呢?

  3. Interpretability

    神經網絡如何被描述?眾多神經元和參數有哪些內在聯系?

  4. Generalization

    神經網絡參數很多,理論上很容易過擬合,但是在測試集上的表現還不錯,表現出較好的泛化性能,如何解釋呢?

譬如,對第四點,機器學習的傳統觀點認為,在訓練誤差和泛化差距之間要進行謹慎的權衡。模型的復雜性存在一個“最佳點”。因此如果模型足夠大,就可以實現合理良好的訓練誤差;而模型足夠小,才可以降低泛化差距(測試誤差和訓練誤差之間的差)。較小的模型會產生較大的訓練誤差,而使模型變大則會導致較大的泛化差距,兩者都會導致較大的測試誤差。測試誤差隨模型復雜度的變化可以經典U形曲線來描述(如下圖a,圖片來自文獻Reconciling modern machine learning practice and the bias-variance trade-off

從這兩張圖可以很好的看出 傳統的機器學習認為 對小模型 有大的訓練誤差 但是有小的泛化差距

對大的模型 有小的訓練誤差 大的泛化差距 以上情況 都導致大的測試誤差 如圖a 模型復雜度存在一個最優點

在此點之后 訓練集誤差降低 但測試集效果下降

但是,如今很常見的是使用高度復雜的過參數化模型,例如深度神經網絡。通常對這些模型進行訓練,以在訓練數據上實現接近零的誤差,但是它們仍然在測試數據上具有出色的性能。上圖的作者Belkin等人通過“雙重下降”曲線對這一現象進行了描述,該曲線擴展了經典的U形曲線(如上圖b),并對此進行了理論解釋。可以觀察到,隨著模型復雜度增加到可以完全擬合訓練數據的程度(即達到插值制度),測試誤差繼續下降!有趣的是,最好的測試效果通常是通過最大的模型實現的,這與關于“最佳點”的經典直覺背道而馳。

隨著模型的復雜度進一步增加 上述情況將消失 即大力出奇跡 最終 訓練集和測試集效果都會變好

因此,有人懷疑深度學習中使用的訓練算法((隨機)梯度下降及其變體)以某種方式隱含地限制了訓練網絡的復雜性(即參數的“真實數量”),從而導致了較小的概括差距。

更直接點,舉個例子,比如單目標分類,有時候數據還沒有網絡參數多,相當于一個有很多未知量的式子,但是限制它的方程數量卻很少,那么這樣一個自由度很高但約束很少的式子,怎么能符合我們對其專一且嚴格的要求呢?

?為什么有時候數據那么少 參數那么多 那這些參數怎么確定呢 這就相當于解方程 解一個二元一次方程 至少需要兩個方程才能確定唯一的解

這里的合理假設是 是不是在訓練的時候 什么方法限制了網絡的真實參數量 概括誤差也叫泛化誤差

NTK的提出

NTK是一種較成功的解釋以上質疑的技術性理論,它有兩個假設:

  1. 需要一種特殊的初始化技巧(Kaiming Initialization)
  2. 網絡足夠寬(或者說,無限寬)

第二條假設某種意義上對應人們之前對深度神經網絡泛化性能和參數量的懷疑(與上文的對應),而第一條假設是一個先決條件,即,在我們訓練過程中,網絡中不應該出現梯度的爆炸或者消失,而是保持均勻(為什么不應該爆炸或者消失,這里我們保持思考)

并且,顧名思義,神經正切核Neural Tangent Kernel是一種核方法,1994年Priors for Infinite Networks就已經提出了無限寬的神經網絡和核方法之間的聯系。近幾年內,NTK相關的基礎理論文章得到了幾個驚人的結論,比如整個訓練過程中網絡存在一個不變量,不依賴于網絡參數,這個不變量就是NTK,神經正切核(NTK開山之作,Neural Tangent Kernel: Convergence and Generalization in Neural Networks(不依賴網絡參數的不變量---NTK,暫時有個概念)

  1. 在無窮寬度條件下,寬神經網絡由在初始參數處的一階泰勒展開式線性模型主導。并且盡管上述結論是在無限寬模型下得到的,論文作者發現實驗證明對于可操作的有限尺寸的神經網絡,由神經網絡得到的估計與線性模型得到的估計也是基本一致的。且這個一致性對于不同結構、不同優化方法、不同損失函數,都是成立的。特別地,在平方損失MSE下,該動態是一個關于時間的封閉解函數(Wide Neural Networks of Any Depth Evolve as Linear Models Under Gradien Descent

為什么要無限寬模型?

無限寬模型(這一層網絡參數無窮) 可以讓某些性質趨于穩定或者呈現出規律性 進行更深層次理論分析 對于非線性干擾也可以忽略

一階泰勒展開?

在此點的值 以及一階導數 可以近似為一個線性模型 代表該點附近的值

在平方損失MSE下,該動態是一個關于時間的封閉解函數?

可以找到一個明確的 不依賴迭代過程的 數學表達式來描述模型訓練的動態變化過程

3.梯度下降可以繞過局部最小值,從初始化快速找到全局最小值(Gradient Descent Finds Global Minima of Deep Neural Networks

局部最小值可能很接近全局最小 實際使用中影響不大

論文里說 只要網絡足夠寬 就可以通過梯度下降隨機初始化 快速收斂到一個全局最小 即使是這種非凸性

為什么可以避開局部最優點?

參數多 但是訓練數據小 參數空間的高維性使得存在大量相互連通的低損失區域,梯度下降可以在這些區域中平滑地移動,避開局部最小值。

對稱性使得共享參數 等價解構了低損失區域

初始 類似線性模型 梯度下降 精確的描述為核梯度下降過程 可以達到全局最優

之后雖然非線性 但已經接近最優點

高維空間 鞍點更多?

如何理解平坦的低損失區域?

平坦 代表變化不大 低損失代表擬合效果好

在高維空間中,存在大量的參數組合可以使得損失函數達到較低的值 這些參數 往往相互靠近

對稱性也導致了這個區域形成

這些結論很好地解釋了很多對于神經網絡優化的質疑。接下來我們會依次介紹對應的條件(或者假設)下的推導和近似

?推導 將在明天或后天更新

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/82188.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/82188.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/82188.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

基于 STC89C52 的養殖場智能溫控系統設計與實現

摘要 本文提出一種基于 STC89C52 單片機的養殖場環境溫度智能控制系統,通過集成高精度溫度傳感器、智能執行機構及人機交互模塊,實現對養殖環境的實時監測與自動調控。系統具備溫度閾值設定、超限報警及多模式控制功能,可有效提升養殖環境穩定性,降低能耗與人工成本。 一…

微信小程序調試

一、尋找答案 1. 創建小程序 https://zhuanlan.zhihu.com/p/1906013675883561860 2. 若有后端接口,需要調試 https://blog.csdn.net/animatecat/article/details/126949749 3. 比較細教程, 搭建修改配置 https://zhuanlan.zhihu.com/p/1893281527112136235 4. 查找…

使用DeepSeek實現數據處理

一、核心能力全景圖 Ctrl+/ 喚醒智能助手,支持以下數據處理場景: ?? 數據清洗與預處理?? 統計分析與可視化?? 機器學習建模?? 大數據性能優化?? 自動化報告生成? 實時流數據處理二、高頻場景實戰(附魔法口令) 場景1:數據清洗自動化(Python示例) 口令: 處…

符合Python風格的對象(使用 __slots__ 類屬性節省空間)

使用__slots__ 類屬性節省空間 默認情況下,Python 在各個實例中名為__dict__ 的字典里存儲實例屬 性。如 3.9.3 節所述,為了使用底層的散列表提升訪問速度,字典會消 耗大量內存。如果要處理數百萬個屬性不多的實例,通過__slots__…

民宿管理系統5

管理員管理&#xff1a; 新增管理員信息&#xff1a; 前端效果&#xff1a; 前端代碼&#xff1a; <body> <div class"layui-fluid"><div class"layui-row"><div class"layui-form"><div class"layui-form-i…

?騰訊地圖軌跡云:重構位置管理的數字神經中樞

——從軌跡追蹤到智能決策&#xff0c;開啟產業互聯網新篇章 在數字經濟與實體經濟深度融合的今天&#xff0c;位置服務已成為企業數字化轉型的核心基礎設施。無論是物流運輸中的車輛調度、共享經濟中的設備管理&#xff0c;還是智慧城市中的交通優化&#xff0c;精準的軌跡數…

rce命令執行原理及靶場實戰(詳細)

2. 原理 在根源上應用系統從設計上要給用戶提供一個指定的遠程命令操作的接口。漏洞主要出現在常見的路由器、防火墻、入侵檢測等設備的web管理界面上。在管理界面提供了一個ping服務。提交后&#xff0c;系統對該IP進行ping&#xff0c;并且返回結果。如果后臺服務器并沒有對…

GeoTools 將 Shp 導入PostGIS 空間數據庫

前言 ? GeoTools 在空間數據轉換處理方面具有強大的能力&#xff0c;能夠高效、簡潔的操縱 Shp 數據。特別是與空間數據庫PostGIS 相結合&#xff0c;更能展示出其空間數據處理的優勢&#xff0c;借助 GeoTools&#xff0c;我們可以實現 Shp 數據高效入庫。 本文上接系列文章 …

基于SpringBoot+Vue的家政服務系統源碼適配H5小程序APP

市場前景 隨著社會經濟的發展和人口老齡化的加劇&#xff0c;家政服務需求不斷增長。我國65歲及以上人口增長較快&#xff0c;2022年我國65歲及以上老年人數量達2.1億人&#xff0c;占比較2016年增長4.1個百分點&#xff0c;達14.9%。我國65歲及以上人口數量龐大&#xff0c;老…

《企業級日志該怎么打?Java日志規范、分層設計與埋點實踐》

大家好呀&#xff01;&#x1f44b; 今天我們要聊一個Java開發中超級重要但又經常被忽視的話題——日志系統&#xff01;&#x1f4dd; 不管你是剛入門的小白&#xff0c;還是工作多年的老司機&#xff0c;日志都是我們每天都要打交道的"好朋友"。那么&#xff0c;如…

1Panel vs 寶塔面板:現代化運維工具的全方位對比

1Panel vs 寶塔面板對比分析 1Panel 和 寶塔面板&#xff08;BT-Panel&#xff09;都是服務器管理工具&#xff0c;旨在簡化 Linux 服務器的運維工作&#xff0c;但它們在設計理念、功能側重點和技術實現上有明顯差異。以下從多個維度對兩者進行對比分析&#xff1a; 1. 定位與…

怎么開發一個網絡協議模塊(C語言框架)之(四) 信號量初始化

// 原始代碼 /* gVrrpInstance.sem = OsixCreateBSem(OSIX_SEM_Q_PRIORITY, OSIX_SEM_FULL); */ gVrrpInstance.sem = OsixCreateMSem(OSIX_SEM_Q_FIFO | OSIX_SEM_DELETE_SAFE); if (gVrrpInstance.sem == NULL) {printf("[VRRP]:vrrp init error, failed to create vrrp…

電腦C盤清理技巧:釋放空間,提升性能

文章目錄 一、使用系統自帶的磁盤清理工具&#xff08;一&#xff09;打開磁盤清理工具&#xff08;二&#xff09;清理臨時文件&#xff08;三&#xff09;清理系統文件 二、使用第三方清理工具&#xff08;一&#xff09;CCleaner&#xff08;極力推薦&#xff09;&#xff0…

ARM筆記-ARM處理器及系統結構

第二章 ARM處理器及系統結構 2.1 ARM處理器簡介 采用RISC架構的ARM微處理器的特點&#xff1a; 體積小、功耗低、低成本、高性能&#xff1b;支持 Thumb&#xff08;16位&#xff09;/ARM&#xff08;32位&#xff09;雙指令集&#xff0c;能很好地兼容 8位/16位 器件&#x…

關于如何在Springboot項目中通過excel批量導入數據

接口文檔 2.5 批量導入學生賬號 2.5.1 基本信息 請求路徑:/admin/students/batch-import 請求方式:POST 接口描述:通過上傳Excel文件批量導入學生賬號信息。 2.5.2 請求參數 參數格式:multipart/form-data 參數說明: 參數名稱參數類型是否必須備注filefile是包含學…

【TypeScript】知識點梳理(四)

#沒事去翻翻官網文檔&#xff0c;其實有很多用法是我們還不知道的&#xff0c;官方資料總是最權威的&#xff0c;也推薦大家無聊看看各個官網hhh&#xff0c;不一定是記憶&#xff0c;但在某種場景下我們或許能想到還有多一種解決方式# noImplicitAny 當我們沒有表明類型時&…

Python匿名函數(lambda)全面詳解

文章目錄 Python匿名函數(lambda)全面詳解一、lambda函數基礎1. 什么是lambda函數&#xff1f;2. lambda函數語法3. 與普通函數的區別 二、lambda函數使用場景1. 作為函數參數2. 在數據結構中使用3. 作為返回值4. 立即調用(IIFE) 三、lambda函數高級用法1. 多參數lambda2. 條件…

Qt Widgets模塊功能詳細說明,基本控件:QCheckBox(三)

一、基本控件&#xff08;Widgets&#xff09; Qt 提供了豐富的基本控件&#xff0c;如按鈕、標簽、文本框、復選框、單選按鈕、列表框、組合框、菜單、工具欄等。 1、QCheckBox 1.1、概述 (用途、狀態、繼承關系) QCheckBox 是 Qt 框架中的復選框控件&#xff0c;用于表示二…

HarmonyOS 鴻蒙應用開發基礎:轉換整個PDF文檔為圖片功能

在許多應用場景中&#xff0c;將PDF文檔的每一頁轉換為單獨的圖片文件是非常有幫助的。這可以用于文檔的分享、掃描文檔的電子化存檔、或者進行進一步的文字識別處理等。本文將介紹如何使用華為HarmonyOS提供的PDF處理服務將整個PDF文檔轉換為圖片&#xff0c;并將這些圖片存放…

【算法】: 前綴和算法(利用o(1)的時間復雜度快速求區間和)

前綴和算法&#xff1a;高效處理區間求和的利器 目錄 引言什么是前綴和前綴和的基本實現前綴和的作用前綴和的典型應用場景前綴和的優缺點分析實戰例題解析 引言 區間求和問題的普遍性暴力解法的時間復雜度問題前綴和算法的核心思想 什么是前綴和 前綴和的數學定義 通俗來…