神經網絡優化 - 高維變量的非凸優化

?網絡優化是指尋找一個神經網絡模型來使得經驗(或結構)風險最小化的過程,包括模型選擇以及參數學習等。

關于經驗風險最小化和結構風險最小化,請參考博文:

認識機器學習中的經驗風險最小化準則_樣本均值近似與經驗風險最小化的關系-CSDN博客

認識機器學習中的結構風險最小化準則_結構風險機器學習-CSDN博客

深度神經網絡是一個高度非線性的模型,其風險函數是一個非凸函數,因此風險最小化是一個非凸優化問題。此外,深度神經網絡還存在梯度消失問題。因此,深度神經網絡的優化是一個具有挑戰性的問題。

神經網絡的種類非常多,比如卷積網絡、循環網絡、圖網絡等。不同網絡的結構也非常不同,有些比較深,有些比較寬,不同參數在網絡中的作用也有很大的差異,比如連接權重和偏置的不同,以及循環網絡中循環連接上的權重和其他權重的不同。

由于網絡結構的多樣性,我們很難找到一種通用的優化方法。不同優化方法在不同網絡結構上的表現也有比較大的差異。

此外,網絡的超參數一般比較多,這也給優化帶來很大的挑戰.

作為鋪墊,前一博文我們介紹了低維空間的非凸優化問題:低維空間的非凸優化問題-CSDN博客

本文我們來正式學習高維變量(空間)的非凸優化。

低維空間的非凸優化問題主要是存在一些局部最優點。基于梯度下降的優化方法會陷入局部最優點,因此在低維空間中非凸優化的主要難點是如何選擇初始化參數和逃離局部最優點。深度神經網絡的參數非常多,其參數學習是在非常高維空間中的非凸優化問題,其挑戰和在低維空間中的非凸優化問題有所不同。

一、這里解釋一下:低維空間中非凸優化的“逃離局部最優點”

概念理解

  1. 局部最優點(Local Optimum)
    在非凸優化中,局部最優點指的是在某個小范圍內,目標函數的值比附近所有點都小(或大),但它并不一定是全局范圍的最小(或最大)值。換言之,它是“這個山谷的最低點”,卻可能高于另一座更深的山谷底部。

  2. “逃離局部最優點”的含義

    • “逃離”意味著算法在某一次迭代中發現自己處于一個次優的谷底(局部最優),如果繼續按常規梯度方向下降,則只會在這個谷底中震蕩,無法到達更深的、全局最優的山谷。

    • 要“逃離”,就需要引入額外機制,讓搜索過程能夠“跳出”當前的谷底,去探索其他區域,以期找到全局最優解或更優的局部解。

為什么會陷入局部最優

  • 梯度為零:在局部最優點,目標函數梯度(或一階導數)為零,普通的梯度下降算法無法再更新參數。

  • 鞍點與平坦區域:還可能出現既非極大也非極小的鞍點,算法在此也會停滯。

  • 目標地形復雜:非凸函數常有多個起伏不平的“山谷”和“山峰”,算法只要初始點落在某個山谷附近,就可能陷入該谷。

常見“逃離”策略

  1. 多次隨機初始化(Random Restarts)

    • 從不同的初始點多次運行優化算法,記錄各次結果,取最優者。這樣可增加至少一次落到全局最優區域的概率。

  2. 模擬退火(Simulated Annealing)

    • 引入溫度參數,允許算法以一定概率接受“上坡”(目標值變差)的步驟;隨著溫度逐漸降低,這種隨機越過山脊的機會減少,從而有機會跳出局部谷底。

  3. 添加噪聲(Noise Injection)

    • 在每次梯度更新時加入小隨機擾動,擾動有助于擺脫梯度為零的陷阱,將參數推離局部極值點。

  4. 動量方法(Momentum)

    • 利用過去梯度的累積方向,幫助克服鞍點或淺谷的拖拽效應,使得優化路徑能繼續往前越過局部障礙。

  5. 演化或群體算法(Genetic Algorithms, Particle Swarm)

    • 使用多種候選解同時搜索,通過選擇、交叉、變異等操作,群體解可跳出局部最優,逐代逼近全局最優。

“逃離局部最優點”就是讓優化算法不被眼前的小山谷困住,而有能力去嘗試更遠處的區域,以期尋找到全局最優或更優的局部解。常見做法包括多次隨機啟動、模擬退火、噪聲注入、動量方法和群體智能等,它們從不同角度幫助“跳出”或“越過”局部最優的障礙。

二、從鞍點角度分析高維變量(空間)的非凸優化

在高維空間中,非凸優化的難點并不在于如何逃離局部最優點,而是如何逃離鞍點(Saddle Point)。鞍點的梯度是 0,但是在一些維 度上是最高點,在另一些維度上是最低點,如下圖:

鞍點的叫法是因為其形狀像馬鞍。鞍點的特征是一階梯度為0,但是二階梯度的 Hessian 矩陣不是半正定矩陣。

在高維空間中,局部最小值(Local Minima)要求在每一維度上都是最低點,這種概率非常低。假設網絡有10,000維參數,梯度為0的點(即駐點(Sta-tionary Point))在某一維上是局部最小值的概率為 𝑝,那么在整個參數空間中,駐點是局部最優點的概率為 𝑝10,000,這種可能性非常小。也就是說,在高維空間 中大部分駐點都是鞍點。

基于梯度下降的優化方法會在鞍點附近接近于停滯,很難從這些鞍點中逃 離。因此,隨機梯度下降對于高維空間中的非凸優化問題十分重要,通過在梯度方向上引入隨機性,可以有效地逃離鞍點。后面的博文中會詳細介紹。

Hessian 矩陣是什么?

這個矩陣在優化中非常重要,可以用來判斷駐點(梯度為零的點)是極小點、極大點還是鞍點:

  • 若 Hessian 正定(所有特征值都大于零),則該駐點是局部極小。

  • 若 Hessian 負定(所有特征值都小于零),則該駐點是局部極大。

  • 若 Hessian 不定(既有正特征值也有負特征值),則該駐點是鞍點。

半正定矩陣是什么?

在優化中:

  • 如果 Hessian 是半正定的,那么函數在該點附近是“向上開口”的(或平坦),可能是局部極小或鞍點,但不會是局部極大。

  • 半正定性質保證二次近似不會在任何方向上出現向下的“山形”,常用于證明凸函數的二次泰勒展開是下界。

這些數學定義的理解,需要額外去翻閱資料去了解,大家感興趣可以自行深入了解一下,這里只總結性的列一下,輔助理解高維空間中,逃離鞍點的復雜性。

三、從平坦最小值分析高維變量(空間)的非凸優化

深度神經網絡的參數非常多,并且有一定的冗余性,這使得每單個 參數對最終損失的影響都比較小,因此會導致損失函數在局部最小解附近通常 是一個平坦的區域,稱為平坦最小值。

下圖給出了平坦最小值和尖銳最小值(Sharp Minima)的示例:

在一個平坦最小值的鄰域內,所有點對應的訓練損失都比較接近,表明我們這里的很多描述都是在訓練神經網絡時,不需要精確地找到一個局部最小解,只要在一個局部最小解 的鄰域內就足夠了。平坦最小值通常被認為和模型泛化能力有一定的關系。一般而言,當一個模型收斂到一個平坦的局部最小值時,其魯棒性會更好,即微小的參數變動不會劇烈影響模型能力(魯棒性的定義);而當一個模型收斂到一個尖銳的局部最小值 時,其魯棒性也會比較差。具備良好泛化能力的模型通常應該是魯棒的,因此理想的局部最小值應該是平坦的。

(這里的很多描述都是經驗性的,并沒有很好的理論證明)

四、從局部最小解的等價性分析高維變量(空間)的非凸優化

在非常大的神經網絡中,大部分的局部最小解是等價的, 它們在測試集上性能都比較相似。此外,局部最小解對應的訓練損失都可能非常接近于全局最小解對應的訓練損失 。雖然神經網絡 有一定概率收斂于比較差的局部最小值,但隨著網絡規模增加,網絡陷入比較差的局部最小值的概率會大大降低。在訓練神經網絡時,我們通常沒有必要找全局 最小值,這反而可能導致過擬合。

在高維非凸優化中,神經網絡的局部最小解通常表現出“等價性”(equivalence),即絕大多數局部最小點在目標值(損失)和泛化能力上差異極小。

(一)概要

  • 高維效應:隨著參數維度增加,損失函數的隨機成分平均化,絕大多數局部極小點集中在一個狹窄的“能量帶”中,損失值相近。

  • 自旋玻璃理論:借鑒物理中自旋玻璃模型,高維隨機場的局部極小多且值近。

  • 參數對稱性:神經網絡層內部的置換對稱使得同一個模型函數對應多個參數解,進一步增多“等價”局部極小。

(二)幾何與自旋玻璃視角

  1. 能量地形多峰結構

    • 在數千甚至數百萬維參數空間中,目標函數類似“多峰山脈”。

    • 隨機矩陣理論顯示,絕大多數局部極小值點對應的 Hessian 特征值分布都集中在相似區間,這意味著它們的“深度”(損失值)近似一致。

  2. 自旋玻璃模型對比

    • Choromanska 等人在 AISTATS 2015 中將深度網絡損失與自旋玻璃能量函數做類比,證明局部極小值的損失值幾乎等價。

    • 這表明在高度非凸的高維場景下,真正的全局最優與普通局部最優在數值上區別微小,不至顯著影響模型性能。

(三)參數對稱性與模式連通

  1. 置換對稱

    • 同一隱藏層中神經元的任意置換不會改變網絡函數輸出,使得參數空間存在巨大的等價類。

    • 這意味著若一個解是局部極小,那么對其神經元重命名后仍是一個等價解,增大了局部極小的數量且使其等價。

  2. 模式連通性(Mode Connectivity)

    • Garipov 等人(ICML 2018)和 Draxler 等人(ICLR 2018)觀察到,不同訓練得到的局部極小點之間可以通過低損失的“拱橋”相連,說明它們位于同一個連通“谷底”區域。

    • 這種結構進一步支持所有局部極小的等價性:它們并非孤立,而是在同一平坦區域的不同“點”。

(四)實證與理論支持

  1. Kawaguchi 的全局極小無“壞”局部論

    • Kawaguchi(NIPS 2016)證明,對于線性或某些簡化非線性網絡,所有局部極小都是全局極小,強化了等價性的理論基礎。

  2. Dauphin 的鞍點主導論

    • Dauphin 等(NIPS 2014)指出,高維非凸場景下,梯度下降更易被大量高索引鞍點而非局部極小所阻,于是能到達平坦的局部極小區域,這些區域損失相近且泛化好。

(五)小結

  • 在高維非凸優化中,參數維度越高,局部極小點的“深度”分布越集中,幾乎等價。

  • 這種等價性來源于統計平均效應、自旋玻璃類比和網絡自身的對稱結構。

  • 理論與實驗均表明,只要算法能避開鞍點并到達平坦區域,不同初始化往往收斂到等價的低損失解,從而保證泛化性能穩定。

注:關于這部分,個人建議,我們更多的認識到,有“局部最小解的等價性”這個理論存在,然后理解其在高維變量(空間)的非凸優化中的應用及其合理性即可。當然若想進一步理解其原理和理論依據,可以去深究一下上面提到的各種理論和研究。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/76153.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/76153.shtml
英文地址,請注明出處:http://en.pswp.cn/web/76153.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Python自學第2天:條件語句,循環語句

條件語句 1.條件判斷 score 60 if score > 90:print("優秀") elif score > 60:print("及格") else:print("不及格") 注意: 1、每個條件后面要使用冒號 :,表示接下來是滿足條件后要執行的語句塊。2、使用縮進來劃…

C# dll 打包進exe

Framework4.x推薦使用 Costura.Fody 1. 安裝 NuGet 包 Install-Package Costura.Fody工程自動生成packages文件夾,300M左右。生成FodyWeavers.xml、FodyWeavers.xsd文件。 2. 自動嵌入 編譯后,所有依賴的 DLL 會被自動嵌入到 EXE 中。 運行時自動解壓…

Redis之緩存更新策略

緩存更新策略 文章目錄 緩存更新策略一、策略對比二、常見的緩存更新策略三、如何選擇策略四、實際應用示例五、使用 Cache-Aside TTL 的方式,實現緩存商鋪信息詳情1.引入StringRedisTemplate2.將查詢商鋪信息加入緩存3.更新商鋪信息時移除緩存總結 六、注意事項 一…

【工具變量】各地級市人口集聚及多中心程度數據集(2000-2023年)

多中心程度描述的是一個城市或區域內多個功能性中心的存在和分布情況;人口集聚度是指一定區域內人口的集中程度,它反映了區域內人口分布的不均衡性,這兩個概念相互關聯,通過分析地級市的多中心程度及人口集聚度可以幫助研究者理解…

函數對象-C++

1.定義 2.特點 、 1.解釋第一句 #include<stdio.h> using namespace std; #include<string> #include<map> #include <iostream> class print { public:void operator()(string s){cout << s << endl;} }; int main() {print print;pri…

Apifox下載安裝與使用

一、Apifox下載 官網地址:Apifox 點擊"免費下載",即可進行下載。 二、Apifox安裝 雙擊安裝文件即可安裝。

Python與圖像處理:從基礎操作到智能應用的全面解析

目錄 一、Python圖像處理的三大核心優勢 1.1 生態庫矩陣支撐 1.2 開發效率革命 1.3 跨領域協同能力 二、六大核心處理技術詳解 2.1 圖像基礎操作 2.2 圖像增強技術 2.3 特征提取算法 2.4 目標檢測技術 2.5 圖像分割技術 2.6 圖像生成技術 三、實戰案例&#xff1a;智…

雙 Token 與 單 Token 優缺點

雙Token與單Token認證機制對比 在Web應用開發中&#xff0c;身份認證和授權是保障系統安全的核心環節。隨著技術演進&#xff0c;基于Token的認證機制逐漸取代傳統Session方案&#xff0c;而雙Token與單Token架構的選型爭議也日益成為開發者關注的焦點。本文將從技術原理、優缺…

Spring Boot管理Spring MVC

Spring Boot真正的核心功能是自動配置和快速整合&#xff0c;通常Spring Boot應用的前端MVC框架依然使用Spring MVC。Spring Boot提供的spring-boot-starter-web啟動器嵌入了Spring MVC的依賴&#xff0c;并為Spring MVC提供了大量自動配置&#xff0c;可以適用于大多數Web開發…

1.凸包、極點、極邊基礎概念

目錄 1.凸包 2.調色問題 3.極性(Extrem) 4.凸組合(Convex Combination) 5.問題轉化(Strategy)?編輯 6.In-Triangle test 7.To-Left-test 8.極邊&#xff08;Extream Edges&#xff09; 1.凸包 凸包就是上面藍色皮筋圍出來的范圍 這些釘子可以轉換到坐標軸中&#xff0…

《如何用 Function 實現動態配置驅動的處理器注冊機制?》

大家好呀&#xff01;&#x1f44b; 今天我們來聊聊一個超實用的技術話題 - 如何用Java的Function接口實現動態配置驅動的處理器注冊機制。聽起來很高大上&#xff1f;別擔心&#xff0c;我會用最簡單的方式講清楚&#xff01;&#x1f60a; 一、為什么要用Function實現處理器…

【最新版】蕓眾商城獨立版源碼 425+插件 全新后臺框架

一.系統介紹 蕓眾商城系統最新版 已經更新425全插件版&#xff0c;一套系統支持各種新零售、商城、模式&#xff0c;天天美麗鏈動商城。不要相信那些外面的舊版本。舊版本等于是廢品&#xff0c;無法小程序運營的&#xff0c;框架還是舊的&#xff01; 蕓眾系統最新版 服務器可…

java 設計模式之單例模式

簡介 單例模式&#xff1a;一個類有且僅有一個實例&#xff0c;該類負責創建自己的對象&#xff0c;同時確保只有一個對象被創建。 特點&#xff1a;類構造器私有、持有自己實例、對外提供獲取實例的靜態方法。 單例模式的實現方式 餓漢式 類被加載時&#xff0c;就會實例…

Milvus 索引如何選擇

以下是幾種索引類型的特點及適用場景&#xff0c;可據此選擇&#xff1a; AUTOINDEX 特點&#xff1a;數據庫自動選擇合適索引類型&#xff0c;無需深入了解索引細節。適用場景&#xff1a;對索引知識了解有限&#xff0c;或不確定哪種索引適合當前數據和查詢需求&#xff0c…

CentOS 7 安裝教程

準備&#xff1a; 軟件&#xff1a;VMware Workstation 鏡像文件&#xff1a;CentOS-7-x86_64-bin-DVD1.iso &#xff08;附&#xff1a;教程較為詳細&#xff0c;注釋較多&#xff0c;故將操作的選項進行了加粗字體顯示。&#xff09; 1、文件–新建虛擬機–自定義 2、硬盤…

TAS啟動與卸載

3. 啟動TAS&#xff08;Thin-Agent服務&#xff09; TAS在安裝完成后通常會自動啟動&#xff0c;并在系統重啟時自啟。如需手動啟動&#xff0c;請按以下步驟操作&#xff1a; &#xfffc; 3.1 在Windows上啟動TAS 1. 打開 Windows服務管理器&#xff1a; ? 按下 Win R&…

Redis面試——數據結構

一、SDS如何防止緩沖區溢出&#xff1f; Redis 的 String 類型通過 SDS&#xff08;Simple Dynamic String&#xff09;來防止緩沖區溢出&#xff0c;具體機制如下&#xff1a; Redis 的 String 類型底層采用 SDS 實現&#xff0c;即 Simple Dynamic StringSDS 底層維護的數據…

Doris的向量化執行如何支撐分布式架構和復雜查詢

Doris 的向量化執行能力與其 分布式架構 和 復雜查詢優化 深度結合&#xff0c;通過 批處理 列式計算 分布式調度 的協同設計&#xff0c;解決傳統分布式數據庫在復雜查詢場景下的性能瓶頸。以下是具體原理展開&#xff1a; 一、向量化如何適配分布式架構&#xff1f; Doris…

DataInputStream 終極解析與記憶指南

DataInputStream 終極解析與記憶指南 一、核心本質 DataInputStream 是 Java 提供的數據字節輸入流,繼承自 FilterInputStream,用于讀取基本數據類型和字符串的二進制數據。 作用:1.專門用來讀取使用DataOutputStream流寫入的文件 注意:讀取的順序要和寫入的順序一致(…

云轉型(cloud transformation)——不僅僅是簡單的基礎設施遷移

李升偉 編譯 云轉型不僅僅是遷移基礎設施&#xff0c;更是重塑企業運營、創新及價值交付的方式。它具有戰略性、持續性&#xff0c;并影響著人員、流程和平臺。 ?? 云轉型涉及以下內容&#xff1a; &#x1f504; 應用現代化——從單體架構轉向微服務架構。 ?? 運營自動…