【機器學習筆記 Ⅱ】6 激活函數

激活函數是神經網絡的核心組件,其作用遠不止“引入非線性”。以下是系統化的解析:


1. 核心作用

(1) 引入非線性

  • 沒有激活函數:多層神經網絡等價于單層線性變換(矩陣連乘仍是線性)。

  • 加入激活函數:每層通過非線性函數(如ReLU)變換,使網絡能擬合任意復雜函數(Universal Approximation Theorem)。

(2) 決定神經元激活狀態

  • 激活函數輸出值表示神經元的“激活程度”(如Sigmoid輸出0~1的概率,ReLU輸出是否激活)。

(3) 控制梯度流動

  • 良好的激活函數(如ReLU)可緩解梯度消失/爆炸問題,確保反向傳播時梯度有效更新參數。

2. 沒有激活函數會怎樣?

  • 模型能力受限:只能解決線性問題(如線性回歸),無法處理圖像、語言等非線性數據。
  • 深度無效:無論多少層,等效于單層線性模型。

數學證明
假設網絡有 ( L ) 層,每層權重為 ( \mathbf{W}_l ),無激活函數時:

最終仍為線性變換。


3. 激活函數的關鍵特性

特性作用示例函數
非線性使網絡能擬合復雜模式。ReLU, Sigmoid, Tanh
可微分支持梯度下降優化。所有常用激活函數
單調性保證損失函數是凸的(利于優化)。ReLU, Leaky ReLU
輸出范圍控制避免數值爆炸(如Tanh輸出[-1,1],Sigmoid輸出[0,1])。Tanh, Sigmoid
稀疏激活部分神經元輸出為零,提升計算效率。ReLU

4. 常用激活函數對比


5. 為什么ReLU最常用?

  • 計算高效:無需指數運算(比Sigmoid/Tanh快6倍)。
  • 緩解梯度消失:正區間梯度恒為1。
  • 稀疏性:負輸入輸出0,減少參數依賴。

問題:ReLU在 ( x<0 ) 時梯度為0,可能導致神經元死亡。
解決方案:使用Leaky ReLU或Parametric ReLU(PReLU)。


6. 激活函數選擇指南

任務類型隱藏層推薦輸出層推薦理由
二分類ReLUSigmoid輸出概率
多分類ReLUSoftmax多類概率歸一化
回歸ReLU無(線性輸出)直接預測數值
RNN/LSTMTanh按任務選擇處理正負激活,避免梯度爆炸

7. 代碼示例

(1) 自定義激活函數(Python)

import numpy as npdef relu(x):return np.maximum(0, x)def sigmoid(x):return 1 / (1 + np.exp(-x))# 前向傳播示例
z = np.dot(X, W) + b  # 線性變換
a = relu(z)            # 激活函數

(2) 在PyTorch中使用激活函數

import torch.nn as nnmodel = nn.Sequential(nn.Linear(784, 128),nn.ReLU(),          # 隱藏層激活nn.Linear(128, 10),nn.Softmax(dim=1)   # 輸出層激活
)

8. 高級話題

(1) 自適應激活函數

(2) 梯度消失問題的數學解釋

鏈式法則中,若激活函數導數 ( \sigma’(z) ) 過小(如Sigmoid在兩端導數≈0),多層連乘導致梯度指數級衰減。


9. 總結

  • 沒有激活函數:神經網絡退化為線性模型,無法解決現實中的非線性問題。
  • 核心價值
    1. 引入非線性,使網絡成為“萬能逼近器”。
    2. 控制神經元激活與梯度流動。
  • 實踐建議
    • 隱藏層默認使用ReLU(注意初始化權重和學習率)。
    • 輸出層根據任務選擇(Sigmoid/Softmax/線性)。

激活函數是神經網絡的“靈魂”,決定了模型能否學習復雜模式!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/87891.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/87891.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/87891.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

AI無標記動捕如何結合VR大空間技術打造沉浸式游戲體驗

隨著數字科技的迅猛發展&#xff0c;VR大空間技術正逐步成為各行業探索沉浸式體驗的重要方向。在VR游戲領域&#xff0c;市場對于高度沉浸式體驗的需求日益增長&#xff0c;而傳統VR游戲主要依賴手柄和基礎體感進行交互&#xff0c;而在VR大空間中&#xff0c;用戶可以通過全身…

Qt智能指針

在 Qt 框架中&#xff0c;智能指針用于自動管理對象的生命周期&#xff0c;防止內存泄漏。以下是 Qt 中主要的智能指針及其用法詳解&#xff1a;1. QScopedPointer作用&#xff1a;獨占所有權&#xff0c;超出作用域時自動釋放對象&#xff08;類似 std::unique_ptr&#xff09…

408第三季part2 - 計算機網絡 - 信道利用率

理解t1是發送幀的傳輸時間t2是確認幀的傳輸時間中間是傳播過程這整個過程就是發送周期任何題目會有以下幾種情況題目這里數據幀和確認幀長度是一樣的t1 t2然后把t1的傳輸數據算出來然后傳播是0.2sd停止等待 k1確認幀忽略t2 0t1算好后&#xff0c;求數據幀的長度下面是速率&…

Android framework 開發者模式下,如何修改動畫過度模式

Android framework 開發者模式下&#xff0c; 如何修改動畫過度模式 開發者模式下&#xff0c;動畫過度 模式1.0→0.5&#xff0c;按如下方式修改。 開發云 - 一站式云服務平臺 .../core/java/com/android/server/wm/WindowManagerService.java | 8 ---- 1 file changed, …

win11安裝paddlelabel并創建目標檢測項目

創建虛擬環境 conda create -n paddlelabel python3.11.11 conda activate paddlelabel通過以下命令安裝 pip install --upgrade paddlelabel輸入命令pdlabel運行paddlelabel&#xff0c;發現報錯&#xff1a; ModuleNotFoundError: Please install connexion using the flask …

關于Novatek B/G-R/G白平衡色溫坐標系再探究

目錄 一、準備知識 二、色溫坐標系的構建 三、Novatek白平衡色溫坐標系的再探究 2.1 直線白點框 2.2雙曲線白點框 四、仿真代碼 之前寫的一篇博文關于聯詠(Novatek )白平衡色溫坐標系探究-CSDN博客感覺邏輯上有些混亂,這個周末我又好好思考了下,以…

基于路徑質量的AI負載均衡異常路徑檢測與恢復策略

AI流量往往具有突發性、大象流&#xff08;大規模數據流&#xff09;占比高的特點&#xff0c;極易造成網絡擁塞熱點。一條質量不佳&#xff08;如高延遲、高丟包、帶寬受限&#xff09;的路徑&#xff0c;不僅自身無法有效傳輸數據&#xff0c;如果ECMP繼續向其分發流量&#…

ubuntu22.04 安裝cuda cudnn

1.輸入nvidia-smi查看可以支持安裝的cuda最大版本 2.cuda與cudnn版本的選擇 核心原則 向下兼容性&#xff1a;較新的 cuDNN 通常兼容舊版 CUDA&#xff0c;但反之不成立 框架依賴&#xff1a;優先考慮深度學習框架&#xff08;TensorFlow/PyTorch&#xff09;的版本要求 硬件…

5、Receiving Messages:Message Listener Containers

提供了兩個MessageListenerContainer實現&#xff1a; KafkaMessageListenerContainer ConcurrentMessageListener容器 KafkaMessageListenerContainer在單個線程上接收來自所有主題或分區的所有消息。ConcurrentMessageListenerContainer委托給一個或多個KafkaMessageListe…

JDBC 注冊驅動的常用方法詳解

JDBC 注冊驅動的常用方法詳解 在 JDBC 中&#xff0c;注冊驅動是建立數據庫連接的第一步。以下是幾種常用的驅動注冊方式&#xff1a; 1. 顯式類加載&#xff08;傳統方式&#xff09; // 通過 Class.forName() 加載驅動類 Class.forName("com.mysql.cj.jdbc.Driver&qu…

插入數據優化

目錄 一.插入數據優化 1.insert語句優化 ①批量插入 ②手動提交事務 ③主鍵順序插入 2.大批量插入數據&#xff08;100萬條&#xff09; 舉例 第一步&#xff1a;連接數據庫時&#xff0c;加上--local-infile屬性 第二步&#xff1a;查看全局參數local_infile的值&…

區塊鏈在域名系統安全中的應用進展綜述

一、區塊鏈與DNS結合的核心原理1.1 傳統DNS的安全缺陷中心化架構&#xff1a;傳統DNS依賴中心化服務器&#xff08;如ICANN管理的根服務器&#xff09;&#xff0c;存在單點故障風險&#xff0c;易受DDoS攻擊或配置錯誤影響。協議脆弱性&#xff1a;DNS協議設計之初缺乏加密和認…

GO Web 框架 Gin 完全解析與實踐

目錄 1. 為什么選擇 Gin?解鎖 Go Web 開發的超能力 Gin 的核心優勢 什么時候用 Gin? 第一個 Hello World 2. 路由的藝術:從簡單 GET 到復雜匹配 基礎路由 高級路由技巧 性能優化小貼士 3. 中間件的魔法:讓請求處理更聰明 內置中間件 自定義中間件 中間件的最佳實…

RabbitMQ使用topic Exchange實現微服務分組訂閱

案例場景&#xff1a;用戶下單后需要多個微服務&#xff08;如營銷、會員&#xff09;分別訂閱并處理訂單事件&#xff0c;且每個微服務可能有多個集群實例&#xff0c;需要保證同一個微服務的集群中&#xff0c;只有一個實例消費到消息。不同于Kafka和rocketMQ有分組消費的功能…

kotlin 通道trysend方法

trySend 方法是 Kotlin 協程中 Channel 類的一個重要功能。它用于向通道發送元素&#xff0c;但與 send 方法不同的是&#xff0c;trySend 是非阻塞的。這意味著它不會在通道滿時掛起當前協程&#xff0c;而是會立即返回。 trySend 方法的效果 非阻塞行為&#xff1a; 當你調用…

winform CheckedListBox單擊選中解決方案

在WinForms的CheckedListBox控件中&#xff0c;默認需要雙擊才能切換選中狀態&#xff08;復選框勾選&#xff09;。要實現單擊即選中&#xff0c;需要通過代碼處理鼠標點擊事件并手動切換選中狀態。以下是實現步驟&#xff1a; 1.CheckOnClick屬性置為true即可。 2.通過事件處…

Docker文件操作、數據卷、掛載

一&#xff1a;容器文件操作 在Docker環境中&#xff0c;管理容器內部的文件是一個常見的需求。 無論是為了配置應用、備份數據還是調試問題&#xff0c;了解如何高效地進行文件操作都是非常重要的。 docker cp命令提供了一種簡單的方法來在宿主主機和容器之間復制文件或目錄…

接口漏洞怎么抓?Fiddler 中文版 + Postman + Wireshark 實戰指南

接口安全是現代應用開發中的高危環節&#xff1a;一旦API存在未授權訪問、參數篡改、權限繞過等漏洞&#xff0c;可能直接導致用戶信息泄露、資金損失甚至整個平臺癱瘓。對于開發和安全人員來說&#xff0c;光依賴后端日志排查遠遠不夠&#xff0c;需要對接口進行主動安全性驗證…

iOS 出海 App 安全加固指南:無源碼環境下的 IPA 加固與防破解方法

隨著越來越多國內開發團隊將iOS App推向海外市場&#xff0c;如何在交付和分發環節保護應用安全成為出海過程中的重要議題。尤其是App進入多個海外應用商店或通過第三方渠道發行時&#xff0c;容易被當地黑產或競爭對手進行逆向分析&#xff0c;從而暴露內部API、核心業務流程等…

React Hooks 內部實現原理與函數組件更新機制

React Hooks 內部實現原理與函數組件更新機制 Hooks 的內部實現原理 React Hooks 的實現依賴于以下幾個關鍵機制&#xff1a; 1. 鏈表結構存儲 Hook 狀態 React 使用單向鏈表來管理 Hooks 的狀態。每個 Hook 節點包含&#xff1a; type Hook {memoizedState: any, // 存儲…