深度學習:激活函數Activaton Function

一、為什么需要激活函數?

神經網絡本質上是多個線性變換(矩陣乘法)疊加。如果沒有激活函數,即使疊加多層,整體仍等價于一個線性函數:

f(x) = W_nW_{n-1}\cdot \cdot \cdot W_1x+b

這樣的網絡無法學習和擬合現實世界中復雜的非線性關系。

激活函數的作用:

  • 在每一層加入非線性變換,使得網絡具有逼近任意非線性函數的能力。
  • 激活神經元,產生“信息通過/抑制”的門控效果。

二、常見激活函數列表與直覺圖示

名稱公式輸出范圍圖像形狀是否中心對稱使用場景
Sigmoid
\sigma \left ( x \right )=\frac{1}{1+e^{-x}}
(0,1)S型概率輸出,二分類
Tanh
tanh(x)=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}
(-1,1)中心對稱S型RNN隱藏層
ReLU
f(x) = max(0,x)
[0,+∞)截斷線性默認隱藏層函數
Leaky ReLU(-∞,+∞)左側帶緩坡緩解ReLU死神經元問題
ELU/GELUSmooth ReLU變體(-1,∞)平滑曲線深層網絡(如BERT)
Softmax
Softmax(x_{i})=\frac{e^{x_{i}}}{\sum_{j}^{e^{x_{j}}}}
(0,1)且總和=1多維映射多分類輸出層

三、每種激活函數詳細講解

3.1 Sigmoid函數(邏輯激活)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?\sigma (x) = \frac{1}{1+e^{-x}}

特性:

  • 輸出范圍在(0,1),可理解為概率
  • 單調遞增,飽和區梯度小(梯度消失問題嚴重)
  • 在0附近比較線性,但遠離0時趨近于平穩

優點:

  • 直觀表示“激活程度”(介于0與1之間)
  • 在早期神經網絡和輸出層應用廣泛

缺點:

  • ?梯度消失問題:遠離0時梯度趨近于0
  • 輸出非中心對稱:導致后一層神經元輸入偏向正方向

使用建議:

  • 不推薦用于隱藏層
  • 可用于輸出為“概率”的任務(如二分類輸出層)?

3.2 Tanh函數(雙曲正切)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??tanh(x) = \frac{e^x-e^{-x}}{e^x+e^{-x}} = 2\sigma (2x)-1

特性:

  • 輸出范圍(-1,1),是中心對稱的S型函數
  • 在0附近幾乎線性,表現比Sogmoid更好。

優點:

  • 零均值輸出,收斂速度通常比Sigmoid快。

?缺點:

  • 也存在梯度消失問題(在±2左右開始飽和)

使用建議:

  • 在RNN等早期模型中較為常見。
  • 若模型對“負激活”有需求,可以使用Tanh。

3.3 ReLU(Rectified Linear Unit)?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??f(x)=max(0,x)

?特性:

  • 最常用的激活函數,非線性強,計算簡單。
  • 在x>0區域內導數為1,在x≤0區域內導數為0。

優點:

  • 計算快,易于優化,不易發生梯度消失。
  • 會產生稀疏激活(部分神經元輸出為0),提高泛化能力。

缺點:

  • 死亡神經元問題:一旦某個神經元進入負區間并梯度為0,則該神經元永遠不會激活。

使用建議:

  • 深度神經網絡的隱藏層默認激活函數。
  • 若出現大量“死神經元”,可以使用Leaky ReLU或ELU替代。

3.4? Leaky ReLU

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??f(x) = x(x\geq 0),\alpha x(x<0)? ? ?α通常為0.01?

特性:

  • 為ReLU的改進版本,在負區間保留少量梯度。

優點:

  • 緩解了ReLU的“死亡神經元”問題。
  • 在某些任務上收斂更穩定。

缺點:

  • 依賴于α超參數,需調參。

使用建議:

  • 如果ReLU網絡中出現大量神經元輸出恒為0,可嘗試替換為Leaky ReLU

3.5 GELU(Gaussian Error Linear Unit)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ?f(x) = x \cdot \phi (x)\phi (x)是標準正態分布的累積分布函數

?特性:

  • 是ReLU與Sigmoid的混合形式。
  • 表現為平滑的非線性函數。

優點:

  • 在Transformer,BERT,ViT中廣泛使用 。
  • 理論上更優,經驗上在大模型中性能更好。

使用建議:

  • 在使用Transformer,BERT,T5等模型,默認激活就是GELU。?

3.6 Softmax(用于輸出層)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?Softmax(x_i)=\frac{e^{x_i}}{\sum_{j}^{}e^{x_j}}

特性:

  • 將向量轉換為“概率分布”:每個值在(0,1),總和為1。
  • 常用于多分類任務的輸出層。

使用建議:

  • 不用于隱藏層,僅用于輸出層。
  • 通常與交叉熵損失函數一起使用。?

?

四、總結對比表

函數是否線性輸出范圍是否對稱梯度問題使用推薦
Sigmoid(0, 1)易梯度消失輸出層(二分類)
Tanh(-1, 1)易梯度消失RNN、需要對稱時
ReLU[0, ∞)死神經元默認隱藏層
Leaky ReLU(-∞, ∞)有梯度替代 ReLU
GELU(-∞, ∞)平滑收斂好BERT等大模型
Softmax(0, 1) 且和為1N/A多分類輸出

五、激活函數的三大核心指標

指標含義重要性
非線性能力是否能打破線性疊加所有激活函數的基本功能
是否有梯度梯度在輸入范圍內是否為0決定反向傳播是否可行
零中心性輸出是否以0為中心有助于加速收斂,避免梯度偏移

六、隱藏層和輸出層的激活函數選擇原則

層類型推薦激活函數原因
隱藏層ReLU/Leaky ReLU/GELU快速收斂,低計算開銷,有效抑制梯度問題
輸出層-二分類Sigmoid輸出概率,可與BCE Loss配合
輸出層-多分類Softmax輸出概率分布,可與CrossEntropyLoss配合
輸出層-回歸無激活/Linear輸出連續值(如房價)

?

七、ReLU系列變體的擴展圖譜

1.Leaky ReLU:緩解死神經元問題

2.PReLU(Parametric ReLU):負斜率α可學習

3.RReLU(Randomized ReLU):訓練時負斜率為隨機數

4.ELU(Exponential Linear Unit):負區間指數形狀,避免輸出偏正

5.SELU(Scaled ELU):自歸一化網絡(Self-Normalizing NN)

八、實際工程中激活函數的選型建議

場景推薦函數理由
默認情況ReLU簡單快速,表現好
出現大量死神經元Leaky ReLU/PReLU保持梯度
大模型(Transformer等)GELU平滑非線性,更強表征能力
醫療/金融等數據對稱Tanh輸出中心對稱,利于穩定性
多標簽任務輸出層Sigmoid與BCE loss搭配使用
多分類任務輸出層Softmax與交叉熵搭配使用

九、激活函數與神經網絡結構的關系?

激活函數不是孤立使用的,而是與網絡層數,歸一化方法,損失函數等協同設計:

網絡結構建議激活函數原因
MLP(多層感知機)ReLU/LeakyReLU層數少,避免梯度消失即可
CNN(卷積網絡)ReLU/LeakyReLU圖像任務中默認激活,訓練快
RNN/LSTMTanh/Sigmoid(門控)RNN天然處理時序信息,Tanh為主,Sigmoid用于控制門結構
TransformerGELU/ReLUBERT,GPT中使用GELU收斂更平穩,ReLU計算更快
自歸一化網絡(SNN)SELU與特殊初始化+dropout配合,自動歸一化每層輸出
GAN生成器ReLU/LeakyReLU生成端需非線性表達能力強
GAN判別器LeakyReLU判別器中避免ReLU死神經元影響判別能力

?

十、訓練中因激活函數導致的典型問題與解決方案

問題可能原因解決方案
訓練不收斂Sigmoid/Tanh導致梯度消失改用ReLU/GELU
大量神經元恒為0ReLU死神經元問題改用LeakyReLU/PReLU
loss起伏大梯度爆炸 or 梯度不穩定嘗試使用平滑激活函數(GELU/Swish)
模型準確率震蕩輸出分布不均衡檢查是否中心兌成(可嘗試Tanh/SELU)

十一、激活函數與歸一化層的順序問題

在使用BatchNorm/LayerNorm時,激活函數的位置非常關鍵。

順序類型建議順序說明
CNN(BatchNorm)Conv?BN?ReLU主流做法,BN規范分布后再非線性激活
Transformer(LayerNorm)LN?Linear?GELU大模型默認順序(PreNorm)
ResNet殘差結構ReLU放在跳躍前還是后?大多在殘差和主路路徑相見之后ReLU

十二、激活函數的梯度可視化

激活函數導數(梯度)梯度圖像直覺
Sigmoidσ′(x)=σ(x)(1?σ(x))\sigma'(x) = \sigma(x)(1 - \sigma(x))梯度最大在 x=0,越遠越趨近于0(易梯度消失)
Tanhtanh?′(x)=1?tanh?2(x)\tanh'(x) = 1 - \tanh^2(x)梯度范圍比 Sigmoid 更廣,但仍有飽和問題
ReLUf′(x)=1?if?x>0;0?elsef'(x) = 1 \text{ if } x>0; 0 \text{ else}梯度恒定,簡單高效
Leaky ReLUf′(x)=1?if?x>0;α?elsef'(x) = 1 \text{ if } x>0; \alpha \text{ else}保留負區間小梯度
GELU近似導數為高斯變換平滑過渡,梯度分布均衡(大模型表現好)

十三、激活函數的數學本質:非線性特征空間映射

從數學角度來看,激活函數在整個神經網絡中充當非線性特征映射角色:

網絡每一層執行的是

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?x_{l+1} = \phi (W_lx_l+b_l)

其中?\phi是激活函數

本質上是將低維空間的線性表示映射到高維非線性空間,從而可以更好地學習復雜關系(類似SVM的核函數思想)

十四、小結

場景首選激活函數替代備選
圖像分類ReLULeaky ReLU / GELU
序列建模Tanh / GELUReLU
大型TransformerGELUSwish
輸出為概率(二分類)Sigmoid
多分類輸出層Softmax
GAN 判別器Leaky ReLUReLU
出現死神經元Leaky ReLUPReLU

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/91390.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/91390.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/91390.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

deepseek: 切分類和長函數到同名文件中

import re import sys import os import ast from tokenize import generate_tokens, COMMENT, STRING, NL, INDENT, DEDENT import iodef extract_entities(filename):"""提取類和函數到單獨文件"""with open(filename, r, encodingutf-8) as f…

新型融合肽遞送外泌體修飾可注射溫敏水凝膠用于骨再生

溫敏水凝膠因能模擬細胞外基質微環境&#xff0c;且具有原位注射性和形態適應性&#xff0c;在骨組織工程中應用廣泛。小腸黏膜下層&#xff08;SIS&#xff09;作為天然細胞外基質來源&#xff0c;富含 I 型和 III 型膠原蛋白及多種生物活性因子&#xff0c;其制備的水凝膠在組…

SPI接口的4種模式(根據時鐘極性和時鐘相位)

SPI&#xff08;Serial Peripheral Interface&#xff09; 接口根據時鐘極性&#xff08;CPOL&#xff09;和時鐘相位&#xff08;CPHA&#xff09;的不同組合&#xff0c;共有 4種工作模式。這些模式決定了數據采樣和傳輸的時序關系&#xff0c;是SPI通信中必須正確配置的關鍵…

Java:高頻面試知識分享2

HashSet 和 TreeSet 的區別&#xff1f;底層實現&#xff1a;HashSet 基于 HashMap 實現&#xff0c;使用哈希表存儲元素&#xff1b;TreeSet 基于 TreeMap&#xff0c;底層為紅黑樹。元素順序&#xff1a;HashSet 無序&#xff1b;TreeSet 會根據元素的自然順序或傳入的 Compa…

C語言習題講解-第九講- 常見錯誤分類等

C語言習題講解-第九講- 常見錯誤分類等1. C程序常見的錯誤分類不包含&#xff1a;&#xff08; &#xff09;2. 根據下面遞歸函數&#xff1a;調用函數 Fun(2) &#xff0c;返回值是多少&#xff08; &#xff09;3. 關于遞歸的描述錯誤的是&#xff1a;&#xff08; &#x…

A?算法(A-star algorithm)一種在路徑規劃和圖搜索中廣泛使用的啟發式搜索算法

A?A*A?算法&#xff08;A-star algorithm&#xff09;是一種在路徑規劃和圖搜索中廣泛使用的啟發式搜索算法&#xff0c;它結合了Dijkstra算法的廣度優先搜索思想和啟發式算法的效率優勢&#xff0c;能夠高效地找到從起點到終點的最短路徑。 1. 基本原理 A*算法的核心是通過估…

UniappDay06

1.填寫訂單-渲染基本信息 靜態結構&#xff08;分包&#xff09;封裝請求API import { http } from /utils/http import { OrderPreResult } from /types/orderexport const getmemberOrderPreAPI () > {return http<OrderPreResult>({method: GET,url: /member/orde…

論文略讀:GINGER: Grounded Information Nugget-Based Generation of Responses

SIGIR 2025用戶日益依賴對話助手&#xff08;如 ChatGPT&#xff09;來滿足多種信息需求&#xff0c;這些需求包括開放式問題、需要推理的間接回答&#xff0c;以及答案分布在多個段落中的復雜查詢RAG試圖通過在生成過程中引入檢索到的信息來解決這些問題但如何確保回應的透明性…

從內部保護你的網絡

想象一下&#xff0c;你是一家高端俱樂部的老板&#xff0c;商務貴賓們聚集在這里分享信息、放松身心。然后假設你雇傭了最頂尖的安保人員——“保鏢”——站在門口&#xff0c;確保你準確掌握所有進出的人員&#xff0c;并確保所有人的安全。不妨想象一下丹尼爾克雷格和杜安約…

Redis 中 ZipList 的級聯更新問題

ZipList 的結構ZipList 是 Redis 中用于實現 ZSet 的壓縮數據結構&#xff0c;其元素采用連續存儲方式&#xff0c;具有很高的內存緊湊性。ZipList 結構組成如下&#xff1a;zlbytes&#xff1a;4字節&#xff0c;記錄整個ziplist的字節數zltail&#xff1a;4字節&#xff0c;記…

【蒼穹外賣項目】Day05

&#x1f4d8;博客主頁&#xff1a;程序員葵安 &#x1faf6;感謝大家點贊&#x1f44d;&#x1f3fb;收藏?評論?&#x1f3fb; 一、Redis入門 Redis簡介 Redis是一個基于內存的 key-value 結構數據庫 基于內存存儲&#xff0c;讀寫性能高適合存儲熱點數據&#xff08;熱…

語音識別dolphin 學習筆記

目錄 Dolphin簡介 Dolphin 中共有 4 個模型&#xff0c;其中 2 個現在可用。 使用demo Dolphin簡介 Dolphin 是由 Dataocean AI 和清華大學合作開發的多語言、多任務語音識別模型。它支持東亞、南亞、東南亞和中東的 40 種東方語言&#xff0c;同時支持 22 種漢語方言。該模…

視頻生成中如何選擇GPU或NPU?

在視頻生成中選擇GPU還是NPU&#xff0c;核心是根據場景需求、技術約束和成本目標來匹配兩者的特性。以下是具體的決策框架和場景化建議&#xff1a; 核心決策依據&#xff1a;先明確你的“視頻生成需求” 選擇前需回答3個關鍵問題&#xff1a; 生成目標&#xff1a;視頻分辨率…

從豆瓣小組到深度洞察:一個基于Python的輿情分析爬蟲實踐

文章目錄 從豆瓣小組到深度洞察:一個基于Python的輿情分析爬蟲實踐 摘要 1. 背景 2. 需求分析 3. 技術選型與實現 3.1 總體架構 3.2 核心代碼解析 4. 難點分析與解決方案 5. 總結與展望 對爬蟲、逆向感興趣的同學可以查看文章,一對一小班教學:https://blog.csdn.net/weixin_…

RustDesk 使用教程

說明&#xff1a; 使用RustDesk 需要在不同的電腦安裝對應系統型號的客戶端&#xff0c;然后再去云服務器安裝一個服務端即可。 1、到網站下載客戶端&#xff1a;https://rustdesk.com/zh-cn/ 兩臺電腦安裝客戶端。 2、在云服務器安裝服務端 1&#xff09;官網教程&#xff1a;…

【C語言網絡編程基礎】TCP 服務器詳解

在網絡通信中&#xff0c;TCP&#xff08;Transmission Control Protocol&#xff0c;傳輸控制協議&#xff09;是一種可靠、面向連接的協議。一個 TCP 服務器正是基于這種協議&#xff0c;為客戶端提供穩定的網絡服務。本文將詳細介紹 TCP 服務器的基本原理和工作流程。 一、什…

一篇就夠!Windows上Docker Desktop安裝 + 漢化完整指南(包含解決wsl更新失敗方案)

前言 在現代軟件開發和人工智能應用中&#xff0c;環境的穩定性和可移植性至關重要。Docker 作為一種輕量級的容器化技術&#xff0c;為開發者提供一致的運行環境&#xff0c;使得軟件可以在不同平臺上無縫運行&#xff0c;極大地提升了開發和部署的效率。無論是本地開發、測試…

設計模式(二十四)行為型:訪問者模式詳解

設計模式&#xff08;二十四&#xff09;行為型&#xff1a;訪問者模式詳解訪問者模式&#xff08;Visitor Pattern&#xff09;是 GoF 23 種設計模式中最具爭議性但也最強大的行為型模式之一&#xff0c;其核心價值在于將作用于某種數據結構中的各元素的操作分離出來&#xff…

USRP X440 和USRP X410 直接RF采樣架構的優勢

USRP X440 和USRP X410 直接RF采樣架構的優勢概述什么是直接RF采樣&#xff1f;如何實現直接采樣&#xff1f;什么情況下應考慮使用直接RF采樣架構&#xff1f;概述 轉換器技術每年都在發展。主要半導體公司的模數轉換器(ADC)和數模轉換器(DAC)的采樣速率比十年前的產品快了好…

P4568 [JLOI2011] 飛行路線

P4568 [JLOI2011] 飛行路線 題目描述 Alice 和 Bob 現在要乘飛機旅行&#xff0c;他們選擇了一家相對便宜的航空公司。該航空公司一共在 nnn 個城市設有業務&#xff0c;設這些城市分別標記為 000 到 n?1n-1n?1&#xff0c;一共有 mmm 種航線&#xff0c;每種航線連接兩個城市…