【機器學習筆記 Ⅱ】6 激活函數

激活函數是神經網絡的核心組件，其作用遠不止“引入非線性”。以下是系統化的解析：

1. 核心作用

(1) 引入非線性

沒有激活函數：多層神經網絡等價于單層線性變換（矩陣連乘仍是線性）。
加入激活函數：每層通過非線性函數（如ReLU）變換，使網絡能擬合任意復雜函數（Universal Approximation Theorem）。

(2) 決定神經元激活狀態

激活函數輸出值表示神經元的“激活程度”（如Sigmoid輸出0~1的概率，ReLU輸出是否激活）。

(3) 控制梯度流動

良好的激活函數（如ReLU）可緩解梯度消失/爆炸問題，確保反向傳播時梯度有效更新參數。

2. 沒有激活函數會怎樣？

模型能力受限：只能解決線性問題（如線性回歸），無法處理圖像、語言等非線性數據。
深度無效：無論多少層，等效于單層線性模型。

數學證明：
假設網絡有 ( L ) 層，每層權重為 ( \mathbf{W}_l )，無激活函數時：

最終仍為線性變換。

3. 激活函數的關鍵特性

特性	作用	示例函數
非線性	使網絡能擬合復雜模式。	ReLU, Sigmoid, Tanh
可微分	支持梯度下降優化。	所有常用激活函數
單調性	保證損失函數是凸的（利于優化）。	ReLU, Leaky ReLU
輸出范圍控制	避免數值爆炸（如Tanh輸出[-1,1]，Sigmoid輸出[0,1]）。	Tanh, Sigmoid
稀疏激活	部分神經元輸出為零，提升計算效率。	ReLU

4. 常用激活函數對比

5. 為什么ReLU最常用？

計算高效：無需指數運算（比Sigmoid/Tanh快6倍）。
緩解梯度消失：正區間梯度恒為1。
稀疏性：負輸入輸出0，減少參數依賴。

問題：ReLU在 ( x<0 ) 時梯度為0，可能導致神經元死亡。
解決方案：使用Leaky ReLU或Parametric ReLU（PReLU）。

6. 激活函數選擇指南

任務類型	隱藏層推薦	輸出層推薦	理由
二分類	ReLU	Sigmoid	輸出概率
多分類	ReLU	Softmax	多類概率歸一化
回歸	ReLU	無（線性輸出）	直接預測數值
RNN/LSTM	Tanh	按任務選擇	處理正負激活，避免梯度爆炸

7. 代碼示例

(1) 自定義激活函數（Python）

import numpy as npdef relu(x):return np.maximum(0, x)def sigmoid(x):return 1 / (1 + np.exp(-x))# 前向傳播示例
z = np.dot(X, W) + b  # 線性變換
a = relu(z)            # 激活函數

(2) 在PyTorch中使用激活函數

import torch.nn as nnmodel = nn.Sequential(nn.Linear(784, 128),nn.ReLU(),          # 隱藏層激活nn.Linear(128, 10),nn.Softmax(dim=1)   # 輸出層激活
)

8. 高級話題

(1) 自適應激活函數

(2) 梯度消失問題的數學解釋

鏈式法則中，若激活函數導數 ( \sigma’(z) ) 過小（如Sigmoid在兩端導數≈0），多層連乘導致梯度指數級衰減。

9. 總結

沒有激活函數：神經網絡退化為線性模型，無法解決現實中的非線性問題。
核心價值：
1. 引入非線性，使網絡成為“萬能逼近器”。
2. 控制神經元激活與梯度流動。
實踐建議：
- 隱藏層默認使用ReLU（注意初始化權重和學習率）。
- 輸出層根據任務選擇（Sigmoid/Softmax/線性）。

激活函數是神經網絡的“靈魂”，決定了模型能否學習復雜模式！

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/87891.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/87891.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/87891.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！