深度學習03 人工神經網絡ANN

什么是神經網絡

人工神經網絡（ Artificial Neural Network，簡寫為ANN）也簡稱為神經網絡（NN）,是一種模仿生物神經網絡結構和功能的計算模型,人腦可以看做是一個生物神經網絡,由眾多的神經元連接而成.各個神經元傳遞復雜的電信號,樹突接收到輸入信號,然后對信號進行處理,通過軸突輸出信號.

當電信號通過樹突進入到細胞核時，會逐漸聚集電荷。達到一定的電位后，細胞就會被激活，通過軸突發出電信號。

構建人工神經網絡

神經網絡由多個神經元組成,構建神經網絡就是構建神經元.基礎神經元如下

?這個過程就像，來源不同樹突(樹突都會有不同的權重)的信息, 進行的加權計算, 輸入到細胞中做加和，再通過激活函數輸出細胞值。

然后使用多個神經元構成神經網絡,相鄰層的神經元互相連接

????????神經網絡中信息只向一個方向移動，即從輸入節點向前移動，通過隱藏節點，再向輸出節點移動。其中的基本部分是:

?輸入層（Input Layer）: 即輸入x的那一層（如圖像、文本、聲音等）。每個輸入特征對應一個神經元。輸入層將數據傳遞給下一層的神經元。
?輸出層（Output Layer）: 即輸出y的那一層。輸出層的神經元根據網絡的任務（回歸、分類等）生成最終的預測結果。
?隱藏層（Hidden Layers）: 輸入層和輸出層之間都是隱藏層，神經網絡的“深度”通常由隱藏層的數量決定。

????????隱藏層的神經元通過加權和激活函數處理輸入，并將結果傳遞到下一層。?特點是：

同一層的神經元之間沒有連接
第 N 層的每個神經元和第 N-1層的所有神經元相連（這就是full connected的含義)，這就是全連接神經網絡
全連接神經網絡接收的樣本數據是二維的，數據在每一層之間需要以二維的形式傳遞
第N-1層神經元的輸出就是第N層神經元的輸入每個連接都有一個權重值（w系數和b系數）

神經網絡內部狀態值和激活值

?內部狀態值是是神經元對輸入信號的加權求和結果，加上偏置項后的線性組合。

????????wi為內部狀態值梯度(權重矩陣與偏置可以初始化)

激活值（通常記為?a）是內部狀態值通過激活函數?f(?)?非線性變換后的輸出,如sigmoid,tanh,relu,softmax即

????????總的來說,神經網絡是一種模仿生物神經網絡結構和功能的計算模型,由輸入層,輸出層,和隱藏層構成,每一層都由神經元構成.

????????神經元包含內部狀態值梯度w,偏置值b,激活函數f(x),通過對外部輸入進行加權計算得到內部狀態值z,將z輸入激活函數進行非線性變換得到激活值傳給下一個神經元或者輸出.

激活函數

????????激活函數用于對每層的輸出數據進行變換,進而為整個網絡注入了非線性因素.此時,神經網絡就可以你和各種曲線.

如果沒有引入非線性因素,神經網絡等價于一個線性模型
通過給網絡輸出增加激活函數, 實現引入非線性因素, 使得網絡模型可以逼近任意函數, 提升網絡對復雜問題的擬合能力.

如果不使用激活函數，整個網絡雖然看起來復雜，其本質還相當于一種線性模型，如下公式所示:

常見激活函數及特點?

激活函數作用:向神經網絡中添加非線性因素

激活函數選擇方法:relu能且僅能用于隱藏層,輸出層二分類常用sigmoid,多分類常用softmax

激活函數參數初始化

????????參數初始化在神經網絡訓練中扮演著至關重要的角色，它直接影響模型的收斂速度、訓練穩定性以及最終性能。

核心作用:

打破對稱性

????????若所有參數初始化為相同值（如零初始化），神經元在反向傳播時會接收到相同的梯度更新，導致網絡無法學習差異化特征。隨機初始化（如正態分布或均勻分布）通過賦予參數不同的初始值，確保神經元學習不同的特征.

控制梯度傳播穩定性

????????初始化值過大可能導致梯度爆炸（權重更新失控），過小則導致梯度消失（淺層參數無法更新）。例如，Xavier和Hekaiming初始化通過調整權重范圍，使各層輸出的方差保持一致，從而穩定梯度傳播

加速模型收斂?

????????合理的初始化（如Xavier或He初始化）能使網絡在訓練初期處于更優的起始狀態，減少收斂所需的迭代次數。

適配激活函數特性

????????不同激活函數對初始化范圍的要求不同,如:

????????Sigmoid/Tanh??：適合Xavier初始化，因其需要對稱的輸入分布

????????ReLU??：He初始化通過調整方差適應ReLU的“單側抑制”特性

常見初始化方式及對比

激活函數初始化選擇

模擬搭建神經網絡?如圖

+1為偏置,及z=wx+b的b?

是??偏置節點的可視化表示??，它通過引入可學習的偏置權重，幫助神經網絡擺脫輸入空間的限制，顯著提升模型的表達能力,它允許神經元的激活函數在輸入全為0時也能產生非零輸出，增強模型的靈活性。如果沒有偏置，許多簡單的分類問題（如異或問題）將無法被正確擬合。

?具體步驟如下

# 導包
from torch.nn import Module, Linear
import torch
# 提前安裝torchsummary,然后導入summary查看模型參數
# pip install torchsummary
from torchsummary import summary# TODO 1.自定義模型類繼承Module類
class My_Model(Module):# TODO 2.重寫init魔法方法和forward前向傳播方法def __init__(self, *args, **kwargs):# 1.調用父類的init初始化方法super().__init__(*args, **kwargs)# TODO 定義神經網絡結構self.linear1 = Linear(3, 3)self.linear2 = Linear(3, 2)self.out = Linear(2, 2)# 3.參數初始化(生成權重矩陣和偏置矩陣)# 隱藏層初始化權重矩陣torch.nn.init.xavier_normal_(self.linear1.weight)torch.nn.init.kaiming_normal_(self.linear2.weight)# 隱藏層初始化偏置矩陣torch.nn.init.zeros_(self.linear1.bias)torch.nn.init.zeros_(self.linear2.bias)def forward(self, x):#  TODO 前向傳播計算(每層都是加權求和+激活函數)x = torch.sigmoid(self.linear1(x))x = torch.relu(self.linear2(x))# 此處-1代表最后一維, 也就是按照每個樣本概率和為1.x = torch.softmax(self.out(x), dim=-1)#  返回結果return x# TODO 3.創建模型對象并使用模型對象
# 創建模型對象
model = My_Model()  # 自動調用init魔法方法
# 準備數據集(正態分布數據)
torch.manual_seed(66)
data = torch.randn(5, 3)  # 5個樣本,3個特征
print(data)
# 把數據傳入模型對象
output = model(data)  # 自動調用forward方法
print(output)
print('============================================================')
# TODO summary()查看模型參數
summary(model, (3,), batch_size=5) # 第1層:12,第2層:8,第3層:6
print('============================================================')
#  TODO 遍歷查看模型名字和對應參數
for name, param in model.named_parameters():print(f'參數名稱: {name}, 參數值: {param}')print('---------------------------------')

損失函數

在機器學習中就已經引入了損失函數的概念,在此回顧一遍

? ? 損失函數是衡量模型參數質量的函數,又叫代價函數,誤差函數等等,根據損失函數計算損失值,結合反向傳播算法以及梯度下降算法實現參數的更新.(前向傳播和方向傳播在后續優化方法中會提到)

損失函數分為兩大類:

分類損失函數

多分類交叉熵損失函數:nn.CrossEntropyLoss(reduction='mean')? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ????????[實現softmax激活值計算+損失計算]
二分類交叉熵損失函數:nn.BCELoss(reduction='mean')