目錄
1. 層與層之間的核心關聯:數據流動與參數傳遞
1.1 數據流動(Forward Propagation)
1.2 參數傳遞(Backward Propagation)
2. 常見層與層之間的關聯模式
2.1 典型全連接網絡(如手寫數字分類)
2.2 卷積神經網絡(CNN,如圖像分類)
2.3 循環神經網絡(RNN/LSTM,如文本生成)
2.4 Transformer(如機器翻譯)
3. 層間關聯的核心原則
3.1 數據傳遞的“管道”
3.2 參數的“接力更新”
3.3 層的“功能分工”
4. 圖形化示意圖(以CNN為例)
5. 常見問題解答
Q:為什么有些層之間需要“激活函數”?
Q:層之間如何決定“連接順序”?
Q:層之間的參數如何共享?
6. 總結:層與層之間的關聯是“數據流動 + 參數協同”
1. 層與層之間的核心關聯:數據流動與參數傳遞
1.1 數據流動(Forward Propagation)
- 流程:數據從輸入層開始,逐層傳遞到輸出層。
- 關鍵點:
- 輸入 → 隱藏層 → 輸出層,每一層對數據進行變換。
- 每層的輸出是下一層的輸入。
1.2 參數傳遞(Backward Propagation)
- 流程:訓練時,通過反向傳播更新參數(權重和偏置)。
- 關鍵點:
- 從輸出層反向回傳誤差,逐層計算梯度。
- 梯度用于更新對應層的參數(如權重、偏置)。
2. 常見層與層之間的關聯模式
以下是幾種典型模型的分層結構及層間關聯示例:
2.1 典型全連接網絡(如手寫數字分類)
輸入層(像素) → 全連接層(隱藏層1) → 激活層(ReLU) → 全連接層(隱藏層2) → 輸出層(Softmax)
-
數據流動:
- 輸入層接收28x28像素的圖像(784個輸入)。
- 隱藏層1通過權重矩陣?W1W1??和偏置?b1b1??進行線性變換:
z1=W1?輸入+b1z1?=W1??輸入+b1?
- 激活層(ReLU)對?z1z1??進行非線性變換:ReLU(z1)ReLU(z1?)。
- 隱藏層2重復上述過程,最終輸出層生成類別概率。
-
參數關聯:
- 每個全連接層的權重和偏置獨立更新。
- 后層的輸入依賴前層的輸出。
2.2 卷積神經網絡(CNN,如圖像分類)
輸入層(圖像) → 卷積層 → 激活層(ReLU) → 池化層 → 全連接層 → 輸出層
-
數據流動:
- 卷積層用卷積核提取邊緣、紋理等局部特征。
特征圖=卷積核?輸入圖像+偏置特征圖=卷積核?輸入圖像+偏置
- 激活層(ReLU)增強非線性:max?(0,特征圖)max(0,特征圖)。
- 池化層(如最大池化)下采樣,減少尺寸:
輸出=取窗口最大值輸出=取窗口最大值
- 全連接層將特征展平后分類。
- 卷積層用卷積核提取邊緣、紋理等局部特征。
-
參數關聯:
- 卷積層的卷積核權重和偏置是參數。
- 池化層無參數,僅執行固定規則。
2.3 循環神經網絡(RNN/LSTM,如文本生成)
輸入層(詞向量) → 嵌入層 → LSTM層(時間步1) → LSTM層(時間步2) → 全連接層 → 輸出層
-
數據流動:
- 嵌入層將單詞映射為向量(如“貓”→[0.2, 0.5, ...])。
- LSTM層按時間步處理序列:
- 當前輸入和前一時刻的隱藏狀態共同決定當前狀態。
- 公式示例:
ht=LSTM(xt,ht?1)ht?=LSTM(xt?,ht?1?)
- 全連接層將最終隱藏狀態轉化為輸出。
-
參數關聯:
- LSTM的權重和偏置(如遺忘門、輸入門的參數)在時間步間共享。
2.4 Transformer(如機器翻譯)
輸入層(詞向量) → 嵌入層 → 位置編碼 → 自注意力層 → 前饋網絡 → 輸出層
-
數據流動:
- 自注意力層計算詞與詞之間的關系權重:
注意力權重=Softmax(QKTd)注意力權重=Softmax(d?QKT?)
- 前饋網絡(全連接層)進一步處理特征。
- 輸出層生成目標語言的詞概率。
- 自注意力層計算詞與詞之間的關系權重:
-
參數關聯:
- 自注意力層的Q、K、V權重矩陣是參數。
- 前饋網絡的權重和偏置逐層更新。
3. 層間關聯的核心原則
3.1 數據傳遞的“管道”
- 層與層之間通過張量(Tensor)連接:
- 每個層的輸出是一個張量(如矩陣或向量),直接作為下一層的輸入。
- 形狀必須匹配:例如,卷積層輸出的特征圖尺寸必須與池化層的輸入尺寸一致。
3.2 參數的“接力更新”
- 反向傳播時,誤差從輸出層向輸入層反向傳遞:
- 計算輸出層的誤差(如交叉熵損失)。
- 計算上一層的梯度(如全連接層的權重梯度)。
- 逐層回傳,直到更新輸入層后的第一個隱藏層的參數。
3.3 層的“功能分工”
- 不同層負責不同任務:
- 輸入層:接收原始數據。
- 隱藏層:提取特征、學習模式。
- 輸出層:生成最終結果。
- 輔助層(如歸一化、Dropout):優化訓練過程。
4. 圖形化示意圖(以CNN為例)
輸入層(圖像) → 卷積層(提取特征) → 激活層(非線性) → 池化層(下采樣) → 全連接層(分類) → 輸出層(概率)
- 箭頭方向:數據從左到右流動,參數在隱藏層中更新。
- 關鍵節點:
- 卷積層和全連接層有參數,池化層無參數。
- 激活層僅改變數據形狀,不增加參數。
5. 常見問題解答
Q:為什么有些層之間需要“激活函數”?
- 原因:
- 線性變換(如?Wx+bWx+b)無法學習復雜模式。
- 激活函數(如ReLU)引入非線性,讓模型能擬合曲線關系。
Q:層之間如何決定“連接順序”?
- 經驗法則:
- 圖像任務:卷積層 → 池化層 → 全連接層。
- 文本任務:嵌入層 → LSTM/Transformer → 全連接層。
- 通用分類:全連接層堆疊(需注意過擬合)。
Q:層之間的參數如何共享?
- 示例:
- 卷積層:同一卷積核在所有位置共享權重(如檢測邊緣的卷積核)。
- RNN/LSTM:同一時間步的參數在所有時間步共享(如每個時間步的遺忘門權重相同)。
6. 總結:層與層之間的關聯是“數據流動 + 參數協同”
- 數據流動:層間通過張量傳遞信息,形成從輸入到輸出的路徑。
- 參數協同:所有可學習參數(權重、偏置)通過反向傳播共同優化,使模型整體性能提升。