Transformer結構中的編碼器層(Encoder Layer)
一、編碼器層介紹
-
概念
編碼器層(Encoder Layer)是Transformer編碼器的基本構建單元,它重復堆疊形成整個編碼器,負責逐步提取輸入序列的特征。每個編碼器層由兩個核心子層組成:
- 多頭自注意力機制(Multi-Head Self-Attention):用于捕捉輸入序列中每個位置與其他位置的關系。
- 前饋全連接層(Feed-Forward Neural Network, FFN):用于對每個位置的表示進行非線性變換。
每個子層后都有殘差連接(Residual Connection)和層歸一化(Layer Normalization),以增強模型的訓練穩定性和性能。