目錄
1. TransformerBlock
2. resnet
3. 替換部分卷積層
4. 在特定位置插入Transformer模塊
5. 使用Transformer全局特征提取器
6. 其他
Tips:融入模塊后的網絡經過測試,可以直接使用,設置好輸入和輸出的圖片維度即可
1. TransformerBlock
TransformerBlock是Transformer模型架構的基本組件,廣泛應用于機器翻譯、文本摘要和情感分析等自然語言處理任務。
TransformerBlock是一個由兩個子組件組成的構建塊:多頭注意力機制和前饋神經網絡。這兩個組件協同工作,處理和轉換輸入序列。
多頭注意力機制負責從輸入序列中捕獲上下文信息。它通過使用多個注意力頭同時關注序列的不同部分來實現這一點。每個注意力頭計算每個輸入元素相對于其他元素的重要性,使模型能夠專注于輸入序列的不同方面。
然后將前饋神經網絡應用于多頭注意力機制的輸出。它由兩個線性層組成,中間有一個非線性激活函數。這有助于