【深度學習】Transformer

李宏毅深度學習筆記
https://blog.csdn.net/Tink1995/article/details/105080033
https://blog.csdn.net/leonardotu/article/details/135726696
https://blog.csdn.net/u012856866/article/details/129790077

Transformer 是一個基于自注意力的序列到序列模型,與基于循環神經網絡的序列到序列模型不同,其可以能夠并行計算

Transformer架構

Transformer主要由輸入部分(輸入輸出嵌入與位置編碼)、多層編碼器、多層解碼器以及輸出部分(輸出線性層與Softmax)四大部分組成。
在這里插入圖片描述
在這里插入圖片描述

在這里插入圖片描述
(1)輸入部分

  • 源文本嵌入層:將源文本中的詞匯數字表示轉換為向量表示,捕捉詞匯間的關系。
  • 位置編碼層:為輸入序列的每個位置生成位置向量,以便模型能夠理解序列中的位置信息。
  • 目標文本嵌入層(在解碼器中使用):將目標文本中的詞匯數字表示轉換為向量表示。

(2)編碼器部分

  • 由N個編碼器層堆疊而成。
  • 每個編碼器層由兩個子層連接結構組成:第一個子層是多頭自注意力子層,第二個子層是一個前饋全連接子層。每個子層后都接有一個規范化層和一個殘差連接。

(3)解碼器部分

  • 由N個解碼器層堆疊而成。
  • 每個解碼器層由三個子層連接結構組成:第一個子層是一個帶掩碼的多頭自注意力子層,第二個子層是一個多頭注意力子層(編碼器到解碼器),第三個子層是一個前饋全連接層。每個子層后都接有一個規范化層和一個殘差連接。

(4)輸出部分

  • 線性層:將解碼器輸出的向量轉換為最終的輸出維度。
  • Softmax層:將線性層的輸出轉換為概率分布,以便進行最終的預測。

編碼器-解碼器

左邊是N個編碼器,右邊是N個解碼器,Transformer中的N為6。
在這里插入圖片描述

編碼器
每個編碼器層都有兩個子層,即多頭自注意力層(考慮整個序列的信息)和逐位置的前饋神經網絡(Position-wise Feed-Forward Network)。在每個子層后面都有殘差連接(圖中的虛線)和層歸一化(LayerNorm)操作,二者合起來稱為 Add&Norm 操作

殘差連接:最左邊的向量 b 輸入到自注意力層后得到向量 a,輸出向量 a 加上其輸入向量 b 得到新的輸出。
層歸一化:層歸一化比信念網絡更簡單,不需要考慮批量的信息,而批量歸一化需要考慮批量的信息。層歸一化輸入一個向量,輸出另外一個向量。層歸一化會計算輸入向量的平均值和標準差。(批量歸一化是對不同樣本不同特征的同一個維度去計算均值跟標準差,但層歸一化是對同一個特征、同一個樣本里面不同的維度去計算均值跟標準差,接著做個歸一化。)

解碼器
每個解碼器層都有三個子層,掩碼自注意力層(Masked Self-Attention)、Encoder-Decoder自注意力層、逐位置的前饋神經網絡。同樣,在每個子層后面都有殘差連接(圖中的虛線)和層歸一化(LayerNorm)操作。

掩蔽自注意力可以通過一個掩碼來阻止每個位置選擇其后面的輸入信息。

原來的自注意力輸入一排向量,輸出另外一排向量,這一排中每個向量都要看過完整的輸入以后才做決定。根據 a1 到 a4 所有的信息去輸出 b1。掩蔽自注意力的不同點是不能再看右邊的部分。產生 b1 的時候,只能考慮 a1 的信息,不能再
考慮 a2、a3、a4。產生 b2 的時候,只能考慮 a1、a2 的信息,不能再考慮 a3、a4 的信息。

一開始解碼器的輸出是一個一個產生的,所以是先有 a1 再有 a2,再有 a3,再有a4。這跟原來的自注意力不一樣,原來的自注意力 a1 跟 a4 是一次整個輸進去模型里面的。編碼器是一次把 a1 跟 a4 都整個都讀進去。但是對解碼器而言,先有 a1 才有a2,才有 a3 才有 a4。所以只能考慮其左邊的東西,沒有辦法考慮其右邊的東西。

編碼器-解碼器注意力
編碼器和解碼器通過編碼器-解碼器注意力(encoder-decoder attention)傳遞信息,編碼器-解碼器注意力是連接編碼器跟解碼器之間的橋梁。解碼器中編碼器-解碼器注意力的鍵和值來自編碼器的輸出,查詢來自解碼器中前一個層的輸出。
在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/38976.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/38976.shtml
英文地址,請注明出處:http://en.pswp.cn/web/38976.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

軟件測試與質量保證 | 云班課選擇題庫

目錄 第1章課后習題 第2章課后習題 第3章課后習題 第4章課后習題 第5章課后習題 第6章課后習題 第7章課后習題 第8章課后習題 第9章課后習題 第10章課后習題 第11章課后習題 第12章課后習題 第13章 測試相關未分類習題 第1章課后習題 1. 與質量相關的概念包括 &a…

51單片機第26步_單片機工作在空閑模式

重點學習51單片機工作在空閑模式。 1、進入空閑模式的方法 通過將PCON寄存器中的IDLE置1,CPU就會進入空閑模式。在空閑模式中,程序停止執行,RAM中的數據仍然保持,晶振繼續工作,但與CPU斷開,定時器和串行口…

IPython調試秘籍:pdb調試器深度解析與實戰

🐞 IPython調試秘籍:pdb調試器深度解析與實戰 在Python編程中,調試是開發過程中不可或缺的一環。IPython,作為一個強大的交互式Python解釋器,內置了pdb調試器,使得代碼調試變得異常便捷。本文將深入探討如…

可充電紐扣電池ML2032充電電路設計

如圖,可充電紐扣電池ML2032充電電路設計。 圖中二極管是為了防止電流倒灌, 電阻分壓出3.66v,再減掉二極管壓降(約0.4v)得3.26V,加在電池正負極充電。 隨著電池電量的積累,充電電流逐步減小,極限…

什么樣的企業適合SD-WAN網絡專線?

SD-WAN(Software-Defined Wide Area Network,軟件定義廣域網)是一種網絡技術,它利用軟件定義的方式管理和控制廣域網(WAN),旨在提高網絡效率、降低成本并簡化網絡管理。以下是適合采用SD-WAN網絡…

服務器之BIOS基礎知識總結

1.BIOS是什么? BIOS全稱Basic Input Output System,即基本輸入輸出系統,是固化在服務器主板的專用ROM上,加載在服務器硬件系統上最基本的運行程序,它位于服務器硬件和OS之間,在服務器啟動過程中首先運行&am…

C語言在QC工作當中的應用

一、引入 在質量控制(Quality Control,簡稱QC)工作中,C語言的應用可能并不像在一些其他領域(如嵌入式系統開發、游戲開發等)中那么直接,但C語言仍然可以在多個方面為QC提供支持。以下是一些C語…

擺脫冗雜賦值(一)——巧用序列化反序列化及BeanUtils反射等工具解決開發時對象、集合、字符串等多種形式間相互轉換的方法及技巧

1、將Java對象轉換為JSON字符串 當我們需要將Java對象轉換為JSON字符串時,可以使用JSON.toJSONString()方法。下面是一個簡單的例子,展示如何使用JSON.toJSONString()將一個Java對象轉換為JSON字符串: import com.alibaba.fastjson.JSON;pu…

HUAWEI MPLS 靜態配置和動態LDP配置

MPLS(Multi-Protocol Label Switching,多協議標簽交換技術)技術的出現,極大地推動了互聯網的發展和應用。例如:利用MPLS技術,可以有效而靈活地部署VPN(Virtual Private Network,虛擬專用網),TE(Traffic Eng…

Rust 進階教程

Rust 進階教程 在基礎教程中,我們已經了解了Rust的基本語法和核心概念。本文將進一步探討Rust的進階特性和應用,包括泛型、閉包、迭代器、異步編程、宏和unsafe代碼等。 目錄 泛型閉包和迭代器 閉包迭代器 異步編程宏Unsafe代碼FFI(外部函…

pdf怎么拆分成一頁一頁?4種拆分方法分享

在日常的辦公學習中,PDF文檔因其跨平臺、易閱讀、不易篡改等特性,成為我們工作和學習中不可或缺的一部分。然而,當我們需要對PDF進行編輯、打印或分享時,有時需要將整個PDF文檔拆分成一頁一頁的單獨文件。那么,如何高效…

深入理解Vue生命周期鉤子函數

深入理解Vue生命周期鉤子函數 Vue.js 是一款流行的前端框架,通過其強大的響應式數據綁定和組件化的開發方式,使得前端開發變得更加簡單和高效。在Vue應用中,每個組件都有其生命周期,這些生命周期鉤子函數允許開發者在不同階段執行…

2024 AIGC 技術創新應用研討會暨數字造型設計師高級研修班通知

尊敬的老師、領導您好! 為深入響應國家關于教育綜合改革的戰略部署,深化職業教育、高等教育改革,發揮企業主體重要作用,促進人才培養供給側和產業需求側結構要素全方位融合,充分把握人工智能創意式生成(AIGC)技術在教育領域的發展…

【ruoyi】docker 項目實戰

一、引言 介紹ruoyi(若依)框架 本項目使用若依前后臺分離框架 https://gitee.com/ranmaxli/basic-business-platform 解釋為什么選擇Docker進行項目開發 使用docker是因為方便數據遷移、部署、管理 二、Docker基礎知識 Docker基本概念 容器與虛擬機

初學Spring之 IOC 控制反轉

Spring 是一個輕量級的控制反轉&#xff08;IOC&#xff09;和面向切面編程&#xff08;AOP&#xff09;的框架 導入 jar 包&#xff1a;spring-webmvc、spring-jdbc <dependency><groupId>org.springframework</groupId><artifactId>spring-webmvc&l…

HTTPS數字證書驗證論述

1 概述 網絡請求方式通常分為兩種&#xff0c;分別是HTTP請求和HTTPS請求&#xff0c;其中HTTP的傳輸屬于明文傳輸&#xff0c;在傳輸的過程中容易被人截取并且偷窺其中的內容&#xff0c;而HTTPS是一種在HTTP的基礎上加了SSL/TLS層&#xff08;安全套接層&#xff09;的安全的…

解決expand-change第一次展開無數據顯示與實現

最近寫需求時用到了expand-change表格展開回調&#xff0c;但我發現第一次展開后并沒有展示任何數據&#xff0c;但我的返回值是存在的&#xff0c;當第二次展開時發現數據就有了。此原因是因為獲取數據的接口是異步的&#xff0c;導致Dom渲染不同步導致的&#xff0c;其實解決…

Ubuntu24.04 Isaacgym的安裝

教程1 教程2 教程3 1.下載壓縮包 link 2. 解壓 tar -xvf IsaacGym_Preview_4_Package.tar.gz核心教程在 isaacgym/docs/install.html下 3. 從源碼安裝 Ubuntu24.04還需首先進入虛擬環境 python -m venv myenv # 創建虛擬環境&#xff0c;已有可跳過 source myenv/bin/a…

Redis持久化詳解

【關閉文件、AOF 刷盤、釋放內存這三個任務都有各自的任務隊列】所以不是單線程 Redis有兩種持久化方案&#xff1a; RDB持久化 AOF持久化 基于Redis集群解決單機Redis存在的問題 【Redis是單進程的】 【也有人做分布式section】 【主從集群中多個從就是做負載均衡的】 …

如何在Java中實現函數式編程

如何在Java中實現函數式編程 大家好&#xff0c;我是免費搭建查券返利機器人省錢賺傭金就用微賺淘客系統3.0的小編&#xff0c;也是冬天不穿秋褲&#xff0c;天冷也要風度的程序猿&#xff01; 在Java中&#xff0c;函數式編程是一種編程范式&#xff0c;它將計算視為數學函數…