Transformer拆積木

Transformer拆積木

web/2025/9/9 12:21:17/文章來源:https://blog.csdn.net/weixin_44092088/article/details/140126289

文章目錄

Concepts
- Embedding
- Encoder
- Decoder
- Self-Attention matric calculation
- Final Linear and Softmax Layer
- Loss function
參考

學一下已經問鼎中原七年之久的Transformer

Concepts

開始拆積木！
A high level look

Embedding

Encoder

請添加圖片描述

Decoder

Self-Attention matric calculation

請添加圖片描述

Final Linear and Softmax Layer

這一塊輸出的非常非常長的vector叫做logits vector，又是一個不好翻譯的專有詞匯。

在圖像分類的領域里，這里的Linear+Softmax就是Classifier；

Loss function

請添加圖片描述
不管是連續的還是離散的，反正下面這一堆概率就是probability distribution（我之前一直以為是像高中那樣的高斯曲線圖才叫這個distribution），其實分布也不一定非要符合什么規律，毫無規律也可以；
在這里插入圖片描述

參考

The Illustrated Transformer
Transformer通俗筆記：從Word2Vec、Seq2Seq逐步理解到GPT、BERT
The Annotated Transformer 非常完整的一份代碼

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/38763.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/38763.shtml
英文地址，請注明出處：http://en.pswp.cn/web/38763.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

【文檔+源碼+調試講解】科研經費管理系統

【文檔+源碼+調試講解】科研經費管理系統

目錄目錄摘要 ABSTRACT 1 緒論 1.1 課題背景 1.2 研究現狀 1.3 研究內容 2 系統開發環境 2.1 vue技術 2.2 JAVA技術 2.3 MYSQL數據庫 2.4 B/S結構 2.5 SSM框架技術 3 系統分析 3.1 可行性分析 3.1.1 技術可行性 3.1.2 操作可行性 3.1.3 經濟可行性 3.1…

閱讀更多...

解析服務器地址異常的原因和解決方法

解析服務器地址異常的原因和解決方法

在網絡利用開發和運維進程中，解析服務器地址異常是常見的問題之一。特別是在觸及到跨境業務和國際網絡傳輸時，由于網絡環境的復雜性，解析服務器地址異常可能會致使用戶沒法正常訪問網站或利用程序。解析服務器地址異常可能由多種緣由引發&am…

閱讀更多...

虛擬機的網絡配置

虛擬機的網絡配置

📑打牌 ： da pai ge的個人主頁 🌤?個人專欄 ： da pai ge的博客專欄 ?? 每一步都向著夢想靠近，堅持就是勝利的序曲一 …

閱讀更多...

手機系統設置選項

手機系統設置選項

通用設置選項 1. 忽略電池優化選項參考 https://blog.csdn.net/dodod2012/article/details/132045963 <uses-permission android:name"android.permission.REQUEST_IGNORE_BATTERY_OPTIMIZATIONS"/>public static boolean isIgnoreBatteryOption(Context c…

閱讀更多...

俄羅斯ozon運費計算工具，跨境電商ozon物流運費計算工具

俄羅斯ozon運費計算工具，跨境電商ozon物流運費計算工具

OZON平臺服裝類目賣家而言，如何快速、準確地為產品定價，并有效管理運費成本，直接關系到市場競爭力與利潤空間。接下來我們看看俄羅斯ozon運費計算工具，跨境電商ozon物流運費計算工具。萌啦Ozon定價工具：智能模擬&…

閱讀更多...

Cesium----加載SuperMap的S3M地形

Cesium----加載SuperMap的S3M地形

在原生Cesium中加載S3M地形，需要用到Supermap發布的一個插件：iClient3D-for-WebGL， 在vite vure3，cesium 1.119中進行了實現，注意的點在于需要把SuperMap3D 放置在cesium的Build路徑下然后在代碼中直接調用SuperMap3…

閱讀更多...

windows重裝系統

windows重裝系統

一、下載Ventoy工具，制作啟動盤官網地址：https://www.ventoy.net/cn/download.html 電腦插入用來制作系統盤的U盤，建議大小在8G以上。雙擊打開剛解壓出來的Ventoy2Disk.exe文件。打開界面如圖： 確認U盤，如圖&am…

閱讀更多...

【HICE】基于httpd下的web服務器搭建

【HICE】基于httpd下的web服務器搭建

1.下載httpd： dnf install httpd -y 2.進入httpd中： cd /etc/httpd cd conf.d 3.編輯一個新的vhost.conf 4.重啟httpd服務 systemctl restart httpd 5.關閉防火墻 systemctl stop firewalld setenforce 0 6.文本寫入（網頁編輯&…

閱讀更多...

8年經驗之談！自動化測試框架該如何搭建？

8年經驗之談！自動化測試框架該如何搭建？

前言最近好多小伙伴都在說接口自動化測試，那么究竟什么是接口自動化測試呢？讓我們一起往下看就知道了，首先我們得先弄清楚下面這個問題。為什么要做（自動化）接口測試？ 1、由于現在各個系統的復雜度不斷…

閱讀更多...

springboot的MultipartFile轉File讀取

springboot的MultipartFile轉File讀取

在Spring Boot中，處理文件上傳時，MultipartFile接口被用來封裝上傳的文件信息。如果需要將MultipartFile轉換為Java標準的File對象進行讀取。以下是具體的操作流程： 1. 創建臨時文件首先，需要將接收到的MultipartFile對象轉…

閱讀更多...

準化 | 水系統碳中和標準體系初見成效

準化 | 水系統碳中和標準體系初見成效

2024年5月31日，中華環保聯合會發布《團體標準公告 2024年第10號（總第78號）》，批準發布了由中華環保聯合會提出并歸口的《廢水處理溫室氣體監測技術規程》(T/ACEF 142-2024)、《工業水系統碳排放核算方法與報告指南》(T/ACEF143-20…

閱讀更多...

yarn不同操作系統的安裝與配置

yarn不同操作系統的安裝與配置

Yarn 是一個快速、可靠且安全的依賴包管理工具，用于替代 npm。以下是在不同操作系統上安裝和配置 Yarn 的步驟。 1. 安裝 Node.js 在安裝 Yarn 之前，請確保已經安裝了 Node.js，因為 Yarn 需要 Node.js 環境。你可以在 Node.js — Run JavaSc…

閱讀更多...

昇思25天學習打卡營第十五天｜基于MobileNetv2的垃圾分類

昇思25天學習打卡營第十五天｜基于MobileNetv2的垃圾分類

基于MobileNetv2的垃圾分類 MobileNetv2模型原理介紹 MobileNet網絡是由Google團隊于2017年提出的專注于移動端、嵌入式或IoT設備的輕量級CNN網絡，相比于傳統的卷積神經網絡，MobileNet網絡使用深度可分離卷積（Depthwise Separable Convolut…

閱讀更多...

Zabbix 6.0 案例

Zabbix 6.0 案例

自定義監控內容案列：自定義監控客戶端服務器登錄的人數需求：限制登錄人數不超過 3 個，超過 3 個就發出報警信息 1.在客戶端創建自定義 key 明確需要執行的 linux 命令 who | wc -l 2.在被監控主機的配置文件目錄中（/etc/za…

閱讀更多...

港大推出XRec：「會說話」的推薦系統大模型, 從黑盒預測到可解釋

港大推出XRec：「會說話」的推薦系統大模型, 從黑盒預測到可解釋

代碼鏈接: https://github.com/HKUDS/XRec 論文鏈接: https://arxiv.org/pdf/2406.02377 實驗室鏈接: https://sites.google.com/view/chaoh 最近,香港大學數據智能實驗室推出了一款名為 XRec 的全新智能大模型,旨在為傳統推薦系統注入可解釋性的新動力。XRec 利用大語言模型…

閱讀更多...

PyTorch入門筆記

PyTorch入門筆記

學習參考： PyTorch簡單入門視頻深入淺出PyTorch 小土堆筆記前置知識 AI vs ML vs DL AI（Artificial Intelligence）：通過讓機器模仿人類進而超越人類ML（Machine Learning）：讓機器模仿人類的一…

閱讀更多...

【AI原理解析】—支持向量機原理

【AI原理解析】—支持向量機原理

目錄 1. 支持向量機（SVM）概述 2. 超平面與支持向量 3. 間隔最大化 4. 優化問題 5. 核函數 6. 總結 1. 支持向量機（SVM）概述定義：支持向量機是一種監督學習模型，主要用于數據分類問題。其基本思想是…

閱讀更多...

【C++】const詳解

【C++】const詳解

📢博客主頁：https://blog.csdn.net/2301_779549673 📢歡迎點贊 👍 收藏 ?留言 📝 如有錯誤敬請指正！ 📢本文作為 JohnKi ，引用了部分大佬的案例 📢未來很長，…

閱讀更多...

Android 常用文件系統命令

Android 常用文件系統命令

Android 常用文件系統命令當系統正在對某個文件系統的區域進行寫入操作時（讀的話沒關系），突然斷電，會造成文件系統對應區域的損壞（如寫入臟數據）， 而e2fsck算法就是用來恢復受損的文件系統&am…

閱讀更多...

力扣1177.構建回文串檢測

力扣1177.構建回文串檢測

力扣1177.構建回文串檢測因為子串可以重新排序因此考慮一下什么情況需要替換字母1.當前有一個字母的數量為奇數需要替換的次數為0 2.當前有二個字母的數量為奇數需要替換的次數為1 (奇數個a 奇數個b 需要將b -> a) 3.當前有三個字母的數量為奇數需要替換的次數為1 4.當…

閱讀更多...

最新文章