transformer bert 多頭自注意力

transformer bert 多頭自注意力

web/2025/9/6 4:54:26/文章來源:https://blog.csdn.net/hu_mingwei/article/details/146245599

在這里插入圖片描述
輸入的（a1,a2,a3,a4）是最終嵌入，是一個(512,768)的矩陣；而a1是一個token，尺寸是768

a1通過wq權重矩陣，經過全連接變換得到查詢向量q1；a2通過Wk權重矩陣得到鍵向量k2；q和k點乘就是值a12，a12就是a2對于a1的注意力值
在這里插入圖片描述
依次得到a1,1，a1,2，a1,3，a1,4注意力，都是其他token相對于a1 token的注意力

此時(a1,1，a1,2，a1,3，a1,4)不是概率分布，需要經過softmax呈概率分布向量(a’1,1，a’1,2，a’1,3，a’1,4)，

此時，再把每個a經過v權重矩陣得到v1，v2，v3，v4向量
在這里插入圖片描述

a’1,1×v1+a’1,2×v2+a’1,3×v3+a’1,4×v4=b1向量，b1是個768維向量，是a1的自注意力向量，綜合了該token與其他所有tokens之間的關系

之后每個a都這么得到自己的自注意力向量，然后組合成(512,768)

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/72095.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/72095.shtml
英文地址，請注明出處：http://en.pswp.cn/web/72095.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

Spring Boot + MyBatis-Plus 項目目錄結構

Spring Boot + MyBatis-Plus 項目目錄結構

以下是一個標準的 Spring Boot MyBatis-Plus 項目目錄結構及文件命名規范，包含每個目錄和文件的作用說明，適用于中大型項目開發： 項目根目錄結構 src/ ├── main/ │ ├── java/ # Java 源代碼 │ │ └── com/…

閱讀更多...

Webpack優化前端性能

Webpack優化前端性能

Webpack優化前端性能☆☆ 涵蓋了代碼分割、懶加載、壓縮、緩存優化、Tree Shaking、圖片優化、CDN使用等多個方面。 Webpack優化前端性能詳解（2025綜合實踐版） Webpack作為現代前端工程化的核心工具，其優化能力直接影響項目的首屏速度、交互流暢度和用戶體驗。以下從代碼維…

閱讀更多...

ardunio R4 WiFi連接實戰

ardunio R4 WiFi連接實戰

ardunio WiFi連接模板 ardunio R4 WiFi 開發板有著不錯的性能和板載內存，本機自帶 WiFi 連接模塊，可以完成簡單的網絡服務。對于這個小東西我情有獨鐘，也總希望能夠用它來做些什么，所以先從 WiFi 連接開始學起，未來考…

閱讀更多...

C++11 編譯使用 aws-cpp-sdk

C++11 編譯使用 aws-cpp-sdk

一、對sdk的編譯前準備 1、軟件需求此文檔針對于在Linux系統上使用源碼進行編譯開發操作系統使用原生的contos7Linux。機器配置建議內存8G以上，CPU 4個以上GCC 4.9.0 及以上版本Cmake 3.12以上 3.21以下apt install libcurl-devel openssl-devel libuuid-devel pulseaudio-…

閱讀更多...

得物 Android Crash 治理實踐

得物 Android Crash 治理實踐

一、前言通過修復歷史遺留的Crash漏報問題（包括端側SDK采集的兼容性優化及Crash平臺的數據消費機制完善），得物Android端的Crash監控體系得到顯著增強，使得歷史Crash數據的完整捕獲能力得到系統性改善，相應Crash指標也…

閱讀更多...

SpringBoot3+Lombok如何配置logback輸出日志到文件

SpringBoot3+Lombok如何配置logback輸出日志到文件

Background/Requirement SpringBoot3Lombok如何配置logback輸出日志到文件，因為我需要對這些日志進行輸出，控制臺輸出和文件輸出，文件輸出是為了更好的作為AuditLog且支持滾動式備份，每天一個文件。 Technical Solution 1.確保你…

閱讀更多...

主流向量數據庫對比

主流向量數據庫對比

在 AI 的 RAG（檢索增強生成）研發領域，向量數據庫是存儲和查詢向量嵌入的核心工具，用于支持高效的語義搜索和信息檢索。向量嵌入是文本或其他非結構化數據的數值表示，RAG 系統通過這些嵌入從知識庫中檢索相關信息&#…

閱讀更多...

搞定python之四----函數、lambda和模塊

搞定python之四----函數、lambda和模塊

本文是《搞定python》系列專欄的第四篇，通過代碼演示列python自定義函數、lambda和模塊的用法。本文學習完成后，python的基礎知識就完了。后面會學習面向對象的內容。 1、自定義函數 # 測試python自定義函數# 有參數，沒有返回值 def say_he…

閱讀更多...

[操作系統] 學校課程關于“靜態優先級搶占式調度“作業

[操作系統] 學校課程關于“靜態優先級搶占式調度“作業

今天我們來分享兩道題目哈, 學校弄得題目. T1: 靜態優先級, 搶占式(1為高優先級) 圖解: 以下是靜態優先級搶占式調度的解題過程和結果： 解題思路： 優先級規則： 數值越小優先級越高。新進程到達時，若其優先級高于當前運行進程&…

閱讀更多...

洛谷P1320 壓縮技術（續集版）

洛谷P1320 壓縮技術（續集版）

P1320 壓縮技術（續集版） 題目描述設某漢字由 N N N \times N NN 的 0 \texttt 0 0 和 1 \texttt 1 1 的點陣圖案組成。我們依照以下規則生成壓縮碼。連續一組數值：從漢字點陣圖案的第一行第一個符號開始計算，按書寫順序從…

閱讀更多...

使用DeepSeek完成一個簡單嵌入式開發

使用DeepSeek完成一個簡單嵌入式開發

開啟DeepSeek對話請幫我使用Altium Designer設計原理圖、PCB，使用keil完成代碼編寫；要求：使用stm32F103RCT6為主控芯片，控制3個流水燈的原理圖這里需要注意，每次DeepSeek的回答都不太一樣。 DeepSeek回答以下是使…

閱讀更多...

volatile、synchronized和Lock

volatile、synchronized和Lock

名詞解釋： 指令重排是計算機為了優化執行效率，在不改變單線程程序結果的前提下，對代碼的執行順序進行重新排列的操作。它可能發生在編譯階段（編譯器優化）或CPU運行階段（處理器優化）。舉個栗子…

閱讀更多...

嵌入式八股C語言---面向對象篇

嵌入式八股C語言---面向對象篇

面向對象與面向過程面向過程就是把整個業務邏輯分成多個步驟,每步或每一個功能都可以使用一個函數來實現面向對象對象是類的實例化,此時一個類就內部有屬性和相應的方法封裝在C語言里實現封裝就是實現一個結構體,里面包括的成員變量和函數指針,然后在構造函數中,為結構體…

閱讀更多...

Distilling the Knowledge in a Neural Network知識蒸餾

Distilling the Knowledge in a Neural Network知識蒸餾

一.知識蒸餾的定義 1. 量化VS蒸餾量化：減小精度例如參數float32—>float16蒸餾：Student model模仿Teacher model,在保持較高性能的同時，減少模型大小和計算復雜度的技術。二.知識蒸餾步驟 1.教師模型訓練: 訓練一個大型且復雜的神…

閱讀更多...

靜態程序分析

靜態程序分析

參考：https://github.com/RangerNJU/Static-Program-Analysis-Book/blob/master/SUMMARY.md 課件：https://pascal-group.bitbucket.io/teaching.html 視頻：南京大學《軟件分析》課程01（Introduction）_嗶哩嗶哩_bilib…

閱讀更多...

Flutter_學習記錄_device_info_plus 插件獲取設備信息

Flutter_學習記錄_device_info_plus 插件獲取設備信息

引入三方庫device_info_plus導入頭文件 import package:device_info_plus/device_info_plus.dart;獲取設備信息的主要代碼 DeviceInfoPlugin deviceInfoPlugin DeviceInfoPlugin(); BaseDeviceInfo deviceInfo await deviceInfoPlugin.deviceInfo;完整案例 import package…

閱讀更多...

日有所得-google 瀏覽器離線安裝

日有所得-google 瀏覽器離線安裝

一、目標： 基于UOS系統進行瀏覽器插件開發，目標展現形式為側欄二、背景： UOS操作系統需支持1032及以上版本瀏覽器插件基于google瀏覽器，自帶360等瀏覽器能兼容基于google瀏覽器開發的插件 JS庫借用Vue庫以提高效率三、問…

閱讀更多...

高效自動化測試：打造Python+Requests+Pytest+Allure+YAML的接口測試框架

高效自動化測試：打造Python+Requests+Pytest+Allure+YAML的接口測試框架

一、背景在快節奏的開發周期中，如何確保接口質量？自動化測試是關鍵。通過構建標準化、可復用的測試框架，能顯著提升測試效率與準確性，為項目質量保駕護航[1][7]。二、目標 ? 核心目標： ● 實現快速、高效的接口測試…

閱讀更多...

談談List,Set,Map的區別

談談List,Set,Map的區別

List、Set 和 Map 是 Java 集合框架（Java Collections Framework）中的三種主要接口，它們各自有不同的特點和用途。以下是它們的區別和使用場景的詳細解釋： 1. List（列表） 1.1 特點有序集合：Li…

閱讀更多...

智能運維管理系統的主要優勢

智能運維管理系統的主要優勢

智能運維管理系統通過整合大數據、人工智能、機器學習等技術，顯著提升了IT運維的效率和質量。以下是智能運維管理系統的主要優勢： 一、提升運維效率 1.自動化運維自動執行重復性任務（如日志分析、故障排查、系統備份）&#xf…

閱讀更多...

最新文章