transformer bert 多頭自注意力

在這里插入圖片描述
輸入的(a1,a2,a3,a4)是最終嵌入,是一個(512,768)的矩陣;而a1是一個token,尺寸是768
在這里插入圖片描述
a1通過wq權重矩陣,經過全連接變換得到查詢向量q1;a2通過Wk權重矩陣得到鍵向量k2;q和k點乘就是值a12,a12就是a2對于a1的注意力值
在這里插入圖片描述
依次得到a1,1,a1,2,a1,3,a1,4注意力,都是其他token相對于a1 token的注意力
在這里插入圖片描述
此時(a1,1,a1,2,a1,3,a1,4)不是概率分布,需要經過softmax呈概率分布向量(a’1,1,a’1,2,a’1,3,a’1,4),
在這里插入圖片描述
此時,再把每個a經過v權重矩陣得到v1,v2,v3,v4向量
在這里插入圖片描述

a’1,1×v1+a’1,2×v2+a’1,3×v3+a’1,4×v4=b1向量,b1是個768維向量,是a1的自注意力向量,綜合了該token與其他所有tokens之間的關系

之后每個a都這么得到自己的自注意力向量,然后組合成(512,768)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/72095.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/72095.shtml
英文地址,請注明出處:http://en.pswp.cn/web/72095.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Spring Boot + MyBatis-Plus 項目目錄結構

以下是一個標準的 Spring Boot MyBatis-Plus 項目目錄結構及文件命名規范,包含每個目錄和文件的作用說明,適用于中大型項目開發: 項目根目錄結構 src/ ├── main/ │ ├── java/ # Java 源代碼 │ │ └── com/…

Webpack優化前端性能

Webpack優化前端性能☆☆ 涵蓋了代碼分割、懶加載、壓縮、緩存優化、Tree Shaking、圖片優化、CDN使用等多個方面。 Webpack優化前端性能詳解(2025綜合實踐版) Webpack作為現代前端工程化的核心工具,其優化能力直接影響項目的首屏速度、交互流暢度和用戶體驗。以下從代碼維…

ardunio R4 WiFi連接實戰

ardunio WiFi連接模板 ardunio R4 WiFi 開發板有著不錯的性能和板載內存,本機自帶 WiFi 連接模塊,可以完成簡單的網絡服務。對于這個小東西我情有獨鐘,也總希望能夠用它來做些什么,所以先從 WiFi 連接開始學起,未來考…

C++11 編譯使用 aws-cpp-sdk

一、對sdk的編譯前準備 1、軟件需求 此文檔針對于在Linux系統上使用源碼進行編譯開發操作系統使用原生的contos7Linux。機器配置建議 內存8G以上,CPU 4個 以上GCC 4.9.0 及以上版本Cmake 3.12以上 3.21以下apt install libcurl-devel openssl-devel libuuid-devel pulseaudio-…

得物 Android Crash 治理實踐

一、前言 通過修復歷史遺留的Crash漏報問題(包括端側SDK采集的兼容性優化及Crash平臺的數據消費機制完善),得物Android端的Crash監控體系得到顯著增強,使得歷史Crash數據的完整捕獲能力得到系統性改善,相應Crash指標也…

SpringBoot3+Lombok如何配置logback輸出日志到文件

Background/Requirement SpringBoot3Lombok如何配置logback輸出日志到文件,因為我需要對這些日志進行輸出,控制臺輸出和文件輸出,文件輸出是為了更好的作為AuditLog且支持滾動式備份,每天一個文件。 Technical Solution 1.確保你…

主流向量數據庫對比

在 AI 的 RAG(檢索增強生成)研發領域,向量數據庫是存儲和查詢向量嵌入的核心工具,用于支持高效的語義搜索和信息檢索。向量嵌入是文本或其他非結構化數據的數值表示,RAG 系統通過這些嵌入從知識庫中檢索相關信息&#…

搞定python之四----函數、lambda和模塊

本文是《搞定python》系列專欄的第四篇,通過代碼演示列python自定義函數、lambda和模塊的用法。本文學習完成后,python的基礎知識就完了。后面會學習面向對象的內容。 1、自定義函數 # 測試python自定義函數# 有參數,沒有返回值 def say_he…

[操作系統] 學校課程關于“靜態優先級搶占式調度“作業

今天我們來分享兩道題目哈, 學校弄得題目. T1: 靜態優先級, 搶占式(1為高優先級) 圖解: 以下是靜態優先級搶占式調度的解題過程和結果: 解題思路: 優先級規則: 數值越小優先級越高。新進程到達時,若其優先級高于當前運行進程&…

洛谷P1320 壓縮技術(續集版)

P1320 壓縮技術(續集版) 題目描述 設某漢字由 N N N \times N NN 的 0 \texttt 0 0 和 1 \texttt 1 1 的點陣圖案組成。 我們依照以下規則生成壓縮碼。連續一組數值:從漢字點陣圖案的第一行第一個符號開始計算,按書寫順序從…

使用DeepSeek完成一個簡單嵌入式開發

開啟DeepSeek對話 請幫我使用Altium Designer設計原理圖、PCB,使用keil完成代碼編寫;要求:使用stm32F103RCT6為主控芯片,控制3個流水燈的原理圖 這里需要注意,每次DeepSeek的回答都不太一樣。 DeepSeek回答 以下是使…

volatile、synchronized和Lock

名詞解釋: 指令重排是計算機為了優化執行效率,在不改變單線程程序結果的前提下,對代碼的執行順序進行重新排列的操作。它可能發生在編譯階段(編譯器優化)或CPU運行階段(處理器優化)。 舉個栗子…

嵌入式八股C語言---面向對象篇

面向對象與面向過程 面向過程 就是把整個業務邏輯分成多個步驟,每步或每一個功能都可以使用一個函數來實現面向對象 對象是類的實例化,此時一個類就內部有屬性和相應的方法 封裝 在C語言里實現封裝就是實現一個結構體,里面包括的成員變量和函數指針,然后在構造函數中,為結構體…

Distilling the Knowledge in a Neural Network知識蒸餾

一.知識蒸餾的定義 1. 量化VS蒸餾 量化:減小精度 例如參數float32—>float16蒸餾:Student model模仿Teacher model,在保持較高性能的同時,減少模型大小和計算復雜度的技術。 二.知識蒸餾步驟 1.教師模型訓練: 訓練一個大型且復雜的神…

靜態程序分析

參考:https://github.com/RangerNJU/Static-Program-Analysis-Book/blob/master/SUMMARY.md 課件:https://pascal-group.bitbucket.io/teaching.html 視頻:南京大學《軟件分析》課程01(Introduction)_嗶哩嗶哩_bilib…

Flutter_學習記錄_device_info_plus 插件獲取設備信息

引入三方庫device_info_plus導入頭文件 import package:device_info_plus/device_info_plus.dart;獲取設備信息的主要代碼 DeviceInfoPlugin deviceInfoPlugin DeviceInfoPlugin(); BaseDeviceInfo deviceInfo await deviceInfoPlugin.deviceInfo;完整案例 import package…

日有所得-google 瀏覽器離線安裝

一、目標: 基于UOS系統進行瀏覽器插件開發,目標展現形式為側欄 二、背景: UOS操作系統需支持1032及以上版本 瀏覽器插件基于google瀏覽器,自帶360等瀏覽器能兼容基于google瀏覽器開發的插件 JS庫借用Vue庫以提高效率 三、問…

高效自動化測試:打造Python+Requests+Pytest+Allure+YAML的接口測試框架

一、背景 在快節奏的開發周期中,如何確保接口質量?自動化測試是關鍵。通過構建標準化、可復用的測試框架,能顯著提升測試效率與準確性,為項目質量保駕護航[1][7]。 二、目標 ? 核心目標: ● 實現快速、高效的接口測試…

談談List,Set,Map的區別

List、Set 和 Map 是 Java 集合框架(Java Collections Framework)中的三種主要接口,它們各自有不同的特點和用途。以下是它們的區別和使用場景的詳細解釋: 1. List(列表) 1.1 特點 有序集合:Li…

智能運維管理系統的主要優勢

智能運維管理系統通過整合大數據、人工智能、機器學習等技術,顯著提升了IT運維的效率和質量。以下是智能運維管理系統的主要優勢: 一、提升運維效率 1.自動化運維 自動執行重復性任務(如日志分析、故障排查、系統備份)&#xf…