位置編碼和RoPE

前言
關于位置編碼和RoPE?

應用廣泛,是很多大模型使用的一種位置編碼方式,包括且不限于LLaMA、baichuan、ChatGLM等等


第一部分?transformer原始論文中的標準位置編碼


RNN的結構包含了序列的時序信息,而Transformer卻完全把時序信息給丟掉了,比如“他欠我100萬”,和“我欠他100萬”,兩者的意思千差萬別,故為了解決時序的問題,Transformer的作者用了一個絕妙的辦法:位置編碼(Positional Encoding)

1.1 標準位置編碼的起源
即將每個位置編號,從而每個編號對應一個向量,最終通過結合位置向量和詞向量,作為輸入embedding,就給每個詞都引入了一定的位置信息,這樣Attention就可以分辨出不同位置的詞了,具體怎么做呢?

  1. 如果簡單粗暴的話,直接給每個向量分配一個數字,比如1到1000之間
  2. 也可以用one-hot編碼表示位置

? ? ? ? ? ? ? ? ?

? ?3. transformer論文中作者通過sin函數和cos函數交替來創建 positional encoding,其計算positional encoding的公式如下?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

其中,pos相當于是每個token在整個序列中的位置,相當于是0, 1, 2, 3...(看序列長度是多大,比如10,比如100),dmodel代表位置向量的維度(也是詞embedding的維度,transformer論文中設置的512維)?

不要小看transformer的這個位置編碼,不少做NLP多年的人也不一定對其中的細節有多深入,而網上大部分文章談到這個位置編碼時基本都是千篇一律、泛泛而談,很少有深入,故本文還是細致探討下

1.2 標準位置編碼的示例:多圖多舉例
考慮到一圖勝千言 一例勝萬語,舉個例子,當我們要編碼「我 愛 你」的位置向量,假定每個token都具備512維,如果位置下標從0開始時,則根據位置編碼的計算公式可得『且為讓每個讀者閱讀本文時一目了然,我計算了每個單詞對應的位置編碼示例(在此之前,這些示例在其他地方基本沒有)』

當對上的單詞「我」進行位置編碼時,它本身的維度有512維

當對上的單詞「愛」進行位置編碼時,它本身的維度有512維

?

1.3 標準位置編碼的coding實現
代碼實現如下

“”“位置編碼的實現,調用父類nn.Module的構造函數”“”
class PositionalEncoding(nn.Module):
? ? def __init__(self, d_model, dropout, max_len=5000):
? ? ? ? super(PositionalEncoding, self).__init__() ?
? ? ? ? self.dropout = nn.Dropout(p=dropout) ?# 初始化dropout層
? ? ? ??
? ? ? ? # 計算位置編碼并將其存儲在pe張量中
? ? ? ? pe = torch.zeros(max_len, d_model) ? ? ? ? ? ? ? ?# 創建一個max_len x d_model的全零張量
? ? ? ? position = torch.arange(0, max_len).unsqueeze(1) ?# 生成0到max_len-1的整數序列,并添加一個維度
? ? ? ? # 計算div_term,用于縮放不同位置的正弦和余弦函數
? ? ? ? div_term = torch.exp(torch.arange(0, d_model, 2) *
? ? ? ? ? ? ? ? ? ? ? ? ? ? ?-(math.log(10000.0) / d_model))
?
? ? ? ? # 使用正弦和余弦函數生成位置編碼,對于d_model的偶數索引,使用正弦函數;對于奇數索引,使用余弦函數。
? ? ? ? pe[:, 0::2] = torch.sin(position * div_term)
? ? ? ? pe[:, 1::2] = torch.cos(position * div_term)
? ? ? ? pe = pe.unsqueeze(0) ? ? ? ? ? ? ? ? ?# 在第一個維度添加一個維度,以便進行批處理
? ? ? ? self.register_buffer('pe', pe) ? ? ? ?# 將位置編碼張量注冊為緩沖區,以便在不同設備之間傳輸模型時保持其狀態
? ? ? ??
? ? # 定義前向傳播函數
? ? def forward(self, x):
? ? ? ? # 將輸入x與對應的位置編碼相加
? ? ? ? x = x + Variable(self.pe[:, :x.size(1)],?
? ? ? ? ? ? ? ? ? ? ? ? ?requires_grad=False)
? ? ? ? # 應用dropout層并返回結果
? ? ? ? return self.dropout(x)

?????????????????????????????????????????????????????????

?

這里面其實有很大的一個關鍵,但大部分資料甚至RoPE原始論文都不會給你特別強調出來,即為何要構造這么一個等式呢?

  • 原因在于左邊算是q和k向量的內積,而這恰好是transformer計算自注意力機制的核心一步,右邊等式則意味著m與n的相對位置
  • 如此一來,該等式便把“q和k的內積”與“它們的相對位置”給串起來了 也如阿荀所說,左邊是含有各自絕對位置信息的q向量和k向量,而這個等式就是RoPE追求的目標,物理含義就是通過顯式傳入絕對位置信息實現與傳入相對位置信息對等的情況

?

所以簡單來說 RoPE 的 self-attention 操作的流程是

  • 對于 token 序列中的每個詞嵌入向量,首先計算其對應的 query 和 key 向量
  • 然后對每個 token 位置都計算對應的旋轉位置編碼
  • 接著對每個 token 位置的 query 和 key 向量的元素按照 兩兩一組 應用旋轉變換
  • 最后再計算 query 和 key 之間的內積得到 self-attention 的計算結果
    ?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/87710.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/87710.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/87710.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

手動使用 Docker 啟動 MinIO 分布式集群(推薦生產環境)

在生產環境中,MinIO 集群通常部署在多個物理機或虛擬機上,每個節點運行一個 MinIO 容器,并通過 Docker 暴露 API 和 Console 端口。 1. 準備工作 假設有 4 臺服務器(也可以是同一臺服務器的不同端口模擬,但不推薦生產…

如何在IntelliJ IDEA中設置數據庫連接全局共享

在現代軟件開發中,數據庫連接管理是開發過程中不可或缺的一部分。為了提高開發效率,減少配置錯誤,并方便管理,IntelliJ IDEA 提供了一個非常有用的功能:數據庫連接全局共享。通過這個功能,你可以在多個項目…

【Python】文件應用: 查找讀取的文件內容

查找讀取的文件內容 from pathlib import Pathpath Path(pi_million_digits.txt) contents path.read_text()lines contents.splitlines() pi_string for line in lines:pi_string line.lstrip()birthday input("Enter your birthday, in the form mmddyy: "…

交互式剖腹產手術模擬系統開發方案

以下是為您設計的《交互式剖腹產手術模擬系統》開發方案框架,包含技術實現路徑與詳細內容結構建議。由于篇幅限制,這里呈現核心框架與關鍵模塊說明: 交互式剖腹產手術模擬系統開發方案 一、項目背景與意義 1.1 傳統醫學教學痛點分析 尸體標本成本高昂(約$2000/例)活體訓…

AWS WebRTC: 判斷viewer端拉流是否穩定的算法

在使用sdk-c viewer端進行拉流的過程中,viewer端拉取的是視頻幀和音頻幀,不會在播放器中播放,所以要根據收到的流來判斷拉流過程是否穩定流暢。 我這邊采用的算法是:依據相鄰幀之間的時間間隔是否落在期望值的 20% 范圍內。 音頻…

【Python】文件讀取:逐行讀取應用實例——從一個JSONL文件中逐行讀取文件

從一個JSONL文件中逐行讀取文件,并將這些問題保存到一個新的JSONL文件中 import json import argparse import os # 導入os模塊用于檢查文件是否存在def read_questions_from_jsonl(file_path, limit):"""從JSONL文件中讀取指定數量的question部分…

百寶箱生成智能體

點擊新建應用 工作流如下: 點擊發布 點擊Web服務,上架

嵌入式 數據結構學習(五) 棧與隊列的實現與應用

一、棧(Stack)詳解 1. 棧的基本概念 棧的定義與特性 后進先出(LIFO):最后入棧的元素最先出棧 操作限制:只能在棧頂進行插入(push)和刪除(pop)操作 存儲位置:我們實現的鏈棧位于堆區(malloc分配),系統棧區存儲函數調用信息 棧…

匯編與接口技術:8259中斷實驗

一、實驗目的 該實驗使學生掌握8259向量中斷方式的硬件連接和軟件編程的方法,同時使同學掌握中斷和其它接口芯片配合來完成某一特定任務的方法。 二、實驗內容 1、手動產生單脈沖作為中斷請求信號連接到MIRQ3上和SIRT10上。每按一次開關產生一次中斷,…

Ajax的初步學習

一、什么是 Ajax? Ajax (Asynchronous JavaScript and XML) 是一種無需重新加載整個網頁的情況下,能夠更新部分網頁的技術。通過在后臺與服務器進行少量數據交換,Ajax 可以使網頁實現異步更新。 主要特性: 異步性 (Asynchronous…

OOM電商系統訂單緩存泄漏,這是泄漏還是溢出

電商系統訂單緩存泄漏的本質分析一、明確概念區別內存泄漏(Memory Leak)定義:對象已經不再被使用,但由于被錯誤引用而無法被垃圾回收特點:內存使用量隨時間持續增長,最終可能導致OOM類比:像浴缸…

二進制安全-匯編語言-02-寄存器

二、寄存器 水滴石穿 一個典型的CPU由運算器、控制器、寄存器等器件構成,這些器件靠內部總線相連 內部總線實現CPU內部各個器件之間的聯系,外部總線實現CPU和主板上其他器件的聯系 簡單說,在CPU中: 運算器進行信息處理寄存器進…

Java——初始guava(1)

基于 Google Guava 官方教程的解答 ?? Guava 提供了哪些 JDK 不具備的 API? Guava 擴展了 JDK 的集合框架,提供了多種 JDK 沒有的實用 API: 不可變集合(Immutable Collections) ImmutableList、ImmutableSet、ImmutableMap 等特性:創建后不可修改,線程安全,性能優于…

day53

import torch import torch.nn as nn import torch.optim as optim from torch.utils.data import DataLoader, TensorDataset import numpy as np from sklearn.preprocessing import MinMaxScaler from sklearn.datasets import load_iris import warnings # 忽略不必要的警…

c++ python 共享內存

一、目的 是為了c來讀取并解碼傳遞給python,Python做測試非常方便,c 和 python之間必須定好協議,整體使用c 來解碼,共享內存傳遞給python 二、主類 主類,串聯decoder,注意decoder并沒有直接在顯存里面穿…

react函數組件的props,ref,state。

react開發我們會把頁面分為一個個組件,組件是獨立而且可復用的重復代碼片段。具體來說組件可以是一個按鈕,一個輸入框。react組件有兩種定義方法,一種是函數組件,一種是類組件。我們這里說一下函數組件之間父子之間如何傳遞props參…

基于ARM+FPGA實現的BISS-C協議解決方案,適用于高精度光柵位移傳感器等

模塊簡介 本資源提供了專為FPGA設計的BISS-C接口協議發送模塊源碼。BISS-C模式作為一種高速、同步的串行通信協議,廣泛應用于高精度光柵位移傳感器的數據傳輸中,特別適用于需要精確位置信息的應用場景。此模式遵循主從架構,其中FPGA作為主控制…

spring中@Transactional注解和事務的實戰理解附代碼

文章目錄 前言一、事務是什么?二、事務的特性2.1隔離性2.2事務的隔離級別 三、Transactional注解Transactional注解簡介基本用法常用屬性配置事務傳播行為事務隔離級別異常處理與回滾性能優化建議 四、 事務不生效的可能原因方法訪問權限非public自調用問題異常被捕…

替代進口SCA7606【智芯微】國產高精度電流傳感器 工業新能源電網專用

SCA7606(智芯微)產品解析與推廣文案一、產品概述SCA7606 是 智芯微電子(ZXMICRO) 推出的一款 高精度數字隔離式電流傳感器芯片,采用 霍爾效應數字輸出 技術,專為 工業控制、新能源、智能電網 等領域的電流檢…

Java 與 Vue 全棧開發:“一課一得“ 學習筆記系統實戰

一、項目背景與核心價值 "一課一得" 是一個面向學習者的筆記管理平臺,旨在幫助用戶系統化記錄、整理和回顧學習內容。項目采用前后端分離架構:前端基于 Vue.js 構建交互式界面,后端使用 Java Spring Boot 實現業務邏輯&#xff0c…