【LLM05---位置編碼】

文章目錄

  • 位置編碼
    • 引出
    • Transformer中位置編碼方法:Sinusoidal functions
    • 兩個重要性質

位置編碼

最近在學習位置編碼,想找一個講的比較透徹的文章或視頻,找了半天,滿意的一個也沒有,所以自己記錄一下。
注意,本篇筆記只作為自己的學習記錄用,更好的講解的內容請看鏈接:位置編碼

引出

我們首先來理解下什么是位置編碼?在Transformer架構中,由于自注意力機制固有的特性,某一個token計算和其他token之間的注意力權重時,是不受距離限制的,也就是說他是一視同仁的,比如,我吃飯了和吃飯了我,這兩句話中我這個token的表示是一樣的。這個并不符合現實的情況,因為實際情況是我們會考慮距離,一般距離越遠,它的重要性就變弱了。所以我們還需要加入有關位置的信息,再來計算注意力分數,更為合理。
那應該怎么表示位置信息呢?transformer中token是按順序輸入的,一種最直觀的想法就是我們將第一個token的位置表示為1,第二個的表示為2,一次類推,但是這樣表示會有什么問題呢?首先,這個的表示是在一個離散的空間內表示,如果訓練是在有限的長度下訓練,再擴展到訓練以外的長度時性能會大幅下降,也就是外推性很差。另一個原因是,當token數量變得很多的時候,其值會變得非常大。
那有沒有更好的方法來表示呢?我們想想,位置編碼,我們想讓他具備什么性質:

第一個:能夠表示絕對的位置信息
第二個,能夠表示不同token之間的相對的位置信息

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/85053.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/85053.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/85053.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

pikachu——ssrf

概念補充: 內網:局部范圍內的私有網絡,比如局域網就是一個小范圍的內網,有私有IP,并且內網受防火墻的保護,外網無法直接訪問 外網:全球范圍的公共網絡,公有ip ip地址:…

java 設計模式_行為型_13備忘錄模式

13.備忘錄模式 模式定義 備忘錄模式(Memento Pattern)模式的定義:在不破壞封裝性的前提下,捕獲一個對象的內部狀態,并在該對象之外保存這個狀態,以便以后當需要時能將該對象恢復到原先保存的狀態。該模式又…

創建postgres數據庫失敗

異常: postgres# CREATE DATABASE deepflow_agent2; ERROR: source database "template1" is being accessed by other users DETAIL: There are 2 other sessions using the database 如何斷聯這兩個session 要解決 PostgreSQL 中因 template1 數據庫…

臥安機器人闖上市:深耕AI具身技術,“大疆教父”李澤湘再落子

撰稿|行星 來源|貝多財經 又一家機器人企業,現身港股資本市場。貝多財經了解到,臥安機器人(深圳)股份有限公司(下稱“臥安機器人”)于6月8日向港交所提交了上市申請,國泰君安國際、華泰國際為…

基于GNU Radio Companion搭建的AM信號實驗

目錄 實驗目的和要求 1、AM收發系統仿真和實際接收 調制過程 2、Lab 2.1實驗過程AM信號的產生 AM信號的表達式 調制深度的概念 3、Lab2.2 AM信號的解調 4、Lab2.3 實際用RTLSDR接收一個ISM(912MHz)頻率的AM信號,信號的AM調制為音頻為48KHz的音樂信號 實驗目的和要求 …

【go】(僅思路)使用go實現一款簡單的關系型數據庫gosql

文章目錄 背景給navicate回復版本號建立連接數據庫list新建數據庫刪除數據庫刪除表查詢表數據總結roadmapnavicate連接適配 背景 使用go很容易編譯出一個二進制文件,已經有人用純go實現了sqlite3的驅動(go get github.com/glebarez/sqlite)&…

echarts開發 | 數據可視化 -- 第二篇 echart進階配置項學習

文章目錄 一、數據標記(markLine、markPoint)1.1 markLine(標記線)1.2 markPoint(標記點) 一、數據標記(markLine、markPoint) 支持兩類標記方式 markLine 和 markPoint 分別用于標示趨勢線和特定數據點,以加強數據表…

Kafka數據寫入流程源碼深度剖析(Broker篇)

在Kafka數據寫入流程中,Broker端負責接收客戶端發送的消息,并將其持久化存儲,是整個流程的關鍵環節。本文將深入Kafka Broker的源碼,詳細解析消息接收、處理和存儲的具體實現。 一、網絡請求接收與解析 Broker通過Processor線程…

名稱 深度學習(監督學習) Iteration 一次 mini-batch 前向+反向傳播更新 Epoch 所有數據集訓練一遍。這兩個概念不一樣嗎?

你的問題非常專業,確實容易混淆,下面我用科研術語 通俗比喻來清晰地區分: ? 簡明對照表:Iteration vs. Epoch(在監督學習中) 名稱專業術語解釋通俗理解是否屬于監督學習(深度學習&#xff09…

Blender 模型下載

1.CGModel網站 https://www.cgmodel.com/ 免費模型數量多,國風類題材的模型多,中文搜索方便 2.Blender官網 3.3d溜溜網 https://3d.3d66.com/ 4.free3d.com free3d.com

Spring涉及的設計模式以及實際使用場景(含代碼)

Spring涉及的設計模式以及實際使用場景(含代碼) 1.工廠模式(Factory Pattern) 作用: 隱藏對象創建的細節,通過工廠類統一管理對象的實例化。 場景:Spring的BeanFactory和ApplicationContext是工廠模式的典型實現。 // 通過App…

ROM 只讀存儲器 隨機存取

ROM(Read-Only Memory,只讀存儲器)的存取方式為: ? 隨機存取方式(Random Access) 盡管“ROM”強調的是“只讀”,它的數據訪問方式與 RAM 類似,都是隨機存取。 🔍 解釋如…

opensuse解決微信無法登錄的問題

思路啟發 https://forum.suse.org.cn/t/topic/17183/2 實際解決 https://forum.suse.org.cn/t/topic/17204/5 解決方法 先安裝 sudo zypper install execstackcd /opt/wechatsudo bash -c execstack -c ./*.so

Adixen ASM380 氦氣檢漏儀 阿爾卡特Mobile high performance helium leak detector

Adixen ASM380 氦氣檢漏儀 阿爾卡特Mobile high performance helium leak detector

堆的自動管理

由于程序員必須編寫出到分配和釋放存儲器的明確的調用,所以用m a l l o c和f r e e完成指針的動態分配和重新分配是管理堆的手工( m a n u a l )方法。相反地,運行時棧則是由調用序列自動地( a u t o m a t i c a l l y )管理。在一種需要完全動態的運行…

智能出入庫管理系統:自動化管控平臺

部隊裝備庫室智能管控系統是集智能化、集成化、網絡化于一體的綜合管理系統,由智慧營區庫室綜合管控平臺、出入口控制子系統、智能QD柜子系統、裝備物資管理子系統、視頻監控系統、入侵報警子系統、環境監測子系統等七大核心子系統構成。各子系統通過數據自動交互&a…

歸并排序:高效分治的藝術

歸并排序(Merge Sort)原理詳解 歸并排序是一種基于分治法(Divide and Conquer)的高效排序算法,由馮諾依曼于1945年提出。它的核心思想是將大問題分解為小問題,解決小問題后再合并結果。 核心原理 1. 分治策略(Divide and Conquer) 分(Divide):將無序數組遞歸地拆…

知識庫建設方案有哪些?全面解析

知識庫建設方案主要包括本地部署方案、云端在線方案、混合部署方案。其中,云端在線方案以其靈活性、實時更新能力和低維護成本,逐漸成為大多數企業的首選方案。云端在線方案可隨時隨地提供實時更新的知識內容,確保企業員工和客戶始終獲得最新…

政務大廳智能引導系統:基于數字孿生的技術架構與實踐

本文面向政務信息化開發者、系統集成工程師、智能導視領域技術人員。解析政務大廳智能引導系統的技術實現路徑,提供從定位導航到數據驅動的技術方案,助力解決傳統導視系統效率低下、體驗不佳的技術痛點。 一、技術架構全景:從物理空間到數字映…

java設計模式[2]之創建型模式

文章目錄 一 創建型模式1.1 單例模式的設計與實現1.1.1 餓漢式模式1.1.2 懶漢式單例模式1.1.3 懶漢式單例模式完善1.1.4 雙重檢測鎖式1.1.4.1 volatile關鍵字1.1.4.2 在雙重檢查鎖定中的作用 1.1.5 靜態內部類式單例模式1.1.6 枚舉式單例模式1.1.7 反射暴力破解解決方案1.1.8 序…