transformer位置編碼研究相關的綜述、論文

在這里插入圖片描述


一、權威綜述

  1. 《利用位置編碼實現長度外推》 (騰訊云開發者社區, 2024)

    • 系統分析絕對/相對位置編碼(APE/RPE)在長序列外推中的技術演進,涵蓋RoPE、Alibi、Xpos等優化方案,討論位置插值、NTK-aware縮放等擴展方法。
  2. 《Handling Very Long Contexts in Neural Machine Translation》 (Peng et al., 2024)

    • 聚焦機器翻譯中的長上下文處理,對比RoPE、動態NTK、FIRE等編碼策略與注意力機制的協同優化。
  3. 《A Review of Location Encoding for GeoAI》 (Mai et al., 2022)

    • 從地理AI視角總結位置編碼的通用方法,分類單點編碼與聚合編碼模型,分析多尺度、方向感知等特性。

二、奠基性經典論文

  1. 《Attention is All You Need》 (Vaswani et al., 2017)

    • 開創性工作:首次提出正弦函數固定位置編碼(公式:$ PE_{(pos,2i)} = \sin(pos/10000^{2i/d}) $, $ PE_{(pos,2i+1)} = \cos $),解決Transformer無時序感知問題。
  2. 《Self-Attention with Relative Position Representations》 (Shaw et al., 2018)

    • 引入相對位置編碼,通過偏移量建模詞間距離,在翻譯任務中顯著提升效果(+1.3 BLEU)。
  3. 《Transformer-XL》 (Dai et al., 2019)

    • 提出片段遞歸機制與改進的位置編碼方案,解決長依賴斷裂問題,支持超長序列建模。

三、位置編碼的改進方法

(1)相對位置編碼優化
  • 旋轉位置編碼(RoPE)

    • Su et al., 2021:通過復數旋轉嵌入實現相對位置感知,提升外推能力(被BERT、LLaMA等廣泛采用)。
    • 《ComRoPE》 :參數化旋轉角度矩陣,平衡計算效率與表達能力(對比見表7)。
  • 《HoPE》 (Chen et al., 2025)

    • 提出無衰減位置編碼,解決RoPE長程依賴衰減問題,增強上下文建模。
(2)動態與條件編碼
  • 條件位置編碼(CPE)
    • 周新民等(2024):在卷積網絡中引入輕量級深度卷積生成位置編碼,適應任意分辨率輸入。
  • 《3DPPE》 (Shu et al., 2023)
    • 多攝像頭3D檢測中,設計3D點位置編碼統一圖像與Query表征,提升細粒度位置感知。
(3)新型數學結構編碼
  • 《Algebraic Positional Encodings》 (Kogkalidis et al.)
    • 基于代數結構構建通用位置編碼,支持樹形/圖結構數據,在翻譯與圖像任務中驗證有效性。
  • 《Wavelet Positional Encoding》 (岡佑依等, 2025)
    • 小波變換替代正弦函數,增強噪聲魯棒性與多尺度分解能力,長序列外推優于RoPE。

四、跨領域應用

  1. 計算機視覺

    • ViT(Dosovitskiy et al., 2020):采用可學習位置編碼,可視化顯示相鄰圖像塊編碼相似性(行列結構)。
    • 《Dyadic Mamba》 (Tanke et al., 2025):擴散模型中位置編碼增強人體動作生成的時序一致性。
  2. 地理信息科學

    • 《CSP》 (Mai et al., 2023):自監督對比學習框架下,球面位置編碼提升地理空間表征學習。
  3. 神經科學交叉

    • 丁鼐團隊(2025):論證大腦序列加工機制與Transformer位置編碼的相似性,揭示神經振蕩編碼原理。

五、關鍵對比與分析

  1. 方法分類與特性

    類型代表方法優勢局限
    絕對位置編碼 (APE)正弦函數 (Vaswani)簡單、無需訓練外推能力弱
    相對位置編碼 (RPE)RoPE, Alibi長程依賴建模強計算復雜度高
    條件編碼 (CPE)深度卷積 (周新民)適應任意輸入尺寸任務依賴性強
  2. 性能對比

    • 行人重識別任務:相對位置編碼(RPE)比絕對編碼(APE)在CUHK03數據集上mAP提升1% 。
    • 小目標檢測:條件位置編碼(CPE)優于局部增強編碼(LePE),特征融合更高效 [[29]-[31]]。

六、最新研究趨勢(2024-2025)

  1. 無損外推技術
    • 螞蟻AI團隊提出位置插值(PI)與NTK-aware RoPE,解決大模型外推缺陷 。
  2. 生物啟發式編碼
    • 前額葉皮層(PFC)啟發的動態位置編碼,增強任務上下文理解 。
  3. 多模態統一編碼
    • RFpeptides框架(David Baker, 2025)將循環相對位置編碼用于大環肽結構生成 。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/89436.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/89436.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/89436.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

垂直領域AI智能體開發指南:用Bright Data MCP接入智能體攻克數據難關

垂直領域AI智能體開發指南:用Bright Data MCP接入智能體攻克數據難關 一、智能體時代的數據困局1.1 AI智能體的爆發式增長1.2 開發者遭遇的"數據瓶頸" 二、Bright Data MCP:智能體的數據引擎2.1 重新定義數據獲取方式2.2 支持的核心場景2.3 四…

Stable Diffusion 項目實戰落地:從0到1 掌握ControlNet 第三篇: 打造光影字形的創意秘技-文字與自然共舞

上一篇,我們一起玩轉了 野外光影字,是不是被那種自然和光影交織的效果驚艷到啦? 如果你錯過了那篇文章,別擔心,趕緊點這里補課:Stable Diffusion 項目實戰落地:從0到1 掌握ControlNet:打造光影文字 第二篇 - 野外光影字。 今天,我們將一起做一個 生成的嵌入式文字【…

CppCon 2018 學習:Feather: A Modern C++ Web Development Framework

你這段內容羅列的是 Web 開發中的幾個基礎概念和組成模塊,下面我逐一用中文進行解釋,并理清它們之間的關系: 基礎概念說明 1. HTTP Server(HTTP服務器) 是一個監聽 HTTP 請求并返回響應的程序。主要功能&#xff1a…

武漢大學機器人學院啟航:一場顛覆性的產教融合實驗,如何重塑中國智造未來?

當百年學府按下“產業加速鍵”,教育革命的號角已經吹響 2025年7月,武漢大學一紙公告震動教育界與科技圈——成立機器人學院,攜手小米、宇樹等硬科技領軍企業,聘請10位產業教授入駐。這絕非一次常規的校企合作,而是一場…

QT記事本4——下拉框修改值后解決亂碼問題

下拉框修改值后解決亂碼問題 void Widget::onCurrentIndexChanged(int index) {qDebug()<<index;//索引從0開始qDebug()<<ui->comboBox->currentText();//切換編碼時&#xff0c;首先清空當前的文本框ui->textEdit->clear();if(file.isOpen()){//僅在…

““ ‘‘ C++

在C中&#xff0c;"" 和 的含義完全不同&#xff0c;只有""是空字符串&#xff0c;而既不是空字符串&#xff0c;也不能表示空字符&#xff0c;具體區別如下&#xff1a; 1. 雙引號 ""&#xff1a;空字符串字面量 類型&#xff1a;const char…

電腦遠程控制另一臺電腦無法連接怎么辦

電腦遠程控制另一臺電腦無法連接怎么辦&#xff1f;遠程桌面連接是遠程管理另一臺計算機時比較常用的方式&#xff0c;在進行電腦遠程控制時&#xff0c;無法連接是常見的問題&#xff0c;以下將從多個方面分析原因并提供解決方法。如果涉及無公網IP目標主機需要遠程桌面連接的…

springboot3.2/3.4+rocketmq5.3.3測試程序的基本例子

想測試下springboot新版中與rocketmq5.3.3的配置使用&#xff0c;今天嘗試了下&#xff0c;記錄如下&#xff1a; 1、首先springboot使用3.2.7&#xff0c;rocketmq使用5.3.3&#xff0c;且使用docker部署rocketmq。 docker pull swr.cn-north-4.myhuaweicloud.com/ddn-k8s/do…

深入剖析AI大模型:TensorFlow

今天來聊一下TensorFlow&#xff0c;任何一門技術我建議還是從它出現的背景開始。因為你這就知道它存在的原因是什么。2015 年&#xff0c;Google 開源了深度學習框架 TensorFlow&#xff0c;一經推出便在學術界和工業界引起巨大反響。當時&#xff0c;深度學習模型的復雜度與日…

【數字后端】- tcbn28hpcplusbwp30p140,標準單元庫命名含義

tcbn28: 代表工藝類型是臺積電28nm工藝hpcplus: 代表工藝平臺是HPC BWP: 其中B代表標準單元的類型是 “standard” base cell&#xff1b;W代表N-well 工藝&#xff0c;放置在 P-substrate上&#xff1b;P表示該 cell 使用的是 P-type transistor layout orientation&#xff1…

KNN算法詳解及Scikit-learn API使用指南

一、KNN算法介紹 K最近鄰(K-Nearest Neighbor, KNN)算法是機器學習中最簡單、最直觀的分類算法之一。它既可以用于分類問題&#xff0c;也可以用于回歸問題。KNN是一種基于實例的學習(instance-based learning)或懶惰學習(lazy learning)算法&#xff0c;因為它不會從訓練數據…

【PMP】項目管理入門:從基礎到環境的體系化拆解

不少技術管理者都有過這樣的困惑&#xff1a; 明明按流程做了項目管理&#xff0c;結果還是延期、超預算&#xff1f;需求變更多到炸&#xff0c;到底是客戶無理還是自己沒管好&#xff1f;跨部門協作像“推皮球”&#xff0c;資源總不到位&#xff1f; 其實&#xff0c;項目失…

【Web前端】簡易輪播圖顯示(源代碼+解析+知識點)

一、簡易輪播圖源代碼 <!DOCTYPE html> <html><head><meta charset"utf-8"><title>簡易輪播圖顯示</title><style type"text/css">*{margin: 0 auto;padding: 0;/* 全局重置邊距 */}p{text-align: center;fon…

電機試驗平臺的用途及實驗范圍

電機試驗平臺是一種專門設計用來對各種類型的電機進行測試和分析的設備。在現代工業中&#xff0c;電機作為驅動力的重要組成部分&#xff0c;在各個領域發揮著至關重要的作用。而為了確保電機的性能、效率和可靠性達到最佳水平&#xff0c;需要進行各種試驗和測試。電機試驗平…

自主/智能的本質內涵及其相互關系

論文地址&#xff1a;無人機的自主與智能控制 - 中國知網 (cnki.net) 自主/智能的本質內涵及其相互關系準則是無人機設計的基本原則。從一般意義上講。自主與智能是兩個不同范疇的概念。自主表達的是行為方式&#xff0c;由自身決策完成某行為則稱之為“自主”。“智能”…

nignx+Tomcat+NFS負載均衡加共享儲存服務腳本

本次使有4臺主機&#xff0c;系統均為centos7&#xff0c;1臺nignx&#xff0c;2臺tomcat&#xff0c;1臺nfs 第一臺配置nignx腳本 #!/bin/bash #xiexianghu 2025.6.24 #nignx配置腳本&#xff0c;centos7#關閉防火墻和SElinux systemctl stop firewalld && system…

zabbix監控Centos 服務器

1.2&#xff1a;本地安裝 先使用wget下載RPM安裝包 然后解壓安裝 >>wget https://repo.zabbix.com/zabbix/6.4/rhel/8/x86_64/zabbix-agent2-6.4.21-release1.el8.x86_64.rpm ##### CENTOS 8 使用這一條>>rpm -ivh zabbix-agent2-6.4.21-release1.el8.x86_64.r…

中科米堆三維掃描儀3D掃描壓力閥抄數設計

三維掃描技術正以數字化手段重塑傳統制造流程。以壓力閥這類精密流體控制元件為例&#xff0c;其內部流道結構的幾何精度直接影響設備運行穩定性與使用壽命。 在傳統設計模式下&#xff0c;壓力閥的逆向工程需經歷手工測繪、二維圖紙繪制、三維建模轉換等多個環節。技術人員需…

Python pytz 時區使用舉例

Python pytz 時區使用舉例 ? 一、Python代碼實現&#xff1a;時區轉換與時間比較 import pytz from datetime import datetime# 1. 獲取當前UTC時間 utc_now datetime.now(pytz.utc)# 2. 轉換為目標時區&#xff08;示例&#xff1a;上海和紐約&#xff09; shanghai_tz py…

vue中ref()和reactive()區別

好的&#xff0c;這是 Vue 3 中 ref() 和 reactive() 這兩個核心響應式 API 之間區別的詳細解釋。 簡單來說&#xff0c;它們是創建響應式數據的兩種方式&#xff0c;主要區別在于處理的數據類型和訪問數據的方式。 核心區別速查表 特性ref()reactive()適用類型? 任何類型 …