AFT:Attention Free Transformer論文筆記

原文鏈接

2105.14103 (arxiv.org)

原文翻譯

Abstract

我們介紹了 Attention Free Transformer (AFT),這是 Transformer [1] 的有效變體,它消除了點積自注意力的需要。在 AFT 層,鍵key和值value首先與一組學習的位置偏差position biases相結合,其結果以元素方式與查詢相乘。這種新操作的內存復雜度為線性 w.r.t。上下文大小和特征維度,使其與大輸入和模型大小兼容。我們還引入了 AFT-local 和 AFT-conv,這是兩個模型變體,它利用了局部性和空間權重共享的思想,同時保持全局連通性。我們在兩個自回歸建模任務(CIFAR10 和 Enwik8)以及圖像識別任務(ImageNet-1K 分類)上進行了廣泛的實驗。我們表明 AFT 在所有基準測試中都表現出具有競爭力的性能,同時提供了出色的效率。

1 Introduction

以Transformers[1]為代表的自注意機制推動了各種機器學習問題的發展,包括語言理解[2,3]和計算機視覺應用[4 - 6]。與卷積神經網絡(cnn)或循環神經網絡(rnn)等經典模型架構不同,變形金剛可以在序列中的每對元素之間進行直接交互,這使得它們在捕獲長期依賴關系方面特別強大。

然而,變壓器需要很高的計算成本。這一挑戰的原因是需要執行具有二次時間和空間復雜性的注意力操作,這涉及上下文大小。這使得transformer難以擴展到具有大上下文大小的輸入。最近的許多工作都致力于解決transformer的可伸縮性問題[7 -13]。這里的共同思想是近似全注意力操作,使用的技術包括稀疏性、局域敏感散列、低秩分解、核近似等。

在本文中,我們提出了一個不使用或近似標準點積注意力的計算模塊。因此,我們將我們的模型命名為不使用注意力的Transformer?(AFT)。與點積注意力類似,AFT 由查詢、鍵和值 (Q, K, V) 三個量的交互組成。不同之處在于,在 AFT 中,鍵和值(上下文)首先與一組可學習的位置偏執相結合然后使用元素乘法將查詢與縮減的上下文相結合。有關說明,請參見圖 2。

AFT 保留了在上下文中任意兩個點之間的直接交互,這是點積注意力的主要優勢。事實上,AFT 可以解釋為執行注意力,其中注意力頭的數量與模型特征維度相同,而注意力圖不需要顯式計算(詳見第 3.1 節)。這導致內存復雜度線性 w.r.t。輸入和模型大小。

Q、K、V 的重新排列計算排序在最近的“線性化注意力”工作中也被發現 [11, 13 –15]。不同之處在于 AFT 以元素方式組合 k 和 v,而所有線性注意力論文都依賴于矩陣點積。后一種方法導致復雜度與模型特征維度的二次方,這對大型模型大小不友好。有關 AFT 與其他變體相比的復雜性分析,請參見表 1。

根據經驗,我們觀察到經過訓練的 Transformer 往往表現出廣泛的局部模式(見圖 1)。這促使我們提出了兩種 AFT 變體:AFT-local 和 AFT-conv。在 AFT-local 中,學習到的位置偏差被限制在局部區域,同時保持全局連接。AFT-conv 通過施加空間權重共享進一步擴展了這種設計,有效地使其成為具有全局感受野的 CNN 變體。我們表明,局部性約束不僅提供了更好的參數計算效率,而且大大提高了模型在所有任務中的表現。

我們在圖像自回歸建模、字符級語言建模和圖像分類任務上使用 AFT 進行了實驗。我們表明,AFT 提供了具有競爭力的性能,通常匹配或擊敗標準 Transformer 和其他變體(的準確度),同時提供了出色的效率。我們還對 AFT 的幾種設計選擇進行了廣泛的消融研究,并討論了它的獨特屬性,例如與 Transformer的兼容性、稀疏性和輸入大小的可變性。

2 Multi-Head Attention

Transformers 的核心是多頭注意力 (MHA) 操作。在自注意模式下,給定一個輸入序列 X ∈ R^T ×d 和頭部的數量 h,MHA 對每個頭部 i 執行縮放的點積注意力,定義為:

其中 W Q i ∈ R^d×dk , W K i ∈ R^d×dk , W V i ∈ R^d×dv 是頭部 i 的線性變換,σ 是默認設置為 sof tmax 函數的非線性(應用于矩陣的每一行)。dk, dv 分別是鍵和值的維度。MHA 將 h 個注意力頭的輸出沿通道維度拼接起來,得到特征維度 hdv。除非另有說明,我們假設dk=dv和h=d/dk。這意味著查詢、鍵和值在每個頭內都是相同的維度,輸出維度與輸入的維度匹配。

3 Methodology

3.1 Attention Free Transformer

我們現在定義 Attention free Transformer (AFT),它是 MHA 的插件替換,而不需要更改 Transformer 的其他架構方面。給定輸入 X,AFT 首先將它們線性變換為 Q = XW^Q, K=XW^K,V =XW^V ,然后進行以下操作 2:

其中 是元素乘積; σq 是應用于query的非線性,默認為 sigmoid; w ∈ RT ×T 是學習的成對位置偏差(參見圖 2 的說明)。

簡而言之,對于每個目標位置t, AFT執行value的加權平均值,其結果與query進行元素間乘法相結合。具體來說,相結合的權重只是由鍵和一組學習得到的成對位置偏差組成。這提供了不需要計算和存儲昂貴的注意力矩陣的直接優勢,同時像MHA那樣維護查詢和值之間的全局交互。為了進一步了解AFT與MHA的關系,我們可以將方程2改寫為:

這里我們使用上標 i 來索引矩陣的特征維度; <·, · >; 表示向量的點積。在這個重新排列的形式中,我們能夠再次根據注意力來表達 AFT。具體來說,對于每個位置,我們對每個維度都有一個注意力向量 ai t ∈ RT,由 Q、K、w 組成。換句話說,AFT 可以解釋為執行隱式注意力,頭部數量與特征維度一樣多,其中注意力矩陣采用分解形式。

下略

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/42588.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/42588.shtml
英文地址,請注明出處:http://en.pswp.cn/web/42588.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

ubuntu22安裝Docker并配置

安裝Docker sudo apt install docker.io使用腳本自動安裝docker&#xff1a; curl -fsSL get.docker.com -o get-docker.sh sudo sh get-docker.sh --mirror Aliyun配置國內鏡像 /etc/docker/daemon.json 推薦配置&#xff1a; {"registry-mirrors": ["htt…

Lab1 論文 MapReduce

目錄 &#x1f339;前言 &#x1f985;2 Programming Model &#x1f33c;2.1 Example &#x1f33c;2.2 Types &#x1f33c;2.3 More Examples &#x1f985;3 Implementation(實現) &#x1f33c;3.1 ~ 3.3 &#x1f33c;3.4 ~ 3.6 &#x1f985;4 Refinemen…

代理IP有什么用途

代理IP主要有以下應用場景&#xff1a; 1、隱藏真實IP地址&#xff1a;通過使用代理IP&#xff0c;可以隱藏真實的網絡請求來源&#xff0c;保護用戶隱私。 2、繞過網絡限制&#xff1a;一些地區或網絡環境可能存在訪問限制&#xff0c;通過使用代理IP可以繞過這些限制&#xf…

Anaconda+Pycharm 項目運行保姆級教程(附帶視頻)

最近很多小白在問如何用anacondapycharm運行一個深度學習項目&#xff0c;進行代碼復現呢&#xff1f;于是寫下這篇文章希望能淺淺起到一個指導作用。 附視頻講解地址&#xff1a;AnacondaPycharm項目運行實例_嗶哩嗶哩_bilibili 一、項目運行前的準備&#xff08;軟件安裝&…

BN的 作用

1、背景&#xff1a; 卷積神經網絡的出現&#xff0c;網絡參數量大大減低&#xff0c;使得幾十層的深層網絡成為可能。然而&#xff0c;在殘差網絡出現之前&#xff0c;網絡的加深使得網絡訓練變得非常不穩定&#xff0c;甚至出現網絡長時間不更新或者不收斂的情形&#xff0c;…

ER模型理論和三范式

ER模型理論和三范式 各種關系多對一一對一一對多多對多 三范式理論函數依賴完全函數依賴部分函數依賴傳遞&#xff08;間接&#xff09;函數依賴 第一范式&#xff1a;屬性&#xff08;表字段&#xff09;不可切割第二范式&#xff1a;不能存在 部分函數依賴(都存在完全函數依賴…

2款一鍵word生成ppt的AI工具,讓職場辦公更為簡單!

在當下主打異步溝通的職場辦公環境中&#xff0c;我們與很多人的溝通&#xff0c;都是通過書面材料來達成的&#xff0c;這就讓 Word 或文檔編輯軟件變得更為重要&#xff0c;與此同時&#xff0c;有時為了凸現書面材料中的重點&#xff0c;我們還要將 word 文檔轉換為 ppt 來進…

2024年06月CCF-GESP編程能力等級認證Python編程五級真題解析

本文收錄于專欄《Python等級認證CCF-GESP真題解析》&#xff0c;專欄總目錄&#xff1a;點這里&#xff0c;訂閱后可閱讀專欄內所有文章。 一、單選題&#xff08;每題 2 分&#xff0c;共 30 分&#xff09; 第 1 題 在Python中&#xff0c;print((c for c in “GESP”))的輸…

MiniGPT-Med 通用醫學視覺大模型:生成醫學報告 + 視覺問答 + 醫學疾病識別

MiniGPT-Med 通用醫學視覺大模型&#xff1a;生成醫學報告 視覺問答 醫學疾病識別 提出背景解法拆解 論文&#xff1a;https://arxiv.org/pdf/2407.04106 代碼&#xff1a;https://github.com/Vision-CAIR/MiniGPT-Med 提出背景 近年來&#xff0c;人工智能&#xff08;AI…

如何讓自動化測試框架更自動化?

一、引言 ?對于大廠的同學來說&#xff0c;接口自動化是個老生常談的話題了&#xff0c;畢竟每年的MTSC大會議題都已經能佐證了&#xff0c;不是大數據測試&#xff0c;就是AI測試等等&#xff08;越來越高大上了&#xff09;。不可否認這些專項的方向是質量智能化發展的方向&…

刷題(day02)

1、leetcode136.刪除鏈表的結點 給定單向鏈表的頭指針和一個要刪除的節點的值&#xff0c;定義一個函數刪除該節點。 返回刪除后的鏈表的頭節點。 示例 1: 輸入: head [4,5,1,9], val 5 輸出: [4,1,9] 解釋: 給定你鏈表中值為 5 的第二個節點&#xff0c;那么在調用了你的函數…

Windows圖形界面(GUI)-SDK-C/C++ - 應用程序結構

公開視頻 -> 鏈接點擊跳轉公開課程博客首頁 -> 鏈接點擊跳轉博客主頁 目錄 入口函數 窗口注冊 窗口創建 窗口顯示 窗口更新 消息循環 窗口過程 窗口銷毀 調試信息 示例代碼 入口函數 在Windows應用程序中&#xff0c;WinMain是主函數&#xff0c;作為應用程序…

網格化監控:Eureka與分布式服務網格的協同監控

網格化監控&#xff1a;Eureka與分布式服務網格的協同監控 引言 在微服務架構中&#xff0c;服務網格技術提供了一種有效的方式來管理和監控服務間的通信。Eureka作為Netflix開源的服務發現框架&#xff0c;雖然本身不直接提供服務網格的監控功能&#xff0c;但可以與服務網格…

設計模式探索:適配器模式

1. 適配器模式介紹 1.1 適配器模式介紹 適配器模式&#xff08;adapter pattern&#xff09;的原始定義是&#xff1a;將一個類的接口轉換為客戶期望的另一個接口&#xff0c;適配器可以讓不兼容的兩個類一起協同工作。 適配器模式的主要作用是把原本不兼容的接口&#xff0c…

【Python_GUI】thinker布局管理——place方法

place方法可以設置組件的大小以及組件在容器中的精確位置&#xff0c;其參數及含義如下&#xff1a; 參數含義X設置組件距離窗口左側的水平距離y設置組件距離窗口頂部的垂直距離width設置組件的寬度height設置組件的高度relx設置組件距離窗口左側的相對距離&#xff0c;范圍為…

c++初階學習----入門(上)

大家好啊。最近學習了一點關于c的知識。這不就迫不及待的來與大家分享了嘛。但我這也是現學現賣所以咧。有很多遺落甚至不對的地方希望大家可以在評論區里面指出來。這樣也可以增加大家對知識的鞏固。 c語言與c的聯系 不知道大家看到c會不會不由自主的聯想到C語言啊。畢竟都是…

手機自帶錄屏在哪?6個軟件教你快速進行手機錄屏

手機自帶錄屏在哪&#xff1f;6個軟件教你快速進行手機錄屏 手機自帶的錄屏功能可以讓你輕松錄制屏幕上的內容&#xff0c;記錄游戲過程、制作教程或捕捉其他重要時刻。不同品牌的手機可能在不同位置提供錄屏功能。以下是一些常見的手機品牌及其錄屏功能位置&#xff0c;以及一…

【康復學習--LeetCode每日一題】724. 尋找數組的中心下標

題目&#xff1a; 給你一個整數數組 nums &#xff0c;請計算數組的 中心下標 。 數組 中心下標 是數組的一個下標&#xff0c;其左側所有元素相加的和等于右側所有元素相加的和。 如果中心下標位于數組最左端&#xff0c;那么左側數之和視為 0 &#xff0c;因為在下標的左側不…

運動愛好者的新選擇:哈氪聆光氣傳導耳機,輕巧又安全

平時不管是漫步街頭、騎行穿梭&#xff0c;還是乘坐公共交通時&#xff0c;我總是喜歡佩戴耳機&#xff0c;借此隔絕外部的喧囂&#xff0c;享受音樂的樂趣。在戶外使用耳機&#xff0c;我更傾向于選擇氣傳導耳機&#xff0c;它們更符合我的需求&#xff0c;因為這種耳機能讓我…

優雅下線的藝術:Eureka服務管理深度解析

優雅下線的藝術&#xff1a;Eureka服務管理深度解析 引言 在微服務架構中&#xff0c;服務的動態注冊與發現是保證系統高可用性的關鍵。Eureka作為Netflix開源的服務發現框架&#xff0c;提供了服務注冊與發現的基本功能。然而&#xff0c;服務在下線時如何做到"優雅&qu…