改進Transformer,解讀Tokenformer論文:基于參數分詞化重新思考Transformer的擴展策略

Transformer 訓練成本高昂的問題日益凸顯,不僅需要耗費巨額的資金與大量的計算資源,還對環境產生了不可忽視的影響,最近由北京大學與谷歌聯合發表的一篇論文,為這一棘手難題帶來了全新的曙光。論文中提出的創新方案,有望打破 Transformer 訓練成本居高不下的困境,

一、研究動機

如今,很難想象人工智能領域如果沒有Transformer會怎樣。這些模型是大型語言模型的基礎架構,為人工智能帶來了革命性變化。而且,它們的影響力不僅限于自然語言處理領域。在計算機視覺等其他領域,視覺Transformer(ViT)也發揮著重要作用。隨著技術的發展,模型規模不斷擴大,從頭開始訓練模型的成本越來越高,且這種做法難以持續,還引發了環境方面的擔憂。

在這里插入圖片描述
訓練Transformer模型成本高昂

二、引入Tokenformer

我們今天要解讀的論文題目是。該論文對Transformer架構提出了一項引人注目的改進,名為Tokenformer。Tokenformer能夠在增加模型規模時,避免從頭開始重新訓練模型,從而大幅降低成本。

在這里插入圖片描述

三、Transformer與Tokenformer架構對比

讓我們從整體上對比一下傳統Transformer架構和Tokenformer,相關對比圖來自論文。
在這里插入圖片描述

3.1 Transformer整體流程

左邊展示的是原始Transformer架構的簡化圖。底部是輸入的詞元序列。

  1. 輸入首先經過線性投影層,計算注意力模塊的輸入,即矩陣Q、K和V。這一階段涉及模型參數和輸入詞元(token)之間的相互作用,通過線性投影計算得出。
  2. 然后,自注意力組件讓輸入詞元之間相互作用,這一過程通過注意力模塊計算。
  3. 最后,前饋神經網絡(FFN),為下一層生成輸出,這同樣體現了詞元和參數之間通過線性投影計算的相互作用。

3.2 Tokenformer的核心思路

通常,詞元與參數之間的相互作用是通過固定參數大小的線性投影組件計算的。這就導致在增加模型規模時,必須從頭開始訓練。

Tokenformer的主要思路是構建一個完全基于注意力機制的模型,包括詞元與參數之間的相互作用,從而擁有更靈活的架構,支持逐步增加參數數量。

3.3 Tokenformer整體流程

在上面圖的右側,我們可以看到Tokenformer架構的簡化圖。

  1. 為了計算自注意力模塊的輸入(Q、K和V矩陣),我們將輸入詞元輸入到一個名為詞元 - 參數注意力的新組件中。在這個組件中,除了輸入詞元,我們還會傳入參數。輸入詞元代表詞元 - 參數注意力模塊中的查詢部分,參數則代表鍵和值部分。
  2. 接著,我們使用與之前相同的自注意力組件。
  3. 為了為下一層準備輸出,我們用另一個詞元 - 參數注意力模塊取代前饋神經網絡。在這個模塊中,我們將自注意力模塊的輸出作為查詢,同時為鍵矩陣和值矩陣使用不同的參數。

3.4 Tokenformer架構詳解

在這里插入圖片描述

  1. 計算自注意力模塊的輸入:深入研究Tokenformer架構,輸入詞元在經過歸一化處理后,會被送入三個Pattention模塊(Pattention即詞元 - 參數注意力模塊的名稱)。三個Pattention模塊各自擁有權重,分別負責為自注意力模塊創建輸入,即每個Pattention模塊生成一個Q、K或V矩陣。

  2. Pattention與注意力模塊的區別

    • 原始注意力模塊計算公式為:(此處原文未給出原始注意力公式)。 在這里插入圖片描述

    • Pattention模塊計算公式為:
      P a t t e n t i o n ( X , K p , V p ) = Θ ( X ? K p T ) ? V p Pattention(X, K_p, V_p)=\Theta(X ? K_p^T ) ? V_p Pattention(X,Kp?,Vp?)=Θ(X?KpT?)?Vp?

    • 輸入詞元作為查詢,鍵矩陣和值矩陣由Pattention模塊的參數給出。與注意力模塊相比,Pattention模塊使用了帶有不同縮放機制的改進softmax函數(即 Θ \Theta Θ函數),以提高優化的穩定性。

    • X X X K K K相乘后的改進softmax函數將輸入詞元與鍵參數進行匹配,得到注意力分數。然后,利用V參數矩陣對注意力分數進行加權,生成該模塊的最終輸出。

  3. 用Pattention取代FFN:在標準自注意力模塊處理完三個Pattention模塊的輸出后,我們不再使用前饋神經網絡,而是使用兩個連續的Pattention模塊。從上圖左下角可以看到,在這兩個模塊之間,我們通過殘差連接將其與輸入詞元合并。

  4. 模型的增量式擴展:在架構圖的右下角,展示了通過添加新參數來逐步增加模型規模的示意圖。我們在每個Pattention模塊的鍵矩陣和值矩陣中追加更多的參數詞元行。已訓練的參數詞元會被保留,無需從頭開始訓練。然后,我們訓練規模更大的模型,并在這個過程中更新所有詞元。從下面的結果可以看出,與從頭開始訓練相比,增量式訓練的模型訓練速度要快得多。

四、實驗結果

在這里插入圖片描述

上圖展示了Tokenformer相對于從頭開始訓練的Transformer在性能和訓練成本方面的對比。

藍色線代表使用3000億詞元從頭開始訓練的Transformer模型。不同大小的圓圈代表不同的模型規模,中間灰色圓圈列出了具體規模。其他線條代表Tokenformer模型,每種顏色代表訓練增量版本時使用的不同詞元數量。例如,紅線代表模型從1.24億參數擴展到14億參數,在用于從頭訓練的3000億詞元中,僅使用了300億詞元進行訓練。最終版本在性能上與相同規模的Transformer相當,但訓練成本卻大幅降低!黃線表明,使用600億詞元訓練增量版本的模型,性能優于Transformer,且訓練成本更低。

五、參考文獻與鏈接

  • 論文頁面
  • 代碼
  • AI Papers Academy解析

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/68022.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/68022.shtml
英文地址,請注明出處:http://en.pswp.cn/web/68022.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【STM32】HAL庫USB虛擬U盤MSC配置及采用自帶的Flash作為文件系統

【STM32】HAL庫USB虛擬U盤MSC實現配置及采用自帶的Flash作為文件系統 本文將自帶的Flash作為文件系統 通過配置USB的MSC功能實現虛擬U盤 沒有單獨建立FATFS文件系統 僅僅是配置USB和Flash讀寫而已 當然 這里也可以用外部Flash等等 也可以配置文件系統來進行套殼 但總體而言不如…

Noise Conditional Score Network

NCSN p σ ( x ~ ∣ x ) : N ( x ~ ; x , σ 2 I ) p_\sigma(\tilde{\mathrm{x}}|\mathrm{x}) : \mathcal{N}(\tilde{\mathrm{x}}; \mathrm{x}, \sigma^2\mathbf{I}) pσ?(x~∣x):N(x~;x,σ2I) p σ ( x ~ ) : ∫ p d a t a ( x ) p σ ( x ~ ∣ x ) d x p_\sigma(\mathrm…

jdk8 G1收集器怎么手動調優

在 JDK 8 中,手動調優 G1 垃圾收集器可以通過以下步驟和參數進行: 1. 啟用 G1 垃圾收集器 要啟用 G1 垃圾收集器,需要在 JVM 啟動參數中添加以下選項: -XX:UseG1GC 這個參數告訴 JVM 使用 G1 作為垃圾收集器。 2. 設置堆內存…

Nginx通過設置自定義標記識別代理調用

Nginx通過設置自定義標記識別代理調用 業務場景 最近遇到一個業務場景,部署在云端服務器的一個平臺,接口提供給多個現場調用,其中一個現場是通過nginx代理服務器代理轉發到云服務器,另外一個現場則是直接通過云服務器接口進行調…

前端知識速記:POST和GET

前端知識速記:POST和GET請求的區別 一、GET請求概述 GET請求是一種用于獲取服務器資源的請求方式。**使用GET請求時,數據通過URL傳遞,適合用于獲取數據而不修改資源。**以下是GET請求的一些基本特征: 數據附在URL后面&#xff…

axios如何利用promise無痛刷新token

目錄 需求 需求解析 實現思路 方法一: 方法二: 兩種方法對比 實現 封裝axios基本骨架 instance.interceptors.response.use攔截實現 問題和優化 如何防止多次刷新token 同時發起兩個或以上的請求時,其他接口如何重試 最后完整代…

【DeepSeek系列】01 DeepSeek-V1 快速入門

1、DeepSeek簡介 2024年底,DeepSeek 相繼推出了其第一代推理大模型:DeepSeek-R1-Zero 和 DeepSeek-R1。 DeepSeek-R1-Zero 是一個通過大規模強化學習(RL)訓練的模型,訓練過程中沒有使用監督微調(SFT&…

基于LabVIEW的Modbus-RTU設備通信失敗問題分析與解決

在使用 LabVIEW 通過 Modbus-RTU 協議與工業設備進行通信時,可能遇到無法正常發送或接收指令的問題。常見原因包括協議參數配置錯誤、硬件連接問題、數據幀格式不正確等。本文以某 RGBW 控制器調光失敗為例,提出了一種通用的排查思路,幫助開發…

【初/高中生講機器學習】0. 本專欄 “食用” 指南——寫在一周年之際?

創建時間:2025-01-27 首發時間:2025-01-29 最后編輯時間:2025-01-29 作者:Geeker_LStar 你好呀~這里是 Geeker_LStar 的人工智能學習專欄,很高興遇見你~ 我是 Geeker_LStar,一名高一學生,熱愛計…

密云生活的初體驗

【】在《歲末隨筆之碎碎念》里,我通告了自己搬新家的事情。乙巳年開始,我慢慢與大家分享自己買房裝修以及在新家的居住體驗等情況。 跳過買房裝修的內容,今天先說說這三個月的生活體驗。 【白河】 潮白河是海河水系五大河之一,貫穿…

系統通解:超多視角理解

在科學研究和工程應用中,我們常常面臨各種復雜系統,需要精確描述其行為和變化規律。從物理世界的運動現象,到化學反應的進程,再到材料在受力時的響應,這些系統的行為往往由一系列數學方程來刻畫。通解,正是…

Python爬蟲:1藥城店鋪爬蟲(完整代碼)

??????????歡迎來到我的博客?????????? 🐴作者:秋無之地 🐴簡介:CSDN爬蟲、后端、大數據領域創作者。目前從事python爬蟲、后端和大數據等相關工作,主要擅長領域有:爬蟲、后端、大數據…

openwebui入門

1 簡介 ?Open WebUI?(網址是openwebui.com)是一個高度可擴展、功能強大且用戶友好的自托管Web用戶界面,專為完全離線操作設計,編程語言是python。它支持對接Ollama和OpenAI兼容的API的大模型。? Open WebUI?在架構上是一種中…

Day36-【13003】短文,數組的行主序方式,矩陣的壓縮存儲,對稱、三角、稀疏矩陣和三元組線性表,廣義表求長度、深度、表頭、表尾等

文章目錄 本次課程內容第四章 數組、廣義表和串第一節 數組及廣義表數組的基本操作數組的順序存儲方式-借用矩陣行列式概念二維數組C語言對應的函數-通常行主序方式 矩陣的壓縮存儲對稱矩陣和三角矩陣壓縮存儲后,采用不同的映射函數稀疏矩陣-可以構成三元組線性表三…

Android原生開發入門

1. 資源地址 Android官方教程Android參考手冊 2. 必看基礎模塊 應用基礎知識View 綁定 :綁定相當于Qt中的ui文件生成界面代碼的機制,Qt中的ucc會自動將ui文件編譯成ui_xxxx.h文件,Android開發中也一樣。 Android中自動生成的代碼在&#x…

3-Not_only_base/2018網鼎杯

3-Not_only_base 打開code MCJIJSGKPZZYXZXRMUW3YZG3ZZG3HQHCUS 分析: 首先看題知道解密過程中肯定有base解密。 知識點1: Base64字符集: 包含大小寫字母(A-Z、a-z)、數字(0-9)以及兩個特殊字…

deepseek、qwen等多種模型本地化部署

想要在本地部署deepseek、qwen等模型其實很簡單,快跟著小編一起部署吧 1 環境搭建 1.1下載安裝環境 首先我們需要搭建一個環境ollama,下載地址如下 :Ollama 點擊Download 根據自己電腦的系統選擇對應版本下載即可 1.2 安裝環境(window為例) 可以直接點擊安裝包進行安…

02/06 軟件設計模式

目錄 一.創建型模式 抽象工廠 Abstract Factory 構建器 Builder 工廠方法 Factory Method 原型 Prototype 單例模式 Singleton 二.結構型模式 適配器模式 Adapter 橋接模式 Bridge 組合模式 Composite 裝飾者模式 Decorator 外觀模式 Facade 享元模式 Flyw…

Idea ? Maven 選項

Idea ? Maven 選項 1. 在 Idea 項?上右鍵2. 選中 Maven 選項 如果在創建 Spring/Spring Boot 項?時,Idea 右側沒有 Maven 選項,如下圖所示: 此時可以使?以下?式解決。 1. 在 Idea 項?上右鍵 2. 選中 Maven 選項 選中 Maven 之后&#…

企業百科和品牌百科創建技巧

很多人比較困惑,創建百科詞條需要注意哪些事情?為什么參考提交了權威新聞參考資料還是沒有通過,下面小馬識途營銷顧問就為大家解答疑惑: 1、品牌詞以及企業詞提交 1)如果沒有詞條,我們可以通過平臺提供的急…