閱讀筆記 | Transformers in Time Series: A Survey

閱讀論文:

Wen, Qingsong, et al. “Transformers in time series: A survey.” arXiv preprint arXiv:2202.07125 (2022).

這篇綜述主要對基于Transformer的時序建模方法進行介紹。論文首先簡單介紹了Transformer的基本原理,包括位置編碼、多頭注意力機制、前饋全連接網絡等模塊。接著提出了從網絡結構和應用領域兩個角度對時序Transformer進行分類。

  • 從網絡結構角度,總結了在模塊級別和架構級別對Transformer進行的改進,以適應時序建模的特點

    • 位置編碼模塊
      • 簡單位置編碼:經典Transformer中用到的,手工設計,能提取位置信息但無法充分利用時序數據的重要特征
      • 可學習位置編碼:使用別的模型或增加Transformer嵌入層來學習時序的位置編碼的向量表示,獲得更靈活更expressive的位置編碼
      • 時間戳編碼:在Informer和Autoformer里將年月日時分秒和節假日等作為額外的位置編碼信息,通過可學習位置編碼方法得到其向量表示
    • 注意力模塊
      • 引入稀疏偏差到注意力機制來降低普通注意力機制的平方復雜度
      • 探索自注意力矩陣的低秩特性來加速計算(例如Informer和FEDformer)
    • 分層架構設計
      • 基于max-pooling下采樣實現分辨率折半(Informer)
      • 基于C叉樹以不同分辨率序列作為節點,并設計相同分辨率尺度和不同分辨率尺度間的注意力機制以捕獲其分辨率尺度間的時間依賴(Pyraformer)
  • 從應用角度,概述了Transformer在預測、異常檢測和分類任務中的不同變體的應用情況。

    • 預測

      • 時序預測

        • 模塊級的變體

          • 設計新的注意力模塊(占大部分研究)
            請添加圖片描述

            • LogTrans:提出卷積自注意力,使用因果卷積來生成自注意力層的queries和keys,并引入稀疏bias和Logsparse mask到自注意力層
            • Informer:根據queries和keys相似度選擇主要的queries,還設計了生成式的decoder來避免在長期預測時做單步自回歸預測的累積誤差
            • AST:使用生成對抗編碼器-解碼器框架訓練稀疏Transformer模型做時序預測,也可以避免累積誤差
            • Pyraformer:設計了一個分層金字塔狀注意力模塊,基于上述的C叉樹捕獲不同分辨率時序的時間依賴
            • Quatformer:基于四元數提出learning-to-rotate注意力,引入了可學習的周期和相位信息使得模型可以學習到復雜的時序周期模式
            • FEDformer:通過傅里葉變換和小波變換在頻域實現注意力操作以降低計算與存儲復雜度
          • 增強可解釋性

            • TFT:設計了一個針對多種輸入數據優化的multi-horizon預測模型,通過合并全局、時序依賴和事件來實現可解釋性
            • ProTran:Transformer和狀態空間模型(SSM)結合,實現基于變分推理的生成建模和推理
            • SSDNet:Transformer和SSM結合,用Transformer學習時間模式并估計SSM參數,再用SSM對時序數據進行季節性趨勢分解以實現可解釋性
          • 探索新的時序數據標準化方法

            • 目前只有Non-stationary Transformer:探索了時序預測任務中的過度平穩化問題,并實現了用于序列平穩化和去平穩化的插件模塊
          • 利用token輸入的偏差

            • Autoformer:基于分段表示機制,設計了季節性趨勢分解架構。
            • PatchTST:利用通道無關實現多通道序列embedding共享,子序列patch設計分割時序數據為子序列patch作為Transformer輸入
            • Crossformer:利用了跨維度依賴進行多元時序預測,通過維度分段embedding將輸入嵌入到二維向量以保留時間和維度信息,并用兩階段注意力層來捕獲這種跨維度依賴。
        • 架構級的變體

          • Triformer:三角樹形結構,輕量且線性復雜度
          • Scaleformer:提出多時間尺度架構,并可通過在多尺度上共享參數地迭代細化預測時間序列來提高性能
      • 時空預測

        • Traffic Transformer:加上圖神經網絡模塊捕獲空間依賴性
        • Spatial-temporal Transformer:在前者基礎上加上了空間的Transformer block和圖卷積神經網絡來更好捕獲空間依賴性
        • Spatio-temporal graph Transformer:設計了基于注意力的圖卷積機制來學習復雜時空注意力模式
        • Earthformer:提出立方體注意力機制,將數據分解為立方體并應用該機制
      • 事件預測(不規則且時間間距不等的事件序列)

        • 在傳統時間點過程(TPP)方法上結合Transformer,通過嵌入所有可能時間和時間來擴展該方案
    • 異常檢測(可用于電力數據的跳變異常點檢測)

      • TranAD提出使用對抗訓練來放大重建誤差,增強Transformer的異常檢測能力。
      • MT-RVAE 設計了多尺度Transformer,同時整合全局和局部時序信息。
      • TransAnomaly將Transformer與VAE結合,實現訓練成本的大幅降低。
      • GTA 借鑒圖神經網絡思想,模擬變量之間的影響傳播機制。
      • AnomalyTrans通過建模先驗關聯和序列關聯的方式增強異常點的區分度。
    • 分類任務

      • GTN使用雙塔結構分別建模時間步和通道注意力,通過可學習加權融合特征,在多元時間序列分類任務上取得SOTA
      • [Ru?wurm and K?rner, 2020] 應用基于自注意力的Transformer獲得了衛星圖像時間序列分類的SOTA
      • TARNet設計了學習任務相關數據重構的Transformer,利用mask和重構時間步的注意力機制提升了分類性能
      • [Yuan and Lin, 2020] 在衛星圖像時間序列分類中應用了自監督預訓練的Transformer來緩解數據不足
      • [Zerveas et al., 2021] 提出了無監督預訓練框架,使用比例mask數據進行模型預訓練后微調
      • [Yang et al., 2021] 使用預訓練語音模型進行時間序列分類任務遷移學習,在多個數據集上獲

該論文還通過實驗分析了 Transformer在時序建模中的魯棒性、模型大小和季節性分解等多個方面。作者在ETTm2數據集上針對不同配置的時序Transformer進行了實驗分析,以研究它們在時序建模中的工作方式。

魯棒性分析表明,許多仔細設計的Transformers在輸入序列加長時,性能快速惡化。這使它們在長期預測中實際效果有限。需要更多工作來充分利用長序列輸入。

模型大小分析發現,增加Transformer層數并不一定改善預測效果,3-6層的Transformer通常效果更好。這提出了如何設計更深層Transformer架構的問題。

季節性-趨勢分解分析發現,這種分解可以顯著提升Transformer在時序預測中的表現,不同模塊提升幅度在50-80%。這一發現值得進一步研究設計更高級的分解方案。

最后文章提出了未來可能的研究方向,包括為時序Transformer引入先驗偏置、與圖神經網絡結合、預訓練模型、架構級變體設計和神經架構搜索等。

個人思考

  • 該調研在時空預測方面的調研啟發了對圖神經網絡的利用,而在電力負荷預測中的某些場景,也許可以對電網結構進行考慮,將電網的拓撲結構、輸電距離和輸電損耗等等要素加以考慮,并以立方體Transformer等方法將空間信息數據的embedding向量放到Transformer進行處理。
  • 在Transformer應用于異常檢測的方面,無監督Transformer被廣泛研究。但在考慮進一步應用落地到電力行業時,例如用于電負荷突變點等異常點檢測時,可能需要考慮到如TFT中對多種數據源的利用,特別是未來可知數據的輸入。能否將無監督重建任務范式與TFT中這種輸入數據模式進行結合是一個值得思考的問題。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/718151.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/718151.shtml
英文地址,請注明出處:http://en.pswp.cn/news/718151.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

OPENAI SORA:未來視頻創作的新引擎——淺析其背后的人工智能算法

Sora - 探索AI視頻模型的無限可能 隨著人工智能技術的飛速發展,AI視頻模型已成為科技領域的新熱點。而在這個浪潮中,OpenAI推出的首個AI視頻模型Sora,以其卓越的性能和前瞻性的技術,引領著AI視頻領域的創新發展。本文將探討SORA的…

回歸預測 | Matlab實現RIME-BP霜冰算法優化BP神經網絡多變量回歸預測

回歸預測 | Matlab實現RIME-BP霜冰算法優化BP神經網絡多變量回歸預測 目錄 回歸預測 | Matlab實現RIME-BP霜冰算法優化BP神經網絡多變量回歸預測預測效果基本描述程序設計參考資料 預測效果 基本描述 1.Matlab實現RIME-BP霜冰算法優化BP神經網絡多變量回歸預測(完整…

自動化測試介紹、selenium用法(自動化測試框架+爬蟲可用)

文章目錄 一、自動化測試1、什么是自動化測試?2、手工測試 vs 自動化測試3、自動化測試常見誤區4、自動化測試的優劣5、自動化測試分層6、什么項目適合自動化測試 二、Selenuim1、小例子2、用法3、頁面操作獲取輸入內容模擬點擊清空文本元素拖拽frame切換窗口切換/標…

十五 超級數據查看器 講解稿 外觀設置

十五 超級數據查看器 講解稿 外觀設置 視頻講座地址 講解稿全文: 大家好,今天講解超級數據查看器,詳情界面的外觀設置。 首先,我們打開超級數據查看器。 本節課以成語詞典為例來做講述。 我們打開成語詞典這個表,隨便選一條記錄點擊&#x…

AutoSAR(基礎入門篇)13.4-Mcal Dio代碼分析

目錄 一、文件結構 二、動態代碼 1、arxml文件 2、Dio_Cfg.h 3、Dio_PBCfg.c 4、小結

【虛擬機安裝centos7后找不到網卡問題】

最近開始學習linux,看著傳智播客的教學視頻學習,里面老師用的是centos6.5,我這邊裝的是centos7最新版的 結果到了網絡配置的這一節,卡了我好久。 我在centos一直找不到我的網卡eth0,只有一個回環網口,在/…

什么是MVC和MVVM

**MVC和MVVM是兩種流行的軟件架構模式,它們在前端開發中被廣泛采用來組織代碼和管理應用程序的復雜性**。具體如下: MVC(Model-View-Controller): 1. 模型(Model):負責管理數據和業…

軟考高級:主動攻擊和被動攻擊概念和例題

作者:明明如月學長, CSDN 博客專家,大廠高級 Java 工程師,《性能優化方法論》作者、《解鎖大廠思維:剖析《阿里巴巴Java開發手冊》》、《再學經典:《Effective Java》獨家解析》專欄作者。 熱門文章推薦&am…

第五套CCF信息學奧賽c++練習題 CSP-J認證初級組 中小學信奧賽入門組初賽考前模擬沖刺題(選擇題)

第五套中小學信息學奧賽CSP-J考前沖刺題 1、不同類型的存儲器組成了多層次結構的存儲器體系,按存取速度從快到慢排列的是 A、快存/輔存/主存 B、外存/主存/輔存 C、快存/主存/輔存 D、主存/輔存/外存 答案:C 考點分析:主要考查計算機相關知識&…

靜態鏈表(3)

尾插函數 尾插就比頭插多了一步找尾巴,其他均一樣 尾插步驟畫圖 1.找到空閑結點3 2.空鏈踢空點,穿透刪除 先綁后面 再接前面,就完成插入了 綜上所述,靜態鏈表就是處理兩條鏈表,靜態鏈表總的執行一次插入或刪除&#…

Netty NIO ByteBuffer 簡單實驗

1.概要 準備學一下Netty,先從NIO的三大組件開始。先ByteBuffer 2.代碼 2.1 主函數 package com.xjc.springcloundtest;import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import java.nio.ByteBuffer; import java.nio…

【大廠AI課學習筆記NO.62】模型的部署

我們歷盡千辛萬苦,總算要部署模型了。這個系列也寫到62篇,不要著急,后面還有很多。 這周偷懶了,一天放出太多的文章,大家可能有些吃不消,從下周開始,本系列將正常更新。 這套大廠AI課&#xf…

[python] dict類型變量寫在文件中

在Python中,如果你想要將一個字典變量以具有可讀性的格式寫入文件,并且指定縮進為2個空格,你可以使用json模塊來實現。json模塊提供了一種很方便的方法來進行序列化和反序列化Python對象。下面是一個具體的示例: 字典變量以具有可…

【劍指offer--C/C++】JZ3 數組中重復的數字

一、題目 二、本人思路及代碼 這道題目它要求的時間空間利用率都是n,那么可以考慮創建一個長度為n的數組repeat初始化為0,下標代碼出現的數字,下標對應的數組內容代表該下標數字出現的次數。然后遍歷提供的數組,每出現一個數字&a…

超詳細多表查詢詳解-多表關系-多表查詢-子查詢

多表關系 一對多關系:這是最常見的關系類型,它表示在兩個表之間,一個表中的記錄可以與另一個表中的多個記錄相關聯。例如,一個班級(父表)可以有多個學生(子表),但每個學…

市場復盤總結 20240301

僅用于記錄當天的市場情況,用于統計交易策略的適用情況,以便程序回測 短線核心:不參與任何級別的調整,采用龍空龍模式 一支股票 10%的時候可以操作, 90%的時間適合空倉等待 二進三: 進級率中 40% 最常用的…

Linux高級編程:進程(一)

1、進程 1.1什么是進程&#xff1a;進行中的程序&#xff08;正在運行中的程序&#xff09;-process過程 程序的一次執行過程 - 進程 hello.c -- 程序源代碼 a.out -- 可執行程序 1.2程序和進程的關系&#xff1a; 程序<------>進程 1.3進程怎么來的&#xff1a; 程…

http 協議深入介紹

一&#xff0c;http 相關概念 &#xff08;一&#xff09;關鍵名詞 1&#xff0c;互聯網 是網絡的網絡&#xff0c;是所有類型網絡的母集 2&#xff0c;因特網 世界上最大的互聯網網絡。即因特網概念從屬于互聯網概念。習慣上&#xff0c;大家把連接在因特網上的計算機都成…

碼界深潛:全面解讀軟件工程的藝術與科學

&#x1f3e1; 基石構筑篇——軟件工程基礎理論及技能 &#x1f522; 編程語言選型與精修 于軟件工程之浩瀚宇宙中&#xff0c;編程語言猶如各色畫筆&#xff0c;每種語言的特性對應不同的創作領域。譬如Java倚仗跨平臺兼容性和強大的面向對象機制&#xff0c;在企業級應用程序…

【大廠AI課學習筆記NO.59】(12)過擬合與欠擬合

擬合就是調整參數和模型&#xff0c;讓結果無限接近真實值的過程。 我們先來了解個概念&#xff1a; 偏差-方差窘境&#xff08;bias-variance dilemma&#xff09;是機器學習中的一個重要概念&#xff0c;它涉及到模型選擇時面臨的權衡問題。 偏差&#xff08;Bias&#xf…