閱讀論文:
Wen, Qingsong, et al. “Transformers in time series: A survey.” arXiv preprint arXiv:2202.07125 (2022).
這篇綜述主要對基于Transformer的時序建模方法進行介紹。論文首先簡單介紹了Transformer的基本原理,包括位置編碼、多頭注意力機制、前饋全連接網絡等模塊。接著提出了從網絡結構和應用領域兩個角度對時序Transformer進行分類。
-
從網絡結構角度,總結了在模塊級別和架構級別對Transformer進行的改進,以適應時序建模的特點
- 位置編碼模塊
- 簡單位置編碼:經典Transformer中用到的,手工設計,能提取位置信息但無法充分利用時序數據的重要特征
- 可學習位置編碼:使用別的模型或增加Transformer嵌入層來學習時序的位置編碼的向量表示,獲得更靈活更expressive的位置編碼
- 時間戳編碼:在Informer和Autoformer里將年月日時分秒和節假日等作為額外的位置編碼信息,通過可學習位置編碼方法得到其向量表示
- 注意力模塊
- 引入稀疏偏差到注意力機制來降低普通注意力機制的平方復雜度
- 探索自注意力矩陣的低秩特性來加速計算(例如Informer和FEDformer)
- 分層架構設計
- 基于max-pooling下采樣實現分辨率折半(Informer)
- 基于C叉樹以不同分辨率序列作為節點,并設計相同分辨率尺度和不同分辨率尺度間的注意力機制以捕獲其分辨率尺度間的時間依賴(Pyraformer)
- 位置編碼模塊
-
從應用角度,概述了Transformer在預測、異常檢測和分類任務中的不同變體的應用情況。
-
預測
-
時序預測
-
模塊級的變體
-
設計新的注意力模塊(占大部分研究)
- LogTrans:提出卷積自注意力,使用因果卷積來生成自注意力層的queries和keys,并引入稀疏bias和Logsparse mask到自注意力層
- Informer:根據queries和keys相似度選擇主要的queries,還設計了生成式的decoder來避免在長期預測時做單步自回歸預測的累積誤差
- AST:使用生成對抗編碼器-解碼器框架訓練稀疏Transformer模型做時序預測,也可以避免累積誤差
- Pyraformer:設計了一個分層金字塔狀注意力模塊,基于上述的C叉樹捕獲不同分辨率時序的時間依賴
- Quatformer:基于四元數提出learning-to-rotate注意力,引入了可學習的周期和相位信息使得模型可以學習到復雜的時序周期模式
- FEDformer:通過傅里葉變換和小波變換在頻域實現注意力操作以降低計算與存儲復雜度
-
增強可解釋性
- TFT:設計了一個針對多種輸入數據優化的multi-horizon預測模型,通過合并全局、時序依賴和事件來實現可解釋性
- ProTran:Transformer和狀態空間模型(SSM)結合,實現基于變分推理的生成建模和推理
- SSDNet:Transformer和SSM結合,用Transformer學習時間模式并估計SSM參數,再用SSM對時序數據進行季節性趨勢分解以實現可解釋性
-
探索新的時序數據標準化方法
- 目前只有Non-stationary Transformer:探索了時序預測任務中的過度平穩化問題,并實現了用于序列平穩化和去平穩化的插件模塊
-
利用token輸入的偏差
- Autoformer:基于分段表示機制,設計了季節性趨勢分解架構。
- PatchTST:利用通道無關實現多通道序列embedding共享,子序列patch設計分割時序數據為子序列patch作為Transformer輸入
- Crossformer:利用了跨維度依賴進行多元時序預測,通過維度分段embedding將輸入嵌入到二維向量以保留時間和維度信息,并用兩階段注意力層來捕獲這種跨維度依賴。
-
-
架構級的變體
- Triformer:三角樹形結構,輕量且線性復雜度
- Scaleformer:提出多時間尺度架構,并可通過在多尺度上共享參數地迭代細化預測時間序列來提高性能
-
-
時空預測
- Traffic Transformer:加上圖神經網絡模塊捕獲空間依賴性
- Spatial-temporal Transformer:在前者基礎上加上了空間的Transformer block和圖卷積神經網絡來更好捕獲空間依賴性
- Spatio-temporal graph Transformer:設計了基于注意力的圖卷積機制來學習復雜時空注意力模式
- Earthformer:提出立方體注意力機制,將數據分解為立方體并應用該機制
-
事件預測(不規則且時間間距不等的事件序列)
- 在傳統時間點過程(TPP)方法上結合Transformer,通過嵌入所有可能時間和時間來擴展該方案
-
-
異常檢測(可用于電力數據的跳變異常點檢測)
- TranAD提出使用對抗訓練來放大重建誤差,增強Transformer的異常檢測能力。
- MT-RVAE 設計了多尺度Transformer,同時整合全局和局部時序信息。
- TransAnomaly將Transformer與VAE結合,實現訓練成本的大幅降低。
- GTA 借鑒圖神經網絡思想,模擬變量之間的影響傳播機制。
- AnomalyTrans通過建模先驗關聯和序列關聯的方式增強異常點的區分度。
-
分類任務
- GTN使用雙塔結構分別建模時間步和通道注意力,通過可學習加權融合特征,在多元時間序列分類任務上取得SOTA
- [Ru?wurm and K?rner, 2020] 應用基于自注意力的Transformer獲得了衛星圖像時間序列分類的SOTA
- TARNet設計了學習任務相關數據重構的Transformer,利用mask和重構時間步的注意力機制提升了分類性能
- [Yuan and Lin, 2020] 在衛星圖像時間序列分類中應用了自監督預訓練的Transformer來緩解數據不足
- [Zerveas et al., 2021] 提出了無監督預訓練框架,使用比例mask數據進行模型預訓練后微調
- [Yang et al., 2021] 使用預訓練語音模型進行時間序列分類任務遷移學習,在多個數據集上獲
-
該論文還通過實驗分析了 Transformer在時序建模中的魯棒性、模型大小和季節性分解等多個方面。作者在ETTm2數據集上針對不同配置的時序Transformer進行了實驗分析,以研究它們在時序建模中的工作方式。
魯棒性分析表明,許多仔細設計的Transformers在輸入序列加長時,性能快速惡化。這使它們在長期預測中實際效果有限。需要更多工作來充分利用長序列輸入。
模型大小分析發現,增加Transformer層數并不一定改善預測效果,3-6層的Transformer通常效果更好。這提出了如何設計更深層Transformer架構的問題。
季節性-趨勢分解分析發現,這種分解可以顯著提升Transformer在時序預測中的表現,不同模塊提升幅度在50-80%。這一發現值得進一步研究設計更高級的分解方案。
最后文章提出了未來可能的研究方向,包括為時序Transformer引入先驗偏置、與圖神經網絡結合、預訓練模型、架構級變體設計和神經架構搜索等。
個人思考
- 該調研在時空預測方面的調研啟發了對圖神經網絡的利用,而在電力負荷預測中的某些場景,也許可以對電網結構進行考慮,將電網的拓撲結構、輸電距離和輸電損耗等等要素加以考慮,并以立方體Transformer等方法將空間信息數據的embedding向量放到Transformer進行處理。
- 在Transformer應用于異常檢測的方面,無監督Transformer被廣泛研究。但在考慮進一步應用落地到電力行業時,例如用于電負荷突變點等異常點檢測時,可能需要考慮到如TFT中對多種數據源的利用,特別是未來可知數據的輸入。能否將無監督重建任務范式與TFT中這種輸入數據模式進行結合是一個值得思考的問題。