系列文章鏈接
論文一:2020 Informer:長時序數據預測
論文二:2021 Autoformer:長序列數據預測
論文三:2022 FEDformer:長序列數據預測
論文四:2022 Non-Stationary Transformers:非平穩性時序預測
論文五:2022 Pyraformer:基于金字塔圖結構的時序預測
論文六:2023 Crossformer:多變量時序預測
論文七:2023 LTSF-Linear:質疑transformer能力的線性預測模型
論文鏈接:Pyraformer.pdf
github鏈接:https://github.com/ant-research/Pyraformer
參考解讀:https://zhuanlan.zhihu.com/p/467765457
本文是上海交通大學的團隊發表的,背景仍然是如何降低計算復雜度&更好地進行長期依賴性關系的表征。本文的創新點主要提現在以下幾點:
- 金字塔注意力機制(Pyramidal Attention Module):不同于原始的注意力機制,本文采用形似金字塔的圖結構對時序數據進行轉換,采用這樣的結構轉換就可以提取當前數據和鄰近點位的周期內(尺度內)特性以及長期點位之間的周期間(尺度間)的特性,并且可以提取多層級的多分辨率的特性。對于每個節點而言,可以表示為一個由父節點、自身以及子節點組成的集合:
那對于每個節點而言,不需要對每個點位都去計算對應的注意力,只需要在對應關系內的節點進行運算,降低了計算復雜度;但是在實際計算過程中由于框架(tensorflow和pytorch)的限制,計算復雜度并沒有達到預期的 O ( L ) O(L) O(L),本文針對此進行了技巧設計以減少計算和內存成本;
- 粗尺度構造模塊:對于每個層級的節點而言,從子節點出發,從下至上引入粗尺度的初始化卷積。整個模塊的設計是為了降低參數量&計算復雜度(類似殘差結構),具體解釋寫的比較模糊,可以參考代碼實現;