論文地址:https://arxiv.org/pdf/2505.20774
代碼地址:https://github.com/xwmaxwma/TimePro
為了更好地理解時間序列模型的理論與實現,推薦參考UP “ThePPP時間序列” 的教學視頻。該系列內容系統介紹了時間序列相關知識,并提供配套的論文資料與代碼示例,有助于理論與實踐相結合。
https://space.bilibili.com/613453963
摘要
在長期時間序列預測中,不同的變量通常在不同的時間間隔內影響目標變量,這種挑戰被稱為多延遲問題。傳統的模型通常統一處理所有變量或時間點,這限制了它們捕捉復雜變量關系和獲得非平凡時間表示的能力。為了解決這個問題,本研究提出了TimePro,一個創新的基于Mamba的模型,它構建了變量和時間感知的超狀態。與僅跨變量或時間維度傳遞普通狀態的傳統方法不同,TimePro保留了每個變量標記的細粒度時間特征,并自適應地選擇聚焦的時間點來調整普通狀態。重建的超狀態可以感知變量關系和顯著的時間信息,這有助于模型進行準確的預測。在實驗中,TimePro在八個真實世界的長期預測基準測試中表現出具有競爭力的性能,并具有令人滿意的線性復雜度。
引言
本研究關注多變量長時序預測中的多延遲問題,即不同變量對目標變量的影響時間跨度不同,而現有模型通常對所有變量或時間點進行統一處理,難以捕捉復雜的變量關系和非平凡的時間表示。Mamba模型在時間序列預測中展現了線性計算復雜度和高效的長時依賴性捕獲能力等優勢,已有多種基于Mamba的模型被提出,例如Bi-Mamba+、S-Mamba、TimeMachine和TSMamba等,它們從不同方向掃描特征,但忽略了多延遲問題。本研究指出現有的Mamba模型和基于Transformer的模型,例如PatchTST和iTransformer,都存在對變量或時間點統一處理的局限性,難以捕捉關鍵時間點和獲得非平凡的時間表示。
本研究針對多延遲問題提出了一種名為TimePro的創新性基于Mamba的模型,該模型構建了變量感知和時間感知的超狀態。與傳統方法僅在變量間傳遞普通狀態不同,TimePro保留了每個變量標記的細粒度時間特征,并自適應地選擇關注的時間點來調整普通狀態。具體來說,本研究首先掃描變量維度以獲得包含變量之間相關性的隱藏狀態,然后使用專門的網絡學習關鍵時間點的偏移量,并通過自適應地選擇這些關鍵時間點來動態更新隱藏狀態,使其反映最顯著的時間信息。這種自適應機制使重構的超狀態能夠整合變量特定信息和細微的時間變化,從而提高模型的預測精度。
本研究提出的時間調整策略通過自適應地選擇重要時間點并使用重構的超狀態來獲得輸出,從而調整變量狀態。超狀態能夠感知復雜的變量關系和變量內時間變化,從而有助于實現準確預測。通過結合超狀態重構和硬件感知的實現,本研究提出了一個高效的多變量長時序預測模型TimePro。TimePro在多個真實世界數據集上實現了具有競爭力的性能,并顯著優于現有的Mamba和基于Transformer的方法,同時保持了線性復雜度,確保了計算效率。
本研究的創新之處在于設計了一種時間調整策略,該策略通過自適應地選擇重要時間點并使用重構的超狀態來調整變量狀態,從而提高了預測的準確性。此外,本研究結合了超狀態重構和硬件感知的實現,提出了一個高效的多變量長時序預測模型TimePro。最后,TimePro在八個真實世界數據集上取得了具有競爭力的性能,顯著優于現有的Mamba和基于Transformer的方法。
論文創新點
🚀 本研究提出了一個名為TimePro的創新性Mamba模型,用于解決多變量長時間序列預測中的多延遲問題。 🚀
該模型的核心創新在于構建了變量感知和時間感知的超狀態。與傳統方法簡單地在變量或時間維度上傳遞狀態不同,TimePro保留了每個變量標記的細粒度時間特征,并自適應地選擇關鍵時間點來調整普通狀態。這種超狀態能夠感知變量關系和顯著的時間信息,從而提高預測精度。
-
? 時間調整策略: ?
- 該策略通過自適應地選擇重要時間點來調整變量狀態,并使用重構的超狀態來獲得輸出。
- 超狀態能夠感知復雜的變量關系和變量內部時間變化,從而有助于進行準確的預測。
-
💻 硬件感知的實現方式與超狀態重構: 💻
- 結合了超狀態重構和硬件感知的實現方式,提出了一個高效的多變量長時間序列預測模型TimePro。
- TimePro的硬件感知設計充分利用了GPU內存層次結構,在GPU SRAM上進行普通狀態的獲取,而在GPU HBM上進行其他操作,從而提高了計算效率。
-
💡 HyperMamba模塊的設計: 💡
- 該模塊對原始Mamba模型進行了改進,用硬件感知的Hyper Scan取代了選擇性掃描,并去除了掃描前后的深度卷積和線性投影,從而在不降低效率的情況下提高了性能。
- 此外,HyperMamba還采用了掃描初始設計,即沿通道的兩個部分進行相反變量方向的掃描,從而增強了模型捕捉全局變量依賴關系的能力。
-
📏 線性復雜度: 📏
- TimePro的線性復雜度使其在處理高維數據時更加高效。
- 與基于Transformer的模型(如iTransformer和PatchTST)相比,TimePro在變量數量增加時,內存消耗和推理時間呈線性增長。
-
📊 實驗結果: 📊
- 本研究在八個真實世界的數據集上進行了實驗,結果表明TimePro的性能優于現有的Mamba和Transformer模型。
- TimePro在多個數據集上實現了最先進的性能,并在不同的預測長度和平均值上都具有較小的MSE和MAE。
- 這證明了TimePro在處理多變量長時間序列預測問題上的有效性。
論文實驗