多元時間序列預測的范式革命：從數據異質性到基準重構

本推文介紹了一篇來自中國科學院計算技術研究所等機構的論文《Exploring Progress in Multivariate Time Series Forecasting: Comprehensive Benchmarking and Heterogeneity Analysis》，發表在《IEEE Transactions on Intelligent Transportation Systems》。論文針對多變量時間序列（MTS）預測中實驗結果不一致、技術方向選擇困難等問題，提出了首個專門為MTS預測設計的基準框架BasicTS+，通過統一訓練流程和評估標準，實現了45種模型在20個數據集上的公平對比。

研究首次揭示了MTS數據集的異質性特征，根據時間序列的穩定性和空間依賴程度將數據集分為三大類，并發現模型性能與數據特征密切相關：例如Transformer模型在具有穩定周期模式的數據集上表現優異，而簡單線性模型在分布漂移或無明確模式的數據中更具優勢。實驗結果表明，現有模型的有效性高度依賴數據類型，盲目套用結論可能導致誤判。該研究不僅為MTS預測提供了可靠的評估工具，還為模型選擇和數據集設計提供了理論依據，為復雜系統如交通、能源領域的時間序列分析奠定了方法論基礎。

論文鏈接：https://ieeexplore.ieee.org/abstract/document/10726722

代碼與數據集：https://github.com/GestaltCogTeam/BasicTS

一、領域困境：實驗結果為何"打架"？

在交通、能源等復雜系統的智能決策中，多元時間序列（MTS）預測扮演著核心角色。然而，當前研究存在兩大痛點：

（1）結論矛盾：同一模型在不同研究中表現差異顯著（如DCRNN在PEMS04的MAE波動達33%）

（2）方法困惑：Transformer與線性模型的優劣之爭持續數年，STGNN的必要性飽受質疑

中國科學院計算技術研究所團隊在《IEEE Transactions on Knowledge and Data Engineering》發表的最新研究，首次系統性揭示了這些矛盾背后的根本原因——數據異質性，并構建了首個公平可比的基準框架BasicTS+。

二、?核心突破：BasicTS+基準框架

2.1?BasicTS+框架及基本流程

圖1展示了BasicTS+的框架，其中主要包括BasicTS+的核心組件和用戶配置文件兩部分。

圖1 BasicTS+的框架

BasicTS+框架的基本流程如下：

（1）數據預處理：強制Z-score歸一化，自動添加時間戳、星期幾等10+外部特征

（2）訓練策略：采用掩碼MAE損失函數，整合課程學習與梯度裁剪技術

（3）評估標準：提供MAE/RMSE/MAPE/WAPE等8維度指標，支持歸一化與反歸一化雙重驗證

通過標準化數據加載、訓練運行與評估流程，BasicTS+實現了45種模型在20個數據集上的公平對比。實驗顯示，統一標準使模型性能平均提升25%，消除了因實驗設置差異導致的誤判。

2.2?數據異質性分類體系

研究首次提出MTS數據的雙維度分類標準：

（1）圖2展示了以時間特征維度MTS數據的分類標準，為穩定周期模式、分布漂移模式和無明確模式，分別對應PEMS03/04/08、ETTh2/ETTm2和ExchangeRate典型數據集。

圖2?多個MTS數據集中的不同時間模式

（2）圖3展示了以空間特征維度MTS數據的分類標準，為高不可區分性、低不可區分性，分別對應METR-LA/BAY、ETTm1/ETTm2典型數據集。

圖3?不同數據集中的空間不可區分性

三、顛覆性發現：數據決定模型命運

3.1?時間維度的"模型適配法則"

（1）穩定周期數據：表1中可以看出，Transformer架構（如FEDformer）通過捕捉多尺度周期性，在PEMS04的MAE達26.89，較線性模型低39.49%

（2）分布漂移數據：表1中可以看出，線性模型（DLinear）因抗過擬合能力，在ETTh2的MAE僅3.13，優于Transformer的3.27

（3）無明確模式數據：所有模型性能相近，凸顯預測本質困難

表1?高級模型和基線模型在異構MTS數據集中的性能

3.2?空間維度的"建模邊界"

（1）高不可區分性數據：表2中可以看出，STID通過空間身份嵌入，在METR-LA的MAE達3.12，較移除空間模塊的STID*降低12.85%

（2）低不可區分性數據：表2中可以看出，保留GCN的AGCRN在ETTm1的MAE反而比AGCRN*高21.16%

表2?STID、AGCRN及其變體在具有不同空間不可區分性的數據集上的性能

表2呈現了STID、AGCRN及其變體在不同空間不可區分性數據集上的性能差異：在空間不可區分性高的LA、BAY數據集中，含空間依賴模塊的STID、AGCRN表現更優；而在空間不可區分性低的ER、ETTm1數據集中，去掉空間模塊的變體（STID*、AGCRN*）性能更突出，如ER數據集MAPE指標中，變體較原模型下降25.31%。Gap數據進一步表明，空間依賴模塊在低空間不可區分性數據集中會導致性能損失，驗證了研究中“模型空間建模需適配數據空間異質性”的結論——高空間不可區分性數據適合依賴空間模塊的模型，低空間不可區分性數據無需復雜空間建模，凸顯模型與數據空間特征適配的關鍵作用。

四、實踐指南：模型選擇路線圖

圖4?多元時間序列（MTS）模型選擇路線圖

（1）時間維度判斷：首先分析數據是否具有穩定周期性。若有，直接選用Transformer/STGNN模型；

（2）進一步細分：如果數據無穩定周期，接著判斷是否屬于分布漂移型。若是，適配線性模型+動態調整方案；

（3）最終判定：如果數據既無穩定周期，也非分布漂移（即無明確模式），則采用簡單模型+不確定性估計的組合。

整個流程環環相扣，基于數據時間特征層層篩選，確保模型與數據特性精準匹配。

五、未來展望：從"模型競賽"到"數據理解"

該研究帶來三大啟示：

（1）數據特征優先：復雜模型的有效性高度依賴數據模式，盲目追求架構創新可能適得其反

（2）基準重構意義：BasicTS+為領域提供了可復現的評估標準，推動研究從"黑箱競賽"轉向科學驗證

（3）應用轉化路徑：在智慧交通、能源調度等場景，應先進行數據特征診斷，再匹配模型架構

這項研究不僅為多元時間序列預測建立了新的方法論框架，更深刻揭示了AI模型與數據本質的相互作用規律。當我們在贊嘆Transformer的強大時，或許更應關注數據背后跳動的"脈搏"——畢竟，真正的智能，始于對數據的敬畏與理解。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/73542.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/73542.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/73542.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！