多元時間序列預測的范式革命:從數據異質性到基準重構

本推文介紹了一篇來自中國科學院計算技術研究所等機構的論文《Exploring Progress in Multivariate Time Series Forecasting: Comprehensive Benchmarking and Heterogeneity Analysis》,發表在《IEEE Transactions on Intelligent Transportation Systems》。論文針對多變量時間序列(MTS)預測中實驗結果不一致、技術方向選擇困難等問題,提出了首個專門為MTS預測設計的基準框架BasicTS+,通過統一訓練流程和評估標準,實現了45種模型在20個數據集上的公平對比。

研究首次揭示了MTS數據集的異質性特征,根據時間序列的穩定性和空間依賴程度將數據集分為三大類,并發現模型性能與數據特征密切相關:例如Transformer模型在具有穩定周期模式的數據集上表現優異,而簡單線性模型在分布漂移或無明確模式的數據中更具優勢。實驗結果表明,現有模型的有效性高度依賴數據類型,盲目套用結論可能導致誤判。該研究不僅為MTS預測提供了可靠的評估工具,還為模型選擇和數據集設計提供了理論依據,為復雜系統如交通、能源領域的時間序列分析奠定了方法論基礎。

論文鏈接https://ieeexplore.ieee.org/abstract/document/10726722

代碼與數據集https://github.com/GestaltCogTeam/BasicTS

一、 領域困境:實驗結果為何"打架"?

在交通、能源等復雜系統的智能決策中,多元時間序列(MTS)預測扮演著核心角色。然而,當前研究存在兩大痛點:

(1)結論矛盾:同一模型在不同研究中表現差異顯著(如DCRNN在PEMS04的MAE波動達33%)

(2)方法困惑:Transformer與線性模型的優劣之爭持續數年,STGNN的必要性飽受質疑

中國科學院計算技術研究所團隊在《IEEE Transactions on Knowledge and Data Engineering》發表的最新研究,首次系統性揭示了這些矛盾背后的根本原因——數據異質性,并構建了首個公平可比的基準框架BasicTS+。

二、?核心突破:BasicTS+基準框架

2.1?BasicTS+框架及基本流程

1展示了BasicTS+的框架,其中主要包括BasicTS+的核心組件和用戶配置文件兩部分。

1 BasicTS+的框架

BasicTS+框架的基本流程如下:

(1)數據預處理:強制Z-score歸一化,自動添加時間戳、星期幾等10+外部特征

(2)訓練策略:采用掩碼MAE失函數,整合課程學習與梯度裁剪技術

(3)評估標準:提供MAE/RMSE/MAPE/WAPE8維度指標,支持歸一化與反歸一化雙重驗證

通過標準化數據加載、訓練運行與評估流程,BasicTS+實現了45種模型在20個數據集上的公平對比。實驗顯示,統一標準使模型性能平均提升25%,消除了因實驗設置差異導致的誤判。

2.2?數據異質性分類體系

研究首次提出MTS數據的雙維度分類標準:

(1)圖2展示了以時間特征維度MTS數據的分類標準,為穩定周期模式、分布漂移模式和無明確模式,分別對應PEMS03/04/08、ETTh2/ETTm2和ExchangeRate典型數據集。

2?多個MTS數據集中的不同時間模式

(2)圖3展示了以空間特征維度MTS數據的分類標準,為高不可區分性、低不可區分性,分別對應METR-LA/BAY、ETTm1/ETTm2典型數據集。

3?不同數據集中的空間不可區分性

三、顛覆性發現:數據決定模型命運

3.1?時間維度的"模型適配法則"

1)穩定周期數據:表1中可以看出,Transformer架構(如FEDformer)通過捕捉多尺度周期性,在PEMS04的MAE達26.89,較線性模型低39.49%

2)分布漂移數據:表1中可以看出,線性模型(DLinear)因抗過擬合能力,在ETTh2的MAE僅3.13,優于Transformer的3.27

3)無明確模式數據:所有模型性能相近,凸顯預測本質困難

1?高級模型和基線模型在異構MTS數據集中的性能

3.2?空間維度的"建模邊界"

(1)高不可區分性數據:表2中可以看出,STID通過空間身份嵌入,在METR-LA的MAE達3.12,較移除空間模塊的STID*降低12.85%

(2)低不可區分性數據:表2中可以看出,保留GCN的AGCRN在ETTm1的MAE反而比AGCRN*高21.16%

2?STIDAGCRN及其變體在具有不同空間不可區分性的數據集上的性能

表2呈現了STID、AGCRN及其變體在不同空間不可區分性數據集上的性能差異:在空間不可區分性高的LA、BAY數據集中,含空間依賴模塊的STID、AGCRN表現更優;而在空間不可區分性低的ER、ETTm1數據集中,去掉空間模塊的變體(STID*、AGCRN*)性能更突出,如ER數據集MAPE指標中,變體較原模型下降25.31%。Gap數據進一步表明,空間依賴模塊在低空間不可區分性數據集中會導致性能損失,驗證了研究中“模型空間建模需適配數據空間異質性”的結論——高空間不可區分性數據適合依賴空間模塊的模型,低空間不可區分性數據無需復雜空間建模,凸顯模型與數據空間特征適配的關鍵作用。

四、實踐指南:模型選擇路線圖

圖4?多元時間序列(MTS模型選擇路線圖

(1)時間維度判斷:首先分析數據是否具有穩定周期性。若有,直接選用Transformer/STGNN模型;

(2)進一步細分:如果數據無穩定周期,接著判斷是否屬于分布漂移型。若是,適配線性模型+動態調整方案;

(3)最終判定:如果數據既無穩定周期,也非分布漂移(即無明確模式),則采用簡單模型+不確定性估計的組合。

整個流程環環相扣,基于數據時間特征層層篩選,確保模型與數據特性精準匹配。

五、未來展望:從"模型競賽"到"數據理解"

該研究帶來三大啟示:

(1)數據特征優先:復雜模型的有效性高度依賴數據模式,盲目追求架構創新可能適得其反

(2)基準重構意義:BasicTS+為領域提供了可復現的評估標準,推動研究從"黑箱競賽"轉向科學驗證

(3)應用轉化路徑:在智慧交通、能源調度等場景,應先進行數據特征診斷,再匹配模型架構

這項研究不僅為多元時間序列預測建立了新的方法論框架,更深刻揭示了AI模型與數據本質的相互作用規律。當我們在贊嘆Transformer的強大時,或許更應關注數據背后跳動的"脈搏"——畢竟,真正的智能,始于對數據的敬畏與理解。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/73542.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/73542.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/73542.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

印章/公章識別:PaddleX下的“Seal-Recognition”模型

最近做項目需要對印章進行識別,并提取其中的印章文字,又不希望這個模型太大,還要方便部署,于是乎這個模型是個不錯的選擇。 一、模型簡介 “Seal-Recognition”模型是PaddleX旗下的一款模型(PaddleX 是基于飛槳框架構…

An effective algorithm for peptide de novo sequencing from MS/MS spectra

1. 研究背景 數據庫搜索方法 需要已知的蛋白數據庫,但對于未知蛋白質,無法適用。de novo 測序方法 直接從 MS/MS 數據推斷氨基酸序列,非常重要。 2. 現有方法的問題 暴力搜索方法:枚舉所有可能的肽序列并與 MS/MS 數據比對&…

算法專題一:雙指針

1.移動零 題目鏈接:283. 移動零 - 力扣(LeetCode) 我們可以定義一個dest,一個cur,dest表示數組中不為零的數的最后一位,cur用來遍歷數組 class Solution {public void moveZeroes(int[] nums) {for(int cur…

【大模型實戰】利用ms-swift微調框架對QwQ-32B推理模型進行微調

1. 背景介紹 之前我們在《大模型訓練/微調的一些經驗分享》、《利用DeepSeek-R1數據微調蒸餾ChatGLM32B讓大模型具備思考能力》中做了相關模型微調的介紹。目前在基座大模型能力還沒有達到足夠牛的情況下,大模型微調在商業化、垂直領域應用依然是不可或缺&#xff0…

【Unity3D】Addressables使用流程

Package Manager - 搜索 Addressables 安裝 Window -> Asset Management -> Addressables 打開窗口 New -> 新建Packed Assets 資源組 默認資源組Default xxx (Default) 將資源,如預制體直接拖拽進資源組 Build -> New Build -> Default Buil…

k8s serviceaccount在集群內指定apiserver時驗證錯誤的問題

在主機上,找到TOKEN,可以直接指定apiserver使用 rootubuntu-server:/home# kubectl auth can-i --list --server https://192.168.85.198:6443 --token"eyJhbGciOiJSUzI1NiIsImtpZCI6IlFlMHQ3TzhpcGw1SnRqbkYtOC1NUWlWNUpWdGo5SGRXeTBvZU9ib25iZD…

Linux驅動開發-①pinctrl 和 gpio 子系統②并發和競爭③內核定時器

Linux驅動開發-①pinctrl 和 gpio 子系統②并發和競爭③內核定時器 一,pinctrl 和 gpio 子系統1.pinctrl子系統2.GPIO子系統 二,并發和競爭1.原子操作2.自旋鎖3.信號量4.互斥體 三,按鍵實驗四,內核定時器1.關于定時器的有關概念1.…

數據庫的高階知識

目錄 一、case when二、幾種常見的嵌套查詢2.1 比較運算符2.2 ANY/ALL 關鍵詞2.3 in 關鍵詞2.4 EXISTS關鍵詞2.5 in和exists的異同點 三、開窗函數 數據庫的基本知識 數據庫的高階知識 一、case when 在實際工作中,經常會涉及以下兩類問題: 數據的映射…

【Kubernetes】Service 的類型有哪些?ClusterIP、NodePort 和 LoadBalancer 的區別?

在 Kubernetes 中,Service 是一種抽象的方式,用于將一組 Pod 進行連接并暴露給外部或集群內部訪問。它的主要目的是通過提供穩定的 IP 地址和端口來允許其他服務或客戶端與一組 Pod 進行通信。 Service 類型 Kubernetes 中 Service 有四種主要類型&…

MapReduce處理數據流程

(一)Shuffle MapReduce中的Shuffle過程指的是在Map方法執行后、Reduce方法執行前對數據進行分區排序的階段 (二)處理流程 1. 首先MapReduce會將處理的數據集劃分成多個split,split劃分是邏輯上進行劃分,…

OrioleDB: 新一代PostgreSQL存儲引擎

PostgreSQL 12 引入了可插拔式的表存儲方法接口,允許為不同的表選擇不同的存儲機制,例如用于 OLTP 操作的堆表(HEAP、默認)、用于 OLAP 操作的列式表(Citus),以及用于超快速搜索處理的內存表。 …

電腦自動關機故障維修案例分享

電腦基本配置: C P U: AMD A10 9700 內存:8G 硬盤:金邦512G固態硬盤 主板:華碩 A320M-F 顯卡:集成(核心顯卡) 操作系統:Win10專業版 故障描述: 使用一段時間會黑屏…

JVM垃圾收集器相關面試題(1)

垃圾收集與內存管理摘要 一.核心垃圾收集算法對比 算法原理優點缺點適用場景標記-清除兩次遍歷(標記存活對象→清除未標記對象)實現簡單內存碎片化、雙遍歷效率低老年代(結合整理)標記-復制內存對半分,存活對象復制到…

棧(LIFO)算法題

1.刪除字符串中所有相鄰的重復字符 注意,我們需要重復處理,而不是處理一次相鄰的相同元素就結束了。對示例來說,如果只進行一次處理,結果為aaca,但是處理之后又出現了相鄰的重復元素,我們還得繼續處理&…

conda的基本使用及pycharm里設置conda環境

創建conda環境 conda create --name your_env_name python3.8 把your_env_name換成實際的conda環境名稱,python后邊的根據自己的需要,選擇python的版本。 激活conda環境 conda activate your_env_name 安裝相關的包、庫 conda install package_name …

Python基于深度學習的多模態人臉情緒識別研究與實現

一、系統架構設計 A[數據采集] --> B[預處理模塊] B --> C[特征提取] C --> D[多模態融合] D --> E[情緒分類] E --> F[系統部署] F --> G[用戶界面] 二、數據準備與處理 1. 數據收集 - 視頻數據:FER2013(靜態圖像&#xff0…

synchronized與 Java內置鎖(未寫完)

文章目錄 一、 synchronized 關鍵字二、Java對象結構1. 對象頭2. 對象體3. 對齊字節4. 對象頭中的字段長度5. Mark Word 的結構信息6. 使用 JOL 工具查看對象的布局 三、Java 內置鎖機制3.1 內置鎖的演進過程1. 無鎖狀態2. 偏向鎖狀態3. 輕量級鎖狀態4. 重量級鎖狀態 一、 sync…

LLM(3): Transformer 架構

Transformer 架構是當前大語言模型的主力架構和基礎技術,本文以通俗易懂的方式,對此作簡要介紹。 1.4 介紹 Transformer 架構 大多數現代的大規模語言模型(LLMs)依賴于 Transformer 架構,這是一種在 2017 年的論文《…

11.【.NET 8 實戰--孢子記賬--從單體到微服務--轉向微服務】--微服務基礎工具與技術--Ocelot 網關--整合日志

網關作為微服務架構的入口,承載著各服務間的請求轉發與安全校驗,其日志信息尤為關鍵。通過整合網關日志,可以將分散在不同系統中的訪問記錄、錯誤提示和異常信息集中管理,為問題排查提供全景視角。在排查故障時,統一日…

88.HarmonyOS NEXT 性能監控與調試指南:構建高性能應用

溫馨提示:本篇博客的詳細代碼已發布到 git : https://gitcode.com/nutpi/HarmonyosNext 可以下載運行哦! HarmonyOS NEXT 性能監控與調試指南:構建高性能應用 文章目錄 HarmonyOS NEXT 性能監控與調試指南:構建高性能應用1. 性能監…