ICML 2025 | 深度剖析時序 Transformer:為何有效,瓶頸何在?

本文介紹帝國理工學院等機構在 ICML 2025 發表的最新研究成果。該研究并未提出新模型,而是對現有時間序列 Transformer 模型進行了一次深刻的拷問——為何結構更簡單的 Transformer( PatchTST, iTransformer)在各大基準測試中,反而能優于設計更復雜的模型?

研究發現,當前主流基準數據集的性能主要由單變量內部的依賴關系主導,而跨變量間的影響較小。因此,模型的成功更多地得歸功于Z-score 歸一化和Skip connections等組件,它們極大地增強了模型捕捉單變量趨勢的能力。本文通過引入互信息分析和可控的合成數據集,系統性地揭示了現有 Transformer 模型的真實能力和局限性,為未來設計更適用于真實、復雜場景的模型提供了重要見解。

另外,我整理了ICML 2025時間序列相關論文合集,感興趣的dd我~

論文這里~
在這里插入圖片描述

【論文標題】A Closer Look at Transformers for Time Series Forecasting: Understanding Why They Work and Where They Struggle

【論文鏈接】https://papers.cool/venue/kHEVCfES4Q@OpenReview

研究背景

Transformer 在時間序列預測領域取得了巨大成功。研究者們提出了多種 Token 化策略,Point-wise、Patch-wise和Variate-wise,以捕捉不同維度的數據依賴。雖然模型架構日益復雜,但是一些設計相對簡單的模型,如僅關注單變量內部模式的 PatchTST 和專注于跨變量關系的 iTransformer,卻在性能測試中穩定名列前茅。
這種現象引出了一系列關鍵問題:
為什么以時間點為單位進行建模的 Point-wise Transformer 效果普遍較差?
為什么關注單變量的 Intra-variate attention 和關注多變量的 Inter-variate attention 會取得相似的性能?
那些成功的簡單 Transformer 模型,獲得其卓越性能的真正原因是什么?
針對這些問題,此論文摒棄了提出新模型的思路,轉而設計了一套系統的分析框架,目的是深入理解現有模型的工作機制和真正的優勢所在。

核心貢獻

本研究貢獻可總結如下:

  • 通過實驗證明,在大多數標準基準上,模型的預測性能主要由捕捉單變量內部依賴的能力決定,而跨變量依賴的影響則小得多。這解釋了為何不同注意力機制的模型能取得相似結果。
  • 設計了一套基于Mutual Information的評估指標,用于量化模型對不同維度依賴的捕捉能力。同時,創建了可控的合成數據集,能夠系統性地評估模型在不同依賴結構下的表現。
  • 得出了時序模型的核心組件:研究發現,Z-score 實例歸一化和編碼器中的跳躍連接是推動模型成功的關鍵技術組件,而非復雜的注意力設計本身。
  • 在真實的醫療健康數據集上驗證了研究發現,指出基準數據集的自依賴和平穩特性是影響模型評估結果的重要因素,并為設計面向更復雜應用的 Transformer 提供了實踐指導。
    在這里插入圖片描述

方法解析

本文的核心并非一個新模型,而是一套創新的分析框架。該框架旨在客觀、定量地評估不同 TransformerTransformerTransformer 模型捕捉時間序列依賴關系的能力。
在這里插入圖片描述

111. 互信息評估指標

為了衡量模型預測對輸入各變量的依賴程度,作者提出了一種互信息分數 σij\sigma_{ij}σij?。它通過計算在固定其他變量時,輸入變量 iii 的變化對輸出變量 jjj 預測值方差的影響來估計。

  • Intra?MIIntra-MIIntra?MI ScoreScoreScore (σii\sigma_{ii}σii?): 當 i=ji=ji=j 時,表示模型捕捉單變量自身依賴的能力。
  • Inter?MIInter-MIInter?MI ScoreScoreScore (σij\sigma_{ij}σij?, i≠ji \neq ji=j): 當 i≠ji \neq ji=j 時,表示模型捕捉跨變量依賴的能力。

這些指標與模型無關,可以公平地比較不同架構的 TransformerTransformerTransformer

222. 可控合成數據集

為了擺脫基準數據集固有特性的限制,作者設計了可以精確控制依賴結構的合成數據集。如圖 222 所示,數據集生成過程包含兩個關鍵參數:

  • 自相關強度 γ\gammaγ: 控制單個變量時間序列的平滑度和歷史依賴性。
  • 跨變量依賴強度 α\alphaα: 控制變量之間相互影響的程度。

通過調整這兩個參數,可以模擬從完全獨立到強耦合的各種多變量時間序列場景,從而系統性地測試模型的“長板”和“短板”。
在這里插入圖片描述

333. 模型消融實驗

作者對 iTransformer 等模型進行了深入的消融研究,例如:

  • 移除編碼器中的跳躍連接(w/ow/ow/o SCSCSC)。
  • 將與變量無關的解碼器替換為與變量相關的解碼器(VD?DeVD-DeVD?De)。
  • 測試 Z?scoreZ-scoreZ?score 歸一化的有無。

實驗驗證

在這里插入圖片描述

在 ETTh1、Traffic等多個基準數據集上:

  • Point-wise模型,Transformer, Autoformer的Intra-MI分數最低,其預測誤差也最高。這表明它們難以有效捕捉單變量的時間模式。
  • Patch-wise 和 Variate-wise模型,PatchTST, iTransformer, TimeXer具有非常高的Intra-MI分數和優越的性能。盡管 iTransformer設計用于捕捉跨變量關系,但其 Inter-MI 分數在這些數據集上并不突出,其成功仍然主要依賴于對單變量模式的建模。

這一結果有力地支持了“基準數據集由單變量依賴主導”的結論。

在這里插入圖片描述

合成數據集上的實驗進一步證實了這一點。當跨變量依賴很弱時,α≤0.4\alpha \le 0.4α0.4,各模型性能相近。但當跨變量依賴性顯著增強時,α=0.8\alpha=0.8α=0.8,專門為跨維度交互設計的Crossformer開始展現出明顯的優勢,而PatchTST和iTransformer則表現不佳。

此外,消融實驗表明,移除跳躍連接會導致性能在基準上急劇下降,而在 Z-score歸一化上的測試則發現,該技術對平穩的基準數據集至關重要,但可能會損害模型在非平穩數據上的表現。

總結

本文通過一套嚴謹的分析框架,揭示了當前時間序列 Transformer研究中的一個重要“盲點”:模型的成功在很大程度上被基準數據集的內在特性以及簡單而有效的技術組件,Z-score歸一化、跳躍連接所驅動,而非表面上宣傳的復雜注意力機制。這提醒研究者們需要重新審視模型的評估方式,并開發更多樣化、更接近現實世界的基準,以推動領域向解決真正復雜問題邁進。

一言概括之,時序Transformer的成功秘訣,可能不在于花哨的注意力,而在于對單變量趨勢的精準捕捉和數據歸一化的巧妙運用。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/91524.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/91524.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/91524.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

AIBOX內置5G天線設計

AIBOX內置5G天線設計AIBOX的天線種類天線種類及數量:運營商5G天線*4,1.4G天線*2、wifi天線*1天線形式:內置PCB天線。天線安裝方式:卡扣固定,安裝至設備外殼內壁。RG-178同軸線或UFL1.37mm同軸線連接至主板,…

低通濾波器的原理以及作用

低通濾波器(Low-Pass Filter, LPF)是一種允許低頻信號通過,同時衰減或阻止高頻信號的電子電路或數字信號處理算法。其核心原理和作用如下:一、工作原理 1. 頻率選擇性- 低通濾波器基于頻率對信號進行篩選,其傳遞函數在…

[AI Coding] 一.騰訊CodeBuddy IDE內測、安裝及基本用法(國產AI IDE啟航)

在人工智能迅猛發展的今天,AI Coding 正逐步改變傳統編程范式。廣義上,AI Coding 是指以大語言模型(LLMs)為核心驅動,借助自然語言理解能力,自動生成、補全、調試與解釋代碼的智能編程方式。它不僅顯著降低…

《網安處罰裁量基準》碼農合規指北 v1.0——if (違規) { 罰金++ } else { 合規運行 }

尊敬的審核: 本人文章《〈網安處罰裁量基準〉碼農合規指北 v1.0——if (違規) { 罰金 } else { 合規運行 }》 1. 純屬技術交流,無任何違法內容 2. 所有法律引用均來自公開條文 3. 請依據《網絡安全法》第12條“不得無故刪除合法內容”處理 附&#xff1a…

機器學習——邏輯回歸(LogisticRegression)實戰案例:信用卡欺詐檢測數據集

使用邏輯回歸識別 信用卡欺詐行為:基于creditcard.csv的實戰與評估分析 項目背景 在金融行業中,信用卡欺詐檢測是一項關鍵任務。欺詐交易在整個交易中占比極低,導致數據極度不平衡。本案例通過經典數據集 creditcard.csv,構建邏輯…

Helm在Kubernetes中的應用部署指南與案例解析

在上一章節中,我們已經介紹了Helm的部署和基本使用方法。本章將通過實際案例,詳細演示如何使用Helm在Kubernetes集群中部署應用。一、Helm 核心價值解析優勢解決的問題類比傳統方式應用模板化重復編寫 YAML 文件手動編寫 20 資源清單文件版本控制缺乏部署…

如何最簡單、通俗地理解線性回歸算法? 線性回歸模型在非線性數據上擬合效果不佳,如何在保持模型簡單性的同時改進擬合能力?

線性回歸作為統計學與機器學習領域中最基礎且最重要的算法之一,其應用廣泛且深遠。它不僅是回歸分析的入門方法,更是后續復雜模型構建的重要理論基礎。理解線性回歸算法的本質,既有助于提升數據分析的能力,也能為掌握更復雜的機器…

藍橋杯----超聲波

(一)、超聲波1、原理(圖 一)發送信號階段:單片機通過翻轉發送的引腳P1^0,發送8個40MHZ的方波,此時開始計時。等待接收信號:通過單片機的接收引腳P1^1檢測,未接收到信號時…

Java學習-運算符

1.在代碼中,如果有小數參與計算,結果有可能不精確。2.整數參與計算,結果只能是整數。3.數字進行運算時,數據類型不一樣不能運算,需要轉成一樣的,才能運算。(1)隱式轉換(自…

一句話指令實現“2D轉3D”、“圖片提取線稿”

你是否曾為一張2D圖片無法完美展示3D效果而遺憾?是否曾因需要將手繪草圖轉為清晰線稿而耗時費力?這些曾讓設計師、電商賣家、內容創作者頭疼的難題,如今只需一句話指令,即可迎刃而解。一、案例一:2D圖片→3D模型痛點場…

層次聚類:無需“猜”K值,如何讓數據自己畫出“家族圖譜”?

層次聚類:無需“猜”K值,如何讓數據自己畫出“家族圖譜”?👋 大家好,我是小瑞瑞!歡迎回到我的專欄! 在上一期,我們學會了強大的K-Means算法,但它也給我們留下了一個“靈魂…

數據結構:鏈表(Linked List)

目錄 結構推導 回到最原始的問題 —— 我們如何存數據? 第二步:我們來看看數組的限制 第三步:那我們該怎么做呢? 第四步:我們推導鏈表的數據結構 結構講解 什么是鏈表? 什么是節點? …

[RK3566-Android11] U盤頻繁快速插拔識別問題

問題描述 做老化測試時,在使用U盤頻繁快速插拔的情況下,SDCard目錄會突然被Kill掉,然后又重新掛載上,這會導致系統及APP的數據因為讀寫異常,從而界面卡死正常U盤插拔不應該導致內部存儲卸載解決方案: SDK根…

【Golang】Go語言Map數據類型

Go語言Map數據類型 文章目錄Go語言Map數據類型一、Map1.1.1、map定義1.1.2、map的基本使用1.1.3、判斷某個鍵是否存在1.1.4、map的遍歷1.1.5、使用delete()函數刪除鍵值對1.1.6、按照指定順序遍歷map1.1.7、元素為map類型的切片1.1.8、值為切片類型的map一、Map map是一種無序…

Orange的運維學習日記--23.Linux計劃任務詳解

Orange的運維學習日記–23.Linux計劃任務詳解 文章目錄Orange的運維學習日記--23.Linux計劃任務詳解一次性計劃任務atd 服務at 命令基本語法交互式示例腳本文件示例timespec 格式示例查看與管理任務查看當前隊列查看任務詳細內容刪除任務用戶權限控制用戶周期性計劃任務查看任務…

Ubuntu 24.04.2 LTS 安裝mysql8.0.36保姆級教程(從安裝到遠程連接)

目錄 前言 一、系統準備 二、安裝 MySQL 8.0.36 1. 查看可用版本 2.如果沒有對應版本則需要手動下載mysql-apt-config(有則跳過) 2.1下圖是mysql-apt-config各版本對應的mysql版本 2.2下載mysql apt repository 2.3安裝 MySQL APT Repository 包 …

【LLM】講清楚MLA原理

需要你對MHA、MQA、GQA有足夠了解,相信本文能幫助你對MLA有新的認識。 本文內容都來自https://www.youtube.com/watch?v0VLAoVGf_74,如果閱讀本文出現問題,建議直接去看一遍。 按照Deepseek設定一些參數值:輸入token長度n10&…

谷歌采用 Ligero 構建其 ZK 技術棧

1. 引言 前序博客有: Ligero 和 Ligetron 中的 MPC 和 ZKLigetron:Nim Network開發的針對AI的zkVMLigetron:基于MPC-In-The-Head范式的zkVM簡介 在隱私保護身份驗證領域邁出重要一步,谷歌最近宣布 將零知識證明(ZKP…

Flutter渲染引擎:Impeller和Skia

一、Impeller 渲染引擎的發布時間Impeller 是 Flutter 團隊為解決 Skia 引擎在移動端(尤其是 iOS 平臺)的性能問題而開發的全新渲染引擎,其發展歷程如下:首次公開:2021 年 Google I/O 大會上首次提及,作為 …

網絡編程-加密算法

目錄 一.網絡編程基礎 1. 概述 2. IP地址 3. 域名 4. 網絡模型 5. 常用協議 6. 小結 二.TCP編程 1. 什么是Socket? 2. 服務器端 3. 客戶端 4. Socket流 5. 小結 三.UDP編程 1. 概述 2. 服務器端 3. 客戶端 4. 小結 案例: 四.加密算法 …