TimeDistill:通過跨架構蒸餾的MLP高效長期時間序列預測

原文地址:https://arxiv.org/abs/2502.15016

發表會議:暫定(但是Star很高)

代碼地址:無

作者:Juntong Ni (倪浚桐), Zewen Liu (劉澤文), Shiyu Wang(王世宇), Ming Jin(金明), Wei Jin(金衛)

團隊:埃默里大學(Emory),格里菲斯大學(Griffith)

同時本文在實驗部分我也結合了這篇文章的借鑒:TimeDistill:跨架構知識蒸餾,使用 MLP 實現高效長程時間序列預測-騰訊云開發者社區-騰訊云https://cloud.tencent.com/developer/article/2503439


摘要

本文提出了一種跨架構知識蒸餾(KD)框架TimeDistill,用于提高輕量級多層感知機(MLP)模型在長期時間序列預測任務上的性能。作者觀察到,盡管先進的架構如Transformer和CNN在性能上表現出色,但由于計算和存儲需求高,在大規模部署中面臨挑戰。相比之下,簡單的MLP模型具有更高的效率,但性能較低。TimeDistill的關鍵思想是從教師模型(如Transformer、CNN)中提取補充模式,特別是時間和頻域中的多尺度和多周期模式,并將其蒸餾到學生MLP模型中。作者從理論上分析了TimeDistill的優勢,表明所提出的蒸餾過程可以視為一種特殊的mixup數據增強策略。實驗結果表明,TimeDistill在所有數據集上都能顯著優于獨立的MLP模型,最高可提升18.6%,并且在大多數情況下也優于教師模型,同時實現了高達7倍的推理加速和高達130倍的參數減少。

此外,作者還探討了TimeDistill的versatility,包括使用不同的教師模型、學生模型以及不同的歷史窗口長度。結果表明,TimeDistill能夠從各種教師模型中有效地學習知識,并且能夠顯著提升其他輕量級模型(如TSMixer和LightTS)的性能。同時,TimeDistill在不同歷史窗口長度下都能保持優于教師模型的性能。

總之,本文提出的TimeDistill框架為長期時間序列預測任務提供了一種高效且通用的解決方案,在保持輕量級模型架構的同時,能夠顯著提升預測性能,并且具有良好的適應性。

科普

  1. KD(知識蒸餾)的概念:一種將知識從更大更復雜的模型(教師)轉移到更小更簡單的模型(學生)的技術,同時保持可比的性能。
  2. transformer的做法:利用了捕捉成對依賴關系和提取順序數據中的多級表示的強大能力

教師模型里的什么“知識”應該提煉到MLP?

利用不同架構的互補能力的價值,主要聚焦于兩個關鍵的時序模式:

  • 多尺度模式 : 現實世界的時間序列通常在多個時間尺度上顯示變化。表現良好的模型在最細粒度尺度上也能準確地在更粗糙的尺度上表現, 而 MLP 在大多數尺度上都失敗。
  • 多周期模式?: 時間序列通常表現出多個周期性。表現良好的模型能夠捕捉與真實數據相似的周期性, 但 MLP 無法捕捉這些周期性。
性能比較

TimeDistill和傳統KD的區別,以及它的處理辦法和優點?

TIMEDISTILL專注于對齊MLP和教師之間的多尺度和多周期模式,而不是僅僅匹配傳統KD中的預測:首先對時間序列進行下采樣以進行時間多尺度對齊,并應用快速傅立葉變換(FFT)來對齊頻域中的周期分布。KD過程可以離線進行,將繁重的計算從延遲關鍵的推理階段(毫秒級問題)轉移到對時間不太敏感的訓練階段,在那里可以接受更長的處理時間。

ECL數據集所有預測長度(96、192、336、720)的平均模型效率比較。

?與之前只關注預測輸出的LightTS(另一篇KD論文)不同

?1?? LightTS(舊方法):就像專門給「學霸小組」(集成分類器)設計的教學大綱,只能讓組內學霸互相學習。

但問題是:

- 只適用于特定班級(集成模型)

- 無法推廣到其他類型的學生(比如普通學生MLP)

2?? 本文方法(新方法):更像針對「時間科目」的定制教學,專門攻克兩類難題:

- 多尺度題(比如同時分析每小時+每天的交通數據變化)

- 多周期題(比如識別天氣中的日循環+年循環規律)

并且允許:

? 跨班級教學(如讓Transformer學霸教MLP學渣)

? 提煉學科專用技巧(而非通用解題套路)

為什么選擇蒸餾?

????????MLP(多層感知機)在效率上的優勢以及其在性能上的局限性,并提出知識蒸餾(KD)作為一種可能的解決方案。盡管MLP在整體性能上可能不如Transformer或CNN等復雜模型,但它在特定樣本上可能表現更好。通過分析MLP與教師模型的預測誤差,可以發現MLP在某些子集上具有優勢,這為知識蒸餾提供了潛在的價值。

????????關鍵點 MLP的效率與性能權衡: MLP在效率上表現優異,但在整體性能上通常不如Transformer和CNN模型。 盡管如此,MLP在某些樣本上可能優于教師模型,這表明它們在特定任務上具有不同的優勢。

????????勝率的計算: 通過比較MLP和教師模型的預測誤差,計算MLP優于教師模型的比例(勝率)。 實驗表明,盡管MLP總體上不如教師模型,但它在某些數據集(如Traffic)上表現出較高的勝率(81.19%),說明不同模型在不同子集上的表現存在差異。

????????知識蒸餾的潛力: 從教師模型中提取互補知識到MLP中,可以彌補MLP的不足,同時利用其在特定樣本上的優勢。

知識蒸餾的局限性:

  1. 過擬合噪聲:直接對齊預測可能過擬合教師模型中的噪聲,導致知識不穩定。
  2. 復雜模式的復制困難:MLP可能難以直接復制教師模型預測中的復雜模式(如季節性、趨勢等)。
  3. 忽略中間特征:僅對齊預測忽略了教師模型中間特征的有價值知識。
MLP的成功率(%)在輸入-720predict-96設置下跨數據集的教師模型。成功率通常很高(平均值:49.92%,中位數:49.96%),這表明MLP和教師模型在不同的樣本上表現出色,重疊最少。

KD應該提取什么?

MLP因難以捕獲時間序列的多尺度趨勢和周期性模式導致預測偏差。實驗顯示,教師模型在粗粒度趨勢(如尺度3)和主頻周期性上表現優異,而MLP顯著落后。因此,需通過知識蒸餾將教師模型的這些互補模式引入MLP,以提升其時間序列預測能力。

在ECL數據集的不同下采樣尺度上模型預測的可視化。MLP在多個尺度下的性能一直很差,而其他模型的性能很好,這突出了捕捉多尺度模式的重要性。

時間序列中的周期性在頻域中通過將時間序列轉換為頻譜圖來顯現,其中x軸表示頻率,周期性計算為時間序列長度 S 除以頻率。

ECL數據集上各種模型的預測譜圖與地面真實值。MLP無法匹配地面真實情況中幾個主要頻率的振幅,紅色數字表示最重要頻率的振幅差異。

下采樣(Downsampling)?是指通過降低時間序列的分辨率(如減少數據點的數量),提取更粗粒度的數據表示。其核心目的是捕捉數據的宏觀趨勢或長期依賴,同時過濾掉高頻噪聲或細節波動。常用方法包括:

  1. 平均池化:將相鄰多個數據點取平均,合并為一個點。
  2. 最大/最小池化:取相鄰點的最大值或最小值。
  3. 卷積操作:使用低通濾波器(如移動平均)平滑數據后,按步長跳過部分點。

知識蒸餾(KD)在時間序列中的演進

1???傳統KD(Hinton, 2015): 核心:將復雜教師模型的知識遷移至輕量學生模型 局限:依賴輸出分布對齊,未針對時序特性設計

2???時序領域現有方法: CAKD(Xu等, 2022):結合對抗學習+對比學習的兩階段蒸餾(特征級+預測級) LightTS(Campos等, 2023):專為集成分類器設計,架構兼容性差 ? 共性缺陷:未聚焦時序特有模式(如多尺度、多周期)

3???本文創新: 時序模式蒸餾:顯式提取多尺度(時間域)與多周期(頻域)關鍵模式 跨架構突破:首次實現異構模型間KD(如Transformer→MLP),解決架構差異挑戰 (對比:傳統KD通用但粗放 → 本文定向提煉時序核心規律 + 跨架構兼容性)

方法

背景與目標

????????提出了一個新穎的知識蒸餾(KD)框架 TIMEDILL,用于時間序列。其核心思想是將知識從一個固定的、預訓練的教師模型?f_{t}轉移到學生 MLP 模型?f_{s}?。

模型結構

優化目標

整個框架的優化目標是通過監督損失L_{sup}和知識蒸餾損失L_{KD}^{Y}L_{KD}^{H}來最小化學生模型的預測誤差和特征誤差。

pipeline

在特征和預測級別上使用(a)多尺度蒸餾和(b)多周期蒸餾將知識從教師模型蒸餾到學生MLP。
(a)多尺度蒸餾涉及將原始時間序列下采樣為多個較粗尺度,并在學生和教師之間調整這些尺度。
(b)多周期蒸餾應用FFT將時間序列轉換為譜圖,然后在應用softmax之后匹配周期分布。

解釋圖(a)

????????多尺度蒸餾的過程,用于將教師模型的多尺度模式知識轉移到學生模型中 教師模型和學生模型的比較:

  1. 教師模型(藍色曲線)在所有尺度上都能較好地捕捉時間序列的趨勢和模式。
  2. 學生模型(棕色曲線)在較細的尺度(如Scale 0)上可能表現較好,但在較粗的尺度(如Scale 3)上表現較差,顯示出其在處理多尺度模式上的局限性。

多尺度蒸餾

核心概念

TimeDistill 的核心組件之一是多尺度蒸餾,通過不同采樣率表示同一時間序列,使 MLP 能有效捕捉粗粒度和細粒度模式。通過預測級別和特征級別的聯合蒸餾,確保 MLP 不僅復現教師模型的多尺度預測,還能對齊其中間層的內部表示。

多周期蒸餾

預測層面

特征層面

總體優化與理論分析

總體訓練損失

理論解釋

????????從數據增強的角度理解多尺度和多周期蒸餾損失,其類似于mixup策略。這種蒸餾方法通過混合真實值和教師預測來增強數據,為時間序列預測帶來以下好處:增強泛化能力、顯式整合模式、穩定訓練動態。這些優勢有助于減輕過擬合、提供隱藏模式見解,并支持更平滑的優化和更好的收斂。

  1. ????????通過同時優化監督損失(學生直接學真實值)和多尺度蒸餾損失(學生學教師的多尺度特征),實際上就相當于在優化這些“增強樣本”上的損失。
  2. ????????通過同時優化監督損失(學生直接學真實值的周期分布)和多周期蒸餾損失(學生學教師的周期分布),實際上就相當于在優化這些“增強樣本”上的KL散度損失。 好處:這種混合策略讓學生的訓練目標更平滑,幫助它更好地捕捉周期性模式,從而提高預測的穩定性。

想象一下,你在教一個學生做數學題,但直接教他可能會有些吃力。于是,你決定用一種特別的方法來輔助教學:把原題(原始數據)和標準答案(教師模型的預測)混合起來,形成一個“增強版”的題目。同時,你希望學生不僅能做對原題(監督損失),還能從標準答案里學到解題思路(周期蒸餾損失)。

實驗

效果全面領先

TimeDistill在8個時序數據集上進行實驗,其中7個數據集的MSE指標優于基線教師模型,在所有數據集的MAE指標上均取得最佳表現,展現出卓越的預測能力。

兼容多種教師模型

TimeDistill適用于多種教師模型,能夠有效蒸餾知識并提升MLP學生模型的性能,同時相較教師模型本身也有顯著提升。

兼容多種學生模型

TimeDistill不僅適用于 MLP 結構,還可以增強輕量級學生模型的性能。例如,在以ModernTCN作為教師模型的實驗中,TimeDistill使兩個輕量模型TSMixer和LightTS的MSE分別降低6.26%和8.02%,驗證了其在不同學生模型上的適應性。

兼容多種回溯窗口長度

時序模型的預測性能往往隨回溯窗口(歷史觀測長度)變化而波動,而 TimeDistill在所有窗口長度下均能提升MLP表現,甚至超越教師模型,體現出對不同時間依賴模式的強大適應能力。

ETTh1蒸餾前后時間尺度和光譜圖的預測比較。MLP、Teacher(ModernTCN)和TIMEDISTILL的MSE分別為0.790、0.365和0.366,表明TIMEDISTILL通過多尺度和多周期提取來橋接時域和頻域間隙。

消融實驗

TimeDistill通過消融實驗進一步驗證了模型設計的合理性。值得注意的是,即使去掉Ground Truth監督信號(w/o sup),TimeDistill仍然能夠顯著提升MLP預測精度,表明其可以從教師模型中有效學習到豐富的知識。

idea

從先進的時間序列模型中提取,例如時間序列基礎模型,并結合多變量模式。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/81071.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/81071.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/81071.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

DeepSeek最新大模型發布-DeepSeek-Prover-V2-671B

2025 年 4 月 30 日,DeepSeek 開源了新模型 DeepSeek-Prover-V2-671B,該模型聚焦數學定理證明任務,基于混合專家架構,使用 Lean 4 框架進行形式化推理訓練,參數規模達 6710 億,結合強化學習與大規模合成數據…

如何用AI生成假期旅行照?

以下是2025年最新AI生成假期旅行照片的實用工具推薦及使用指南,結合工具特點、研發背景和適用場景進行綜合解析: 一、主流AI旅行照片生成工具推薦與對比 1. 搜狐簡單AI(國內工具) ? 特點: ? 一鍵優化與背景替換&…

ElaticSearch

ElaticSearch: 全文搜索 超級強,比如模糊查詢、關鍵詞高亮等 海量數據 高效查詢,比傳統關系數據庫快得多(尤其是搜索) 靈活的數據結構(Schema靈活,可以動態字段) 分布式高可用,天…

Android開發,實現一個簡約又好看的登錄頁

文章目錄 1. 編寫布局文件2.設計要點說明3. 效果圖4. 關于作者其它項目視頻教程介紹 1. 編寫布局文件 編寫activity.login.xml 布局文件 <?xml version"1.0" encoding"utf-8"?> <androidx.appcompat.widget.LinearLayoutCompat xmlns:android…

機器學習:【拋擲硬幣的貝葉斯后驗概率】

首先,拋硬幣的問題通常涉及先驗概率、似然函數和后驗概率。假設用戶可能想通過觀察一系列的正面(H)和反面(T)來更新硬幣的偏差概率。例如,先驗可能假設硬幣是均勻的,但隨著觀察到更多數據,用貝葉斯定理計算后驗分布。 通常,硬幣的偏差可以用Beta分布作為先驗,因為它…

Echarts 問題:自定義的 legend 點擊后消失,格式化 legend 的隱藏文本樣式

文章目錄 問題分析實現步驟代碼解釋問題 如下圖所示,在自定義的 legend 點擊后會消失 分析 我把隱藏的圖例字體顏色設為灰色,可以借助 legend.formatter 和 legend.textStyle 結合 option.series 的 show 屬性來達成。以下是具體的實現步驟和示例代碼: <!DOCTYPE ht…

光譜相機如何提升目標檢測與識別精度

光譜相機&#xff08;多光譜/高光譜&#xff09;通過捕捉目標在多個波段的光譜特征&#xff0c;能夠揭示傳統RGB相機無法感知的材質、化學成分及物理特性差異。以下是提升其目標檢測與識別精度的核心方法&#xff1a; ?1. 硬件優化&#xff1a;提升數據質量? ?(1) 光譜分辨…

springboot項目配置nacos,指定使用環境

遇到這樣一個問題&#xff0c;在開發、測試、生成環境之間切換的問題。 大多數的操作是通過修改spring.profiles.active來確定指向使用的環境配置文件&#xff0c;對應項目中需要增加對應的配置文件。 但是現在幾乎所有公司都會有代碼管理不管是SVN、git&#xff0c;這樣就會涉…

AI代碼審查的落地實施方案 - Java架構師面試實戰

AI代碼審查的落地實施方案 - Java架構師面試實戰 本文通過模擬一位擁有十年Java研發經驗的資深架構師馬架構與面試官之間的對話&#xff0c;深入探討了AI代碼審查的落地實施方案。 第一輪提問 面試官&#xff1a; 馬架構&#xff0c;請介紹一下您對AI代碼審查的理解。 馬架…

TDengine 訂閱不到數據問題排查

簡介 TDengine 在實際生產應用中&#xff0c;經常會遇到訂閱程序訂閱不到數據的問題&#xff0c;總結大部分都為使用不當或狀態不正確等問題&#xff0c;需手工解決。 查看服務端狀態 通過 sql 命令查看有問題的 topic 和consumer_group 組訂閱是否正常。 select * from inf…

二、UI自動化測試02--元素定位方法

目錄 一、定位?組元素?法二、XPath 定位?法1. 路徑策略1.1 路徑值獲取?法 2. 利?元素屬性策略利?元素屬性策略的注意事項 3. 屬性和邏輯結合4. 層級和屬性結合策略5. XPath 延伸?法 三、CSS 定位?法1. CSS 策略: id選擇器/class選擇器/元素選擇器/屬性選擇器2. 屬性選擇…

HotSpot的算法細節

可達性分析算法 以一系列“GC Roots”根對象作為起始節點集&#xff0c;從這些節點開始&#xff0c;根據引用關系向下搜索&#xff0c;搜索過程所走過的路徑稱為“引用鏈”&#xff08;Reference Chain&#xff09;&#xff0c;如果某個對象到GC Roots間沒有任何引用鏈相連&am…

Transformer數學推導——Q27 證明時序注意力(Temporal Attention)在視頻模型中的幀間依賴建模

該問題歸類到Transformer架構問題集——注意力機制——跨模態與多模態。請參考LLM數學推導——Transformer架構問題集。 在視頻理解任務中&#xff0c;捕捉幀與幀之間的時間依賴關系&#xff08;如動作的連貫性、物體的運動軌跡&#xff09;是核心挑戰。時序注意力&#xff08…

服務器和數據庫哪一個更重要

在當今數字化的時代&#xff0c;服務器和數據庫都是構建和運行各種應用系統的關鍵組成部分&#xff0c;要說哪一個更重要&#xff0c;其實很難簡單地給出定論。 服務器就像是一個強大的引擎&#xff0c;為應用程序提供了穩定的運行環境和高效的計算能力。它負責接收和處理來自…

【Android】四大組件之Service

目錄 一、什么是Service 二、啟停 Service 三、綁定 Service 四、前臺服務 五、遠程服務擴展 六、服務保活 七、服務啟動方法混用 你可以把Service想象成一個“后臺默默打工的工人”。它沒有UI界面&#xff0c;默默地在后臺干活&#xff0c;比如播放音樂、下載文件、處理…

pytest 技術總結

目錄 一 pytest的安裝&#xff1a; 二 pytest有三種啟動方式&#xff1a; 三 用例規則&#xff1a; 四 配置框架&#xff1a; 一 pytest的安裝&#xff1a; pip install pytest # 安裝 pip install pytest -U # 升級到最新版 二 pytest有三種啟動方式&#xff1a; 1…

redis 有序集合zrange和zrangebyscore的區別

起因是查詢數據&#xff0c;用了zrangebyscore 但是一直顯示沒數據 具體命令zrangebyscore key 0 -1 withscores, 原有印象中一直是這么用的&#xff0c;但是突然查不出來了&#xff0c; 于是搜了下問題所在。 通過分數查看 不能用0和-1表示最小和最大&#xff0c;只能用分數來…

Tableau 基礎表制作

目錄 1.數據連接 2. 數據可視化 3. 基礎表制作 3.1 對比分析&#xff1a;比大小 1. 柱狀圖 2. 條形圖 3. 熱力圖 4. 氣泡圖 5. 詞云 3.2 變化分析&#xff1a;看趨勢 1. 折線圖 2. 面積圖 3.3 構成分析&#xff1a;看占比 1. 餅圖 2. 樹地圖 3. 堆積圖 3.4 關…

反序列化漏洞1

一、PHP類與對象 1. 類 概念理解: 類是共享相同結構和行為的對象的集合&#xff0c;可以理解為特征的提取。例如將耳朵長、尾巴短、紅眼睛、吃胡蘿卜、蹦跳行走的動物特征抽象為"兔子"類。代碼結構: 使用class關鍵字定義類類名遵循大駝峰命名法包含成員變量(屬性)和…