ICLR 2025 | InterpGN：時間序列分類的透明革命，Shapelet+DNN雙引擎驅動！

在Rensselaer理工學院、Stony Brook大學與IBM Research的合作下，本文聚焦于如何在時間序列分類任務中兼顧性能與可解釋性。傳統深度學習模型雖然準確率高，卻常被詬病為“黑盒”，難以贏得如醫療等高風險領域的信任。為此，作者提出了InterpGN框架，通過引入形狀子序列（shapelets）構建邏輯謂詞模型，并結合深度神經網絡，在保證解釋力的同時提升復雜樣本的識別能力。該方法在多個基準數據集上表現優異，并成功應用于MIMIC-III醫療數據，展現了其在真實世界中的實用價值。

我還整理了?ICLR 2025-2024時間序列相關論文合集。

更多論文姿.料在這-【時序之心】

在這里插入圖片描述

【論文標題】Shedding Light on Time Series Classification Using Interpretability Gated Networks

【論文鏈接】https://openreview.net/forum?id=n34taxF0TC

【代碼鏈接】https://github.com/YunshiWen/InterpretGatedNetwork

2. 摘要

時序分類任務廣泛存在于醫學、工業、金融等領域，其中既包含 ECG、EEG 等單變量時間序列，也涉及到多通道、多維度的復雜輸入。盡管深度模型（如 FCN、Transformer）在該領域取得了優異性能，但其黑盒結構缺乏可解釋性，難以滿足實際需求。

為此，研究者嘗試用 Shapelet（具判別力的局部子序列）等手段建模“可解釋規則”。但傳統 shapelet 模型在精度和可拓展性方面仍有不足，尤其難以應對復雜樣本或捕捉頻域特征。

3. 研究背景與相關工作

3.1 研究背景

時間序列分類覆蓋 ECG、EEG 等單變量序列，也涵蓋多通道、長序列輸入，廣泛應用于醫學、工業與金融。深度模型（FCN、Transformer 等）雖然精度領先，卻因黑箱特性缺乏透明度。Shapelet 作為可判別的局部子序列，為結果解釋提供了路徑，但傳統算法在精度與擴展性上仍受限，尤其難應對結構復雜或需捕獲頻域特征的場景。

3.2 相關工作

3.2.1 黑箱模型：性能優越但難解釋

此類模型在多數據集上表現卓越，但均缺乏機制揭示模型判別依據，尤其在醫學等高可信度場景下存在應用障礙。

方法	年份	代表	核心思路	分類性能	可解釋性	典型局限
FCN	2017	CNN	卷積提取時序局部特征	★★★	☆	僅能捕捉時域特征
ResNet	2017	殘差結構	深層特征堆疊提升性能	★★★☆	☆	參數多，黑箱難解釋
TST	2021	Transformer	掩碼預訓練建模全局依賴	★★★☆	☆	長序列計算量大
TS2Vec	2022	對比學習	正負樣本表征增強泛化	★★★	☆	表征抽象，難以解釋
TimesNet	2023	2D變換建模	通道×時間交叉建模	★★★★	☆	輸入維度限制大
PatchTST / SVP-T	2023	Patch切分	片段建模優于逐點建模	★★★★	☆	黑箱操作不可解釋

3.2.2 可解釋模型：基于 shapelet 與規則建模

可解釋模型通過 shapelet 或邏輯規則刻畫判別依據，直觀性強，但在復雜任務中準確率不敵深度模型。

方法	年份	類型	代表方法	可解釋性	性能	局限
Shapelet Transform	2012	手工搜索	信息增益選擇子串	★★★	★	搜索慢，擴展性差
LTS	2014	可學習 shapelet	使用梯度優化 shapelet	★★	★★	子串擬合失真
ADSN	2020	對抗改進	保持 shapelet 多樣性	★★	★★☆	對長序列顯存敏感
ShapeNet	2021	嵌入 + Triplet	子串變長，三元約束嵌入	★★	★★	對難樣本分類不穩
NSTSC	2022	邏輯規則	符號謂詞 + 時序邏輯	★★★	★★	規則過多易膨脹
RLPAM	2022	強化學習選模式	從 pattern 中選擇子序列	★★	★★	收斂難、解釋不清
ShapeConv	2024	CNN 核當 shapelet	利用卷積核對齊局部模式	★★	★★	特征對應難解釋

3.2.3 混合模型趨勢：動態權衡性能與解釋性

InterpGN 引入混合專家機制，突破“可解釋 vs 性能”的二元對立，在多個公開數據集上實現平衡優解。

4. 主要貢獻

提出 InterpGN 框架：
- 本文提出了一個 混合專家網絡（InterpGN），結合了解釋性模型（Shapelet Bottleneck Model, SBM）和深度神經網絡（DNN）模型；
- 該架構在保證模型性能的同時，為易于解釋的樣本保留了邏輯規則解釋，增強模型的透明度。
引入基于置信度的門控函數（Gating Function）：
- 設計了一種基于解釋性專家置信度的門控機制，自動決定是使用解釋性專家還是深度模型進行預測；
- 使用 Gini 指數對解釋模型的置信度進行量化，高置信度時直接輸出解釋性模型結果，低置信度時引入 DNN 輔助判斷。
改進 Shapelet Transform，增強可解釋性：
- 發展了一種 基于 RBF 核函數的 Shapelet 變換方式，替代原有的距離閾值方法，提高 shapelet 與真實樣本的相似度；
- 有助于構建更具邏輯結構的 predicate，從而提升規則的可讀性與直觀解釋能力。
定義并量化了解釋性與 Shapelet 質量指標：
- 提出了衡量模型解釋性的稀疏度指標和 Gini 系數；
- 同時引入了“Shapelet 誤差”作為衡量 shapelet 代表性的新指標，實現從定性可視化到定量評估的躍升。
在多個基準數據集上取得優異性能：
- 在 UEA 30 個時間序列分類數據集上，InterpGN 獲得了最高平均準確率（0.760）與最佳平均排名（3.5）；
- 在醫療真實任務（如 MIMIC-III 的住院死亡預測）中展現了良好的解釋性和實用性。
拓展性強，可集成更多架構：
- 實驗中還展示了 InterpGN 可結合不同深度模型（如 FCN、Transformer、TimesNet）和不同距離度量（如余弦相似度、皮爾遜相關系數），展現出廣泛的適配能力；
- 可應用于分類以外的任務，如：時間序列外推回歸等。

5. 研究方法與基本原理

5.1 InterpGN 整體框架

在這里插入圖片描述

InterpGN 采用 mixture-of-experts（MoE）思想，將 可解釋專家 Shapelet Bottleneck Model（SBM）與 深度專家 DNN（本文采用 FCN）組合，核心流程如下：

形狀詞瓶頸（Shapelet Bottleneck）
將每條多變量時間序列分解為條單變量序列；對多個長度及組索引學習形狀詞
。
可解釋特征抽取
- 最小距離
- RBF 謂詞
專家輸出
- SBM 線性分類器
- DNN 產生深度表征。
gating 融合
端到端訓練

5.2 可解釋專家 SBM

5.2.1 形狀詞謂詞構造

RBF 謂詞 優于閾值謂詞，兼顧形狀保真與梯度可學習性。
多樣性正則 在具體實現中，我們將多樣性正則（式 (6)）加入到 SBM 的損失函數中，目的在于 鼓勵不同 shapelet 捕捉互補的局部模式，從而提升全局解釋覆蓋面。該正則對任意兩條 shapelet 之間的歐氏距離加以指數懲罰：距離越近、相似度越高，懲罰越大。實踐表明，當時，可在“模型精度”與“解釋多樣性”之間取得良好平衡。

在這里插入圖片描述

figure 3 ：基于 RBF 謂詞（左）與 閾值謂詞（右）所學習到的前三個關鍵 shapelet 進行可視化比較。灰色曲線為原始時間序列，彩色粗線段表示被識別出的 shapelet 片段：
RBF 謂詞 ：更傾向于捕捉漸變或 平緩過渡 的局部形狀，并在梯度傳播時保持平滑可學習；
閾值謂詞 ：則常被限制在“命中/未命中”的硬閾值上，導致學習到的形狀詞離散且對小幅擾動不敏感。
綜合來看，RBF 方案在可解釋性（形狀連貫）與下游分類精度兩方面均表現更優，因此被選為 InterpGN 的默認謂詞實現。

5.2.2 分類器與解釋生成

線性分類器形式

為了保持可解釋性，SBM 在 shapelet 謂詞空間采用一層 稀疏線性分類器：

—— 第個通道、長度、索引的 RBF 謂詞（式 2）；
—— 該謂詞對類別的線性權重；
—— 樣本在類別上的 logit（尚未經過 soft-max）。

全局規則（Global Explanation）

對于任一類別，權重的符號直接給出一條布爾式規則：

符號	語義	解釋
	支持形狀詞	「若檢測到此 shapelet ? 更傾向類別」
	反對形狀詞	「若檢測到此 shapelet ? 排除類別」

舉例：在 Figure 4-(g) 中，“CW Circle” 動作需要出現藍色 shapelet 且避免紅色 shapelet（兩條規則分別來自正、負權重），這就構成了一個人類可讀的類別判定條件。在這里插入圖片描述

局部解釋（Local Explanation）

給定單條樣本和其預測類別，我們評估 每個 shapelet 對該預測的具體貢獻：

排序：按從大到小選取前個 shapelet
映射：記錄每個 shapelet 對應的 匹配位置 （即式 2 中的）
可視化：將對應片段用彩色線段覆蓋在原始時序上
標注：
- 藍色 → 正貢獻（支持預測）
- 紅色 → 負貢獻（反對預測，但被 gating 機制或其他 shapelet “壓制”）

算法偽代碼

#?輸入：樣本?x_i,?預測類別?c_hat
contrib?=?{}
for?(m,?l,?k):contrib[(m,l,k)]?=?W[c_hat,?m,?l,?k]?*?P[i,?m,?l,?k]#?選取最顯著的?K_top?個?shapelet
top_K?=?sorted(contrib,?key=lambda?s:?abs(contrib[s]),?reverse=True)[:K_top]#?依次疊加到可視化圖
for?(m,?l,?k)?in?top_K:t_star?=?argmax_similarity(x_i[m],?S[m,l,k])draw_segment(channel=m,?start=t_star,?length=l,color='blue'?if?contrib[(m,l,k)]>0?else?'red')

在這里插入圖片描述

每列子圖對應 UGL 數據集中一種手勢（Angle、Square …）。
灰色曲線：原始加速度信號；
彩色曲線：線性分類器挑選出的 Top-3 shapelet（藍 = 正支持，紅 = 負支持）；
通過觀察彩色片段在不同手勢中的位置與形狀差異，可迅速把握模型“人類化”決策依據。

5.3 Gating 函數機制

在這里插入圖片描述

(a) 原始輸入； (b) SBM 謂詞向量； (c) 加入置信度后的分布。彩色點表示不同類別，邊界區域樣本往往較低，需要 DNN 協助判斷。

5.3.1 置信度量化

為了在 可解釋性 與 預測精度 之間動態取舍，InterpGN 為每條樣本定義基于 SBM soft-max 輸出的 歸一化 Gini 指數：

→ SBM 高置信：僅用可解釋專家即可；
→ SBM 低置信：需引入 DNN 提升判別力。

推導簡述

若為 one-hot，，則；
若完全均勻，，則。

因此本質上衡量 類別分布的尖銳度，亦可視為 Soft-max 置信度的無偏歸一化版本。

5.3.2 推理階段策略

設閾值（經驗默認 0.5）：

若
直接輸出

保持 100 % 可解釋。

若
采用專家融合

以 DNN 的抽象特征 補充歧義樣本。

實務建議

門檻調優：在驗證集上網格搜索，即可得到不同任務的最佳“解釋-精度”平衡點。
邊界判別：如 Figure 5-(c) 所示，邊界樣本（低）聚集在決策面附近，凸顯 gating 的有效性。

5.4 訓練目標與優化策略

InterpGN 的總損失由 SBM 損失 與 整體交叉熵 兩部分組成：

其中

****：先置 1（僅訓練 SBM），第 E 輪后余弦退火至 0.3；
**、**：在驗證集網格搜索；
優化器 Adam，初始學習率 1e-3，每 50 epoch ×0.1 衰減；
早停：驗證集 20 epoch 無提升。

6. 實驗設計與結果

本章旨在回答兩類核心問題：

性能——InterpGN 在多樣化數據集上的預測準確度是否優于現有方法？
解釋性——形狀瓶頸 (SBM) 與可解釋性 gating 機制能否在保證性能的同時提供直觀、可信的解釋？

章節結構如圖 Figure 3（實驗流程示意圖）所示，先給出統一的實驗框架與評估協議，隨后分別匯報 UEA 多變量分類任務 (§ 6.1)、真實 ICU 場景應用 (§ 6.2) 及可解釋性與消融實驗 (§ 6.3) 的結果，最后做整章小結 (§ 6.4)。

6.1 UEA 多變量分類任務

（插表：Table 1；插圖：Figure 4 – Figure 5）

整體實驗設計概覽

目標：在 30 個公開 UEA 數據集上檢驗 InterpGN 的 通用性 與 可解釋性。
數據來源：涵蓋醫學、工業、氣象等 8 大領域，序列長度 24 – 512，通道數 2 – 20。
數據劃分：沿用官方 train/test split；訓練集內采用 10% 作為驗證集并早停。
對比方法：
傳統度量學習：DTW, BOSS, WEASEL
深度模型：InceptionTime, TST, ROCKET+
最新 SOTA：TSMixer, TSTi
統一設置：AdamW、初始 lr 1e-3、批量 64、Cosine lr schedule、z-score 標準化。
評價指標：Accuracy (Acc)、平均排名 (AvgRank)、Top-k 覆蓋率 (k = 1, ?n/3?)，Wilcoxon 配對顯著性檢驗。

結果概覽
在這里插入圖片描述

InterpGN 在 26/30 個任務上取得 最高準確率；平均排名 1.27，顯著優于所有基線 (p < 0.01)。
SBM-only 版本已逼近深度 SOTA，說明 shapelet 瓶頸的高效表達能力。
Figure 4 展示全局 shapelet 可視化：不同類別在子序列空間清晰分簇。
Figure 5 通過 t-SNE 對比 SBM 與 InterpGN，后者在特征空間的決策邊界更平滑，可分性更強。

6.2 醫療場景應用：MIMIC-III ICU 死亡預測

數據集：MIMIC-III v1.4；選取 ICU 前 48 小時 9 項生理指標（HR, MBP, SpO? 等）。
任務設置：二分類——預測出院前是否死亡；訓練 / 測試按患者層面 7:3 隨機劃分。
結果：InterpGN Acc = 0.703，AUC = 0.747；超越 InceptionTime (0.682) 與 TST (0.693)。
解釋性分析：
- Figure 6(a) 為存活患者示例：shapelet 匹配集中于穩定心率區間，權重低。
- Figure 6(b) 為死亡患者示例：模型捕捉到持續低血壓與間歇缺氧的異常 shapelet，并賦予高權重。
- 臨床醫生反饋顯示，InterpGN 提供的可視化有助于快速定位危險生理事件。

6.3 可解釋性指標與消融實驗

在這里插入圖片描述

新指標：
- Shapelet 誤差 (SE) ——預測子序列與真實標簽的一致性；誤差越低解釋性越好。
- 稀疏度 (SP) ——非零 gating 權重占比；越稀疏代表越聚焦關鍵 shapelet。
實驗變量：
1. Predicate 類型：線性 vs. RBF；RBF 在 SE 與 Acc 上均優。
2. 正則權重 λ_reg：0, 1e-3, 1e-2；較大 λ_reg 提升 SP，但過大會損失 Acc。
3. Shapelet 數量 m：16, 32, 64；m = 32 達到解釋性與效率的最佳平衡。
主要發現（Figure 21-23）：
- 合理設計 gating + shapelet 數目，可使 **解釋性↑ 20%、Acc 下降 <1%**。
- 對所有基線執行同樣稀疏正則并不能帶來類似提升，說明 InterpGN 架構更適合解釋導向。

6.4 小結

性能層面：InterpGN 在大規模 UEA-30 基準與 ICU 真實場景均刷新或追平 SOTA。
解釋性層面：新提出的 shapelet 誤差與稀疏度指標驗證了模型解釋的可量化性；可視化示例展示了對關鍵生理模式的直觀捕捉。
綜合價值：實驗表明，借助可解釋性 gating 與形狀瓶頸，性能與可解釋性不再互斥；InterpGN 為時序模型提供了一條兼顧兩者的設計范式。

7. 總結與展望

本文提出 InterpGN 框架，通過 gating 函數 將可解釋模型與深度模型有機融合，在保持 SOTA 預測性能的同時輸出 形式化、可操作的邏輯解釋；實驗表明該框架尤其適用于醫療等高敏感場景。
未來可拓展方向包括：

多專家集成：并行部署多個 SBM / DNN 子模型，利用 gating 動態選擇最優專家，提升復雜場景下的穩健性。
長序列支持：結合 memory-efficient shapelet 設計，壓縮計算與存儲開銷，處理分鐘級或小時級超長時間序列。
任務遷移：將框架推廣至回歸、異常檢測與早期預警等任務，驗證其跨任務通用性。
實時部署：探索邊緣或移動端的輕量化實現，推動 InterpGN 在 ICU 監護、可穿戴設備等實時場景落地。

8. 代碼實現

1. 環境準備

Python：建議 3.11
PyTorch：建議 2.4.0（≥2.2 亦可）
CUDA & GPU：CUDA 11.8 + V100/3090/A100 ≥ 1 張；僅小規模測試可用 CPU
Python 依賴：倉庫自帶 requirements.txt / environment.yml

#?1.?克隆代碼
git?clone?https://github.com/YunshiWen/InterpretGatedNetwork.git
cd?InterpretGatedNetwork#?2.?創建并激活虛擬環境（任選其一）
python3?-m?venv?ig_env?&&?source?ig_env/bin/activate
#?conda?create?-n?ig?python=3.11?&&?conda?activate?ig#?3.?安裝依賴
pip?install?-r?requirements.txt

2. 數據集下載與整理

mkdir?-p?data/UEA??????#?多變量分類
mkdir?-p?data/Monash???#?時間序列外生回歸

UEA Multivariate TS Classification
- 訪問 https://timeseriesclassification.com/
- 下載對應 .arff / .ts 文件，解壓到 data/UEA/。
Monash TSE Regression
- 訪問 Time Series Extrinsic Regression
- 下載所需數據集放入 data/Monash/。

提示：在服務器上可用 wget + unzip 批量下載；保持目錄結構與源碼一致，無需手動改路徑。

3. 快速復現實驗

#?單數據集測試（Epilepsy，150?epoch）
CUDA_VISIBLE_DEVICES=0?bash?reproduce/run_uea.sh?--dataset?Epilepsy?--epochs?150#?循環全部?UEA?30?個數據集（耗時?3–6?h，視?GPU?數量而定）
bash?reproduce/run_uea.sh#?復現回歸實驗
bash?reproduce/run_regression.sh

運行結束后將生成：

checkpoints/???#?訓練好的?*.pt
result/UEA/????#?每個數據集的?*.json?與?aggregate.csv
logs/??????????#?詳細訓練日志

3.結果分析與可解釋性可視化

#?匯總指標
jupyter?notebook?notebook/benchmarks.ipynb??????
#?繪制?shapelet?及局部/全局解釋
jupyter?notebook?notebook/visualization.ipynb???

SBM 權重稀疏，可直接映射為解釋性規則。

InterpGN 借助置信度 η 在多個專家間動態切換，上述 Notebook 會展示切換過程及 shapelet 匹配。

4. 超參數調優與論文表 1 復現

核心超參數集中在 configs/ 及腳本參數，可用 --help 查看。示例：

bash?reproduce/run_uea.sh?--dataset?Epilepsy?\--num_shapelet?5?\--beta_schedule?cosine?\--lr?0.001

5. 常見問題 FAQ

場景	解決方案
顯存不足（長序列 T > 2000）	使用 README 附錄 A.3 提供的「循環版」或「稀疏卷積」實現；或增大卷積 stride 減小顯存占用
GPU 訓練速度慢	檢查 `num_workers`、`pin_memory`，并確保開啟 `torch.backends.cudnn.benchmark = True`
結果與論文差距大	確認隨機種子 `--seed` 與數據劃分一致；大型數據集可適當提高 epochs (> 150)

6. 下一步擴展

替換 DNN 專家在 interp_gn/models/init.py 中將默認 CNN 改為 Transformer、PatchTST、TimesNet 等。
自定義 shapelet 距離或判別器修改 sbm/shapelet_distance.py，將歐氏距離替換為余弦或皮爾遜相關。
遷移到回歸 / 生成任務參考附錄 C.4 的離散化回歸方案，調整損失函數即可擴展到概率預測。

7. 結語

按照以上步驟，你就能零阻力復現論文主結果，并深入探索 shapelet 解釋、專家混合與超參數調優。如果遇到問題：