在Rensselaer理工學院、Stony Brook大學與IBM Research的合作下,本文聚焦于如何在時間序列分類任務中兼顧性能與可解釋性。傳統深度學習模型雖然準確率高,卻常被詬病為“黑盒”,難以贏得如醫療等高風險領域的信任。為此,作者提出了InterpGN框架,通過引入形狀子序列(shapelets)構建邏輯謂詞模型,并結合深度神經網絡,在保證解釋力的同時提升復雜樣本的識別能力。該方法在多個基準數據集上表現優異,并成功應用于MIMIC-III醫療數據,展現了其在真實世界中的實用價值。
我還整理了?ICLR 2025-2024時間序列相關論文合集。
更多論文姿.料 在這-【時序之心】
【論文標題】Shedding Light on Time Series Classification Using Interpretability Gated Networks
【論文鏈接】https://openreview.net/forum?id=n34taxF0TC
【代碼鏈接】https://github.com/YunshiWen/InterpretGatedNetwork
2. 摘要
時序分類任務廣泛存在于醫學、工業、金融等領域,其中既包含 ECG、EEG 等單變量時間序列,也涉及到多通道、多維度的復雜輸入。盡管深度模型(如 FCN、Transformer)在該領域取得了優異性能,但其黑盒結構缺乏可解釋性,難以滿足實際需求。
為此,研究者嘗試用 Shapelet(具判別力的局部子序列)等手段建模“可解釋規則”。但傳統 shapelet 模型在精度和可拓展性方面仍有不足,尤其難以應對復雜樣本或捕捉頻域特征。
3. 研究背景與相關工作
3.1 研究背景
時間序列分類覆蓋 ECG、EEG 等單變量序列,也涵蓋多通道、長序列輸入,廣泛應用于醫學、工業與金融。深度模型(FCN、Transformer 等)雖然精度領先,卻因黑箱特性缺乏透明度。Shapelet 作為可判別的局部子序列,為結果解釋提供了路徑,但傳統算法在精度與擴展性上仍受限,尤其難應對結構復雜或需捕獲頻域特征的場景。
3.2 相關工作
3.2.1 黑箱模型:性能優越但難解釋
此類模型在多數據集上表現卓越,但均缺乏機制揭示模型判別依據,尤其在醫學等高可信度場景下存在應用障礙。
方法 | 年份 | 代表 | 核心思路 | 分類性能 | 可解釋性 | 典型局限 |
---|---|---|---|---|---|---|
FCN | 2017 | CNN | 卷積提取時序局部特征 | ★★★ | ☆ | 僅能捕捉時域特征 |
ResNet | 2017 | 殘差結構 | 深層特征堆疊提升性能 | ★★★☆ | ☆ | 參數多,黑箱難解釋 |
TST | 2021 | Transformer | 掩碼預訓練建模全局依賴 | ★★★☆ | ☆ | 長序列計算量大 |
TS2Vec | 2022 | 對比學習 | 正負樣本表征增強泛化 | ★★★ | ☆ | 表征抽象,難以解釋 |
TimesNet | 2023 | 2D變換建模 | 通道×時間交叉建模 | ★★★★ | ☆ | 輸入維度限制大 |
PatchTST / SVP-T | 2023 | Patch切分 | 片段建模優于逐點建模 | ★★★★ | ☆ | 黑箱操作不可解釋 |
3.2.2 可解釋模型:基于 shapelet 與規則建模
可解釋模型通過 shapelet 或邏輯規則刻畫判別依據,直觀性強,但在復雜任務中準確率不敵深度模型。
方法 | 年份 | 類型 | 代表方法 | 可解釋性 | 性能 | 局限 |
---|---|---|---|---|---|---|
Shapelet Transform | 2012 | 手工搜索 | 信息增益選擇子串 | ★★★ | ★ | 搜索慢,擴展性差 |
LTS | 2014 | 可學習 shapelet | 使用梯度優化 shapelet | ★★ | ★★ | 子串擬合失真 |
ADSN | 2020 | 對抗改進 | 保持 shapelet 多樣性 | ★★ | ★★☆ | 對長序列顯存敏感 |
ShapeNet | 2021 | 嵌入 + Triplet | 子串變長,三元約束嵌入 | ★★ | ★★ | 對難樣本分類不穩 |
NSTSC | 2022 | 邏輯規則 | 符號謂詞 + 時序邏輯 | ★★★ | ★★ | 規則過多易膨脹 |
RLPAM | 2022 | 強化學習選模式 | 從 pattern 中選擇子序列 | ★★ | ★★ | 收斂難、解釋不清 |
ShapeConv | 2024 | CNN 核當 shapelet | 利用卷積核對齊局部模式 | ★★ | ★★ | 特征對應難解釋 |
3.2.3 混合模型趨勢:動態權衡性能與解釋性
InterpGN 引入混合專家機制,突破“可解釋 vs 性能”的二元對立,在多個公開數據集上實現平衡優解。
4. 主要貢獻
-
提出 InterpGN 框架:
-
本文提出了一個 混合專家網絡(InterpGN),結合了解釋性模型(Shapelet Bottleneck Model, SBM)和深度神經網絡(DNN)模型;
-
該架構在保證模型性能的同時,為易于解釋的樣本保留了邏輯規則解釋,增強模型的透明度。
-
-
引入基于置信度的門控函數(Gating Function):
-
設計了一種基于解釋性專家置信度的門控機制,自動決定是使用解釋性專家還是深度模型進行預測;
-
使用 Gini 指數對解釋模型的置信度進行量化,高置信度時直接輸出解釋性模型結果,低置信度時引入 DNN 輔助判斷。
-
-
改進 Shapelet Transform,增強可解釋性:
-
發展了一種 基于 RBF 核函數的 Shapelet 變換方式,替代原有的距離閾值方法,提高 shapelet 與真實樣本的相似度;
-
有助于構建更具邏輯結構的 predicate,從而提升規則的可讀性與直觀解釋能力。
-
-
定義并量化了解釋性與 Shapelet 質量指標:
-
提出了衡量模型解釋性的稀疏度指標和 Gini 系數;
-
同時引入了“Shapelet 誤差”作為衡量 shapelet 代表性的新指標,實現從定性可視化到定量評估的躍升。
-
-
在多個基準數據集上取得優異性能:
-
在 UEA 30 個時間序列分類數據集上,InterpGN 獲得了最高平均準確率(0.760)與最佳平均排名(3.5);
-
在醫療真實任務(如 MIMIC-III 的住院死亡預測)中展現了良好的解釋性和實用性。
-
-
拓展性強,可集成更多架構:
-
實驗中還展示了 InterpGN 可結合不同深度模型(如 FCN、Transformer、TimesNet)和不同距離度量(如余弦相似度、皮爾遜相關系數),展現出廣泛的適配能力;
-
可應用于分類以外的任務,如:時間序列外推回歸等。
-
5. 研究方法與基本原理
5.1 InterpGN 整體框架
InterpGN 采用 mixture-of-experts(MoE)思想,將 可解釋專家 Shapelet Bottleneck Model(SBM)與 深度專家 DNN(本文采用 FCN)組合,核心流程如下:
-
形狀詞瓶頸(Shapelet Bottleneck)
將每條多變量時間序列 分解為 條單變量序列;對多個長度 及 組索引 學習形狀詞
。 -
可解釋特征抽取
-
最小距離
-
RBF 謂詞
-
-
專家輸出
-
SBM 線性分類器
-
DNN 產生深度表征 。
-
-
gating 融合
-
端到端訓練
5.2 可解釋專家 SBM
5.2.1 形狀詞謂詞構造
-
RBF 謂詞 優于閾值謂詞,兼顧形狀保真與梯度可學習性。
-
多樣性正則 在具體實現中,我們將多樣性正則 (式 (6))加入到 SBM 的損失函數中,目的在于 鼓勵不同 shapelet 捕捉互補的局部模式,從而提升全局解釋覆蓋面。該正則對任意兩條 shapelet 之間的歐氏距離加以指數懲罰:距離越近、相似度越高,懲罰越大。實踐表明,當 時,可在“模型精度”與“解釋多樣性”之間取得良好平衡。
在這里插入圖片描述
figure 3 :基于 RBF 謂詞(左)與 閾值謂詞(右)所學習到的前三個關鍵 shapelet 進行可視化比較。 灰色曲線為原始時間序列,彩色粗線段表示被識別出的 shapelet 片段:
RBF 謂詞 :更傾向于捕捉 漸變 或 平緩過渡 的局部形狀,并在梯度傳播時保持平滑可學習;
閾值謂詞 :則常被限制在“命中/未命中”的硬閾值上,導致學習到的形狀詞離散且對小幅擾動不敏感。
綜合來看,RBF 方案在可解釋性(形狀連貫)與下游分類精度兩方面均表現更優,因此被選為 InterpGN 的默認謂詞實現。
5.2.2 分類器與解釋生成
-
線性分類器形式
為了保持可解釋性,SBM 在 shapelet 謂詞空間采用一層 稀疏線性分類器:
-
—— 第 個通道、長度 、索引 的 RBF 謂詞(式 2);
-
—— 該謂詞對類別 的線性權重;
-
—— 樣本 在類別 上的 logit(尚未經過 soft-max)。
-
全局規則(Global Explanation)
對于任一類別 ,權重 的 符號 直接給出一條布爾式規則:
符號 | 語義 | 解釋 |
---|---|---|
支持形狀詞 | 「若檢測到此 shapelet ? 更傾向類別 」 | |
反對形狀詞 | 「若檢測到此 shapelet ? 排除類別 」 |
舉例:在 Figure 4-(g) 中,“CW Circle” 動作需要 出現 藍色 shapelet 且 避免 紅色 shapelet(兩條規則分別來自正、負權重),這就構成了一個人類可讀的類別判定條件。
-
局部解釋(Local Explanation)
給定單條樣本 和其預測類別 ,我們評估 每個 shapelet 對該預測的具體貢獻:
-
排序:按 從大到小選取前 個 shapelet
-
映射:記錄每個 shapelet 對應的 匹配位置 (即式 2 中的 )
-
可視化:將對應片段用彩色線段覆蓋在原始時序上
- 標注:
-
藍色 → 正貢獻(支持預測)
-
紅色 → 負貢獻(反對預測,但被 gating 機制或其他 shapelet “壓制”)
-
算法偽代碼
#?輸入:樣本?x_i,?預測類別?c_hat
contrib?=?{}
for?(m,?l,?k):contrib[(m,l,k)]?=?W[c_hat,?m,?l,?k]?*?P[i,?m,?l,?k]#?選取最顯著的?K_top?個?shapelet
top_K?=?sorted(contrib,?key=lambda?s:?abs(contrib[s]),?reverse=True)[:K_top]#?依次疊加到可視化圖
for?(m,?l,?k)?in?top_K:t_star?=?argmax_similarity(x_i[m],?S[m,l,k])draw_segment(channel=m,?start=t_star,?length=l,color='blue'?if?contrib[(m,l,k)]>0?else?'red')
在這里插入圖片描述
-
每列子圖對應 UGL 數據集中一種手勢(Angle、Square …)。
-
灰色曲線:原始加速度信號;
-
彩色曲線:線性分類器挑選出的 Top-3 shapelet(藍 = 正支持,紅 = 負支持);
-
通過觀察彩色片段在不同手勢中的 位置 與 形狀差異,可迅速把握模型“人類化”決策依據。
5.3 Gating 函數機制
在這里插入圖片描述
(a) 原始輸入 ; (b) SBM 謂詞向量 ; (c) 加入置信度 后的分布。彩色點表示不同類別,邊界區域樣本往往 較低,需要 DNN 協助判斷。
5.3.1 置信度量化
為了在 可解釋性 與 預測精度 之間動態取舍,InterpGN 為每條樣本 定義基于 SBM soft-max 輸出 的 歸一化 Gini 指數:
-
→ SBM 高置信:僅用可解釋專家即可;
-
→ SBM 低置信:需引入 DNN 提升判別力。
推導簡述
-
若 為 one-hot,,則 ;
-
若 完全均勻,,則 。
因此 本質上衡量 類別分布的尖銳度,亦可視為 Soft-max 置信度的無偏歸一化版本。
5.3.2 推理階段策略
設閾值 (經驗默認 0.5):
-
若
直接輸出
保持 100 % 可解釋。
-
若
采用專家融合
以 DNN 的抽象特征 補充歧義樣本。
實務建議
-
門檻調優:在驗證集上網格搜索 ,即可得到不同任務的最佳“解釋-精度”平衡點。
-
邊界判別:如 Figure 5-(c) 所示,邊界樣本(低 )聚集在決策面附近,凸顯 gating 的有效性。
5.4 訓練目標與優化策略
InterpGN 的總損失由 SBM 損失 與 整體交叉熵 兩部分組成:
其中
-
****:先置 1(僅訓練 SBM),第 E 輪后余弦退火至 0.3;
-
**、**:在驗證集網格搜索;
-
優化器 Adam,初始學習率 1e-3,每 50 epoch ×0.1 衰減;
-
早停:驗證集 20 epoch 無提升。
6. 實驗設計與結果
6. 實驗設計與結果
本章旨在回答兩類核心問題:
-
性能——InterpGN 在多樣化數據集上的預測準確度是否優于現有方法?
-
解釋性——形狀瓶頸 (SBM) 與可解釋性 gating 機制能否在保證性能的同時提供直觀、可信的解釋?
章節結構如圖 Figure 3(實驗流程示意圖)所示,先給出統一的實驗框架與評估協議,隨后分別匯報 UEA 多變量分類任務 (§ 6.1)、真實 ICU 場景應用 (§ 6.2) 及可解釋性與消融實驗 (§ 6.3) 的結果,最后做整章小結 (§ 6.4)。
6.1 UEA 多變量分類任務
(插表:Table 1;插圖:Figure 4 – Figure 5)
整體實驗設計概覽
-
目標:在 30 個公開 UEA 數據集上檢驗 InterpGN 的 通用性 與 可解釋性。
-
數據來源:涵蓋醫學、工業、氣象等 8 大領域,序列長度 24 – 512,通道數 2 – 20。
-
數據劃分:沿用官方
train/test split
;訓練集內采用 10% 作為驗證集并 早停。 -
對比方法:
-
傳統度量學習:DTW, BOSS, WEASEL
-
深度模型:InceptionTime, TST, ROCKET+
-
最新 SOTA:TSMixer, TSTi
-
統一設置:AdamW、初始 lr 1e-3、批量 64、Cosine lr schedule、z-score 標準化。
-
評價指標:Accuracy (Acc)、平均排名 (AvgRank)、Top-k 覆蓋率 (k = 1, ?n/3?),Wilcoxon 配對顯著性檢驗。
結果概覽
-
InterpGN 在 26/30 個任務上取得 最高準確率;平均排名 1.27,顯著優于所有基線 (p < 0.01)。
-
SBM-only 版本已逼近深度 SOTA,說明 shapelet 瓶頸的高效表達能力。
-
Figure 4 展示全局 shapelet 可視化:不同類別在子序列空間清晰分簇。
-
Figure 5 通過 t-SNE 對比 SBM 與 InterpGN,后者在特征空間的決策邊界更平滑,可分性更強。
6.2 醫療場景應用:MIMIC-III ICU 死亡預測
-
數據集:MIMIC-III v1.4;選取 ICU 前 48 小時 9 項生理指標(HR, MBP, SpO? 等)。
-
任務設置:二分類——預測出院前是否死亡;訓練 / 測試按患者層面 7:3 隨機劃分。
-
結果:InterpGN Acc = 0.703,AUC = 0.747;超越 InceptionTime (0.682) 與 TST (0.693)。
- 解釋性分析:
-
Figure 6(a) 為存活患者示例:shapelet 匹配集中于穩定心率區間,權重低。
-
Figure 6(b) 為死亡患者示例:模型捕捉到持續低血壓與間歇缺氧的異常 shapelet,并賦予高權重。
-
臨床醫生反饋顯示,InterpGN 提供的可視化有助于快速定位危險生理事件。
-
6.3 可解釋性指標與消融實驗
- 新指標:
-
Shapelet 誤差 (SE) ——預測子序列與真實標簽的一致性;誤差越低解釋性越好。
-
稀疏度 (SP) ——非零 gating 權重占比;越稀疏代表越聚焦關鍵 shapelet。
-
- 實驗變量:
-
Predicate 類型:線性 vs. RBF;RBF 在 SE 與 Acc 上均優。
-
正則權重 λ_reg:0, 1e-3, 1e-2;較大 λ_reg 提升 SP,但過大會損失 Acc。
-
Shapelet 數量 m:16, 32, 64;m = 32 達到解釋性與效率的最佳平衡。
-
- 主要發現(Figure 21-23):
-
合理設計 gating + shapelet 數目,可使 **解釋性↑ 20%、Acc 下降 <1%**。
-
對所有基線執行同樣稀疏正則并不能帶來類似提升,說明 InterpGN 架構更適合解釋導向。
-
6.4 小結
-
性能層面:InterpGN 在大規模 UEA-30 基準與 ICU 真實場景均刷新或追平 SOTA。
-
解釋性層面:新提出的 shapelet 誤差與稀疏度指標驗證了模型解釋的可量化性;可視化示例展示了對關鍵生理模式的直觀捕捉。
-
綜合價值:實驗表明,借助可解釋性 gating 與形狀瓶頸,性能與可解釋性不再互斥;InterpGN 為時序模型提供了一條兼顧兩者的設計范式。
7. 總結與展望
本文提出 InterpGN 框架,通過 gating 函數 將可解釋模型與深度模型有機融合,在保持 SOTA 預測性能的同時輸出 形式化、可操作的邏輯解釋;實驗表明該框架尤其適用于醫療等高敏感場景。
未來可拓展方向包括:
-
多專家集成:并行部署多個 SBM / DNN 子模型,利用 gating 動態選擇最優專家,提升復雜場景下的穩健性。
-
長序列支持:結合 memory-efficient shapelet 設計,壓縮計算與存儲開銷,處理分鐘級或小時級超長時間序列。
-
任務遷移:將框架推廣至回歸、異常檢測與早期預警等任務,驗證其跨任務通用性 。
-
實時部署:探索邊緣或移動端的輕量化實現,推動 InterpGN 在 ICU 監護、可穿戴設備等實時場景落地。
8. 代碼實現
1. 環境準備
-
Python:建議 3.11
-
PyTorch:建議 2.4.0(≥2.2 亦可)
-
CUDA & GPU:CUDA 11.8 + V100/3090/A100 ≥ 1 張;僅小規模測試可用 CPU
-
Python 依賴:倉庫自帶
requirements.txt
/environment.yml
#?1.?克隆代碼
git?clone?https://github.com/YunshiWen/InterpretGatedNetwork.git
cd?InterpretGatedNetwork#?2.?創建并激活虛擬環境(任選其一)
python3?-m?venv?ig_env?&&?source?ig_env/bin/activate
#?conda?create?-n?ig?python=3.11?&&?conda?activate?ig#?3.?安裝依賴
pip?install?-r?requirements.txt
2. 數據集下載與整理
mkdir?-p?data/UEA??????#?多變量分類
mkdir?-p?data/Monash???#?時間序列外生回歸
-
UEA Multivariate TS Classification
-
訪問 https://timeseriesclassification.com/
-
下載對應 .arff / .ts 文件,解壓到 data/UEA/。
-
-
Monash TSE Regression
-
訪問 Time Series Extrinsic Regression
-
下載所需數據集放入 data/Monash/。
-
提示:在服務器上可用 wget + unzip 批量下載;保持目錄結構與源碼一致,無需手動改路徑。
3. 快速復現實驗
#?單數據集測試(Epilepsy,150?epoch)
CUDA_VISIBLE_DEVICES=0?bash?reproduce/run_uea.sh?--dataset?Epilepsy?--epochs?150#?循環全部?UEA?30?個數據集(耗時?3–6?h,視?GPU?數量而定)
bash?reproduce/run_uea.sh#?復現回歸實驗
bash?reproduce/run_regression.sh
運行結束后將生成:
checkpoints/???#?訓練好的?*.pt
result/UEA/????#?每個數據集的?*.json?與?aggregate.csv
logs/??????????#?詳細訓練日志
3.結果分析與可解釋性可視化
#?匯總指標
jupyter?notebook?notebook/benchmarks.ipynb??????
#?繪制?shapelet?及局部/全局解釋
jupyter?notebook?notebook/visualization.ipynb???
SBM 權重稀疏,可直接映射為解釋性規則。
InterpGN 借助置信度 η 在多個專家間動態切換,上述 Notebook 會展示切換過程及 shapelet 匹配。
4. 超參數調優與論文表 1 復現
核心超參數集中在 configs/ 及腳本參數,可用 --help 查看。示例:
bash?reproduce/run_uea.sh?--dataset?Epilepsy?\--num_shapelet?5?\--beta_schedule?cosine?\--lr?0.001
5. 常見問題 FAQ
場景 | 解決方案 |
---|---|
顯存不足(長序列 T > 2000) | 使用 README 附錄 A.3 提供的「循環版」或「稀疏卷積」實現;或增大卷積 stride 減小顯存占用 |
GPU 訓練速度慢 | 檢查 num_workers 、pin_memory ,并確保開啟 torch.backends.cudnn.benchmark = True |
結果與論文差距大 | 確認隨機種子 --seed 與數據劃分一致;大型數據集可適當提高 epochs (> 150) |
6. 下一步擴展
-
替換 DNN 專家 在 interp_gn/models/init.py 中將默認 CNN 改為 Transformer、PatchTST、TimesNet 等。
-
自定義 shapelet 距離或判別器 修改 sbm/shapelet_distance.py,將歐氏距離替換為余弦或皮爾遜相關。
-
遷移到回歸 / 生成任務 參考附錄 C.4 的離散化回歸方案,調整損失函數即可擴展到概率預測。
7. 結語
按照以上步驟,你就能零阻力復現論文主結果,并深入探索 shapelet 解釋、專家混合與超參數調優。如果遇到問題:
-
先查看 logs/ 中的調試信息;
-
在 GitHub Issue 搜索關鍵字;
-
仍未解決,再向作者提問。