目錄
- 摘要
- Abstract
- 1 文獻閱讀
- 1.1 模型架構
- 1.1.1 動態圖鄰接矩陣的構建
- 1.1.2 多層次聚合機制模塊
- 1.1.3 AHGC-GRU
- 1.2 實驗分析
- 總結
摘要
在本周閱讀的論文中,作者提出了一種名為AHGCNN的自適應層次圖卷積神經網絡。AHGCNN通過將監測站點視為圖結構中的節點,利用圖卷積網絡捕捉復雜的空間依賴性,并結合時間序列建模可以準確的預測未來空氣質量變化。相較于傳統模型,AHGCNN通過數據驅動的鄰接矩陣生成,摒棄了依賴先驗知識的固定鄰接矩陣,從歷史數據中學習站點間的真實空間關系,反映空氣質量受氣象條件、風向等動態因素影響的特性。其自適應動態圖結構通過層次映射圖卷積,動態調整鄰接矩陣,適應隨時間變化的空間依賴性,捕捉污染擴散等動態過程。此外,AHGCNN利用注意力機制整合多層圖卷積的輸出,自動選擇對預測任務最有價值的信息,增強了對復雜時空模式的建模能力。盡管模型在建模上更為復雜,但通過降維技術和參數共享,其參數量和訓練時間均保持在較低水平,展現出了良好的實用性。
Abstract
In the paper read this week, the author proposed an adaptive hierarchical graph convolutional neural network called AHGCNN. AHGCNN can accurately predict future air quality changes by treating monitoring stations as nodes in a graph structure, capturing complex spatial dependencies using graph convolutional networks, and combining them with time series modeling. Compared to traditional models, AHGCNN generates a data-driven adjacency matrix, abandoning the fixed adjacency matrix that relies on prior knowledge. It learns the real spatial relationships between stations from historical data and reflects the dynamic factors such as meteorological conditions and wind direction that affect air quality. At the same time, its adaptive dynamic graph structure dynamically adjusts the adjacency matrix through hierarchical mapping graph convolution, adapts to temporal spatial dependencies, and captures dynamic processes such as pollution diffusion. In addition, AHGCNN utilizes attention mechanisms to integrate the outputs of multi-layer graph convolutions, automatically selecting the most valuable information for prediction tasks, enhancing its ability to model complex spatiotemporal patterns. Although the model is more complex in modeling, its parameter count and training time are kept at a low level through dimensionality reduction techniques and parameter sharing, demonstrating good practicality.
1 文獻閱讀
本周閱讀了一篇名為Learning spatiotemporal dependencies using adaptive hierarchical graph convolutional neural network for air quality prediction的論文
論文地址:添加鏈接描述
AHGCNN通過創新的自適應動態圖結構和多層次聚合機制,有效捕捉了空氣質量數據中的復雜時空依賴性。實驗結果表明,AHGCNN在短期和長期預測中均表現出色,且計算成本較低,具有實際應用的潛力。
1.1 模型架構
AHGCNN將監測站視為圖結構中的節點,利用圖卷積網絡處理空間關系,同時結合了時間序列建模來預測未來趨勢。AHGCNN的總體架構由以下三個核心模塊組成:自適應動態圖結構構建模塊、多層次聚合機制模塊和編碼和解碼模塊。結構如下圖所示:
首先,模型先用處理好的數據構建鄰接矩陣,通過HGMC模塊進行圖零階矩陣的動態調整,將最后構建確認的圖結構輸入到多層圖卷積中進行特征聚合,通過AHGC-GRU編碼器將聚合特征進行時間序列的建模,最后經模型的解碼器生成最后的預測結果,各部分的詳細分析如下:
1.1.1 動態圖鄰接矩陣的構建
空氣質量的空間依賴性會隨時間變化,例如風向改變或污染源移動會導致站點間的關系動態調整。傳統GCN使用固定的鄰接矩陣,無法捕捉這種變化。AHGCNN通過層次映射圖卷積(Hierarchical Mapping Graph Convolution, HMGC)*動態更新每一層的鄰接矩陣 Am,使其適應當前時間步的空間特性。這部分通過降維技術減少參數量,提高計算效率。
這種方法可以和之前學過的另一種動態圖鄰接矩陣的生成形成對比,它是通過注意力機制來實現的,其構建過程如下所示:
(1)首先,將每個站點在當前時間步的數據特征輸入模型,通過一個線性變換(這里通常是一個全連接層),將這些特征映射到一個高維空間,生成每個站點的嵌入向量。
(2)通過空間注意力機制進行注意力分數計算
(3)將每個站點的所有相似度分數輸入一個Softmax函數進行歸一化。歸一化后的結果表示的就是站點之間的連接強度。
此后將所有歸一化后的注意力分數填入矩陣中,就得到了當前時間步的動態鄰接矩陣。
以一個簡單的例子為例:
其代碼實現如下:
import numpy as np# 站點數量
num_nodes = 3# 時間步 t=1 的流量特征
features_t1 = np.array([1, 2, 3]).reshape(-1, 1)# 時間步 t=2 的流量特征
features_t2 = np.array([3, 1, 2]).reshape(-1, 1)# 1. 構建靜態鄰接矩陣
A_static = np.array([[0, 1, 1],[1, 0, 1],[1, 1, 0]
])print("靜態鄰接矩陣 A_static:\n", A_static)# 2. 構建動態鄰接矩陣(使用點積注意力)
def compute_dynamic_adj(features):# 計算注意力分數(點積)scores = np.dot(features, features.T)# 減去每行的最大值,防止溢出scores_stable = scores - np.max(scores, axis=1, keepdims=True)# Softmax 歸一化(按行歸一化)exp_scores = np.exp(scores_stable)A_dynamic = exp_scores / np.sum(exp_scores, axis=1, keepdims=True)return A_dynamic# 時間步 t=1 的動態鄰接矩陣,精確到小數點后四位
A_dynamic_t1 = compute_dynamic_adj(features_t1)
print("\n時間步 t=1 的動態鄰接矩陣 A_dynamic_t1:\n", np.round(A_dynamic_t1, 4))# 時間步 t=2 的動態鄰接矩陣,精確到小數點后四位
A_dynamic_t2 = compute_dynamic_adj(features_t2)
print("\n時間步 t=2 的動態鄰接矩陣 A_dynamic_t2:\n", np.round(A_dynamic_t2, 4))
得到輸出如下:
靜態鄰接矩陣 A_static:[[0 1 1][1 0 1][1 1 0]]時間步 t=1 的動態鄰接矩陣 A_dynamic_t1:[[0.09 0.2447 0.6652][0.0159 0.1173 0.8668][0.0024 0.0473 0.9503]]時間步 t=2 的動態鄰接矩陣 A_dynamic_t2:[[0.9503 0.0024 0.0473][0.6652 0.09 0.2447][0.8668 0.0159 0.1173]]
1.1.2 多層次聚合機制模塊
圖卷積網絡通常有多層結構,每一層的輸出捕捉不同尺度的空間依賴性。傳統方法僅使用最后一層的輸出,可能丟失低層特征中的局部信息。AHGCNN通過注意力機制整合多層輸出根據每一層的貢獻動態加權,生成最終特征表示。這種方法增強了模型對重要信息的選擇能力。
通過注意力機制,模型能夠自適應地聚焦于對預測任務最有價值的層級特征,例如短期局部擴散或長期區域趨勢。
1.1.3 AHGC-GRU
AHGCNN采用序Seq2Seq架構,其中編碼器和解碼器由AHGC-GRU組成。編碼器處理歷史數據,提取時空特征;解碼器基于這些特征生成未來預測值。AHGC-GRU結合了HMGC的空間建模能力和GRU的時間建模能力,其結構如下圖所示:
它的輸入是當前時間步的特征 ht 和上一時刻的隱藏狀態Ht-1。通過將傳統的GRU的門控機制轉換為AHGC操作,通過??門控機制改造??,將傳統GRU中的全連接層替換為自適應層次圖卷積(AHGC),使得模型能夠捕捉空間依賴??:通過動態圖卷積建模站點間的隱含關;??平衡了時空特征??:更新門和重置門動態調整歷史狀態與當前輸入的權重。除此也實現了更高效的計算,參數共享和低秩分解降低復雜度,適合大規模傳感器網絡。
1.2 實驗分析
(1)數據集
實驗使用的數據集來自北京的39個站點,數據來自2018年1月1日至2020年12月31日,其中包含PM?.?、PM??、SO?、NO?、CO、O?、AQI及氣象數據(壓力、氣溫等)。
(2)評估標準
MAE:
RMSE:
基線模型由傳統循環神經網絡(LSTM、GRU、RNN)、時空圖神經網絡(Graph-WaveNet、DCRNN、MLSTGCN)以及基于Transformer的模型(Informer、FFTransformer)組成。
(3)實驗結果
1)參數設置
??歷史序列長度與預測長度??:設置為24小時,符合PM2.5日變化規律。
??自適應矩陣維度??(L=13):通過SVD分解平衡計算復雜度和信息保留。
??學習率??(0.0005):采用Adam優化器,避免梯度爆炸。
??初始化策略??:權重矩陣初始化為單位矩陣,偏置為零,確保訓練初期穩定性。
由上圖結果可知,模型在15輪迭代后收斂,訓練損失穩定在0.1,驗證損失約0.4,表明參數配置合理,未出現過擬合。
2)實驗對比
為驗證AHGCNN相對于傳統模型(RNN/LSTM/GRU)和先進時空模型(Graph-WaveNet/DCRNN等)的優越性,實驗將其與基線模型進行了對比:
RNN/LSTM/GRU的MAE(20.67–25.68)顯著高于AHGCNN(15.84),說明忽略空間依賴嚴重限制性能。AHGCNN在1h預測中MAE(5.32)優于Graph-WaveNet(5.80)和DCRNN(6.45),顯示動態圖結構捕捉突發污染事件的能力。相比MLSTGCN(MAE=16.33),AHGCNN的層次聚合機制提升多尺度特征融合效果。Informer和FFTransformer因局部突變預測能力不足,MAE(16.47–16.78)高于AHGCNN。
3)網絡架構影響實驗
該部分的實驗是為了驗證HMGC層數對模型性能的影響,確定最優層級數,實驗結果如下:
由上圖可知,3層HMGC平衡了計算成本與特征表達能力。
4)性能對比
該部分實驗是為了驗證AHGCNN在不同預測時間點(1h–24h)的穩定性,其結果如下:
在短期預測??中AHGCNN的MAE顯著優于DCRNN和Graph-WaveNet,因動態圖結構快速響應局部突變。在長期預測??中MAE仍優于基線,因為層次聚合可以緩解誤差累積。在??突變時段表現中,AHGCNN在PM2.5驟升時預測誤差最小,傳統模型因空間信息缺失嚴重偏離真實值。
5)消融實驗
為驗證AHGCNN各組件(自適應圖、注意力聚合)的必要性,作者進行了消融實驗,作者設置了4個變體:
??Distance_ini??:用預定義距離矩陣替換自適應圖。
??W/O adaptive??:固定單層圖結構。
??W/O attention??:移除多級注意力聚合。
??W/O both??:同時移除自適應和注意力。
W/O adaptive的MAE高于AHGCNN,說明了動態圖捕捉隱含依賴的關鍵作用,W/O attention的MAE證明了多級特征融合的必要性,W/O both的MAE證實了組件協同提升性能。
總結
通過本次的學習,我明白同一種技術的實現可能是有不同方法的,例如動態圖鄰接矩陣的實現就可以由本次論文中的方法或者是通過注意力機制來實現。在后續的研究的過程中,這里的思想是可以進行借鑒的,不必為了一種方法死磕。