2025.3.17-2025.3.23学习周报

摘要

在本周阅读的文献中，作者提出了一种名为TFM-GCAM的模型。TFM-GCAM模型的创新主要分为两部分，一部分是交通流量矩阵的设计，TFM-GCAM 首先基于时间拥堵度、空间拥堵度和车辆拥堵度三种指标构建了一个综合的交通流量邻接矩阵，相较于传统邻接矩阵，这一方法更真实地反映了节点间的交通流动态特性，增强了GCN的适用性。另一创新是设计了一种新颖的GCN，可以更好地捕获节点的时空特征和动态特性。通过设计的动态特征提取模块，模型能够捕捉节点流量序列的波动规律，并结合融合注意力机制实现动态特征与时空特征的跨模态交互，有效解决了传统方法中数据内在属性与网络拓扑割裂的问题。模型还将改进型通道-空间注意力机制与自注意力结合，在特征融合阶段强化了全局依赖与局部特征的协同学习能力，为复杂时空关联建模提供了新的技术路径。

Abstract

In the literature read this week, the author proposed a model called TFM-GCAM. The innovation of the TFM-GCAM model mainly consists of two parts. One part is the design of the traffic flow matrix. TFM-GCAM first constructs a comprehensive traffic flow adjacency matrix based on three indicators: time congestion, spatial congestion, and vehicle congestion. Compared with traditional adjacency matrices, this method more accurately reflects the dynamic characteristics of traffic flow between nodes and enhances the applicability of graph convolutional networks. Another innovation is the design of a novel graph convolutional network that can better capture the spatiotemporal and dynamic characteristics of nodes. By designing a dynamic feature extraction module, the model is able to capture the fluctuation patterns of node traffic sequences, and combined with a fusion attention mechanism to achieve cross modal interaction between dynamic features and spatiotemporal features, effectively solving the problem of data intrinsic properties and network topology disconnection in traditional methods. The model also combines an improved channel spatial attention mechanism with self attention, enhancing the collaborative learning ability of global dependencies and local features in the feature fusion stage, providing a new technical path for complex spatiotemporal association modeling.

1 文献阅读

本周阅读了一篇名为 Traffic flow matrix-based graph neural networkwithattentionmechanism
for traffic flow prediction的论文。
论文地址：https://www.sciencedirect.com/science/article/pii/S1566253523004621
在这里插入图片描述
论文提出了一种名为 TFM-GCAM的网络模型。模型融合注意力机制，在动态特征提取器中引入差分运算与LSTM捕获流量变化规律，通过自注意力与改进型通道-空间注意力双路径融合原始流量特征与动态特征，并结合多层次图卷积模块实现时空特征的深层挖掘，最终通过输出模块的Transformer编码器增强长时预测能力，在提升预测精度的同时降低了传统方法对先验拓扑结构的依赖。

1.1 动态图邻接矩阵

在图神经网络中，邻接矩阵是用来表示图结构中节点之间连接关系的一个矩阵。传统的图神经网络使用的是静态邻接矩阵，也就是说，图的结构在整个时间段内是固定的，不会发生变化。在上周阅读的文献中，作者提出了一种动态邻接矩阵的构建方法，其主要是基于空间注意力机制在不同的时间步，为图生成不同的邻接矩阵，每个矩阵反映了当时节点之间的实时关联性。
在这里插入图片描述
其构建过程如下所示：
（1）首先，将每个站点在当前时间步的数据特征输入模型，通过一个线性变换（这里通常是一个全连接层），将这些特征映射到一个高维空间，生成每个站点的嵌入向量。
（2）通过空间注意力机制进行注意力分数计算
（3）将每个站点的所有相似度分数输入一个Softmax函数进行归一化。归一化后的结果表示的就是站点之间的连接强度。
此后将所有归一化后的注意力分数填入矩阵中，就得到了当前时间步的动态邻接矩阵。
以一个简单的例子为例：
在这里插入图片描述

其代码实现如下所示：

import numpy as np# 站点数量
num_nodes = 3# 时间步 t=1 的流量特征
features_t1 = np.array([1, 2, 3]).reshape(-1, 1)# 时间步 t=2 的流量特征
features_t2 = np.array([3, 1, 2]).reshape(-1, 1)# 1. 构建静态邻接矩阵
A_static = np.array([[0, 1, 1],[1, 0, 1],[1, 1, 0]
])print("静态邻接矩阵 A_static:\n", A_static)# 2. 构建动态邻接矩阵（使用点积注意力）
def compute_dynamic_adj(features):# 计算注意力分数（点积）scores = np.dot(features, features.T)# 减去每行的最大值，防止溢出scores_stable = scores - np.max(scores, axis=1, keepdims=True)# Softmax 归一化（按行归一化）exp_scores = np.exp(scores_stable)A_dynamic = exp_scores / np.sum(exp_scores, axis=1, keepdims=True)return A_dynamic# 时间步 t=1 的动态邻接矩阵，精确到小数点后四位
A_dynamic_t1 = compute_dynamic_adj(features_t1)
print("\n时间步 t=1 的动态邻接矩阵 A_dynamic_t1:\n", np.round(A_dynamic_t1, 4))# 时间步 t=2 的动态邻接矩阵，精确到小数点后四位
A_dynamic_t2 = compute_dynamic_adj(features_t2)
print("\n时间步 t=2 的动态邻接矩阵 A_dynamic_t2:\n", np.round(A_dynamic_t2, 4))

得到输出如下：

静态邻接矩阵 A_static:[[0 1 1][1 0 1][1 1 0]]时间步 t=1 的动态邻接矩阵 A_dynamic_t1:[[0.09   0.2447 0.6652][0.0159 0.1173 0.8668][0.0024 0.0473 0.9503]]时间步 t=2 的动态邻接矩阵 A_dynamic_t2:[[0.9503 0.0024 0.0473][0.6652 0.09   0.2447][0.8668 0.0159 0.1173]]

综上可知，动态邻接矩阵根据实时数据调整关联强度，而静态邻接矩阵始终是固定的。并且动态邻接矩阵无需预定义固定连接，能够捕捉交通网络中的动态变化，而静态邻接矩阵依赖人为设定的拓扑结构。动态邻接矩阵直接从流量特征中学习站点间的关系，避免了静态邻接矩阵中人为假设的局限性。这些特性使得动态邻接矩阵在预测中更能反映网络的实时动态特性，从而提高模型的准确性。

1.2 总体框架

TFM-GCAM 模型由以下核心组件构成：交通流量矩阵的构建、动态特征提取器、融合注意力机制、图卷积模块和输出块。其结构如下图所示：
在这里插入图片描述
其中交通流量矩阵是图卷积网络的基础，用于描述交通网络中节点之间的关系。但其中蕴含的知识与本方向无关，不作过多探讨。其中与传统方法不同的是，TFM-GCAM 通过引入三种交通拥堵度指标（时间拥堵度 C_t 、空间拥堵度C_s、车辆拥堵度K ），构建了一个更贴近实际交通行为的邻接矩阵。

1.2.1 GCAM

GCAM部分的功能是从交通网络的时空数据中提取特征，用于预测未来的交通流量。它结合了图卷积网络 (GCN) 和注意力机制，以捕捉交通节点之间的动态空间依赖和时间序列中的模式。其主要包括了Dynamic Extractor、Fusion Attention Mechanism、Graph Convolution Module三个子模块。以下会对这三个子模块分别进行分析。
（1）Dynamic Extractor
Dynamic Extractor模块的作用是从时间序列中提取流量变化特征，其结构如下图所示：
在这里插入图片描述
Dynamic Extractor的目标是从交通流量时间序列中提取动态变化特征，捕捉流量随时间变化的趋势和模式。首先通过差分操作差分突出短期变化趋势，帮助模型聚焦动态特性而非绝对值。将经差分操作得到的向量d经线性变换提升特征表达能力，提取更抽象的动态模式。后通过LSTM捕捉长期依，最后通过Max-Attention 预测未来状态，增强模型敏感性。
在这里插入图片描述
Max-Attention的工作原理如下：

（2） fusion attention
Fusion Attention的作用是将融合动态特征与原始流量特征进行融合，其通过多路径注意力机制实现特征增强与信息互补。核心思想是通过自注意力机制与改进的通道-空间注意力模块的协同作用，结合跳跃连接保留原始信息，从而构建一个全局与局部特征互补的融合框架。Fusion Attention的结构如下图所示：
在这里插入图片描述
Fusion Attention内部数据处理分为两条路径，其中第一条路径是先将输入通过密集层投影到与动态特征相同的维度，经拼接处理后进行自注意力计算；第二条路径比较复杂，通过Conv2D + BN + GELU激活函数相结合实现跳跃连接，并引用作者提出的CBAM-C结构，CBAM-C通过使用GLU函数将最大池化和均值池化的输出融合在一起，通过这种方式，CBAM-C可以捕获比原始CBAM更多的上下文信息。
（3）Graph Convolution Module

该模块由多个 STSGCM串联所得，每个包含 n 个并行图卷积，输出加权融合，是处理时空特征的核心模块。其结构如下图所示：在这里插入图片描述
STSGCM首先构建一个局部时空图，将相邻的三个时间步长连接起来。然后，使用GELU作为方程的空间图卷积运算来聚合节点的信息，作者通过切片和去除其相邻时间步长的特征来去除对应时间步长的特征。Weighted Aggregation部分的作用是动态融合不同路径的输出，再经Max-Attention处理后输出给下一层的STSGCM。在原始STSGCM中，仅使用全局最大池化来获取输出。最后一个STSGCM 的输出被馈送到Output Block以生成预测的流序列。

1.2.2 输出块

输出块用于生成预测的流序，其架构如下图所示：
在这里插入图片描述

它结合了两个密集层和一个Transformer编码器。第一个密集层用于更改尺寸，其后是GLU函数。需要注意的是，这个dense层的input 会先在时间维度和特征维度上展平。然后，作者在这里使用了一个具有GELU功能的Transformer编码器，以更好地利用时间序列上下文信息进行交通流预测。最后，使用密集层生成预测结果。

1.3 实验分析

（1）数据集
PeMSD8：来源于 Caltrans Performance Measurement System，包含 170 个传感器节点（经清洗后从 1979 个节点筛选出），时间范围为 2016 年 7 月 1 日至 8 月 31 日。数据包括流量、时间占有率和速度等特征。
数据集按 0.6:0.2:0.2 划分为训练集、验证集和测试集。
在这里插入图片描述
（2）评估标准
MAE:

MAPE:
在这里插入图片描述
RMSE:

论文以与七种图神经网络方法（MTGNN、STSGCN、STFGNN、STGODE、STGNCDE、NCSGCN、ST-AE）和三种自注意力方法（GMAN、TFT、ASTGNN）作为基线方法进行比较。
（3）实验结果
不同模型之间的整体性能比较如下图所示。
在这里插入图片描述

比较结果表明，TFM-GCAM在MAE 和 RMSE指标上优于所有基线。尽管ASTGNN 在MAPE指标上略有优势，但我TFM-GCAM在MAE 和RMSE指标上的表现要好得多。并且基于自我注意的方法通常表现得更好。
消融研究：
(i)邻接矩阵比较：
与之前使用的相邻矩阵的比较为了更好地验证在这项工作中设计的流量流矩阵的效果，作者将其与 NCSGCN中使用的节点连接强度矩阵(NCS)、连接矩阵(Con)和距离矩阵(Dis)进行了比较。实验结果如下所示：
在这里插入图片描述
有实验结果可知，与 NCSGCN 中的节点连接强度矩阵（NCS）、连接矩阵（Con）和距离矩阵（Dis）比较，TFM 在 MAE 和 RMSE 上表现最佳，且预测稳定性更高（MAPE 波动最小）。
（ii）交通流量矩阵分析：
为了进一步验证设计的交通流矩阵的效果，实验结果如下：
在这里插入图片描述
由结果可知，测试不同组合的交通流量矩阵， TFM-GCAM在 MAE 和 RMSE 上表现最佳，证明了融合三种拥堵度指标的有效性。
（iii）注意力机制分析
该篇论文中最大的创新之一是注意力机制，作者设计了三种变体来分析注意力机制的效果:TFM-GCAM-MA，它删除了动态提取器中的Max-Attention，并使用全局最大池化代替;TFM-GCAM-C，用于删除Fusion Attention模块中的CBAM-C模块;TFM-GCAM-O，它使用原来的CBAM模块替换了Fusion Attention模块中的CBAM-C;TFM-GCAM-S，用于删除Fusion Attention模块中的跳过连接结构。通过与这些变体进行比较，验证设计的注意力机制的效果。比较结果如下图所示：
在这里插入图片描述
由实验结果可知，TFM-GCAM几乎在每个预测步骤中都实现了最佳的MAE和MAPE 指标。尽管从 Fusion Attention模块中删除了CBAM-C模块的TFM-GCAM-C在MAPE上表现更好，但使用CBAM-C模块的TFM-GCAM在其他两个指标上取得了更显著的进步。由此可知，TFM-GCAM的注意力机制的设计是成功的。
（iiii）特定层分析
移除跳跃连接（TFM-GCAM-S）或 Transformer 编码器（TFM-GCAM-T）后的实验对比结果如下所示：
在这里插入图片描述
由结果可知，TFM-GCAM在每个预测步骤的MAE指标方面具有显著优势。无论是删除skip 连接结构还是 Transformer Encoder都会带来显着的预测性能下降。因此，这些实验结果有力地证明了设计的模型的有效性。