APP下载

基于多组件图神经网络的多元序列因果推断

2024-06-20张有兴李平乌嵘杨晓丽李玉东孟亮

张有兴 李平 乌嵘 杨晓丽 李玉东 孟亮

DOI:10.16246/j.issn.1673-5072.2024.04.012

收稿日期:2023-03-15  基金项目:国家自然科学基金项目(62276099)

作者简介:张有兴(1980—),男,高级工程师,主要从事天然气勘探开发与人工智能研究。

通信作者:李平(1979—),女,教授,主要从事数据挖掘、智能油田技术研究。E-mail:pingkly@163.com

引文格式:张有兴,李平,乌嵘,等.基于多组件图神经网络的多元序列因果推断[J].西华师范大学学报(自然科学版),2024,45(4):430-437.[ZHANG Y X,LI P,WU R,et al.Causality inference for multivariate series based on multi-component graph neural network[J].Journal of China West Normal University (Natural Sciences),2024,45(4):430-437.]

摘  要:图神经网络对非线性及高阶交互作用具有强大的表征能力,提高了格兰杰因果推断的可解释性和准确性。本文提出了一种基于多组件图神经网络的多元时间序列格兰杰因果关系推断方法(MCGNN),利用多组件图卷积神经网络分别获取多元序列之间的非线性作用关系,同时引入门控循环单元对时间序列进行建模,将多元时间序列之间的因果关系问题转化为时间序列之间的预测问题。在公开的模拟数据和真实数据集上的试验结果表明,相比于当前已知最好的模型,MCGNN具有更高的准确性。特别地,将模型应用于天然气深冷工艺数据集中,能够动态发现深冷工艺中位点传感器之间的因果关系,并与深冷工艺专家的判断一致。

关键词:格兰杰因果;图神经网络;多元时间序列;非线性作用;高阶交互作用

中图分类号:TP391    文献标志码:A    文章编号:1673-5072(2024)04-0430-08

在多元时间序列数据挖掘任务中,解释多元时间序列之间的相互作用关系是其重要组成部分,对理解数据挖掘结果具有重要意义。例如,在神经科学领域,研究人员试图分析各个脑区活动的相互作用对后续脑区

活动的影响[1-2];在社交媒体分析中,了解各个话题之间的相互影响可以为信息传播预测提供有力依据[3];在基因组学中,探索基因表达的时间序列间的相互影响有助于推断基因调控网络的作用机制[4-5]。目前,格兰杰因果[6]是理解时间序列间关系的常用框架。图1描述了多元时间序列到因果图的转化过程,其中,因果结构中每个节点表示系统中的一个序列(变量),每条边描述了两个节点间的因果关系,且边是有向的。

格兰杰因果推断方法大致可以分为两类,一类是无模型的方法,另一类是基于模型的方法。无模型的方法能够通过对预测关系的最小假设来检测时间序列过去和未来之间的非线性依赖关系,如传递熵[7]、有向信息[8]等。然而,这种无模型的方法在进行可靠的因果关系估计时需要大量数据,同时这些方法难以应对高维数据,容易遭受维度灾难。目前绝大多数的格兰杰因果推理方法采用基于模型的推理方法,即:使用参数化生成模型对可观测的时间序列数据进行建模,该模型的推断参数用于反映格兰杰因果关系的真实拓扑结构。早期的格兰杰因果关系推理技术包括动态贝叶斯网络[9]和具有时变系数的正则化逻辑回归[10]等。然而,这些方法对于数据的非线性建模能力有限且只能推断无向的因果关系。近年来,神经网络因其在表示输入与输出之间复杂的非线性相互作用上展现出强大的特征表达能力而被广泛用于推断格兰杰因果关系[11-13]。例如,Xu等[14]提出了一种可扩展因果图学习网络,该模型通过低秩逼近降低了噪声的影响,并在模拟和真实数据集上实现了更好的精度和高扩展性。Marcinkevis等[15]将自解释神经网络[16]拓展到时间序列分析,提出了一种广义向量自回归模型,并通过稀疏诱导和时间平滑惩罚来找到时序数据中稳定的格兰杰因果关系。

基于传统神经网络的模型虽然能有效推断出多元时间序列间的因果关系,但是其解释性较差。格兰杰因果关系挖掘的挑战是对于包含多元变量的系统而言,变量(即序列)间存在着未知且复杂的非线性关系。传统的因果发现方法主要通过干预或现实生活中的实验来操纵变量的值,同时控制目标变量的所有其他影响因素不变,以测试目标变量是否会随着操作变量的变化而变化。其他方法如基于功能因果模型的因果发现算法[17]建立在非对称独立性假设基础上,即因变量的分布与结果变量的分布条件独立。

为提高因果关系推断的准确性和可解释性,本文提出了一种基于多组件图神经网络的多元时间序列格兰杰因果关系推断方法(Multi-Component Graph Neural Networks,MCGNN),该方法首次将图神经网络应用于格兰杰因果推断任务,使用图卷积网络(Graph Convolutional Network,GCN)[18]表征多元变量之间的可能关系,并结合门控循环单元(Gated Recurrent Unit,GRU)[19]捕捉单个变量的时变特征,提高推断能力。此外,考虑到基于传统神经网络的因果推断模型缺乏解释能力,受文献[20]的启发,采用组件级模型架构,增强模型的可解释性。最后,将MCGNN模型和其他基线模型在模拟数据集和真实数据集上进行对比实验,并将该模型应用于实际天然气生产工艺中。

1  模  型

1.1  问题定义

多元时间序列间的格兰杰因果关系通常由一组有向的依赖关系给出。例如,文献[21]给出了格兰杰因果关系的经典定义。本文根据Tank等[20]的拓展来定义非线性格兰杰因果关系。若存在一组具有N个变量的时间序列X={x1,x2,…,xN},假设变量之间的格兰杰因果关系由以下结构方程模型给出。

第45卷第4期      张有兴,等:基于多组件图神经网络的多元序列因果推断

西华师范大学学报(自然科学版)http:∥igne.cbpt.cnki.net/2024年

x(t+1)(t+τ)j∶=fi(x(t+1):(t+τ)1,…,x(t-l+1):ti,…,x(t-l+1):tN)+εtj,

式中:1jN,τ为温度系数,x(t-l+1):ti表示含有前l个时间步历史信息的第i个变量,fi(·)是一个非线性函数,指定了变量xj的未来值如何依赖于X的过去值,而εtj是一个附加项。

多元序列之间的格兰杰因果关系可以通过一个有向图G=(V,E,A)进行概括[22],其中V={x1,x2,…,xN}是时间序列对应的节点集合,E={(xi,xj):xi→xj}表示存在格兰杰因果关系的时间序列之间的连边集合,A∈{0,1}N×N表示图G的邻接矩阵。因此,格兰杰因果推断任务是从多元时间序列的历史观测数据中发现内在的依赖关系来,从而实现对A的估计。

1.2  模型总体架构

MCGNN的整体框架如图2所示。具体来讲,在因果推断阶段使用GCN和GRU网络进行时间序列预测,自动学习每个目标变量的因果关系矩阵。再将因果关系矩阵送入到因果关系抽取阶段,利用异常值检测方法对生成的因果关系进行二元决策,从而得到序列间的格兰杰因果关系。该方法主要包含因果关系推断与因果关系抽取两阶段处理过程。在因果关系推断过程中,利用多元时间序列X={x1,x2,…,xN}的历史数据分别预测各个序列未来一段时间内的演变趋势。在模型训练过程中,通过减少预测误差,学习时间序列之间的因果关系矩阵Ai,其中i=1,2,…,N。由于在反向传播过程中,每一个变量的时间序列所学习到的因果关系矩阵Ai之间存在偏差,所以无法明确判断出序列之间存在的关系是否为因果关系。因此,需要进一步对因果关系矩阵Ai进行因果关系抽取,得到可靠的序列间因果关系矩阵A。在因果关系抽取过程中,本文采用异常检测中的离群点检测方式来提取具体的格兰杰因果关系图A。总的来说,模型整体处理流程以多元时间序列X={x1,x2,…,xN}作为输入,先经过多组件的因果关系推断模块得到因果关系推断矩阵Ai,再将Ai送入到因果关系抽取模块得到多元时间序列间的格兰杰因果关系图A。

1.3  因果关系推断

因果关系推断阶段的目的是通过多组件时间序列预测来学习各组件的多元序列之间的格兰杰因果关系矩阵Ai。其具体操作过程如图3所示。由于神经网络在非线性自回归模型中往往采用参数共享,因此难以通过网络参数来判定某个序列xi是另一个序列xj的格兰杰因果的充分条件,且这种方式也导致得到格兰杰因果关系矩阵缺乏可解释性[20]。因此,本文提出的MCGNN模型借鉴了文献[20]的组件架构思想。在因果关系推断中,对于每一个变量的时间序列数据,分别采用一个组件模型对其进行建模。将全部的多变量时间序列送入每一个组件中,并以预测其中一个时间序列的未来演变作为目标。这样,多组件模型架构就增强了整个模型的可解释性。

每个组件模型包含GCN和GRU两部分。首先利用GCN来聚合含有格兰杰因果关系的节点,表征多元序列之间的可能关系。在第i个组件中的GCN聚合过程如下式所示,GCN的原始输入为多元时间序列X={x1,x2,…,xN}和随机初始化的自适应参数矩阵Ai∈N×N,经过一次GCN卷积得到序列的表示Zi,该表示中包含了多元时间序列间的关系信息,公式为:

Zi=ReLU(AiXWi)。

式中:Wi为可学习的权重参数,Ai是模型训练过程中需要学习的时间序列间的因果关系矩阵,在模型训练过程中,通过最小化预测误差来不断更新Ai,从而迫使Ai不断逼近真实的格兰杰因果关系。

将当前t时刻GCN得到的表示Zti送入到GRU中,如下式所示。然后采用GRU学习单个时间序列的时变特征,捕获各个序列上的时间依赖关系。其具体的计算过程如下公式所示:

Hti=GRUi(Ht-1i,Zti)。

在GRU中,接收两个输入,分别是上一时刻隐藏状态Ut-1i和当前t时刻输入Zti,在第i个组件中的GRU详细计算过程如下。

uti=σ(WiuZti+UiuHt-1i+biu),

rti=σ(WirZti+UirHt-1i+bir),

ti=tanh(WihZti+Uih(rhi⊙Ht-1i)+bih),

Hti=uti⊙ti+(1-uti)⊙Ht-1i,

式中:uti表示更新门,biu表示更新门的偏置,rti表示重置门,bir表示重置门的偏置,ti表示候选隐藏状态,bih表示隐藏状态的偏置,σ表示Sigmoid激活函数,Hti为GRU输出的时间序列的表示,该表示不仅包含了单个时间序列的时序信息,还包含了各时序变量间的关系信息。最后,模型经过一个全连接层得到预测输出,如下式所示。

y^i=WHti+bi,

式中:bi表示预测输出的偏置。因果关系推断模型的损失函数由两部分构成,第一部分是采用均方误差(MSE)计算时间序列的预测值与真实值的误差,第二部分采用了L2正则项来保证格兰杰因果关系的稀疏性,其公式如下所示。

loss=1M∑Ni=1∑Mj=1(yij-y^ij)2+λ∑Ni=1‖Ai‖2,

式中:M表示样本数量,N表示序列个数,yij表示第i个序列第j个样本的真实值,y^ij表示第i个序列的第j个样本的预测值,λ表示惩罚系数,在实验中取值为0.01。

1.4  因果关系抽取

在因果关系推断模型的训练过程中,虽然能够通过最小化模型的损失函数找到每一个组件中最优的格兰杰因果矩阵Ai,但是这会造成每个组件中的格兰杰因果矩阵Ai不一致,仍然无法对序列间关系进行确切的因果定义。为明确序列之间的因果关系,需要对学习到的格兰杰因果矩阵Ai做出二元决策,判断出两个时间序列是否存在因果关系。这里采用图4所示的因果关系抽取模块提取出具体的因果关系矩阵A。

首先对每个组件中的因果矩阵Ai先取绝对值,再按列求均值,得到其余时间序列对于预测目标序列的平均贡献度ai。

ai=1N∑NM=1AMi′,

在得到平均贡献度ai后,采用一种异常值判断方式对ai进行二元决策。二元决策的具体公式如下所示:

Mi=MEAN(ai),Si=STD(ai)  ,

ai=1,aiMi+γSi0,ai

计算每个向量ai的平均值Mi和标准差Si,然后根据每个序列的平均贡献度与Mi+γSi(实验中γ取值为2)的比值进行判断,若贡献度大于等于Mi+γSi,则表示存在因果关系,并设为1;若小于Mi+γSi,则不存在因果关系,值设为0。最后将二元决策后的结果进行拼接,A=1‖2‖…‖N,得到最终的因果图A。

2  试  验

为验证MCGNN模型的有效性,分别在模拟数据集和真实数据集上进行了相关试验。

2.1  数据集

本文沿用文献[20]的做法,分别采用模拟数据集Lorenz-96和真实数据集DREAM3评估MCGNN模型的有效性。现对两种数据集分别进行介绍。

2.1.1  Lorenz-96模拟数据

Lorenz-96是1996年Lorenz和Saltzman提出的一种时间连续、空间离散的非线性气候动力学模型[23],其第i个变量的表达式为

dxtidt=(xt(i+1)-xt(i-2))xt(i-1)-xti+F ,

式中:F是一个强迫常数,它决定了时间序列数据中非线性和混沌的程度,F越大,数据变得越混沌。根据文献[20]所述的模拟数据生成方法,在本实验中设置F=10和F=40,并以Δt=0.05的采样率对N=20的Lorenz-96模型进行数值模拟,生成具有稀疏格兰杰因果关系的多元非线性时间序列。

2.1.2  DREAM3数据集

DREAM3数据集来源于一个基因调控网络推理挑战,该挑战旨在从随时间变化的基因表达数据集中估计格兰杰因果网络。DREAM3数据集是一个困难的、复杂的非线性数据集,其中包含5个不同的子数据集,分别是2个大肠杆菌(E.coli-1、E.coli-2)数据集和3个酵母(Yeast-1、Yeast-2、Yeast-3)数据集,每个数据集都表现出了不同的稀疏模式和因果拓扑结构。在每个数据集中包含了N=100个不同的时间序列,每个序列有46个扰动,每个扰动持续21个时间点,总共有966个时间点。

2.2  试验设置

本文所有试验均采用Python编程语言和Pytorch深度学习框架,且在具有16 GB RAM的单个NVIDIA Tesla T4 GPU上进行运算。在训练过程中,学习率设置为0.01,epoch设置为2 000。为了防止模型过拟合,采用Adam优化器[24]“早停法”(Early Stopping)进行训练。同时,采用时间序列间的因果关系准确率(Accuracy)和接受者操作特征曲线下的面积(AUROC)这两种评价指标对模型的推理结果进行评估,验证模型有效性。

2.3  基线模型

本文选取5种流行的生成序列间的格兰杰因果关系的方法与本文所提出的MCGNN模型进行比较。(1)IMV_LSTM[25]:使用注意力权重来提供比标准LSTM更好的可解释性,通过聚合注意力权重来检测格兰杰因果关系。(2)TCDF[26]:时间因果发现框架使用基于注意力的卷积神经网络和因果验证步骤相结合,通过解释卷积网络的内部参数来发现序列间的因果关系。(3)cLSTM[20]:利用LSTM和对权重的稀疏性惩罚,激励特定的权重集为零的方式来生成序列间的格兰杰因果关系。(4)cMLP[20]:利用多层感知机(Multipe Layer Perceptron,MLP)与lasso正则对权重参数进行稀疏性诱导,从而生成兰杰因果关系。(5)SRU[27]:统计循环单元采用组件级预测模型对观测数据的非线性进行建模,格兰杰因果关系的网络拓扑可以从SRU网络的内部参数结构化稀疏估计中推断出来。

2.4  模型的性能表现

2.4.1  模拟数据试验

为验证所提出的MCGNN模型对模拟数据的有效性,在时间序列长度为500(即T=500)且不同混沌程度(即F=10,F=40)的Lorenz-96数据集上进行了对比试验,其中F值越大,表示该系统动力学变得越混乱。该试验均选择前5个时间步的序列数据作为输入,预测下一时间步的序列数据。同时,本试验以5次试验的平均值作为试验结果,并展示了其标准差,具体的实验结果如表1所示。MCGNN模型相比于其他的基线模型在不同混沌程度的Lorenz-96模拟数据集上均表现出了最优的试验结果。特别是当F=40时,大部分基线模型的格兰杰因果检测性能都显著降低,如TCDF、cLSTM模型等。SRU模型在F=40时却相较F=10时得到了较大提升,其原因为当时间序列的混沌程度较低、序列间的相互作用较弱时,该模型的正则化方法没有充分发挥作用[25]。而MCGNN模型无论数据处于何种混沌程度,都保持着较强的竞争性,且格兰杰因果关系检测性能也相对平稳。

2.4.2  真实数据集试验

为验证MCGNN模型在真实的复杂数据集中的格兰杰因果推断性能,采用因果关系推断模型评价常用的基准数据(DREAM3基因表达数据)进行相关试验。在试验中,采用前5个时间步的序列数据作为输入,预测下一时间步的序列数据,

在cLSTM和cMLP模型中分别设置隐藏单元为10个和5个,在MCGNN模型中设置隐藏单元为16个。采用AUROC作为性能指标比较各模型的因果推断表现,结果如图5所示:MCGNN模型在5个子数据集中均取得了不错的表现,对于5个基因调控网络中的E.coli-1、Yeast-1、Yeast-3数据集,MCGNN模型取得了最佳的AUROC,在Yeast-2上也表现优秀。

2.4.3  样本数量的影响

为验证不同样本数量对模型因果检测性能的影响,分别在不同的时间序列长度(即T分别为250,500,1 000)的Lorenz-96数据集上进行了对比试验,试验结果如图6所示。当F=10时,MCGNN模型在各个样本数目中都取得了最佳的AUROC,且样本数量越多,格兰杰因果检测的效果越好。并且,当可用的数据序列长度较少时(T=250),MCGNN模型性能表现明显优于所有基线模型。当F=40时,即使时间序列的混沌程度增加,且在少样本情况下,MCGNN模型的性能提升幅度明显要优于大部分基线模型。

2.4.4  模型参数量比较

为检验所提出的MCGNN模型的复杂度,在真实数据集DREAM3的子数据集E.coli-1上比较了不同方法在进行计算时所使用的参数量,其试验结果如表2所示。TCDF模型在计算时参数量最少,但从模拟数据和真实数据的试验结果来看,其效果表现得并不是很好。IMV_LSTM模型参数量最多,模型复杂,从表1和图5的试验结果来看,IMV_LSTM的性能表现也是最差的。本文所提出的MCGNN模型的参数量第二多,这主要是因为本模型采用了组件式结构,且每个组件模型包含了GCN和GRU,结构相对复杂。虽然cMLP和cLSTM模型也采用了组件式结构,结构相对简单,但是综合的表现性能却不如MCGNN。总的来看,本文所提出的MCGNN模型去解决因果推断任务相对于基线模型是有效且可行的。

2.5  MCGNN的工业应用

工业生产中往往涉及多维(即多变量)数据的监控和关系发现。如在天然气生产工艺实时监测中,脱甲烷塔工艺过程所涉及的塔底、塔中及塔顶温度和压力等多维度参数,是影响产品回收率以及纯度的关键因素。掌握脱甲烷塔工艺中各传感位点之间温度相互影响的规律是控制产品生产效能的有效途径。在本实验中,选取了脱甲烷塔中13个不同位置温度传感器点位的一个月数据记录,共计732个时间点,部分点位温度序列如图7(a)所示。通过MCGNN模型挖掘这些点位之间的非线性依赖关系,从而为调控各个位置的温度作出建议。

经MCGNN模型推断,脱甲烷塔中温度传感器的因果网络结构如图7(b)所示,已知TT_016和TT_017点位处于脱甲烷塔的输入部分,该位置的温度是导致后续点位温度变化的重要原因;TT_013、TT_014处于脱甲烷塔中部,该位置温度容易受到塔顶和塔底温度的影响;TT_021和TT_022处于脱甲烷塔的输出部分,与塔内多个位置的温度存在非线性依赖关系。这意味着,调节输入位置以及塔顶、塔底点位的温度,对于提升脱甲烷塔工艺效果相对重要。该结论经与采气厂内部工艺专家校验,证明多组件图神经网络方法较传统基于LSTM的方法能更准确地识别出关键位点TT_021与TT_022,对于生产实践具有一定指导意义。

3  结  论

本文提出的MCGNN模型首次将GCN和GRU网络相结合应用到格兰杰因果推断任务中,同时考虑表征多元变量之间的可能关系和学习单个变量的时变特征。此外,为避免神经网络的“黑盒”特性,MCGNN采用组件级模型架构,提高整个模型的可解释性。该模型通过因果关系推断和关系抽取2个过程实现多元序列间的因果关系推断,即首先通过图卷积和GRU网络自动学习针对每个目标变量的因果结构,然后通过异常值检测方法对生成的因果关系进行二元决策,从而得到序列间的格兰杰因果关系。在模拟数据集和真实的基因调控网络数据集上,该方法都获得了最高准确率。将该方法应用于实际的天然气生产工艺流程分析中,对脱甲烷塔中的温度传感器点位进行相关试验分析,试验结果与经验知识吻合。然而,本方法的一个缺点在于计算复杂度较高。因此,在未来的工作中,将重点探索更高效的解决方案,减少模型复杂度。

参考文献:

[1]  SHEIKHATTAR A,MIRAN S,LIU J,et al.Extracting neuronal functional network dynamics via adaptive Granger causality analysis[J].Proceedings of the National Academy of Sciences,2018,115(17):3869-3878.

[2]  WEIN S,MALLONI W M,TOM A M,et al.A graph neural network framework for causal inference in brain networks[J].Scientific Reports,2021,11(1):1-18.

[3]  XIU Y,REN X,ZHANG T,et al.Time labeled visibility graph for privacy-preserved physiological time series classification[C]//2022 7th International Conference on Cloud Computing and Big Data Analytics (ICCCBDA).IEEE,Chengdu,China,2022:280-284.

[4]  ZHANG S,BAI Y,WU G,et al.The forecasting model for time series of transformer DGA data based on WNN-GNN-SVM combined algorithm[C]//2017 1st International Conference on Electrical Materials and Power Equipment (ICEMPE).IEEE,Xian,China,2017:292-295.

[5]  ZHANG W,ZHANG C,TSUNG F.GRELEN:multivariate time series anomaly detection from the perspective of graph relational learning[C]//Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence,IJCAI-22.Messe Wien,Vienna,Austria.2022:2390-2397.

[6]  ZHOU L W,ZENG Q K,LI B.Hybrid anomaly detection via multihead dynamic graph attention networks for multivariate time series[J].IEEE Access 2022,10:40967-40978.

[7]  VICENTE R,WIBRAL M,LINDNER M,et al.Transfer entropy—a model-free measure of effective connectivity for the neurosciences[J].Journal of Computational Neuroscience,2011,30(1):45-67.

[8]  AMBLARD P O,MICHEL O J J.On directed information theory and Granger causality graphs[J].Journal of Computational Neuroscience,2011,30(1):7-16.

[9]  SONG L,KOLAR M,XING E.Time-varying dynamic bayesian networks[J].Advances in Neural Information Processing Systems,2009,22:1732-1740.

[10]KOLAR M,SONG L,AHMED A,et al.Estimating time-varying networks[J].The Annals of Applied Statistics,2010:94-123.

[11]WANG Y,LIN K,QI Y,et al.Estimating brain connectivity with varying-length time lags using a recurrent neural network[J].IEEE Transactions on Biomedical Engineering,2018,65(9):1953-1963.

[12]KYONO T,ZHANG Y,VAN DER SCHAAR M.CASTLE:regularization via auxiliary causal graph discovery[J].Advances in Neural Information Processing Systems,2020,33 :1501-1512.

[13]HU W,YANG Y,CHENG Z,et al.Time-series event prediction with evolutionary state graph[C]//Proceedings of the 14th ACM International Conference on Web Search and Data Mining.Jerusalem,Israel,2021:580-588.

[14]XU C,HUANG H,YOO S.Scalable causal graph learning through a deep neural network [C]// Proc of the 28th ACM international conference on information and knowledge management.New York:ACM Press,2019:1853-1862.

[15]MARCINKEVIS R,VOGT J E.Interpretable models for granger causality using self-explaining neural networks [C]// Proc of the 9th International Conference on Learning Representations.2021.

[16]HUANG B,ZHANG K,ZHANG J,et al.Causal discovery from heterogeneous/nonstationary data[J].The Journal of Machine Learning Research,2020,21(1):3482-3534.

[17]KIPF T,WELLING M.Semi-supervised classification with graph convolutional networks[C]// International Conference on Learning Representation,San Juan,Puerto Rico,ICLR:1609.02907,2016.

[18]HUANG Y,KLEINBERG S.Fast and accurate causal inference from time series data[C]//FLAIRS Conference.The Diplomat Beach Resort Hollywood Curio Collection By Hilton,Hollywood,USA,2015:49-54.

[19]CHO K,VAN MERRIENBOER B,GULCEHRE C,et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation [C]// Proc of EMNLP.Stroudsburg,PA:ACL,Eighth Street,Stroudsburg PA 18360,2014:1724-1734.

[20]TANK A,COVERT I,FOTI N,et al.Neural granger causality[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2021,44(8):4267-4279.

[21]LI C,MO L,YAN R.Rolling bearing fault diagnosis based on horizontal visibility graph and graph neural networks[C]//2020 international conference on sensing,measurement & data analytics in the era of artificial intelligence (icsmd).IEEE,2020:275-279.

[22]LORENZ E N,EMANUEL K A.Optimal sites for supplementary weather observations:Simulation with a small model[J].Journal of the Atmospheric Sciences,1998,55(3):399-414.

[23]KINGMA D P,BA J.Adam:a method for stochastic optimization [C]// International Conference on Learning Representation,San Diego,CA,USA.ICLR:2015.

[24]GUO T,LIN T,ANTULOV-FANTULIN N.Exploring interpretable lstm neural networks over multi-variable data [C]// International conference on machine learning.Long Beach,California,USAPMLR,2019:2494-2504.

[25]PLETNEV A,RIVERA-CASTRO R,BURNAEV E.Graph Neural Networks for Model Recommendation using Time Series Data[C]//2020 19th IEEE International Conference on Machine Learning and Applications (ICMLA).IEEE,2020:1534-1541.

[26]KHANNA S,TAN V Y F.Economy statistical recurrent units for inferring nonlinear granger causality[C]// International Conference on Learning Representation,Addis Ababa 2020.

[27]CUI Y,ZHENG K,CUI D,et al.METRO:a generic graph neural network framework for multivariate time series forecasting[J].Proceedings of the VLDB Endowment,2021,15(2):224-236.

Causality Inference for Multivariate SeriesBased on Multi-component Graph Neural Network

ZHANG You-xing1,LI Ping2,WU Rong1,YANG Xiao-li1,LI Yu-dong1,MENG Liang1

(1.Information Management Station,No.1 Gas Production Plant of Xinjiang Oilfield Company,Karamay Xinjiang 834000,China;2.College of Computer Science,Southwest Petroleum University,Chengdu Sichuan 610500,China)

Abstract:Considering that graph neural networks are capable of capturing nonlinear and high-order interactions,this paper proposes a Granger causality inference method (MCGNN) for multivariate time series based on multi-component graph neural network to improve the interpretability and accuracy of Granger causal inference.Multi-component graph convolution neural network is utilized to obtain the nonlinear effects between multivariate time series and Gated Recurrent Unit model is introduced to model the time series,translating the causality inference into time series predictions.The experimental results indicate that MCGNN is significantly better in accuracy than the current best models in both open simulated data and real data sets.In particular,when it is applied to the data set of natural gas cryogenic process,the method can dynamically find the causal relationship between the site sensors in cryogenic process,which is consistent with the judgment of cryogenic process experts.

Keywords:Granger causality;graph neural network;multi-variable time series; nonlinear effects; high-order interaction