APP下载

基于元学习的设备故障知识图谱构建及推理方法

2023-12-04王晓茜窦润亮季海鹏

计算机集成制造系统 2023年11期
关键词:三元组图谱故障诊断

刘 晶,唐 震,王晓茜,窦润亮,季海鹏

(1.河北工业大学 人工智能与数据科学学院,天津 300400;2.河北省数据驱动工业智能工程研究中心,天津 300400;3.天津开发区精诺瀚海数据科技有限公司,天津 300400;4.天津大学 管理与经济学部,天津 300072;5.河北工业大学 材料科学与工程学院,天津 300400)

0 引言

工业4.0背景下,设备运行过程越来越复杂,某些关键部件的故障可能导致整个生产系统停机,因此设备故障的早期诊断和预测成为研究热点[1]。近年来,数据驱动的故障诊断方法[2]解决了因机理复杂难以建立精确数学模型的问题,在理论上大幅提高了故障诊断的准确率,受到广泛关注。在实际应用中,由于生产现场的不稳定导致设备运行数据具有强噪声和复杂性,运用数据驱动的故障诊断方法的实际故障诊断正确率远低于实验室结果,为了进一步提高生产现场的准确率,需要人机交互的智能辅助决策方法。

2012年谷歌公司提出知识图谱技术[3],通过构建结构化的知识库,推理算法求解故障成因,实现由知识图谱引导的设备故障诊断。基于知识图谱的知识推理算法主要包括基于距离向量的TransE模型[4]及其衍生的模型,以及基于语义匹配的RESCAL模型[5]、ComplEx模型[6]、DistMult模型[7]等,目前已有学者将知识推理算法应用于设备故障诊断。乔骥等[8]将电网调度中大量文本规程记录组织为知识图网络,构建了面向电网故障处理辅助决策的知识图谱应用框架,实现了电网故障处置的解析判别、辅助决策和多维人机交互。为进一步实现故障数据和知识辅助之间的联动,周彬等[9]提出一种面向设备点检故障根因分析的因果知识建模方法,该方法通过提取设备故障运维因果知识图,结合故障知识中混杂影响因素,实现设备故障语义关系发掘,并实现图谱节点间隐含的因果性语义链路补全。为了实现知识库的扩展,刘华一等[10]提出一种基于语义网的机床故障诊断知识扩展方法和一种应用该方法的知识扩展平台体系结构,该方法利用语义网技术实现了对机床故障知识收集效率的提升,验证了故障诊断知识库在实例扩展方面的有效性。上述方法从故障文本中提取结构化数据,构建设备故障知识图谱,均取得了较好的效果。但上述方法需要依赖于大量的故障样本作为训练数据,由于设备的高可靠性,故障数据较难获得,如何在小样本情况下由知识图谱实现设备故障的推理非常重要。

为实现小样本情况下知识图谱的故障推理,需要知识图谱推理算法拥有元学习的能力。元学习[11]的目标是使算法适应当前任务,且能够在新任务上利用较少的训练样本取得更好的泛化表现。基于最具代表性的元学习MAML(model-agnostic meta-learning)算法[12]模型无关的思想,目前已有可在小样本情况下实现知识推理的模型,包括MetaKGR(meta-based multi-hop reasoning method)[13]模型、FSRL(few-shot relation learning model)[14]模型、GANA(gated and attentive neighbor aggregator)[15]模型等,而对于非高频三元组如何实现有效预测,CHEN等[16]通过模型无关元学习对实体嵌入过程中的参数进行训练,可以在小样本情况下取得有价值的实体信息,实现了在稀疏数据集中的链接预测。

由上述研究可知,目前由知识图谱引导的设备故障诊断算法缺乏元学习的能力,难以在在小样本情况下推理故障成因,且在进行知识实体的推理时,未考虑知识图谱推理算法的负样本生成策略,导致随机生成的负样本带来了不必要的模型训练开销。通识领域常采用随机替换头尾节点的方法生成负样本,但随机替换产生的负样本对于设备故障诊断并无实际意义,反而会导致可能相关联的故障间因为对负例的学习而失去联系,或是故障诊断模型在负例中学习不到任何有价值的信息。针对上述问题,本文提出一种基于元学习的设备故障知识图谱构建及推理方法,该方法通过提取设备时序信号和文本规则等多源信息构建知识图谱,实现了同一故障簇可视化及相似故障查询,提供对故障诊断决策的辅助。并通过基于元学习的故障链接预测算法(Meta-Fault link prediction algorithm,MetaF),实现在小样本情况下故障类型的链接预测和设备故障诊断的推理,为实现更精确的模型训练,采用在同一故障簇邻域的负样本生成策略,避免了随机替换头尾实体导致预测算法无法在负例中学习到有用的知识。最后在公开数据集上验证了模型故障诊断能力,证明了本文故障诊断提供辅助决策的有效性。

1 基于元学习的设备故障知识图谱构建及推理方法

基于元学习的设备故障知识图谱构建及推理方法框架如图1所示。该方法包括基于设备故障信息知识图谱构建和基于元学习的故障链接预测算法MetaF两个模块。其中,基于设备故障信息知识图谱构建实现对设备文本数据的分类提取和设备时序数据的特征提取,得到设备故障规则链的描述和故障特征信息,结合故障规则和信号特征后实现知识图谱的构建。基于元学习的故障链接预测算法MetaF分别接收支持集和查询集的任务实现小样本情况下的故障诊断,支持集训练数据通过元学习N-way、K-shot的方式划分得到多组任务,输入MetaF训练算法,查询集则验证模型在新链接预测任务上的泛化效果。在MetaF中采用同一故障簇邻域的负样本生成策略进行负样本的生成,通过TransE算法进行故障实体的链接预测,最终输出对故障类型的诊断推理结果,并提供相似故障列表查询,为故障诊断提供辅助决策。

1.1 设备故障信息知识图谱的构建

针对传统故障诊断方法缺乏故障信息结构化管理能力的问题,提出一种构建基于设备故障信息知识图谱方法,并将其数据进行划分以适应于元学习训练。构建知识图谱的方法如图2所示,对于设备运行生成的故障信息,首先从设备数据的文本描述中提取知识图谱的故障规则链,其次从设备运行数据中提取信号特征信息,最后将信号特征和故障规则链结合,生成统一描述形式的节点信息,完成知识图谱的构建。

对于设备故障信息知识图谱的定义如式(1)所示:

(1)

式中:E={e1,e2,…,en}(n<|E|)为n个实体集合,R={r1,r2,…,rm}(m<|R|)为实体间关系集合。构建知识图谱,需要从设备故障数据的文本数据中抽取故障规则,为不同故障类型定义分类标准。设备文本数据可以总结出多种工况特征,而设备运行数据是在多种工况特征叠加下产生的结果,因此定义图谱中的两类节点,分别为故障类型节点和故障时序片段节点。故障类型节点为某一工况下的实体表示,故障时序片段节点为多种工况叠加下,设备运行时序信号采样片段的实体表示。以某一工况下设备运行记录文件为例,将文本抽取为故障规则的方法如图3所示。假设取得一个由“外圈故障”“014深度损伤”“风扇端”这3种类型工况叠加得到的混合工况记录文件,则分别定义“故障点位置”“损伤深度”“检测位置”3种故障类型节点与3种工况类型对应,并定义一个故障时序片段节点与该混合工况记录对应,且存在<故障时序片段节点,belong_to,故障类型节点>的三元组关系。

由此得到知识图谱中三元组的定义,如式(2)所示。对于图谱中的所有故障规则链s=(h,r,t),均有s⊆S,r为实体节点间关系描述。

S={(h,r,t)|h,t∈E,r∈R}。

(2)

进一步的,为获得图谱节点的嵌入向量形式描述,需要对设备时序数据进行信号分解并提取特征值,将其存储为知识图谱的形式化表达结构,便于知识图谱链接预测算法直接处理。对选定的时序片段序列,对其进行变分模态分解(Variational Mode Decomposition,VMD),VMD分解通过求变分模型最优解确定信号的各本征模态函数(Intrinsic Mode Functions,IMFs)分量,最终实现信号频谱划分和各本征模态函数分量的分离。求解模态分量方法如式(3)~式(5)所示。求解约束变分问题如公式(3)所示:

s.t.

(3)

式中:{uk}为分解得到的IMFs分量,{ωk}为IMFs分量的中心频率,K为分解的IMFs数量。采用二次惩罚因子β和拉格朗日乘数λ将约束问题转化为非约束问题,如式(4)所示:

L({uk},{ωk},λ)=

(4)

最后将上述问题通过交替方向乘子法求解,uk和ωk的最小值求解方法如式(5)所示:

(5)

其中:n为迭代次数,当迭代到满足收敛条件(6)时停止;ε为给定的判定精度,

(6)

根据VMD分解得到K个模态分量IMFs={IMFs1,IMFs2,…,IMFsK}后,为使知识图谱链接预测算法获取时序信号特征数据,需要对IMFs分量求解其波形因子得其一维信号特征。波形因子是讯号的均方根值和整流平均值的比值,常用于时序信号的故障诊断任务,其计算如式(7)所示:

(7)

由IMFs提取的{form1,form2,…,formk}波形因子矩阵为故障特征向量矩阵,矩阵每列为L维的向量,例如formk={line1,line2,…,lineL},对应在第k维模态分解的向量上L个知识图谱节点数据。

综上,完成设备故障信息知识图谱的构建,故障规则链和故障特征值分别存储于故障图谱规则层和故障图谱数据层。在图谱的两个层级间定义模式映射<故障时序片段节点,故障特征节点>,映射表示同一故障时序片段在两个不同层级之间的不同存储方式。

根据设备故障信息知识图谱的数据形式,需要将其三元组划分为元学习任务的形式。因为设备故障信息构建的图谱中,实体数量远远多于实体间关系的数量,由此设置关系为任务的划分依据。此外,故障实体间的语义信息是由关系进行连接的,由此通过关系进行元学习任务参数训练是合理的。根据N-way,K-shot的原则,对元学习训练任务的三元组划分方法如图4所示。对于三元组数据集D,划分为支持集训练数据Dtrain和查询集验证数据Dtest,并对Dtrain进一步分为n个任务组:Task1、Task2、…、Taskn。对于每一个任务组,其内部均选取同一种关系的三元组,分别作为该组任务的训练支持集Strain和训练查询集Qtrain。

如图4中的任务划分方式,即使某一类的故障样本数量较稀少,也可通过在任务中重复使用该样本以实现数据增强,解决了样本数量少和稀缺故障难提取的问题。

1.2 基于元学习的故障链接预测算法

针对实际工况下故障数据稀缺的问题提出MetaF算法,该算法基于元学习的链接预测算法融入了同一故障簇邻域的负样本生成策略。对于知识图谱算法而言,生成负样本的目标是提供高质量的负三元组样本,随机生成的负样本对于故障诊断链接预测算法的训练并无实际意义,会对最终训练结果产生影响。受知识图谱推理算法RippleNet[17]启发,同一故障簇邻域的负样本生成策略模拟了水波纹的传播方式,在知识图谱中以需要替换的头实体或尾实体为种子,在限定范围的区域内以种子为中心向外逐层查询其他节点与待替换节点的相似度,其扩散查询方式如图5所示。

(8)

(9)

(10)

(11)

(12)

当替换头实体时,生成的负样本三元组S如式(13)所示,当替换尾实体时,生成的负样本三元组S如式(14)所示。因为替换的节点是与起始节点相似度最小的,所以对应的三元组应被作为故障推理模型训练时的负例学习,以获得较高质量的故障关联信息学习。

(13)

(14)

MetaF算法结构如图6所示。设置MetaF为两层结构,通过邻域负样本生成策略构建三元组负例,分别实现在支持集中关系元信息的学习,以及查询集中新实例的任务学习。MetaF在每一轮任务学习中进行关系元的更新和故障类型的链接预测,即通过训练数据更新关系元和梯度元,预测与给定缺失三元组具有关系的故障实体节点,预测结果为故障诊断的结果。

MetaF在小样本情况下的故障诊断主要步骤如下:

在支持集中,对输入的三元组(hi,ti,ri),通过关系元学习器计算其关系元信息RTr,在关系元学习器中L层的神经网络计算对应输入三元组的关系元信息R(hi,ti),如式(15)~式(17)所示,其中L为神经网络层数且l∈(1,2,…,L-1),Wl为第l层权重,bl为第l层偏置项。

(15)

(16)

(17)

对于提取到的多个关系元信息,使用求平均的方法计算该趟任务的关系元信息RTr,如式(18)所示,其中K表示该趟任务参与训练的关系元数量。

(18)

依据知识图谱链接预测算法TransE,计算当前关系元RTr对于三元组的尾节点S(hi,ti),此处使用的评分函数如式(19)所示,其中‖x‖表示计算向量x的L-2范数,且S(hi,ti)取值越低表示三元组计算结果越准确,反之则表示该三元组为负样本。

(19)

(20)

依据损失函数L(Sr)的计算,可以计算该关系元的梯度以指导参数变化。梯度元GTr的计算如式(21)所示:

(21)

(22)

实现关系元的更新后,即可在查询集中链接预测未知三元组(hj,tj,rj)′的对应故障尾节点S(hj,tj),且在查询集中的得分函数和损伤分别如式(23)和式(24)所示:

(23)

(24)

2 实验及结果分析

2.1 链接预测实验

为验证MetaF在知识图谱网络中的链接预测能力,以及小样本情况下算法的有效性,选择公开数据集NELL-One作为实验的基准数据集。NELL数据集是在互联网信息中自动抽取新知识的知识库,NELL-One是NELL知识图谱数据集的子集,其根据关系出现的次数,选择小于500次且大于50次的三元组,提取并重新组合为数据集,常用于验证算法在小样本情况下知识图谱的链接预测能力。

为评估模型效果,根据关系出现的频率确定三元组出现的频率,定义出现频率较低的关系为目标关系,用于评估小样本情况下的效果,非低频关系为背景关系。采用Pre-Train和In-Train两种模型训练方法分别评估其效果,Pre-Train在模型训练前结合背景关系进行模型预训练,In-Train为直接使用背景关系和目标关系直接训练模型。选择MRR、Hits@10、Hits@5、Hits@1作为实验评估指标,MRR为测试集数据上的平均排名,Hits@10、Hits@5、Hits@1分别为正确结果在预测结果中排名前10、前5、前1的比例。对比试验选择的模型为FSRL[14]、GANA[15]、MetaR[16]算法,分别在1-shot和5-shot两种情况下进行实验,实验结果如表1和表2所示。

表1 1-shot实验结果 %

表2 5-shot实验结果 %

根据实验结果可看出,由MetaR优化得到的MetaF在1-shot和5-shot两种情况下,于In-Train的模型训练中均取得了优于原始模型的效果。对于FSRL模型,MetaF在MRR上获得了3.7%(1-shot)和2.5%(5-shot)的提升,在Hits@10上获得了2.1%(1-shot)和3.2%(5-shot)的提升;而对于GANA模型,MetaF在MRR上获得了2.5%(1-shot)和0.8%(5-shot)的提升,在Hits@10上获得了1.9%(1-shot)和0.9%(5-shot)的提升,说明MetaF在链接预测的性能上与当前主流方法基本一致。在Pre-Train训练中,MetaF与MetaR相比并未取得明显的进步,由于Pre-Trian过程会对实体嵌入进行预训练,且根据负样本生成策略增加了数据集中仅出现一次的三元组数量,因此影响了MetaF在知识图谱中链接预测的表现。对于In-Train训练,MetaF较MetaR在MRR上取得了5.2%(1-shot)和2.2%(5-shot)的进步,而对于发现相似故障列表最有评估价值的Hits@10,MetaF较MetaR取得了7.7%(1-shot)和2.9%(5-shot)的进步。说明MetaF可有效在包含背景知识的训练过程In-Trian中进行链接预测任务。

2.2 故障诊断实验

故障诊断实验分为设备故障信息知识图谱的构建和MetaF故障推理两个部分,首先抽取故障数据集特征信息并构建知识图谱,将图谱以三元组的形式存储于txt文本文档和csv文件中,并将图谱导入Neo4j数据库,MetaF模型使用PyTorch包构建模型进行训练。

2.2.1 数据集介绍

实验选取设备故障诊断领域常用的美国凯斯西储大学(Case Western Reserve University,CWRU)滚动轴承故障数据集,已有多篇文献使用该数据集验证算法[18-19]。CWRU数据集包含由加速度传感器采集的轴承振动信号数据和对应的机理说明文档。CWRU数据包括在轴承试验台驱动端(Drive)、风扇端(Fan)和基座端(Base)采集的振动信号。采用电火花加工单点损伤,损伤直径有0.007英寸、0.014英寸、0.021英寸3种,损伤部位有内圈、外圈和滚动体3种,其中外圈损伤点分别在3点钟、6点钟、12点钟的方位设置。

2.2.2 设备故障信息知识图谱的构建

实验选取了CWRU数据集中所有12 kHz数据,根据数据集的文本规则描述,对数据进行分类提取,总结出5种分类可以为数据进行划分,具体为:端点、故障点位置、损伤深度、载荷和检测位置,如表3所示。

表3 CWRU数据集分类规则

根据以上分类规则,可得图谱中节点间的对应关系,如表4所示。根据每一个故障采样片段在5个维度上的属性值,得到故障时序片段节点和故障类型节点间的连接关系。

表4 节点间对应关系

根据设备故障信息知识图谱的节点定义和数据关系,对轴承故障信号划分片段并进行变分模态分解,生成的特征向量与节点结合构建知识图谱,提取到1 196个实体和6种关系,构建得到的知识图谱局部结构如图7所示,其描述了CWRU轴承故障数据在端点、故障点位置、损伤深度、载荷和检测位置这5种维度下的关联方式,并实现了不同类型故障下的故障片段间的知识链接。知识图谱中任意两个故障时序片段节点间的距离均为两跳,中间由与其相关联的故障类型节点连接,这样的结构便于在某一区域内链接预测故障片段真正的故障类型。

2.2.3 故障推理实验和分析

为验证在小样本条件下,MetaF可以较好地完成故障推理任务,选取4种不同工况下的设备正常运行数据为基准,并以9:1的比例将正常数据与故障数据混合,构建小样本故障数据集,数据集的划分如表5所示。

表5 小样本故障数据集划分方法

分别测试4组小样本数据集在MetaF数据集上的表现效果,以平均排名MRR和精确率Precision为评价指标,验证算法推理故障实体的能力。MetaF由邻域负样本生成模块和故障链接预测模块组成,因此设置移除邻域负样本生成模块作为消融实验对照组,记为模型M_min,该组实验仅使用随机生成的负样本,以验证负样本生成策略的有效性,故障诊断实验和消融实验如表6所示。

表6 故障诊断实验和消融实验 %

由表6的故障诊断实验结果可以看出,MetaF在4组故障样本稀疏的数据集上均表现出较为均衡的效果,并未因为故障类型的不同导致模型性能的变化。对于表6中作为对照的消融实验结果,MetaF比作为对照的M_min,在MRR和Precision上均有提升,对于4个数据集,MetaF在MRR上的提升分别为6.8%、6.4%、7.3%和7.2%,并且MetaF在Precision上的提升分别为14.1%、14.0%、13.6%和13.2%,说明邻域负样本生成模块的加入有效提高了MetaF推理故障实体的能力,同时表明MetaF在小样本数据的故障诊断中表现良好。

由于传统基于数据驱动的故障诊断方法无法结构化管理故障特征信息,在故障数据内容发生变化时,需要重新训练模型。而基于知识图谱的方法因为已有对故障信息的描述,在理论上具有一定程度的优势,选取DS_01小样本数据集为实验数据,验证知识图谱方法对比数据驱动方法,在模型收敛速度和运行时间上的优势。选取故障诊断领域常用的LSTM算法[20]与MetaF算法对比,模型的损失值曲线对比如图8所示,平均运行时间对比如图9所示。

根据实验结果显示,MetaF获得了比数据驱动的LSTM算法更快的模型收敛速度和更短的平均运行时间,说明基于知识图谱的方法在模型的运行速度和运行时间上优于基于数据的方法,MetaF依赖结构化的故障信息存储,有效利用了已知信息加快故障样本向量计算的速度,实现故障诊断的效率提升。

2.2.4 相似故障查询结果和分析

MetaF实现相似故障查询的流程如图10所示,在输入故障采样片段后,MetaF通过知识图谱中已有故障信息确定样本故障类型并更新模型,得到故障类型后更新知识图谱,最后在更新的节点邻域内进行可视化的相似故障查询。

实验随机选取CWRU数据验证集中的一段采样片段作为输入,采样长度为1 600,将该采样片段进行模态分解后输入MetaF模型进行故障类型的诊断,并根据诊断结果进行相似故障查询,查询结果如图11所示。根据输入的故障片段,可查询出一组目标相似故障簇,以及3组其他相似故障簇。

对于查询得到的相似故障列表,根据故障向量间的欧式距离进行故障相似度的评分,对于任一组故障向量P={p1,p2,…,pk}和Q={q1,q2,…,qk},其故障相似度Fault_Similarity计算方法如式(25)所示,式中k表示向量的维数。

(25)

根据输入的故障片段,分别与求得的相似故障列表中每一项计算其故障相似度,得到评分结果统计如图12所示。

根据评分结果,可得片段141130020、片段141230070、片段141230040、片段141230010这4组数据与输入故障最相似,进一步查表可得这4组数据与输入故障均为故障类型faultType = {point:Drive,located:B,deepth:007,load:1}。在推理的14个相似故障中发现4个故障样本与输入故障相似,则称目标相似故障簇的样本检出率为28.6%。通过该组相似故障查询实验,可说明本文提出的方法在故障诊断应用上的有效性。为进一步说明MetaF的故障推理能力较于MetaR有提升,分别对比两种模型在相似故障查询中目标相似故障簇的样本检出率。设置实验分别在相似故障列表长度为10、15、20的情况下进行,每组实验进行10次取其结果的平均值,实验结果如表7所示。

表7 目标相似故障簇的样本检出率 %

由表7的实验结果可看出,MetaF在相似故障列表长度分别为10、15、20时,MetaF相较于MetaR提升了11.1%、6.4%、8.5%,说明同一故障簇邻域负样本生成策略的加入提升了模型故障诊断的能力,并通过相似故障查询有效辅助了故障决策。

2.2.5 实际工程应用案例分析

以电力变压器故障数据诊断为例,验证MetaF发现设备故障和相似故障查询的有效性。电力变压器运行数据包括正常运行以及低能放电、低温过热、高能放电、高温过热、中低温过热和中温过热这6种故障。依据5种变压器综合故障特征,定义变压器数据标签为fault_tag={feature01,feature02,feature03,feature04,feature05},5种特征分别对应变压器五种油中溶解气体含量计算得到的特征值,将已有数据划分为DGA_01={正常运行,低能放电,低温过热},DGA_02={正常运行,高能放电,高温过热},DGA_03={正常运行,中低温过热、中温过热}3组实验数据,将正常数据和故障数据以9:1的比例混合,分别在3个数据集上进行知识图谱构建,并在图谱基础上完成故障诊断任务。变压器故障图谱的构建及其故障诊断结果分别如图13和图14所示。

图14分别是MetaF在3组变压器故障数据的精确率和相似故障的样本检出率,可看出相较于CWRU数据集,变压器数据获得了更高的相似故障样本检出率,这是由于变压器数据构建的知识图谱结构相对简单,因此获得了更高的相似故障命中。根据实验验证了MetaF在完成较高准确度的故障诊断时,还可提供较好的相似故障查询,有效辅助了设备故障诊断决策。

3 结束语

针对小样本情况下难以构建故障数据知识图谱,从而导致推理算法无法准确实现故障诊断的问题,本文提出一种基于元学习的设备故障知识图谱构建及推理方法。该方法包括两部分:第一部分为根据故障数据文本描述提取数据的分类规则,构建本体模型的故障规则链,并提取故障数据中的特征信息作为故障规则链的数据信息,实现设备故障信息知识图谱的构建;第二部分利用同一故障簇邻域范围内的负样本生成策略,通过MetaF模型进行小样本情况下的故障诊断和相似故障列表查询,实现对设备运行数据的故障诊断决策辅助。实验结果表明,MetaF有效提高了在知识图谱上推理的准确率,并能有效利用设备运行数据构建故障诊断领域知识图谱,提供相似故障列表和可视化的相似故障簇,为故障诊断提供了有效的知识支撑。

猜你喜欢

三元组图谱故障诊断
基于带噪声数据集的强鲁棒性隐含三元组质检算法*
特征标三元组的本原诱导子
绘一张成长图谱
关于余挠三元组的periodic-模
补肾强身片UPLC指纹图谱
主动对接你思维的知识图谱
因果图定性分析法及其在故障诊断中的应用
基于LCD和排列熵的滚动轴承故障诊断
三元组辐射场的建模与仿真
基于WPD-HHT的滚动轴承故障诊断