轨道交通设备故障知识图谱构建与应用研究
2023-10-16袁嘉梁李亮亮续程宇
韦 伟 郑 杨 袁嘉梁 李亮亮 续程宇
(安徽工业大学管理科学与工程学院,安徽 马鞍山 243002)
传统轨道交通设备故障主要依靠人工巡检和排查,效率低下且易漏检。另外,一些先进企业引入了很多先进、高精密的检修系统,随着长期使用,积累存储了大量设备故障资料,在设备检修维护过程中进行复用、查询极为不便。因此,如何保证更快速、高效地对轨道交通设备故障进行排查诊断等,已成为轨道交通运营管理研究领域中的热点问题。
该文针对积累存储的设备故障数据,利用知识抽取、知识融合等技术构建知识图谱模型[1],研发了一种基于轨道交通设备故障知识图谱的智能搜索应用。对用户输入的词条自动抽取知识图谱中的故障实体节点,生成连续式返回结果。保证更快速、高效地进行部位排查、预防解决等,使大量多源异构数据的关联与复用充分发挥价值,提高检修人员工作效率。
1 设计思路
该文面向多数据源轨道交通设备故障知识库,包括故障报告、巡检日志等,通过数据预处理使其变为结构化数据形式,再利用数据分析技术构建故障实体属性及关系模型,通过知识抽取、知识融合等构建故障知识图谱,建立知识存储与图谱智能搜索应用。
首先,采用远监督方法对故障数据进行分析处理,可以从大规模的未标记数据中自动抽取关键信息。定义故障实体节点及属性值,包括故障设备、故障原因等,明确实体之间的关系,基于三元组规则抽取故障知识实体、关系及属性,实现故障知识抽取,提高知识图谱的质量和准确性。其次,从实体节点和故障处理2 个维度考虑,构建知识图谱模式层,将知识分解成各种主题类别,满足设备故障快速定位、故障诊断及维修建议智能推荐等关键应用场景。结合相似度匹配进行实体对齐,减少实体冗余和错误,实现知识图谱构建过程中的知识融合。最后,利用知识图谱智能搜索引擎为用户提供直观的故障分析、预测和决策支持,提高轨道交通设备故障处理效率、准确性和智能化水平。
2 知识抽取
2.1 基本过程设计
由于结构化与半结构化的故障数据格式与内容已知,相关属性值识别后可直接通过三元组规则进行抽取,而非结构化数据文本需要基于句法特征进行命名标注,因此将数据结构统一后进行三元组映射。
首先,对非结构化原始数据进行预处理,如文本清洗、分词和词性标注等,便于后续实体识别和关系抽取操作[2]。其次,利用命名实体识别技术识别文本中的实体,包括故障设备、故障现象等,再提取实体间的相互关系,如设备和部件的依赖关系、故障现象与原因之间的相互作用关系等。此外,通过实体对齐技术对不同文本源中同一实体进行对齐,确保知识图谱中实体元素的一致性和准确性。最后,将提取的实体信息与关系元素组合成三元组的形式构建知识图谱。同时,通过机器学习的方法不断完善和优化知识图谱模型,包括补充和维护实体、属性及关系信息等,以增强知识抽取模型的准确性和泛化能力,使其成为轨道交通设备故障诊断和预测的重要工具。
2.2 故障实体命名标注
2.2.1 基于BERT-BiLSTM-CRF 的实体识别标注
传统的BiLSTM-CRF 是一种常用的基于深度学习的方法,存在多语句长文本,会导致上、下文语句中命名实体识别不一致。因此引入BERT 语言训练机制,利用BERT 字向量嵌入层将其拆解、转化为向量进行表示,并作为BiLSTM 网络的输入,可较好地解决上述问题[3]。
另外,BERT 模型采用了Transformer 对文本数据编码,使用自注意力机制和全连接层来建模,基于Embedding Transformer Encoder 进行特征抽取。其中,自注意力机制通过每个字符与序列之间的相互关系计算调整其重要性权重,快速捕捉序列中的上、下文信息,学习到文本中的长距离依赖关系,并且忽略长文本给模型带来的影响。建立的目标函数如公式(1)所示。
将文本信息归为2 类,一类是基于CRF 层输出的目标实体标签序列,由B 和I 组成,另一类由O 表示,即结束位置,输出“B-value I-value O...”作为最终的标注输出。
2.2.2 模型对比评价
为了比较二者的不同,选用ROC(Receiver Operating Characteristic Curve)指标进行评估,建立混淆矩阵,计算不同的TPR值和FPR值,绘制ROC 曲线[4]。随机选出1850 项故障实体信息作为样本数据集,通过改变不同的分类阈值,绘制ROC 曲线模型图来评估二者的应用性能,得到的对比结果如图1所示。
由图1 可知,引入后AUC值为73%,30%~60%内的曲线上升更明显。结果证明,引入的BERT 机制处理自然语言文本时,具有更好的语义理解和特征提取能力,因此可更好地结合BIO 法进行故障实体标注,更具有价值性和借鉴性。标注示例见表1。
表1 实体标注示例(部分)
3 知识融合
3.1 模式层构建
模式层构建的方法分为自顶向下和自底向上2 种。将二者结合,前期采用自顶向下的方式,以故障实体节点为出发点,结合故障设备所处状态,确定故障现象、原因等实体节点及关系属性。
然后以故障处理为目标,采用自底向上的方式进行意图分析,将故障检查和解决处理等主题特征融合到知识图谱中的实体节点中,通过实体节点和故障处理2 个维度的双向融合,形成一个动态的闭环处理流程[5]。
3.2 基于改进CSA 算法的实体对齐
在知识融合过程中,实体对齐是一个重要的步骤,通常应用余弦相似度算法,但一个实体向量是长文本稀疏向量,其结果可能会不准确,并导致实体冗余或错误。
该文基于传统的CSA 算法,定义重叠比例,解决向量维度为零的问题,并通过相似度函数对字词或短语进行语义分析,进而可更准确地衡量2 个长文本之间的相似性。从而提供了一个更全面、更精确的度量方法,可更快速、有效地对大规模数据集进行实体对齐,如公式(2)所示。
式中:字符串xi向量为(x1,x2,...,xn),yi向量为(y1,y2,...,yn),|xi∩yi|为相似字符的个数,min(|xi|,|yi|)为2 个中字符串长度最小值。
在NLP 中,上述过程并不能完全说明文本之间的相似性,因此在其基础上加入归一化语义相似度(NSS)的计算,可较大程度上解决多短语语义的问题,如公式(3)所示。
式中:x、y为由字符xi、yi或短语a、b组成的长文本;sim(a,b)为基于公式(2)计算a、b之间的相似度;w为权重系数;c为平滑因子,用于解决分母为0 的影响;N为语料库的短语总数;min(|x|,|y|)为短语数量的最小值。
基于Top-k 匹配方法验证改进后的方法更具有完备高效性,计算其算法返回前k个匹配结果中的冗余率(Redundancy)、准确率(Accurate),即对齐后存在重复实体及与正确实体对应的比例,如公式(4)所示。
式中:nk为前k个匹配结果中的实体数;m为去除重复实体后的实体数;h为正确匹配实体的数量。
随机选择设备实体类的前1850 个匹配结果,汇总计算结果见表2。
图1 对比结果
表2 实体对齐(部分)
一方面,计算字符序列的相似性考虑了字符串长度的影响,另一方面,通过计算多短语之间的语义相似度,评估长文本相似度。结果显示,改进后对齐准确率可达93%以上,可进行更精确的匹配对齐。
4 故障知识图谱检索应用
4.1 基于束搜索算法实现连续多段式查询
利用束搜索算法缩小搜索空间,达到自动识别上一搜索实体节点并将其作为主题的效果,实现维修建议的多段式一次性输出,解决传统需要重复输入并进行多次识别的问题。定义初始搜索状态为S0,包括搜索深度d、束宽k和初始搜索路径P0,如公式(5)所示。
式中:S0为初始搜索状态集合;P0为初始搜索路径;d为搜索深度;k为束宽,即搜索状态集合St中的路径数量。
在搜索过程中,为自动记忆上一次搜索实体并将其作为当前的主题信息,会在束宽为k、搜索深度为d的搜索路径中选择评估分数最高的进行扩展,并将其添加到搜索状态集合St+1中,如公式(6)所示。
式中:BeamSearch(St,k,d)为在搜索状态集合St中选择k条搜索深度为d且评估分数最高的搜索路径。
定义如公式(7)所示的得分评估函数。
式中:Score(Pt)根据搜索路径的质量指标计算,包括搜索路径的概率或效用等;et为当前搜索路径Pt的实体;et-1为上一次搜索的实体,初始时为空;AssociationScore(et,et-1)根据et与et-1之间的相似性计算关联评分;w为权重系数。
记录每个扩展状态St+1对应的实体,同时将上一次搜索的实体et-1更新为当前状态对应的实体。在束搜索循环结束后,根据公式(8),从扩展状态集合中选择得分最高的状态S'=(ps,es,ks,ds),并记录该状态下对应的实体es,将其作为下一次无主题词条的实体嵌入,如公式(8)所示。
式中:argmax 为状态集合St+1中得分最高的状态;f(ps)为对搜索路径pt进行进一步评估的函数。
由于一个较长词条中S'会遍历很多的实体候选输出序列,因此需要加置惩罚系数来弥补长序列输出的冗余,根据公式(9)计算出预测序列排序得分,将得分最高的实体序列作为最终记忆实体输出并抽取检索。
式中:L为最终候选序列的长度;α通常设置为0.75;Lα为惩罚长序列系数。
使用Cypher 语句对Neo4j 图数据库进行查询,例如某一设备的故障原因(fault_cause)查询语句为“MATCH(m:Fault)where m.name='{0}'return m.name.cause.”。利用NLP 技术将其转化为自然语言,直接输入“下极限报警原因”。通过上述算法步骤,记忆并输出最终预测序列,根据信息类型和内部结构驱动,既可连续式追加查询,也可针对处理解决、预防措施等维修建议进行一次性推荐输出。
4.2 应用性能评价
借助精确率、召回率及F1值评价整体应用性能,选取了1850 条故障信息词条与6 类设备故障主题特征作为测试数据集,以统计应用性能的各个评价指标值。经迭代,第154次的结果最优,得到的评估结果如图2所示。
图2 评估结果
由图2 可知,F1均值为90.89%,处于较高水平,说明构建的故障知识图谱应用性与主题先验性较高,可为用户提供高效的服务,算法应用与语义搜索效果良好。
5 结论
综合结果,改进后的CSA 算法实体匹配效率至少提升了20%,整体综合应用评价均值达到了90.89%。充分说明构建的设备故障知识图谱应用性与主题先验性较高,可高效实现故障诊断与维修建议的智能化推荐,提高设备维护效率,为轨道交通“智慧化巡检”的建设奠定了基础。