APP下载

基于知识图谱的信号设备故障诊断方法

2022-11-25王晴雯张振海

铁道标准设计 2022年12期
关键词:轨道电路图谱实体

王晴雯,张振海

(兰州交通大学自动化与电气工程学院,兰州 730070)

引言

随着交通运输行业的快速发展,运输安全受到全社会越来越多的关注。铁路作为旅客出行以及货物运输最主要的方式,信号设备的运行状态将直接关系到铁路运输的安全。在信号设备的日常维护与故障诊断中,已经积累了大量的设备故障分析报告,然而这些故障分析的信息过于零散,不能很好地为现场人员所用,类似的故障再次发生时不能快速查询到与之相符合的故障分析[1]。另一方面,信号设备的故障情况往往复杂多样,作业时更多依靠现场人员的经验与知识储备。如果可以通过一条故障分析检索具有相同类型故障情况的历史故障分析记录,就可以参考该历史记录的分析概况以及处理方法对该条故障进行相应处理,这在实际的现场作业中,既充分应用了前人所总结的故障处理经验,又对经验与知识储备不足的现场作业人员具有重要的指导意义。然而,信号设备故障分析的复杂性对故障记录的准确检索造成了很大阻扰,虽然有相关的信号设备故障案例指导作业册以及公众号等对已发生的以及可能发生故障的设备进行了分析和总结,但由于设备故障的多样性与不确定性,这些总结都难以对其进行全面归纳。且有时由于现场人员的经验局限或记录不当,使得相关故障处理的记录并不规范,对后续故障分析的查询造成了困难,加重了故障分析记录的复杂性。

知识图谱具有组织和存储大量知识的能力,分为通用知识图谱和垂直领域知识图谱两类[2]。通用知识图谱不限定知识领域,其知识覆盖面很广,常用于面向互联网的搜索、推荐、问答等业务场景,如百度知识图谱、YAGO链接数据库等。垂直领域知识图谱是面向特定领域的知识图谱,如金融、电商、医疗等领域[3]。目前,国内许多垂直领域都开展了相应的知识图谱构建研究。罗熙熙[4]构建了金融领域的知识图谱,帮助金融从业者进行知识分析等操作;杨泽等[5]提出了一种中国古典文学的知识图谱构建方法,实现了非结构化知识文本隐藏信息的可视化展现;程香丽[6]构建了基于文物知识图谱的问答系统,以便于高效查询文物相关知识;刘源[7]构建了医疗知识的知识图谱,融合多个数据源中的医疗知识,提高了知识图谱的质量,解决了医生和患者交流效率低等问题。相比较而言,领域知识图谱的知识来源更多、规模化扩展要求更迅速,且对知识的质量要求更高,知识结构更加复杂。

提出一种知识图谱的图结构对信号设备故障概况及故障分析等之间的关系进行表示,根据Neo4j图数据库特征提出一种信号设备知识图谱的构建方法,提升了故障分析查询和储存效率,改进了由于信号设备故障的复杂性及故障分析记录的分散性对知识查询造成的局限,并在所构建的图谱基础上提出了故障分析查询方法。

1 知识图谱构建

1.1 知识图谱概述

知识图谱从本质上来讲是语义网络,是一种基于图的数据结构[8]。知识图谱就是把不同类别的信息整合为不同属性的实体及各实体间的关系,并得到一个关系网络,旨在从非结构化知识中识别、筛选和推断事物之间的复杂关系,从而高效完成存储、查询等关系运算和分析,在搜索引擎、社交网络、医疗教育等领域都有着广泛的应用,同时在语义搜索、辅助智能问答、推荐计算、大数据分析、自然语言理解、可解释性人工智能等多个方面展现出丰富的应用价值。

知识图谱由节点和边组成。节点可以为实体,如一台设备、一个人等,也可以是抽象的概念,如知识图谱、人工智能等。边组一般是实体间的关系,如师生、家人等,也可以是实体的属性,如设备名称、设备类型等。知识图谱一般以三元组的形式表示,即(实体1,关系,实体2)或(实体,关系,属性),实体与属性为节点,关系为连接两节点的有向边,三元组通过实体或属性及其之间的关系进行连结,构成了具有网状结构的知识图谱[9]。

针对信号领域而言,知识图谱技术的主要优势体现在两个方面,首先能够将信号设备、故障处理分析等非结构化的数据进行整合与管理,从而提升数据搜索效率及设备运维能力;其次,将信号设备故障案例及其相关规程文件等数据融入知识图谱,可提供智能辅助维修方案推荐功能。

1.2 信号设备故障知识图谱构建

构建知识库时常用的方法有自动化构建、半自动化构建及手动构建。由于信号领域知识图谱对知识库的要求较高,简单的自动化构建方式会导致后续知识图谱的应用不理想,为保证知识库的构建质量,在手动构建知识库的基础上,结合斯坦福大学提出的领域本体构建七步法[10],提出信号设备故障知识图谱构建方法,具体流程如图1所示。

图1 信号设备知识图谱构建流程

由于信号设备故障知识图谱数据主要是基于关键语料信息的提取和现场作业人员及专家的经验总结,多为半结构化、非结构化数据,知识语料较复杂,为满足知识图谱准确度高及可视化展现的效果,知识图谱采用“自顶向下”和“自底向上”结合的方式进行构建[11]。

1.2.1 概念集定义

明确信号设备知识图谱的设计需求后,通过对信号设备领域相关知识进行研究和分析,总结信号设备的重要术语及概念,并对信号设备的故障案例等非结构化及半结构化数据进行归纳整理。在明确概念划分合理性的前提下,对信号领域知识体系及知识点之间的关联关系进行准确描述,过滤相关性低、重复率高的知识,修正有歧义、易混淆的术语,形成精准完善的信号设备故障核心概念集。信号设备故障核心概念集主要归纳为5类:道岔转辙设备类、信号机类、轨道电路类、电码化设备类及其他设备类[12-13]。研究的信号设备故障核心概念集框架如图2所示,主要研究范围为信号设备常见的故障类型。

图2 信号设备故障核心概念集框架

1.2.2 实体及其属性抽取

实体及其属性抽取旨在从信号设备故障分析语料中抽取出表示实体或属性的词,并对其进行词性标注,属性和属性值的抽取能够使知识图谱中的实体概念集维度构建完整。信号设备故障知识图谱以图模型进行表示,其实体抽取产生的便是节点,属性抽取即是构造节点与关系的属性,在进行实体或属性定义时,应考虑在冗余程度最低的条件下满足应用及可视化展现。信号设备故障知识图谱实体的属性可归纳为名称、类型、概况、分析、方法,抽取实例如表1所示。

表1 实体及其属性抽取实例

1.2.3 关系抽取

关系抽取旨在从信号设备故障分析语料中抽取出实体之间的语义关系,阐述了各实体间的关联,是提供查询功能以及可视化展现必不可少的一个步骤[14]。信号设备故障知识图谱可结合实体及其属性的词性对关系进行定义,关系抽取实例如表2所示。

表2 关系抽取实例

1.2.4 知识存储

采用基于Neo4j的标签属性图数据模型对信号设备知识图谱进行存储和管理。Neo4j是一种高性能的NoSQL图数据库,能够将结构化数据存储在拓扑图上,实现对大量数据的集中管理,其属性图模型由节点(Node)和关系(Relationship)组成,节点存储实体(Entity)信息,各节点以其间的关系进行链接,节点与关系的属性(Property)和标签(Label)以键值对(key-value)的形式进行存储[15]。

Entity=(Node:Label{Property name:`Property value`});

这里Node是一个节点名,Label是节点Node的标签名称,Property name为属性名称,Property value为属性值,每个节点可有一个或多个标签,有零个或多个属性,属性的一个名称对应一个值,如(信号机:设备{名称:`信号机`})。

Relationship=(Node1)-[Relationship label name:Relationship name]→(Node2);

这里Node1、Node2为两个有关系的实体节点名,Relationship label name为一个关系的标签名称,Relationship name为关系的名称(关系属性),实体间的关系具有方向性,上式中的Relationship方向为Node1到Node2,如(启动电路故障)-[r:故障分析]→(室外原因),表示室外原因是启动电路故障的故障分析。

1.2.5 知识图谱数据展示

根据所收集的信号设备故障分析语料,经过实体、关系等知识抽取及知识存储,实现了信号设备故障知识图谱的构建[16]。目前,图数据库中总共构建了477个实体节点,其中包含230个道岔转辙设备故障类节点、131个轨道电路设备故障类节点、48个电码化设备故障类节点、34个色灯信号机故障类节点、34个其他设备故障类节点,同时构建了483个关系属性。

信号设备故障知识图谱在Neo4j图数据库中以图节点和关系边来进行知识存储,如图3~图7所示为各类设备故障相关节点及关系创建结果。图中的节点包含各类设备故障的故障概况、故障分析及故障处理方法节点,各类节点均附带各自的属性信息,不同属性在可视化展现时以不同颜色加以区分,其中,故障概况类节点为红色,故障分析类节点为棕色,故障处理方法类节点为粉色,黄色为信号设备类节点。各实体间的关系用有向边表示,每条有向边包含开始节点、关系属性和结束节点。

图3 道岔转辙设备类故障部分节点及关系

图4 色灯信号机类故障部分节点及关系

图5 轨道电路类故障部分节点及关系

图6 电码化设备类故障部分节点及关系

图7 其他设备类故障部分节点及关系

通过准确的知识抽取与合理的节点关系属性定义,完成了信号设备故障知识图谱的构建[17-18],Neo4j图数据库的存储结构清晰地展现了信号设备故障知识图谱所有实体及其关系,各类实体按属性类型分别存储,便于对各类实体进行维护。同时,该存储结构便于对知识图谱内容进行扩展,若有新的故障分析语料,只需在图数据库中建立相应的实体及关系属性即可,整个数据库的存储架构不会改变,便于进行知识更新。

2 Cypher查询语句生成

2.1 声明式语言

文中采用的查询语言Cypher是一种图数据库查询语言,是由Neo Technology公司为Neo4j而创建,具有查询效率高、表现力丰富等优势[19]。Cypher的关键特征在于它是一种声明式语言,区别于在命令式语言中需要用户告诉数据库如何对数据进行处理和检索,声明式查询语言可以声明用户想要查看的模式,并让数据库处理如何对数据进行检索,提高用户查询语句的可读性,使查询语句更易于理解、易于维护。此外,声明式语言能够依据数据的结构化特性来优化查询,从而更有效地返回查询结果,无需用户考虑查询操作的内部细节,提高了查询速度。Cypher语言是Neo4j图数据库非常重要的一部分,在大规模数据库管理系统领域有着至关重要的作用。

2.2 数据处理的实现

Cypher语言使用户能更简单地操作图数据库,无需编写复杂的查询语句,通过模式匹配Neo4j图数据库中的节点和关系即可实现对数据的修改、更新、查询等操作,使得信号设备故障知识图谱能够进行数据修正、扩展、查询[20]。信号设备故障知识图谱主要有两方面的应用:一是知识管理,即对复杂的半结构化、非结构化的数据进行整合管理;二是知识查询。下面详细介绍采用Cypher语言对信号设备故障知识图谱进行数据更新及查询的实现方法。

(1)查询信号设备故障类实体节点

Cypher查询语言很依赖于模式,通过MATCH匹配图数据库中的实体节点是从图中获取数据最常见的方法;用RETURN定义返回的结果。如用MATCH和RETURN查询属性名称为道岔转辙设备的实体,其Cypher查询语句为

MATCH (n:`道岔转辙设备`) RETURN n LIMIT 25

该语句能够查到所有节点标签定义为“道岔转辙设备”的实体,查询结果如图8所示。

图8 道岔转辙设备实体查询结果

(2)查询信号设备故障类实体关系

李打油说:那么就是种喽,难道土质有问题?可为何前几窑蛮好?我父亲又昏昏欲睡了,急得李打油连忙再夸猪牯的神勇,三六一十八,最惨烈的一天是六场战斗啊!其实,老人家是在帮他想对策。当李打油一再追问猪牯为何这般神勇时,我父亲终于清晰地吐出另一个字:蛋。都知道要喂蛋呀。父亲急得要坐起来,我们使劲托起他,见他手指门口,才明白他要蛋。拿来两个蛋,问他够吗?摇头。四个,又摇头。我家里正好只有十个蛋。在父亲的示意下,鸡蛋被分成两份,篮子里留下六个,取出四个放在床上。李打油好像明白意思啦,惊得咧开了嘴。

用MATCH匹配指定的模式,查询约束节点及与其有直接关系的相关节点。如查询道岔转辙设备故障的主要设备型号,其Cypher查询语句如下,查询结果如图9所示。

MATCH p=(道岔转辙设备电路故障)-[r:`设备型号`]→() RETURN p LIMIT 25

图9 启动电路故障节点关系查询结果

(3)更新信号设备故障类实体节点

Cypher语句除用于查询外,还可用于图数据的更新。当需要进行知识更新时,先通过MATCH匹配图模式,然后用SET设定属性值,通过节点的ID属性对节点进行查、改、删操作。如下例所示,发现节点“ZPW2000A型无绝缘轨道电路故障”的节点标签定义不准确,则根据以下语句进行更新。

MATCH (ZPW2000A型无绝缘轨道电路故障:故障类型)

REMOVE ZPW2000A型无绝缘轨道电路故障:故障类型

SET ZPW2000A型无绝缘轨道电路故障:轨道电路故障类型

更新完成后用根据节点ID查询节点,检验更新是否生效,该节点ID为338,查询语句如下。

WHERE id(r)=338

RETURN r

查询到更新结果如图10所示。可以看到,更新前节点标签Labels为“故障类型”,更新后为“轨道电路故障类型”,节点颜色也相应地发生了变化。

图10 节点属性更新结果

(4)更新信号设备故障类实体关系

与更新实体节点同理,更新关系时先通过MATCH匹配图模式读取关系,同时用WHERE给模式添加约束节点,实现查询约束节点的ID及需要更新与其关系的相关节点ID,然后用CREATE更新关系属性[21-22]。注意在创建了新的关系后,要删除掉原关系。如下例所示,将关系“故障类型”更新关系属性为“轨道电路故障类型”的Cypher语句。

MATCH (n:设备)-[r:故障类型]-(m:轨道电路故障类型)

WHERE id(n)=264 and id(m)=265

CREATE (n)-[r2:轨道电路故障类型]→(m)

DELETE r

更新结果如图11所示。

图11 实体关系更新结果

3 信号设备故障知识图谱应用

信号设备故障知识图谱可以根据现场表现出来的故障情况,进行可视化语义搜索,支持现场经验不足的人员在信号设备故障时做出辅助决策,有利于运维人员高效查询和系统学习信号设备故障维护案例等知识。

(1)可视化语义搜索。信号设备运维人员可借助信号设备故障知识图谱进行故障记录语义检索,通过知识图谱的可视化展现直观地得到信号设备故障记录,包括发生故障的设备、故障分析、故障处理方法等,有助于运维人员快速学习和掌握知识。

(2)辅助决策。运维人员可通过信号设备故障知识图谱检索得到关联度较高的故障处理记录及相关故障分析方案推荐,从而有效地辅助运维人员在处理故障时采取最佳决策,提高维修效率。

例如,若现场发生道岔表示电路故障,运维人员可在知识图谱检索该故障的相关实体节点及关系,检索结果如图12所示。该可视化语义检索结果为运维人员推荐了该故障的常见故障分析及故障处理方法,为运维人员提供了故障处理的思路。

图12 辅助决策推荐示例

4 结语

(1)针对信号设备故障数据分布零散、难以管理的问题,提出了信号设备故障知识图谱的构建方法,从知识抽取、知识存储、知识查询等方面详细介绍了信号设备知识图谱创建的过程,以三元组的形式将实体及关系属性存储到Neo4j图数据库中,完成了信号设备故障知识图谱的构建,实现了信号设备故障数据的高效管理。

(2)提出基于Cypher语言的信号设备故障知识图谱的故障维修方案推荐查询方法,可根据某个设备的状态查询到与之相关的故障分析,从中获取维修方案推荐决策,改善了因信号设备故障的复杂性为处理故障带来的困难。

(3)信号设备故障知识图谱对知识的完备性要求较高,若知识的完备性差,则难以进行准确有效的辅助决策推理。因此,需及时对知识库的数据进行补充与更新,并严格审查已写入的每条知识是否严谨,以确保所构建的知识图谱能有效应用到信号设备故障维修方案的推荐场景中。

猜你喜欢

轨道电路图谱实体
绘一张成长图谱
基于HHT及LCS的轨道电路传输变化识别探讨
前海自贸区:金融服务实体
JXG-50S型相敏轨道电路接收器自动测试台
ZPW-2000客专轨道电路掉码故障分析
JWXC_2.3型轨道电路故障测试仪
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
补肾强身片UPLC指纹图谱
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”