APP下载

基于知识图谱的水电机组主动维护体系探讨

2022-08-26赵训新王卫玉马泽宁陈启卷

水电与新能源 2022年8期
关键词:案例库结构化水电

赵训新,王卫玉,马泽宁,陈启卷

(1.五凌电力有限公司,湖南 长沙 410004;2.国家电力投资集团水电产业创新中心,湖南 长沙 410004;3.武汉大学动力与机械学院,湖北 武汉 430072)

由于不断增强的机组技术含量与系统复杂程度,水电设备与系统面临越来越复杂的工作条件和运行环境,与维修有关的理论与技术也将不断推陈出新。水电机组故障诊断可从机组正常运行特征着手研究,通过建立基于正常运行特征的健康样本来实现水电机组的运行状态诊断,其方法则侧重于设备运行状态的实时健康诊断[1]。在水电站智能化的发展中,故障检修的理念已从由“故障后”转向“故障前”,从“被动维修”、“事后检修”的传统观念向“主动维修”、“事前预防”的方向发展。由此,故障检修更加关注“故障前”的潜伏故障原因、风险排查以及预防措施,而“故障后”更加关注故障原因、故障风险以及检修措施。过去基于人工智能方法的水电站故障诊断只能依据故障数据输出故障结果,这对于故障检修是远远不够的。虽然已有水电站构建了自己的专家故障库,但是由于故障知识文本结构较为复杂,来源多样,知识标准不统一等,使得故障专家案例库中的知识难以完善,因此,在研究故障诊断方法和故障预测模型的基础上,需要融合更多的知识与方法,弥补当前故障诊断结果对于故障维修支撑的不足。水电设备全生命周期中将许多信息通过相应的信息管理系统记录在数据库中,这些信息对设备故障诊断具有重要意义,应加以合理利用,主要包括以下类型。

1)资产配置信息。主要为设备铭牌、设备编码、设备名称、设备等级、电压等级、制造厂商以及安装时间等信息的设备静态信息。

2)工作票和操作票。在工程、调试和运行阶段由不同的系统产生,但由于工作票和操作票在整体结构,语法规则和相对规范上无明显差异,因此可将二者归成一类。工作票是电站开展各类维修活动所必须的技术文件,是工作过程管理系统和隔离辅助系统的运作载体,在整个水电工程建设、调试过程中具有重要作用,一张工作票对应现场一项维修活动,其内容包括工作包首页、工作指令、工作包风险分析、工作包隔离指令、工作所需图纸、检修规程、质量计划、特殊工序控制文件和维修报告等。

3)工作日志。由调试、运维检修人员在调试作业、检修消缺、周期性巡视时发现的故障记录的事件或缺陷情况。工作日志是典型的短文本,词语中夹杂数字、符号、以及不规范的用语。日志记录的内容详略不一,包含设备可能发生的故障时间、故障现象、故障的分析和设备状态等,蕴含丰富的未被挖掘的故障信息。

4)语音、视频及图片。在调试及运维过程中,往往会通过视频、图片或语音的方式进行工作过程及事故现象的记录,并通过语音进行多人之间的协同作业。

5)长文本。包括针对事件的事后分析报告、定期试验报告、生产年报、财务年报等内容。

6)标准及规程。包括水电站在调试、运维过程中所遵循的国家标准、行业标准、具体操作规程等。

本研究采用SPSS18.0统计学软件进行数据处理,计量资料用(±s)记录并用t检验,计数资料用%记录并用X2检验,若P值低于0.05,则差异具有统计学意义。

因此,研究基于知识图谱的水电机组故障主动维护方法是十分必要的。首先,要对知识图谱的技术架构进行研究,并对其构建技术和相关流程的情况进行分析,在此基础上阐述知识图谱与水电机组维护之间的耦合关系,并基于故障知识图谱的技术架构以及水电机组主动维护的更高目标,构建基于知识图谱的主动维护体系,从故障数据层面,提供半结构化故障数据、结构化实时数据、半结构化数据三种类型,从专家案例库构建层面,构建机组设备故障主动维护知识图谱,并在分析图谱过程中,补充事件本体以及抽取方法,完善水电机组专家故障案例库。

1 知识图谱

1.1 知识图谱概念

知识图谱(Knowledge Graph,KG)是把所有不同种类的信息连接在一起而得到的一个关系网络。知识图谱旨在从数据中识别、发现、筛选和推断事物与概念之间复杂的相互关系,是事物关系的可计算模型。知识图谱从本质上来说是语义网络,是一种基于图的数据结构[2]。知识图谱可从知识建模、知识抽取、图存储、关系推理、实体融合等多方面技术角度支撑知识搜索、智能问答、语义理解、决策分析等应用。知识图谱就是把不同类别的信息整合为不同属性的实体及各实体间的关系,由此可以获得一个旨在从多种知识数据中反映事物之间的关系的复杂网络,进而高效完成存储、查询等关系运算和分析,在搜索引擎、社交网络、医疗教育等领域都有着广泛的应用,同时在语义搜索、辅助智能问答、推荐计算、大数据分析等方面展现了丰富的研究价值[3]。

知识图谱本质上是一个知识库,是一个将实体和属性通过关系进行联结和组织的知识网络。组成它的基本单元是“实体—关系—实体”或“实体—关系—属性”三元组。知识图谱是由节点和边组成的语义网络图,含于丰富的语义知识图谱中[4],每个节点可以是实体,如一个水电站、一台设备,也可以是抽象的概念,如一个故障事件、一个设备本体。还可以是实体的属性,如水电设备名称或是实体之间的关系,像包含、现象、故障严重程度等。

知识图谱与水电机组故障主动维护具有大数据与人工智能特性,可以通过知识抽取、知识融合、知识加工形成知识图谱。针对故障预测和故障诊断的预测结果,无论是结构化数据、半结构化数据抑或是两种数据的组合,均可以通过知识图谱的相关技术进行知识匹配及推理,并给出故障隐患、故障风险、故障原因、检修方法等关联知识的推荐,完成全面的故障检修,有利于故障维护体系的构建。

知识图谱是基于数据、知识支撑技术、方法的应用,水电机组故障诊断与预测是基于方法来分析数据的,两者处于互补的关系。

知识图谱具有强大的知识组织及共享能力,水电机组故障主动维护知识图谱能够通过统一的知识空间把广域分布的相关知识进行智能聚合,并能够通过基于本体论的知识表达机制实现语义互通的共享环境,有助于建立统一规范,解决知识的集成以对其理解,有助于专家知识库的构建与完善。

1.2 知识图谱技术架构

知识图谱技术体系包含四个部分。即知识来源、知识抽取、知识融合、图谱构建,如图1所示。

图1 知识图谱技术架构

知识抽取通过自动化技术抽取可用的知识单元,主要针对开放关联数据。其包含实体、关系和属性三个要素,并在此基础上推动后续的知识融合,从而达成对一系列用于构建模式层的优质准确的事实表达。知识抽取主要包含三个任务:

实体抽取:作为知识抽取最为基本和重要的一步,实体抽取是通过初始的语料数据对命名实体实现自动识别功能。对于在知识图谱中抽取知识单元中的实体这一过程,其最基本元素能否保证完整、准确以及召回率等将直接影响知识库能否具有合格的价值。

关系抽取:作为维持实体之间含义表达完整和语句衔接连贯的关系抽取可用于对实体间关系进行识别,在早期其主要是通过人为的方法实现对语句涵义规则和模板的构造。随着相关技术不断发展成熟,其逐渐被能够表达实体间的关系模型替代。

属性抽取:属性抽取主要是通过实体所对应的属性来完成对实体的完整描述与勾画。实体属性可以被视为是连接实体与属性值的一种名称对应关系,由此可知原本的属性抽取问题可转换为关系抽取问题。

知识融合:所抽取的知识信息存在由于数据源宽泛繁多引起的知识驳杂无序、数据源包融混合引起的知识相互重叠以及所得知识之间关系模糊等各种问题,而知识融合则是为解决上述弊端而采用对数据整合、消歧、加工、更新等手段与方式将各种知识信息统一于新的规范当中,集中于同一框架之下,并在此基础上形成的数据、经验、信息等集合在一起的高质量高层次数据库。实体消歧是对可能存在多种含义的实体名称进行不同含义的划分,实体对齐是将在不同数据源中具有相同含义和具有指代意义的名词或代词的信息进行合并。然后对实体、属性和关系进行整合,从而构建起知识图谱的原始框架。

知识图谱的构建过程是一个随着不断递增的人类认知能力、知识储备以及业务需求而不断变化的动态过程。因此,通用和行业知识图谱都需要在应用当中扩展更新已知的知识,增加充实未知的知识,在修正和完善中构建起知识图谱的健全体系。

2 基于知识图谱的水电机组主动维护体系

面对不断发展的维修维护理论和技术与日趋复杂的设备技术和系统特性,水电机组在各种工况下都能够安全可靠、经济高效地运行也逐渐成为人们关注的热点,一方面,维修维护理念的聚焦点应该从“故障后”的修复维护转向“故障前”的预测诊断,另一方面,更应该在各种状态下,充分发挥大数据与人工智能的海量专家知识和技术优势,能够迅速判断事故发生或者潜在故障的原因以及所应采取的措施。即从“被动维修”的传统观念向“主动维护”的理念转型。

基于知识图谱的故障主动维护体系整体包括三个部分,为别为专家故障案例库、智能维护决策以及故障数据,下面分别进行叙述。

2.1 故障数据层

故障数据层主要指除历史故障样本以外的新增数据,包含四种类型:①结构化实时数据,主要来源于在线监测系统,可针对在线监测的实时数据进行故障预测工作;②结构化故障数据,是指设备发生故障后,通过在线监测、离线试验等手段获取的设备故障数据,这部分数据可通过基于结构化数据的故障诊断方法进行分析;③半结构化故障数据,主要指通过巡视、检修、调试等工作对所发现的缺陷、故障等情况新生成的日志记录,这部分数据可通过半结构化文本故障诊断方法进行分析;④故障检修数据,是指针对设备发生潜在故障或已发生的故障,通过故障库的专家答复进行相关检修工作后,对维修的结果进行的整理,该部分数据最终作为新的专家知识输入到专家案例库中。

2.2 专家支持层

考虑到领域的特殊性,在知识技术架构技术上,结合水电机组故障诊断及维护的特点,完成对以知识图谱为理论基础的水电机组故障案例库的建设工作。

在知识抽取中,因为水电机组故障诊断往往以故障事件为单位进行分析,因此需要增加故障事件实体,并进行故障事件的抽取;同时,对于领域知识,实体词义仅限于电力行业,且有明确的应用规范,因此实体歧义的问题基本不存在,可省去消岐这一步骤。

专家支持层是故障维护体系的数据基础,也是知识基础,共包含四个步骤。

第一步:收集历史故障样本,结构化数据来源于在线监测系统以及人工整理的事故分析报告,其中包含了丰富的结构化故障数据以及趋势数据。半结构化和结构化数据来自信息化系统。同时,知识图谱关键语料信息和专家经验总结多为半结构、非结构化数据[5]。

第二步:知识抽取。该步骤针对知识进行特征提取及分类,主要包括三个内容,分别为基于CRO-TWSVM的结构化故障数据分类方法、基于Word2vec(Word to vector)和TF-IDF加权文本向量的故障案例分类方法、基于Tessaract OCR识别的非结构化文本提取方法。

对于结构化故障数据,可采用化学反应优化(CRO)算法对双支持向量机(TWSVM)的参数(惩罚因子和核参数)进行优化,由训练样本训练得到全局最优SVM故障诊断模型,选择最优的训练参数。对于文本半结构化数据,通过Word2Vec方法将文本转化为分布式表示的特征向量,考虑词汇间的语义关系,采用TIF-IDF对词向量进行权重分配,并生成文本向量,即Word2vec方法解决分类词间的语义关系,TF-IDF解决词汇的重要程度,将两者结合,从而提高分类的准确性。Word2Vec 模型是基于神经网络语言模型的一个改进模型,是一种从原始语料中得到词语分布式表示的无监督模型,其中包含Skip-Gram模型和Continuous Bag-of-Words(CBOW)模型[6]。CBOW的核心思想是通过上下文词预测中心词,Skip-gram则是通过中心词预测上下文词[7]。TF-IDF是一种基于词频特征的统计方法,它包含TF(词频)和IDF(逆文档频率)两部分,主要通过计算词频和逆文本频率来计算特征权重[8],用来体现一个词语对文件的重要程度。针对非结构化历史数据,如存储在纸质文档中的事故分析报告、检修报告等,可通过基于tessaract的OCR识别方法进行文本特征提取,转化为半结构化历史数据后,再进行进一步处理,基于以上工作,完成初步的知识抽取。

第三步:事件抽取,关系抽取以及知识融合等进一步的知识加工。关系抽取的工作是识别数据库中未知的各实体或各属性间的关系及与之相关联的一些关系类型,如“包含”、“现象”、“措施”、“原因”等,结合实体/属性的词性对关系进行限定。事件抽取的工作是自动抽取事件之间的逻辑关系。其以事件为基本的语义单元,所抽取的逻辑关系事件包含因果关系、时序关系以及共指关系等。事件关系的抽取和构建可以总结事件发展趋势与规律,掌握其脉络与全貌,进而进行事件知识图谱的建设工作。

本文将水电机组故障事件划分为定转子、空冷器、上导轴承、下导轴承、推力轴承、机架、主轴、水导轴承、过流部件、水轮机故障等故障事件,每个事件包含的内容为事件标题、故障原因、故障现象、内容答复、临时措施、关闭信息、设备、时间、人员等实体和属性,其结构比较规范;因此可以构建事件本体进行事件抽取,并且针对事件清单而言,由于逻辑结构鲜明,可将关系简化为包含关系,图2展示了主轴故障所构建的知识图谱。

图2 水电机组主轴故障事件本体

第四步:知识存储。完成知识的抽取、融合等工作后,形成基于知识图谱的专家故障案例库,实现对出现故障的设备、数据、原因、现象、风险及与故障对应的检修决策等知识的全面组织及融合。同时,随着知识的不断输入,循环以上步骤,针对新增实体和关系进行验证及评估,保证故障知识图谱的内容一致性和准确性。

故障预测将水电机组结构化在线/离线数据,输入到相应预测模型中,进行未来时间的趋势预测。一方面,可通过区间宽度的变化针对不确定性较高的区间所在时间段进行潜在故障预警并将预警结果输入专家故障案例库中进行深入处理;另一方面,将预测结果输入相关故障诊断模型中进行诊断,若诊断出在未来时间段内会发生故障,则将初步预测结果及故障数据输入故障专家案例库进行进一步处理。

基于结构化数据的故障诊断将新发现的机组故障数据输入相应故障诊断模型中进行诊断,并将初步诊断结果及故障数据输入故障专家案例库进行升级处理。

基于半结构化数据的故障诊断将半结构化文本数据输入相应模型中进行文本向量提取并进行故障诊断,将初步诊断结果及故障数据输入故障专家案例库进行进一步处理。

专家答复通过故障预测、结构化数据诊断以及半结构化文本故障诊断所请求的初步诊断结果、故障特征、故障数据等内容,通过在专家故障案例库中进行匹配及分析,可通过知识抽取及相似度计算等工作,给出专家诊断建议,内容包括故障原因、故障隐患、故障风险、检修策略等内容。进行相关检修工作后,对维修的结果进行整理,该部分数据最终作为新的专家知识输入专家案例库中。

2.3 主动维护层

主动维护层包括四个部分。分别为故障预测、基于结构化数据的故障诊断、基于半结构化数据的故障诊断和专家答复。

3 结 语

针对目前水电站故障维修向主动维修的发展迫切需求以及故障案例库中由于故障知识文本结构较为复杂、来源多样、知识标准不统一等知识组织不足的现状,导致故障专家案例库中的知识难以提取的问题,本文初步探索了基于知识图谱的水电机组故障主动维护体系,通过将知识图谱的技术架构与主动维护理论有机结合,构建基于知识图谱的水电机组故障主动维护体系,包括故障数据层、专家支持层和主动维护层三个部分。在故障数据层,提供了半结构化故障数据、结构化实时数据、非结构化数据三种类型,丰富了故障诊断的数据类型;在专家支持层,根据水电机组故障特点,基于知识图谱技术架构,构建了专家故障案例库;在主动维护层,通过将诊断、预测、分类模型的有机耦合,实现针对三种不同结构及状态数据的故障诊断及预测工作,提高了故障诊断的应用范围和价值,最终将结果输入专家故障案例库中,得出专家建议,并将最终检修结果作为新的故障知识回送到故障案例库中,实现从数据-故障预测-故障诊断-故障推理-检修决策全过程的水电机组故障主动维护策略。

猜你喜欢

案例库结构化水电
心血管外科教学案例库的建设及应用研究
国内首个海事司法案例库正式上线
促进知识结构化的主题式复习初探
基于实践应用的基坑工程设计案例库建设研究
结构化面试方法在研究生复试中的应用
央企剥离水电资产背后
水电:全力消纳富余水电 更重生态环保
MTI朝鲜语同声传译教学案例库建设研究
长江水电之歌
基于图模型的通用半结构化数据检索