APP下载

基于图数据库的电力资产画像技术研究

2018-01-25任晓龙戴光耿泽飞

电网与清洁能源 2017年11期
关键词:画像字典计算结果

任晓龙,戴光,耿泽飞

(国网陕西省电力公司,陕西西安 710048)

资产管理对于企业来说是一项十分重要的工作。电力企业属于典型的资产密集型企业,其资产具有规模大、跨部门、更新快的特点,资产精细化管理的程度直接影响到企业的安全生产能力、服务社会能力、创造盈利能力和持续发展能力。而实现电力资产精细化管理首先必须实现对于所拥有的电力资产当前状况的客观、全面、准确的认识。

电力资产画像是电力企业实现对于电力资产当前状况的客观、全面、准确认识的有效手段。电力资产画像的实现依赖于电力企业运行过程中产生的业务数据。电力企业在日常生产过程中,产生了大量的与电力资产相关的业务数据。这些数据是以编码形式存在的信息载体,是物理世界的碎片化反映。电力企业可以使用这些业务数据,通过特定的分析方法,生成对于电力资产的一个个侧写,从各个方面客观、清晰、定性地描述电力资产。这些侧写汇总在一起,形成电力资产业务对象的全视角的电力资产画像,提供给电力企业使用。

使用电力资产画像的计算结果,电力企业可以及时、深入、全面、准确地了解电力资产的现状,发现存在的问题,及时制订并执行相应的措施,防范可能的风险,保障电力资产正常、高效的运行状态,从而保证电力企业整体的安全生产、服务社会、创造盈利的能力。

1 解决方案

1.1 总体思路

数据画像其实就是对现实业务对象做的一个数学模型,在整个数学模型中,其核心是怎么描述业务知识体系,而这个业务知识体系就是本体论。本体是概念模型的明确的规范说明,也可以说是一种形式化的,对于共享概念体系的明确而又详细的说明。目前其在人工智能领域有着广泛的应用,谷歌通过本体建模形成了全网知识图谱,实现了智能搜索。本体论十分复杂。这里通过“标签”这种朴素的实现方式来构建[1-4]。

电力资产画像的核心概念是信息的标签化,它是在完成研究对象的各个维度的主要信息数据收集后,高度精炼地抽象出的该对象的全貌标签。标签化的目的:一方面是对多维信息进行标签化后,方便计算机的识别和处理;另一方面,标签本身具有准确性和非二义性,利于后期的整理、分析和统计。

实现电力资产画像首先需要建立电力资产画像的计算模型(简称为画像模型)。具体方法是,对各个电力业务对象构建其特有的标签库,而后,为标签库中所有的标签设置算法。标签库及标签库中各个标签的配属算法组成了此电力业务对象的画像模型。进行画像计算时,将依据画像模型的标签及其算法进行标签值的计算,作为计算结果的标签值组成了电力业务对象的画像。

标签库的算法使用电力业务数据作为输入,计算出各个标签的标签值。分别设计标识类、分类型、连续型、曲线类等数据类型对应的标签化处理方法。对规律不明显、复合型数据采用数据挖掘的方式标签化处理。分类标签生成方法如下。

1.1.1 直接获取类

这类标签可从数据库中直接获取,不需要进一步加工和运算。这种方法多应用于属性标签,主要描述资产的基本信息。

1.1.2 逻辑运算类

通过简单的逻辑计算即可得到这类标签。例如运行时长、巡视周期等。多应用于行为标签,能体现资产的运行信息。

1.1.3 算法挖掘类

这类标签需要通过大数据的挖掘算法,构建模型而得到,多应用于预测类标签。主要的算法包括以下几种。

1)分类分析技术:某种指定的属性特征将标签归类。需要确定类别的概念描述,并找出类判别准则。常用的算法包括KNN算法、决策树(CART、C4.5等)、SVM算法、贝叶斯算法、BP神经网络等。

2)聚类分析技术:通过聚类算法将分类不明确的属性进行聚类分析和挖掘,提供标签准确性,涉及的技术包括K均值聚类、层次聚类、模糊C均值聚类等。

3)关联分析:关联分析的目的是找出数据集合中隐藏的关联网,是离散变量因果分析的基础。通过关联分析深度挖掘多个基础标签的关系,得到更高层次的客户标签,涉及的技术包括Apprioir算法、FP-Growth算法等。

4)回归分析:通过分析验证标签属性设置的合理性,以及客户画像的准确性,涉及的技术包括多元线性回归、多元非线性回归、逻辑回归等。

5)文本挖掘:在资产整个寿命周期中,有些信息是以文本的形式记录,而对于这类非结构化数据的处理,需要采用文本特征化技术,提取其中隐含的标签信息。对于文本特征化提取,可以采用TFIDF算法,用来评估一个词对于一个文本集或一个语料库中的其中一份文件的重要程度。

1.2 关键问题及解决方案

根据第1.1节的电力资产画像总体思路,在具体实现过程中需要考虑这些关键问题。

1)聚类标签算法的实现及调用:聚类算法需要使用专用的数据挖掘软件实现,编制好的数据挖掘算法必须可以通过数据挖掘软件开发接口提供给电力资产画像计算进行功能调用。

2)专用逻辑算法的编制及管理:需要能够在线注册、卸载、更换专用的逻辑算法。这样,在进行画像模型建模时,可以编写相应的标签算法,上传并注册和使用。在使用过程中,如果发现某个专用逻辑算法效果不理想,可以编制一个新的算法,在线更换它。根据以上要求,可以使用具有热插拔特性的OSGI组件标准来实现专用的逻辑算法。

3)电力资产画像模型的可视化建模:可以对任意一个电力业务对象(例如,变压器、开关、员工等)进行可视化建模,通过可视化的方式为它添加标签,配置标签算法。这就需要编制一个画像模型可视化建模的工具。

4)标签算法的结果值字典:标签定性地描述电力业务对象某一维度特征。因此,需要把标签算法的数值类型计算结果转换为一个定性的字典值。例如,设备健康情况标签的计算结果是,健康指数为80。80不能定性地表达设备健康情况到底是好是坏,因此,需要一个字典将此数值翻译成定性的标识。设备健康情况专用字典中,健康指数80~100表示设备健康情况是“优秀”。因此,经过字典转换,设备健康情况标签的标签值是“优秀”。

5)电力资产画像模型的解释及执行:系统要能够依据电力业务对象的画像模型中的标签及标签配属的算法进行画像计算,生成并保存计算结果。

6)画像成果的保存:使用了图数据库技术作为电力资产画像模型、电力资产画像结果的数据存储技术。因为,图数据库比关系数据库更有利于保存数据之间的关系,进行复杂的数据关系的查询时速度比关系数据库快几千倍。电力资产画像中,需要保存大量的数据关系。例如,业务对象与标签的关系、标签与算法的关系、算法与字典的关系、标签值与所有算法的关系,等等。还需要进行大量的关系查询,例如,设备健康情况标签值是“优秀”的设备有哪些。

7)画像结果影响因素指标:用户可能需要了解标签计算结果是如何计算出来的。有2种方式可以用来描述计算结果的计算过程。一种是标签计算过程中记录详细的计算流水,而后在查询时向用户展示;另一种是制订标签值的影响因素指标,使用指标粗略地描述标签值可能的影响因素。在实际应用中,选择第二种方式。原因是,数据挖掘软件一般无法记录和输出详细的计算流水;标签计算算法过于专业和复杂,用户很难看懂详细的计算过程。

1.3 资产画像技术基础-图数据库简介

为了记录资产画像标签值与资产画像模型之间的关联关系,便于进行关系查询,采用了最新的图数据库作为资产画像模型以及资产画像计算结果的数据存储技术。在这里,对于图数据库做一个简要介绍。

图数据库以图结构作为数据模型,具有网状数据的存储与检索能力。相比于关系数据库,图数据的优势在于能够进行复杂连接关系的查询。

在一个图中包含2种基本的数据类型:Nodes(节点)和 Relationships(关系)。Nodes和 Relation⁃ships都可以包含key/value形式的属性。Nodes通过Relationships所定义的关系相连起来,形成关系型网络结构。例如图1描述了学生与班级、中学之间的关联关系。

图数据库具有专用的关系查询语言,以实现对于关系的查询,这类似于关系数据库中的SQL语言。例如,对于图1,使用者可以编写关系查询语句,查询出李强的校友有哪些人[5-7]。

图1 关系型网络结构Fig.1 Relationship network structure

1.4 资产画像实现方案

1.4.1 电力业务对象画像模型结构

电力业务对象画像模型中包含了电力业务对象的标签信息、标签所使用的算法信息。系统进行画像计算时,将解析此画像模型,据此调用各个标签的算法进行计算。画像模型存储在图数据库中,如图2所示。

图2 画像体系模型Fig.2 Graph system model

图2显示了变压器的画像体系模型。从计算实现的角度,标签可以分为3类,分别是属性类标签、挖掘类标签、计算类标签。每个人标签分类下面可以包含任意数量的标签。

属性类标签的标签值来源于一个业务数据表的某个字段。例如,“名称”标签的标签值是“台账表”的“名称”字段。

挖掘类标签的标签值来源于一个挖掘流的计算结果。使用数据挖掘软件制作一个挖掘流,电力资产画像计算可以通过数据挖掘软件的开发接口访问此挖掘流。挖掘流可以挂接一本字典,用以将挖掘流输出的数值型结果翻译成定性的标识。

计算类标签的标签值来源于一个定制算法组件的计算结果。可以编写一个OSGI组件,上传并注册。画像建模时,将此组件关联到一个标签,作为此标签的算法。画像计算时,此算法组件的计算结果就是此标签的标签值。

1.4.2 电力资产画像计算过程

电力资产画像的计算将依据上述的电力资产画像模型,按照一定的时间周期定期执行,每次计算都会生成一幅电力资产的画像。数据流图如图3所示。

画像计算首先需要读取画像模型,找到画像模型包含的标签及标签配置的算法。依据标签的分类,提取标签关联的数据表字段、执行标签关联的计算组件、执行标签关联的挖掘流,得到相应的计算结果。

图3 资产画像计算过程Fig.3 Asset graph calculation process

从数据表中提取的表字段可以直接作为标签值进行保存;计算组件及挖掘流的计算结果,可能需要字典进行翻译,以将数值型结果转换成定性的标识。“保存画像”流程节点进行标签值及中间结果的保存工作。

所谓中间结果,是指标签值的影响因素的指标数据。例如,变压器的健康状况可能与工作环境平均温度有关,极寒或者极热都会导致变压器的健康状况不佳。因此,工作环境平均温度就可以作为健康状况标签值的影响因素指标。标签的计算组件、挖掘流会输出中间结果,以便描述标签值计算结果产生的原因。

影响标签值的指标可以分为3类,分别是正向指标、逆向指标、适度指标。正向指标的指标数据越大,标签值就越理想;反向指标的指标数据越小,标签值就越理想;适度指标的指标数据越接近最佳点,标签值就越理想。

1.4.3 电力业务对象画像结果存储方式

画像结果存储在图数据库中。通过增加画像对象节点、标签值节点、标签值与算法(或者字典标识值)的关联关系的方式保存画像计算结果,如图4所示。

图4中,变压器画像计算保存了“变压器1”、“变压器2”这2个变压器的画像计算结果(图中只绘制了健康指数标签的计算结果)。变压器1具有2017年1月、2017年2月这2个统计周期的画像;变压器2具有2017年1月这个统计周期的画像。

各个统计周期的画像的标签值需要增加标签值节点进行保存。建立统计周期节点与“标签值”节点(其中包含了标签值与中间结果)的“标签值”关系,以记录标签值属于的统计周期。

需要记录标签值对应的字典标识,以记录标签值对应的算法及翻译字典,因此建立了标签值节点与画像模型的字典值节点的关联关系。如果标签值不需要查字典以转换成字典标识,可以直接将标签值关联到画像模型的算法节点。

图4 画像结果存储Fig.4 Graph result storage

1.4.4 电力资产画像计算结果应用

画像结果保存完毕后,可以使用图数据库查询语言,查询出电力业务对象各个统计周期的画像;可以查询出某个标签的某个字典值对应了哪些电力业务对象,从而在实际工作中采取相应的电力资产管理措施。

电力资产画像的计算结果可应用于资产预防性检修、资产成本效能评价、供应商评价等电力业务场景。

例如,针对电网资产预防性检修方面,运检部工作人员查询到最近一个月内健康状况为不合格的一台330 kV变压器,根据健康状况标签以及此标签计算输出的中间结果(画像结果影响因素指标),发现不合格的原因为油气试验中乙炔/乙烯的比值不在规定区间范围内,其未来3个月内发生低能故障的概率为65%;通过进一步查看该主变压器的行为标签运行时长8年,最近一次检修日期为2个月前,最近一次发现故障的日期为6个月前。据此,辅助运检人员决定对该设备采取预测性检修。

2 结论

综上所述,通过实施电力资产画像,电力企业可以对于电力资产的状态进行全方位地了解,进而根据各个电力资产的状况,采取合理的精细化管理措施,保障电力资产运行安全、可靠、稳定,进而达到不断改进电网运行绩效,持续提升电网安全经济优质输电和供电服务水平的目的。

[1] 王慧孜,范炜.图数据库在标签系统中的应用研究[J].数字图书馆论坛,2015(4):21-27.WANG Huizi,FAN Wei.Application of graph database in labeling system[J].Digital Library Forum,2015(4):21-27.

[2] 王余蓝.图形数据库NEO4J与关系数据库的比较研究[J].现代电子技术,2012,35(20):77-79.WANG Yulan.Comparison of graph database NEO4J and relational database[J].Modern Electronics Technique,2012,35(20):77-79.

[3] 余孟杰.产品研发中用户画像的数据模建[J].设计艺术研究,2014,4(6):60-64.YU Mengjie.Data modeling of user portrait in product development[J].Design Art Research,2014,4(6):60-64.

[4] 蔡泽祥,王星华,任晓娜.复杂网络理论及其在电力系统中的应用研究综述[J].电网技术,2012,36(11):114-121.CAI Zexiang,WANG Xinghua,REN Xiaona.Review of complex networks theory and its application in power sys⁃tem[J].Power System Technology,2012,36(11):114-121

[5] 朱朝阳,王继业,邓春宇.电力大数据平台研究与设计[J].电力信息与通信技术,2015,13(6):1-7.ZHU Chaoyang,WANG Jiye,DENG Chunyu.Research and design of power big data platform[J].Electric Power Informa⁃tion&CommunicationTechnology,2015,13(6):1-7.

[6] 杨华飞,李栋华,程明.电力大数据关键技术及建设思路的分析和研究[J].电力信息与通信技术,2015,13(1):7-10.YANG Huafei,LI Donghua,CHENG Ming.Analysis and research on key technologies and construction ideas of powerbig data[J].Electric Power Information and Communication Technology,2015,13(1):7-10.

[7] 王继业,季知祥,史梦洁,等.智能配用电大数据需求分析与应用研究[J].中国电机工程学报,2015,35(8):1829-1836.WANG Jiye,JI Zhixiang,SHI Mengjie,et al.Analysis and application ofdata requirementsforintelligent distribution of TV university[J].Proceedings of the CSEE,2015,35(8):1829-1836.

猜你喜欢

画像字典计算结果
开心字典
开心字典
威猛的画像
“00后”画像
画像
不等高软横跨横向承力索计算及计算结果判断研究
我是小字典
正版字典
超压测试方法对炸药TNT当量计算结果的影响
潜行与画像