电网运维知识结构化工具研究
2021-11-28窦如婷石嘉豪陶秀杰周育忠
窦如婷,石嘉豪,陶秀杰,周育忠
(南方电网科学研究院有限责任公司,广东 广州510663)
1 知识结构化业务逻辑设计
电网运维知识结构化工具可对知识库进行进一步加工和规范,知识库数据包括电网生产典型案例库、重大事故事件、制度库、报告成果库、设备管理情报库、新技术新产品知识库等,以及外部数据知网期刊文献、互联网电力相关数据等。该模块包括多源数据融合、模型管理、数据预处理和知识简报,该模块的主要功能是为给电网知识管理工具中的其他模块提供服务和支撑,增强知识的可用性和功能的可扩展性。多数据融合是对电网电力数据中的多种知识进行融合;模型管理为结合电网数据的实体识别、关系属性抽取等建立起多种深度学习模型,可便于进行统一管理;数据预处理是对知识数据库数进行加工与处理,多种应用的要求;知识简报是利用智能技术形成分析报告,管理层进行决策分析。
2 多数据源融合
结合电网运维数据信息来源,充分利用云计算及分布存储工具获取数据,通过建立规范化的模式将数据信息进行结构化、非结构化资源抽取,通过整合、加工、加换、装载电网数据,对多种类型的源据信息进行全量抽取、实时抽取。兼容多种类型的数据源、目标库,抽取数据可用于传输,常用的数据源、目源库有OracleMySql、Hbase、GreenPlum、GDS等,可支持EXCEL、FTP、JSON等文件类型,消息处理采用Webservice、Kafka。可对不同类型的数据源抽取汇聚进行配置,满足跨服务器文件型数据的安全传输,不同的服务接口、数据库等也可以进行数据传输。
3 模型管理
以电网数据源作为基础的智识规范化管理,可以为不同用户需求提供多维度、多渠道的知识服务,包括知识图谱、模型管理、知识检索等,也可以向专业人员提供数据挖掘分析、创建专家模型等服务。模块管理是根据服务实体、对应关系和数据属性,根据数据抽取模型来实现管理,管理内容主要有电网数据属性标签、模型识别、对应关系标签等,该管理模块可用于结构化构建、检索发现新词,是对知识图谱的有力支持,加强对实体、对应关系、数据属性标签的规范化管理,为知识管理工具中每个模块功能的实现打下良好基础,具有很好的后续扩展功能。
4 数据预处理
4.1 数据处理原则
处理电网运维知识数据信息时应统一决策,处理相同数据库里数据时将工作方法、技术指标进行统一管理,这样才能保证数据处理的一致性。还需保证数据信息的描述与对应实体的特点相符,保证描述数据不存在记录缺失问题,相同实体的属性值能否在不同的数据处理系统中保持一致,被描述数据能否达到用户特定域值范围,是否存在着描述数据多次记录的问题。处理数据应该具有可用性,从时间性角度来看,需要核实描述的数据是否为当前或历史数据,从稳定性角度来看,应该保证描述数据的稳定性是否在有效期内。
4.2 数据处理流程
4.2.1 数据预处理
将不同维度、不同来源和多种结构的数据进行汇集以后,需要对数据信息进行预处理,从而对错误数据信息进行修复与更改,还需要对数据进行整理和存储。数据抽取是从数据源中获取数据信息的过程,多采用ETL技术,可应用的数据抽取工具比较多,需要结合电网运维业务形成的数据特点,选择最为适宜的抽取工具。从数据库中抽取数据信息可采用如下方式:①全量抽取。该种数据抽取方式与数据镜像比较相似,可以把表与视图数据从数据源内完整提取出来,多用于系统数据初始化阶段。②增量抽取。在完成全部抽取以后,对数据库内新增加或修改后的数据进行抽取。进入数据过滤阶段,可对电网运维业务形成的不满足规矩要求或无效的数据进行过滤处理,保证获取到的数据信息满足标准要求,而有些数据信息存在着格式错误、代码值冲突等问题,需要进行业务数据转换,才能满足数据加载处理的需要。数据加载主要有插入与修改两种操作,把转换后的干净数据、脏数据都插到数据表内,如果数据量比较大可创建数据库,对应用文本文件进行存储,并结合脚本处理程序进行操作。
4.2.2 数据清洗
处理缺失值,如果数据属性值为空白,则认定该数据存在缺失值,为不完整的数据类型,先确定好缺失值范围,对每个字段进行计算来确定缺失值比例,根据缺失比与字段重要性来制订清洗策略。针对重要性较高、缺失率小的数据,可结合经验与业务知识进行评价,也可以通过计算补充缺失值。对于重要指标、缺失率高的数据,应该与数据采集人员、电网运维人员联系,看能否从其他渠道得到准确的数据,可以重新进行采集,如果不能得到数据则应补充缺失值。而对于指标不重要、缺失率低的数据可不做处理,需备位指标重要、缺失率高的数据,删除不需要字段。填补空缺值时可利用如下方法:充分结合电网运维业务知识、经验来填充缺失值。利用众数、均值等来填充缺失值。应用不同指标计算结果填充缺失值。
处理错误数据时,对于格式内容问题、逻辑问题错误,需先分析再制订处理办法。数据格式内容问题如下:①时间、全半角等格式不一致问题。需要将错误数据处理为一致的格式,该种数据多是由于人工采集或填写原因导致,在格式及内容方面存在问题,对多种来源数据进行整理时也会存在格式错误问题。②内容字符问题。采用半自动、半人工方式来发现存在的问题,删除没用的字符。③数据内容和字段不符。导致该问题的原因比较多,多是导入数据列没对齐、人工填写失误、没对前端校验等原因引起的,需要对问题类型进行深入分析。如果存在逻辑问题数据,可应用逻辑推理办法来发现问题数据,避免分析结果出现错误。把去重操作设置为格式内容清洗,只有进行内容清理才可以发现存在重复问题的数据。电网运维环境比较复杂,存在数据多次上报等问题,数据重复问题比较多见,可通过字段相似度来进行识别。数据采集还受技术或物理方面的影响,使数据值超过采集范围,出现离群值。针对离散程度大的数据源,可应用箱型图法,如果利用数据分布特征或电网运维业务来对噪声数据进行识别存在困难,可应用聚类识别方法。有些字段需要进行相互间的验证,结合字段的数据来源情况来识别哪些字段信息比较可靠、哪些字段需要被消除和重构。
处理错误关联数据时,如果电网运维数据存在多个来源,则需对数据的关联性进行验证。对多个来源的数据进行整合存在较大的难度,需要充分考虑数据的关联性,分析时应该防止数据间存在矛盾。处理不一致数据时,由于受数据完整性要求的限制,可对元数据、数据字典等进行整理与分析,对数据间关系进行全面梳理,对错误关联数据进行修正。很多不一致数据多是由于缺少数据标准导致的,可应用统计学原理把数据属性作为随机变量,利用数据的置信区间来判断。采用聚类方法处理,结合数据信息的相似度进行分组处理,可以发现无法分组的孤立点。应用距离方法,对数据对象相似性进行准确度量。采用分类法,可以建立正常数据、异常数据分类查勘型。按照关联规则的处理方法,需要先定义好数据关联规要求,无法达到规则要求的数据则被归类到异常数据。
4.2.3 规则处理引擎
为保证更好地对电网运维数据信息进行处理,需要对每个数据项制订相关联的数据元标准和处理规则,可以进行拼接赋值、数据转换和数据校验等。利用机器学习技术,对每个数据字段进行识别处理,再采用数据自动对标技术,应对数据处理不规范的问题。将数据项与标准库数据项进行对应,通过机器学习来进一步降低人工工作强度,结合语立体相近度开展采样值域测试,确定相似度大的数据项作为关联数据表字段,再按照数据特点选取最为合理的数据转换规则,再以规则模板形成生成字段的稽核任务。
5 结语
综上所述,电网运维知识结构化工具可对知识库进行进一步加工和规范,以知识库数据作为基础,通过多数据融合、模型管理、数据预处理和知识简报来逐步实现设计,可为电网管理层决策提供数据支持。