APP下载

基于规则的电力数据指标检查系统设计与实现

2020-05-22韩荀杰

江西电力 2020年4期
关键词:数据表变压器规则

荀 华,韩荀杰,张 森

(1.内蒙古电力科学研究院,内蒙古呼和浩特010020;2.杭州电子科技大学,浙江 杭州 310018;3.紫光软件系统有限公司,陕西西安 710000)

0 引言

随着生产管理系统建设的不断深入,输变电设备台账数据以及运行数据越来越多,由于人员误操作、系统误发、参数设置等原因导致的业务数据质量问题也越来越严重[1,2],主要表现在属性缺失、数据不完整、数据处理不及时、数据不规范、数据重复、数据属性不一致等,这些数据质量问题直接影响后续业务操作和决策,尤其是在数据表之间存在依赖关系的情况下,影响范围更广。传统电力行业应用的生产管理信息系统录入缺乏规范性管理,且在实际运行场景中经常出现数据录入错误、缺失以及数据属性不一致等问题[3]。如果其中一张数据表出现异常,由于缺乏有效的数据质量检查手段,设备故障时就可能无法追踪溯源发现故障原因,不同部门间可能造成数据冲突,业务决策也将出现偏差。

针对上述电力数据质量问题,电力系统的研究人员和学者已经提出了一些有效的数据质量分析方法和系统。在数据质量检测方面,文献[4,5]都针对多数据源提出了电网数据检测和校核方法,文献[6]通过获取电能质量数据来检测服务数据的一致性和性能;在数据质量评价方面,文献[7-9]针对电网数据分别提出了自动化、多维度和综合的质量评价方法和系统,多角度评价数据质量。上述方法已经能够解决一些特定电力业务的数据质量问题,但是缺乏一定的扩展性,考虑到电力业务数据特点和行业数据规范,基于规则的数据质量管理和评估[10,11]能够灵活、高效地通过权重配比实现数据质量管理和自定义评估分析。

本文提出一种基于规则的电力数据质量检查方法,根据该方法设计并实现了面向电力业务的数据指标检查系统,发现数据存在的问题,修正问题数据,提高数据质量。该系统针对电力生产管理信息系统数据建立面向特定业务需求的数据质量检查规则,采用规则权重配置方式综合评估数据检查任务,实现对业务数据的质量检验,标记数据存在的质量问题,分规则对比多个数据表通过率,并进行可视化展示,即时生成质检评估报告,实现电力业务数据的全方位质量把控。

1 质检规则及评估方法

电力数据指标检查系统主要面向各类变压器参数、断路器参数、线路缺陷记录数据、试验记录数据、检修记录数据以及线路台账信息等数据。

1.1 数据质检规则

数据完整性和正确性是判断数据可用价值最重要的指标,所以数据质量检查主要从数据完整性和正确性两大维度对电力业务数据进行质量评估:

1)数据完整性:该指标用于表征数据表记录的完整性校验,主要包括“字段数值不能为空”。

2)数据正确性:该指标用于表征数据表记录的正确性校验,主要包括“字段数值以特定字符结尾”,“字段数值小于500 kV”,“字段1数值为220 kV时,字段2数值以特定字符结尾”等规则类型。

一个质量检查规则即一个评分标准,可以校验单字段,也可以校验多字段逻辑关系。特别的,检查范围可以采用过滤条件来筛选部分数据进行校。

1.2 数据质量评估方法

基于质检规则评估电力数据质量主要通过配置规则权重进行综合评分计算,考虑到电力数据表中不同的字段对电力业务运行影响程度不同,不同数据表下不同字段相关的规则权重配置不同。

当数据检查任务处于执行成功状态时,具体得分计算如式(1)所示:

式中,N(N≥0)表示当前任务包含的规则总数,一项数据检查任务中可以包含m(m≥0)张数据表,每张数据表对应n(n≥0)条规则,即 ;si表示单个规则得分,计算如式(2)所示:

式中,D(D>0)表示该规则检查的数据总条数;Dpass(Dpass≥0)表示通过该规则的数据条数;

wi表示单个规则对应的权重,规则权重配置主要分为三种,如式(3)所示:

根据带权重等级的质检规则计算获取的评分更能反应真实电力数据的可用度和价值性。

2 数据指标检查系统设计

2.1 系统技术框架

系统整体架构设计主要分为三层:数据层,服务层和展示层。数据层存储电力数据,经过服务层获取检查结果并计算评分,最后提供给前端展示层进行可视化展示,具体技术架构如图1所示:

图1 系统整体技术架构

2.2 系统功能模块

系统功能模块设计也分为三层,数据层主要存储业务数据和质检结果数据,为服务层提供数据支持,经过服务层处理和分析后,将结果传输至展示层进行展示。其中,服务层是平台最核心的功能层,主要包括:公共数据管理、方案管理、任务及调度管理和结果及评价管理,具体如图2所示。

图2 系统功能模块

1)数据层

数据层的主要功能是存储导入的数据和经过检查的结果数据,是整个系统的基础功能层。

a.公共数据:系统外部导入的基于行业标准用语、业内标准用语制定的码表集合,是行业数据标准规范。

b.方案数据:用户创建的方案信息,包括方案名称和描述、方案下的数据模型信息、质检规则信息、模型关系信息以及上传的质检报告等。

c.待检数据:用户根据数据模型导入的待检查的数据。

d.质检结果数据:对导入的数据执行质检任务操作后生成带标记的结果数据。

2)服务层

服务层的主要功能是从数据层获取数据,解析数据,根据质检规则检查数据,发现问题并标记,最后保存异常数据,进行统计计算后生成检测报告,包括规则通过率、异常数据明细和数据对比。

a.公共数据管理

公共数据主要用于质量检查规则的标准性和规范性检查。在质检规则制定时,可以引用公共数据的枚举集合或者码表记录的内在逻辑关系进行制定,使得检查规则有标准和规范可依。

b.方案管理

方案管理包括数据模型,质检规则,模型关系,质检报告四个子模块。

数据模型:指待测数据的表结构,是数据导入的基础。通常将数据评价标准一致的多张数据表放在同一个方案中,即一个方案中可以包含多个数据模型。

质检规则:一个质检规则即一个评分标准,可以单个字段校验,也可以多个字段逻辑关系校验。

模型关系:数据模型关系的体现是数据依赖,主要功能是为推导问题数据影响范围提供依据。

质检报告:是对任务输出结果的样式进行定义的过程,主要功能是依据用户上传的模板生成报告。

c.任务及调度管理

该模块提供对质检任务的综合管理,是在方案模板建立基础上,用户创建一个任务进行数据抽取和执行检查的过程。

数据抽取:针对数据模型的物理表,将数据导入到数据库中,导入可以覆盖导入也可以追加导入。

任务执行:根据创建的质检规则进行数据筛查和计算的过程,执行结束后会生成质检结果和评分。

d.结果及评价管理

结果及评价管理是将任务分析结果以多种形式进行打包,主要包括结果评分、质检报告、结果对比和影响分析。

3)展示层

展示层的主要功能是获取服务层结果及评价信息并进行可视化。

2.3 数据库逻辑设计

系统数据库采用MySQL数据库,数据表逻辑结构如图3所示:

数据表之间以主键ID互相关联。其中,方案表(project)、模型表(model)、字段表(model_field)、模型关系表(relation)、规则表(rule)、规则权重表(rule_weight)和任务表(task)都是通过用户创建而生成的记录表;任务执行记录表(task_run_log)记录的是任务执行信息;用户表(user)记录用户信息。

图3 数据库逻辑结构

3 系统实现与实例验证

本系统作为一个电力业务应用系统,在平台管理、实时数据库等基础应用服务的基础山,实现了数据指标检查、质量校验、异常数据标记、质量评估和可视化展示等功能,为电力企业生产管理信息系统数据构建了全方位的质量把控应用。

3.1 系统部署

系统部署方案如图4所示:

图4 系统部署方案

数据指标检查系统可通过反向代理服务来访问。静态文件服务部署静态资源文件,应用服务主要服务数据质量检查服务,任务调度服务器主要用来管理任务执行,应用数据库服务器即数据指标检查服务数据库、存储方案及任务数据,计算服务器是用于执行数据指标检查任务的计算服务器。

3.2 数据指标检查流程

系统执行数据指标检查流程主要分为三大部分:方案管理,任务调度和结果与评价。具体如图5所示:

图5 数据指标检查系统流程

方案是数据指标检查的基础,首先创建检查方案、模型和对应字段,对于存在依赖关系的模型添加模型关系标识,根据业务或者公共数据标准创建质检规则,测试规则是否正确构建,定义规则的等级权重。

然后,创建检查任务,导入与模型字段对应的数据表,执行任务即可获取结果数据,对于执行失败的任务,原因可能是数据格式不匹配或对应规则不正确,此时,需要删除任务重新创建。

获取结果数据后,根据第二章所述质检评估方法进行计算和统计获取综合评分和各个规则通过率,对于一个方案下存在多个任务的情况,可以将多次任务结果进行可视化对比展示,最终生成质检报告,便于导出。

3.3 实例验证

系统以某地区电力公司变压器参数表为例,对该数据指标检查系统进行测试。该电力公司变压器有干式变压器、SF6变压器和油浸式主变压器三种,其中干式变压器参数表有69个字段,SF6变压器有85个字段,油浸式主变压器有80个字段。根据系统流程,数据指标检查步骤如下:

1)创建变压器参数检查方案。

该方案下包含三个模型:干式变压器参数表、SF6变压器参数表和油浸式主变压器参数表,创建规则如表1所示:

表1 变压器参数表质检规则(部分)

根据电力业务需求,创建干式变压器参数表质检规则79条,SF6变压器参数表质检规则95条,油浸式主变压器参数表质检规则82条。

2)根据方案创建并执行变压器参数检查任务。

导入与模型相同表结构的数据,干式变压器参数表有155条记录,69个字段;SF6变压器参数表有155条记录,85个字段;油浸式主变压器参数表有155条记录,80个字段。

根据数据质量评估方法,变压器参数检查任务规则权重之和计算如式(4):

式中,N(N=n1+n2+n3)表示方案下规则总数;

n1(n1=79)表示干式变压器参数表规则条数;

n2(n2=95)表示SF6变压器参数表规则条数;

n3(n3=82)表示油浸式主变压器参数表规则条数。

变压器参数检查任务综合得分Score计算如式(5):

综上,变压器参数检查任务综合得分Score=97.5,即三张数据表综合通过率为97.5%。特别说明:得分可以只选择部分规则进行计算。

3)根据任务执行结果进行可视化并生成报告。

可视化展示除了综合评分还包括单条质检规则的通过率查看和质检报告查看,分别如图6、图7所示:

图6 变压器参数检查任务-评分界面

图7 变压器参数检查任务-质量评估报告

4 结语

电力数据质量不仅影响电力运维人员的工作效率,也直接影响电力系统业务安全运行。为了解决现有生产管理信息系统记录数据的缺失、不一致等质量问题导致的人工核查成本高和部门间数据冲突等情况,本文设计并开发实现了一种基于规则的电力数据指标检查系统,根据具体电力业务建立质量检测规则体系,从完整性和正确性两个角度高效并量化地检查数据,解决电力数据质量检查难题,快速地将缺失数据和不一致数据精准地标记出来,并在数据可信度和数据影响范围方面给出量化评分和可视化展现。实际应用表明,该系统为电力企业提供了高效、高质量的数据指标检查服务,实现了对电力数据的规范化梳理和整治。未来该系统还将针对电力业务数据扩展统计分析和修复推荐等功能。

猜你喜欢

数据表变压器规则
撑竿跳规则的制定
10KV变压器配电安装柜中常见问题分析
数独的规则和演变
理想变压器的“三个不变”与“三个变”
湖北省新冠肺炎疫情数据表(2.26-3.25)
湖北省新冠肺炎疫情数据表
基于列控工程数据表建立线路拓扑关系的研究
开关电源中高频变压器的设计
让规则不规则
TPP反腐败规则对我国的启示