APP下载

面向电力大数据的数据质量监测体系研究及应用

2017-02-27刘夫新李毅松崔梦枭杨栋枢

电脑知识与技术 2016年31期
关键词:数据质量智能电网

刘夫新+李毅松+崔梦枭+杨栋枢

摘要:随着智能电网建设飞快发展,造成电力数据种类复杂多样化和数据质量参差不齐的现状。以传统的数据质量模型和数据质量管理等理论为基础,介绍了传统数据质量系统的优缺点。在其基础上提出基于自学体系的数据质量监测模型,并依据模型构建监测系统。分层面详细介绍数据质量监测系统,分析了有关构建策略,详细介绍了自学体系中构建的规则。为数据质量监测模型提供了理论支撑,健全了数据质量监测体系,完善数据质量监测系统,支持企业科学决策,推进信息化支撑企业管理水平的全面提升。

关键词:智能电网;电力数据;质量模型;数据质量;自学体系; 监测体系

中图分类号:TP181 文献标识码:A 文章编号:1009-3044(2016)31-0003-03

Abstract:With the rapid development of smart grid construction, resulting in a variety of complex and diverse data types and data quality of the status quo. Based on the traditional data quality model and data quality management theory, this paper introduces the advantages and disadvantages of the traditional data quality system. Based on the model, the data quality monitoring model based on self - learning system is put forward, and the monitoring system is built according to the model. The data quality monitoring system is introduced in detail, and the construction strategy is analyzed, and the rules of the construction of the system are introduced in detail. To provide theoretical support for data quality monitoring model, and improve the data quality monitoring system, improve data quality monitoring system, support the enterprise scientific decision-making, enhance the management level of enterprise informatization support.

Key words: Smart Grid; Electric Power Data; Quality model; Data quality; Self Learning System; Monitoring system

隨着高新技术产业的不断更迭,国内各个行业都建立了信息采集系统,搜集海量数据。国网通过实施“SG186”、“SG-ERP”工程,已经初步建成并投入运行了国内领先、国际一流的信息化平台和覆盖主要生产、经营、管理业务领域的信息化应用,电网业务数据从总量和种类上都已初具规模[1]。随着智能电网建设加快推进,电网业务数据将从时效性层面进一步丰富和拓展,这对企业信息化建设提出了新的挑战。同时,“三集五大”构建了纵向贯通、横向集成的一体化平台,产生了大量多样化的数据,企业开始逐渐进入数据驱动业务的时代。

推进信息化支撑企业管理水平的全面提升。在公司一体化信息平台及业务数据的基础上,分析、监测各项核心业务的整体运营状况,及时发现并预警各类异动,支撑企业科学决策。数据共享和业务融合、各业务的深化、精益化管理应用、企业运营监测均离不开高质量的数据,更好地提升数据质量,发挥和利用好数据的价值,迫切需要提高数据质量模型的合理性和科学性,提高建立数据质量模型工作的效率,促进数据治理、建立健全技术支撑体系和管理支撑体系工作,辅助企业掌握生产经营全局,进行科学决策,更深入、具体地完成企业部署的各项管理要求。

建立数据质量模型是为了对数据质量进行量化评价并以支撑数据质量提升工作,评价一般指用户数据客观倾向较强的指标。例如,通过规范质量的分别规则来查找和评价质量,通过统计分析、模式分析和匹配分析等方法来测度和监测数据质量,通过数据分析来发现质量[2]。

1 数据及数据质量现状

电力业务管理频度低,业务管理数据多以报表式月度数据为主,没有实现按天(或更高频度)对业务进展和状态的管理。其次,业务过程数据录入维护不及时,数据生成时间滞后于业务过程。如人员进入退出信息不及时,业务拓展流程存在部分工程在整体完工后,才统一输入各环节业务信息,无法真实反应业务扩展流程实际执行过程;一是部分数据在多个系统重复维护,导致数据多源。加上业务管理重叠造成数据在不同业务系统中重复。二是由于数据多源及管理要求不同,导致同一指标数据口径不一致。

数据质量管理是数据管理的重中之重,是发挥数据价值[4],发展高阶应用的基础。数据质量模型的建立、数据质量规则的识别是数据质量模型管理的核心支撑[3]。

2 自学体系和传统数据质量监测系统间联系

基于自学体系的数据质量评价系统需基于海量历史数据,自动分析挖掘数据质量因素,为用户推荐相应质量评价模型,而基于海量历史数据的分析,单靠线下人工是很难完成的,而质量模型建立后,依托此模型构建的监测系统,需对数据进行分门别类,应用质量评价模型,实现数据质量实时评价,通过预警、核查、整改等一系列手段完成数据修正,提升数据质量。

2.1 传统数据质量监测系统存在问题

传统数据质量监测系统对数据质量的评价采用的是全局采集方式,即针对全集数据(如所有设备的基本型数据),选择传统评价方法得到评价结论[2]。虽然传统方式易于理解、方法种类多样,也相对较成熟,但是,传统评价理论存在很大局限性,具体存在两方面问题:

1) 对数据全集的直观评价结果是不可能表述客户的要求。事实上,客户得到的数据是通过信息采集系统加工处理之后的有关全集数据的一幅或多幅视图,经过仅仅是所有数据中的一个组成部分。客户对于数据的质量、需求和评价必然由这些数据来反映,而不是整体数据。经过分析过滤后,数据的质量与原始数据的质量相比可能不会呈线性关系,它忽略了数据分析过滤过程中带来的影响。事实上,部分查询结果集的数据质量与原数据集质量二者间有较大的差异。

2) 面对当前国网数据量不断快速增长,企业对各项业务融合、深化应用、运营监测及分析预警和决策支撑应用要求不断提高,而数据整体质量有待进一步加强,数据质量相关的业务规则常态化变动的形势,提升数据质量,加强管控必须依托信息化手段,通过建立模型、配置管理业务规则,分析模型和规则运行效果数据,进而不断优化模型和规则,形成适用的模型和规则库,尽可能减少人工重复劳动和干预,分析影响数据质量的关键因素,真正有效促进数据质量提升。

2.2 自学体系的数据质量监测系统构建策略

基于数据中心和运监中心的海量历史数据,分析挖掘数据[5]质量评价关键点,使用自我演進、自我完善的思想,识别各数据对象初始化质量规则,并依据不断增长的新数据情况,及时动态调整质量规则,形成基于自学体系的数据质量模型,形成可量化的数据质量评价方法,支撑数据质量评价工作。

使用自学体系的数据质量模型为基础设计监测系统,动态监测业务数据质量,对不符合数据质量规则的数据进行告警,并支撑数据问题处理流程跟踪[6]。

2.3 自学体系中建立的规则

基于自学体系的数据质量监测模型建立系统包括以下自学规则:

1) 基于数据关联度的自学规则,通过数据关联关系规则、数据关联符合度等彼此间关联关系进行学习。

2) 基于历史数据的自学规则,根据历史数据分析结果,历史数据选取规则以及历史数据维护规则等进行学习,建立数据质量(评价)模型,包含了历史数据分析设置、历史数据选取、历史数据类型的分析设置等功能。

3) 基于数据校检规则的自学规则,依据模型中指标标准、计算方法、冗余性校检规则和偏差分析规则维护等数据校检规则进行学习,建立数据模型,包含了数据集整体的完整性校验规则维护、冗余校检规则维护、一致性校验维护、取值标准分析规则维护和偏差分析规则维护等。

4) 数据异动监测与预警,基于数据质量监测系统设计,实时监测数据,当数据出现异动情况时,能够预警告警,并给出相应的处理建议,存储到不同地方。构建模型包含了实时监测数据设置、数据异动处理建议设置和异动处理建议内容查询等。

3 自学体系的数据质量监测模型总体设计

建立数据质量模型是为了对数据质量进行量化评价并以支撑数据质量提升工作,通过定义质量判别规则来发现和评价质量,通过统计分析、模式分析和匹配分析等方法来测度和评价数据质量。模型主要是应用架构层、技术架构层和安全架构层三个层面构成。

总体架构设计如下图:

3.1 应用架构层

模型中应用架构方面设计主要考虑到用户体验层、展示层、应用层、服务层、数据层以及外部系统。其中应用层是基于自学体系建立的规则,包含数据异动监测预警、数据关联度的自学规则、和数据质量模型自学规则等。服务层和数据层包含了数据报表分析设计、历史数据学习数据和数据质量自动建立数据等如图2应用架构设计。

3.2 技术架构层

模型中技术架构层面设计包含了数据源层、服务层、接口层和应用层面。一方面提供模型的实现界面并提供接口和组件,从历史数据学习中进行模型管理。另一方面处理并展现数据集如图3技术架构设计。

1) 应用层

应用层,即界面控制层,一方面是向最终用户提供使用界面,负责数据的展现,同时接受用户输入数据,并对输入的数据进行校验,另一方面负责封装界面层输入的数据,页面跳转控制,对异常进行处理。

2) 接口层

接口层提供业务逻辑的 Java 编程接口、R 语言编程或 PLSQLJDBC/ODBC 驱动接口,实现业务逻辑,对事务进行控制,对外提供Web 服务或调用外部系统提供的 Web 服务等。

3) 服务层

服务层,即应用支撑层,由自定义开发的基础服务组件,或开发平台和第三方产品提供的各类基础组件组成。

4) 数据源层

数据源层,主要包括接口信息和运行数据、系统接入数据、监控和消息数据、数据中心和日志数据等。实现数据的抽取、存储,计算,分析模型建立,数据质量的检查,数据价值评估、查询及分析统计,可视化展示信息的存储等功能。

3.3 安全架构层

模型的构建中完善了信息安全防御体系和信息安全治理体系。信息安全是保证基于自学体系的数据质量监测系统安全稳定运行的关键,总体安全防护方案包括数据安全、网络安全、物理安全和安全管理等。

4 研究成果

根据自学体系中建立的规则,通过数据质量分析和数据质量评估,对选取的数据建立基于自学体系的数据质量监测模型的监测系统,解决了数据多义性和冗余性等有关问题,研究电力数据质量监测管理,进而提高了电力数据的数据质量水平[7][8],形成以下研究成果:

1) 建立数据关联度的自学规则、历史数据的自学规则和数据校检规则等,为构建模型提供了理论和思想基础。

2) 通过应用架构层、技术架构层和安全架构层三个层面,分层面进行自学体系的数据质量监测系统设计提供理论基础。

3) 分析了自学体系的数据质量监测模型,设计的数据质量监测系统是参照传统数据质量模型设计的,它具备数據质量模型优点,同样也解决其部分不足,为数据质量监测和合理利用提供支撑。

5 结语

基于自学体系的数据质量监测模型采取对用户获得的数据视图逐一(或部分)进行监测,从而得到监测结果。通过自学体系的数据质量监测模型建立系统[9],不仅可以使工作量将大大减少,支撑数据质量评价模型建立和数据质量实时监测,通过预警、核查、整改等一系列手段完成数据修正,提升数据质量。同时也能提高数据质量模型的合理性和科学性。

参考文献:

[1] 刘周斌,谭潇.大数据应用创新团队建设的研究与实践[J].管理观察,2015(1):163-165.

[2] 陈卫东.数据质量模型及关系代数运算下质量传递理论与方法研究[D].长沙:国防科技大学,2007.

[3] Madnick S E,Wang R W,Lee Y W,et al. Overview and Framework for Data and Information Quality Research[J].ACM Journal of Data and Information Quality,2009,1(1):1-22.

[4] 袁满,张雪.一种基于规则的数据质量评价模型[J].计算机技术与发展,2013,23(3):81-89.

[5] 刘军,吕俊峰.大数据时代及数据挖掘的应用[N].国家电网报,2012-05-15(10).

[6] Todoran I,Lecornu L,Khenchaf A,etal.A Methodology to Evaluate Important Dimensions of Information Quality in Systems[J].ACM Journal of Data and Information Quality,2015,6(2-3):1-22.

[7] 陈建长.电力企业统计内容、范围应拓展[J].中国统计,2007(05).

[8] 马永兰.电力企业综合统计分析系统使用方法及常见问题探讨[J].科技信息,2011(33).

[9] Pipino L,Lee Y,Wang R.Data quality assessment[J].Communications of the ACM,2002,45(4):211-2182.

猜你喜欢

数据质量智能电网
强化统计执法提高数据质量
浅谈统计数据质量控制
智能电网中光纤通信系统的可靠性分析
智能电网现状与发展分析