基于广东电网大数据的数据质量管理方法
2016-12-31江疆黄剑文杨秋勇广东电网有限责任公司信息中心广州510080
江疆,黄剑文,杨秋勇(广东电网有限责任公司信息中心,广州 510080)
基于广东电网大数据的数据质量管理方法
江疆,黄剑文,杨秋勇
(广东电网有限责任公司信息中心,广州 510080)
0 引言
随着智能电网建设的规模逐年增大,电网所产生的数据越来越多,类型也越来越复杂。这些数据包含大量的半结构化和非结构化信息,并且规模每年都呈指数级增长。智能电网的发展要求对电网故障作出快速响应,短期负荷以及实时处理数据。为了有效解决这些问题,电网行业陆续引入了大数据技术来解决。
然而,面对日益复杂的业务逻辑和日益繁多的数据资源,没有有效的数据质量管理机制是不行的。当前,电网系统的数据质量问题主要体现在“系统外部问题”,“系统内部问题”,“核对标准问题”等方面,这些问题的存在严重影响了系统的使用和推广。电网需要引入数据质量管理方法,以此数据质量问题。
1 南方电网数据特点及对数据质量的要求
南方电网所采集的各类数据主要具有种类多、高速、容量大、价值高的特征,其价值密度低却又商业价值高。要有效地处理这些数据需要运用大数据技术。
目前,大数据技术已经逐步走向成熟,也渗透到各个领域,然而在电力系统的应用依然存在一定的挑战,尤其是如何将种类丰富的数据进行整合。电力系统数据不仅包含结构化数据,也包含系统日志等半结构化数据及视频检测这种非结构化数据[3]。非结构化数据存储在本地系统中,不利于对这种类型数据进行检索分析,而半结构化数据往往是以文件的形式进行存储。随着业务发展数据量的增加,应用复杂导致的数据量增加,这些数据量增加了数据存储和处理压力,造成了不少的数据质量隐患,这些问题的存在严重影响了系统的使用和推广。
随着电网运营朝着低成本、一体化、精细化、实时化以及智能化运营方向的发展,电网对大数据数据质量的管理也提出了一定要求,如要求将已出现及潜在的数据质量问题具体化,并落实到各环节的可检查项中,实现流程化管理的要求;要求最大限度地修正目前存在的数据质量问题,并建立有效地监控机制,控制预防将来的错误范围扩大的要求;要求在整个数据处理过程中,每个环节都建立数据质量保证机制,最终在各个环节都保证数据的正确性、一致性、完整性和可靠性等。简而言之,利用全面的数据质量管理实现对电网大数据技术的支撑和完善。
2 数据质量方法论
数据质量的好坏是由用户以及数据的使用价值所决定的,代表着数据在数据知识应用中、数据所存在的系统中以及数据使用的过程中被应用的程度,并且只有当数据被下游过程所接收并使用时讨论数据质量问题才有意义。
2.1数据质量的影响因素
数据质量的影响因素有很多,可以根据产生的时间和节点划分为数据导入过程、引起数据变坏的过程和内部过程。
(1)数据导入过程
数据导入过程是指通过手工/接口/集成技术等方式将数据导入数据仓库的过程。该过程对数据质量造成影响表现在以下方面:转换初始数据时,缺少可靠的源系统的元数据,源数据本身不完善等;系统整顿时,通常发生于旧系统淘汰与合并,数据整顿与初始数据转换面临相同的挑战,但问题更加复杂;人工数据录入时,由于人为因素无法预防,难以预测。
(2)引起数据变坏的过程
引起数据变坏的过程包括以下内容:变化未捕获,系统之间往往有很多接口,但是在修改接口的时候往往没有将其影响的接口一起修改;专业知识流失,人员流失后新人很难精确地理解数据意义;处理自动化,一些验证界面可能在自动处理实施,但它们不能看到数据全部特性,或为了性能被关闭了,当大量数据暴露给更多用户后,一旦出错受到更多抱怨,数据质量感知变差。
(3)内部过程
系统内部的处理过程也在很大程度上对数据质量水平产生影响。包括数据处理、数据清洗、数据清除。数据处理,日常数据处理的程序改变会引起数据质量问题,新的数据采集程序也会引起的同样的问题,更隐蔽的问题是数据处理在错误的时间意外发生,然后正确的程序可能产生错误的结果,因为数据并非处于它应有的状态;数据清洗,数据清洗的危险在于数据质量问题的复杂性和内部相关性。解决一个问题可能引起许多相同或其他相关数据元素的问题。数据自动清洗由计算机程序实施,计算机程序会有bug并影响大量记录;数据质量说明书未反映实际数据需求,结果数据可能符合理论模型但对实际使用仍是错误的;数据清除,数据清除存在意外清除其他相关数据的风险。
2.2数据质量保障体系
一个完善的、有效的数据质量保障体系具有如下基本特点:(1)数据质量全过程都是受控的;(2)活动必须是得到授权;(3)具备有效的数据质量文档,从而保障整个过程的可检查性的;(4)全面的数据质量管理;(5)持续的改进过程:从数据质量本身来讲,出现数据质量问题是正常的,关键是进行纠正,并采取“预防再犯”的措施,所以质量保障过程是一个持续的改进过程;(6)特别重视数据质量问题数据的采集以及数据质量知识库的建设。
3 数据质量在南方电网大数据中的应用
3.1数据质量检查
数据质量检查是指检查数据仓库中数据质量是否存在问题,若存在问题,则识别数据质量问题的级别。数据质量检查的目的是识别数据错误,衡量对各种业务过程的影响。具体包括以下内容:
(1)接口数据检查
接口数据提供可以是以文件的形式提供也可以是以数据表的形式提供,因此检查针对接口文件和接口数据表。通过对接口数据完整性和及时性等方面的检查检查及时发现问题,以保证在数据在进入数据仓库之前不存在明显的数据质量问题和隐患。
接口文件的检查主要包括对文件格式、文件大小、记录长度、传送数量等方面的检查;接口表的检查主要包括对表的属性、数据时间等方面的检查;对于采取非上述接口方式的情况,可根据具体情况设计接口数据检查的项目和内容。
(2)数据仓库检查
数据仓库检查是对进入数据仓库的数据进行数据完整性、一致性、正确性和及时性方面的检查,以保证数据仓库内部的数据不存在数据质量问题。
(3)指标检查
数据展现的检查主要检查数据的正确性方面存在的质量问题;以保证数据能够真实反映业务实情。
3.2数据质量问题控制
数据质量控制是指采用一定的方法对已经出现数据质量问题的数据进行处理。如果发现某些数据质量问题是由于系统设计不合理等原因导致的,则还需要变更数据仓库系统。
数据质量问题控制主要包括以下内容如下。
(1)数据质量问题处理流程
在本流程中,数据质量管理员先根据问题的实际情况判断数据质量问题的归属节点,如果是数据仓库系统内部问题,即转入数据仓库系统变更处理流程;如果判断为不是数据仓库系统内部问题,则提交数据质量事件报告并申请数据质量小组协调,数据质量小组检查数据质量事件报告,确定责任归属。数据质量小组中业务系统接口员由各个业务系统的代表担任,在检查过程中,各业务系统的代表应该提供业务系统的实际情况,并结合自身的业务系统经验,协助数据质量小组确定问题的根本原因。责任确定以后,确定的责任归属业务系统的代表应该推动相应的业务系统修改相应的系统,并在系统修改完毕以后,发业务系统变更通知到数据仓库系统,数据仓库系统根据业务系统变更通知进入系统变更处理流程。最后,对于已经发生错误的数据,则进入错误数据维护流程。
(2)错误数据维护流程
在系统中由于历史原因导致了现有数据库中数据存在错误,需要进行维护。错误数据的维护必须得到数据质量管理员的同意,并在在维护完成后提交数据维护报告,数据质量管理员可以采取适当的检查以验证数据维护操作的执行情况。
(3)数据仓库系统变更处理流程
为了面对业务环境的挑战,企业总是处在持续的变化过程中,数据仓库系统必然处在不断的变更中。系统变更处理流程从管理和技术两个方面规范此类事件的处理流程,保证系统的任何更改可能对数据质量造成的影响都是受控制的。
3.3数据质量问题预防
数据质量问题预防是指建立一系列的影响因素的监控规则,以便及时发现可能影响数据质量的因素的变化,及时处理,防止数据质量问题的产生。数据质量问题的预防包括以下内容:
(1)数据质量测试过程
数据仓库系统处理海量的输入,并产生了大量的输出结果(报表、OLAP分析),其中间存贮也是海量的,使得数据仓库系统的测试压力非常大。需要特别加强对测试过程的管理。测试过程是企业的标准IT过程,在此描述的数据测试过程不是一个完整的测试过程,只是测试过程的一个子过程,加强了对数据质量的预测和管理,同时在很大程度上起到预防数据质量问题的作用。
为了保障数据质量,数据管理员关注所有的测试过程,特别是数据仓库系统中的所有测试方案和测试报告都必须要由数据质量管理员进行检查。测试方案中要求涵盖对数据质量的测试,数据质量管理员对所有的测试方案进行检查,并向数据质量小组和数据仓库系统开发组提交检查报告,对于数据质量管理员检查不能通过的测试方案,要求必须在规定的期限内重新设计并提交。数据质量管理员对所有的测试报告进行检查,并向数据质量小组和开发小组提交检查报告。对于数据质量管理员检查不能通过的测试报告,测试不能视为通过。
(2)统计口径差异控制流程
统计口径是元数据管理的重要组成部分,对于数据仓库系统具有重要的意义,由于系统之间的统计口径的差异已经对数据仓库系统的实施造成了一定影响,因此控制好统计口径,使其保持一致性是预防数据质量问题的基础。
在统计口径差异控制过程中,数据质量管理员接受统计口径差异问题报告,判断是否已经确定的统计口径(已经确定的/企业内有明确的文档明确规定的),如果不是,则需要通过数据质量小组协调。数据质量小组中包含了各部门的代表,数据质量管理员要求相关的系统或者业务部门的代表提供本部门对该统计口径的定义,理解,计算办法,计算公式,并确定关注和使用该统计口径的部门。统计口径应该以该统计口径的定义和使用部门的解释为准。如果有多个部门对同一个统计口径的给出了不同的定义,并且使用了该统计口径,数据质量管理员应该申请更高层次的协调。
(3)管理流程检查
管理流程检查包括管理机构、管理流程及标准、质量管理运作的检查。完善的管理机构、流程和标准以及完整的运作过程可以保障数据质量,使数据仓库在任何情况下都按照一定规则标准来运行维护。
4 实施效果
结合南方电网的数据特点和业务需求,使用全面的数据质量管理机制,通过业务系统和数据仓库系统的全体部门及人员齐心协力,把管理层面、技术层面以及统计方法和思想教育结合起来,建立从系统设计、管理、运营等全过程的数据质量管理体系,进而有效地利用多方资源,提供符合期望的分析数据,从而提升南方电网的管理水平和工作效率,增加核心竞争力。
4.1数据质量管理流程化、规范化
南方电网引入“主数据”管理概念,搭建起“数据资源管理平台”。所有的主数据由专人专系统统一维护,变更信息时统一推送至其他应用平台。这样确保了主要数据维护的唯一性、准确性,提升整体系统的数据质量。同时,南方电网制定出一套完整数据质量流程以及管理规范,从底层数据到上层应用数据,形成有效统一的管理机制,最大程度上保证整个系统的数据质量。
4.2数据质量管理的有效性,全面性
南方电网最大限度地修正目前存在的数据质量问题,建立了有效地监控机制,控制预防将来的错误范围扩大;与源系统数据质量相互验证,对源系统的部分数据起到一定的检查作用,并相互促进在。同时,在整个数据处理过程中,每个环节都建立数据质量保证机制,最终在各个环节都保证数据的正确性、一致性、完整性和可靠性。
4.3系统/业务管理常态化、精细化
通过数据质量管理机制和技术规范促进信息通信运维作业水平提升,保障各类信息通信系统的稳定运行。通过加强组织管理,落实流程制定与实施,在现有的业务流程、管理流程的基础上进行优化,将需求管理流程、数据质量管理流程等纳入了常态化管理,进而明确、细化各种流程中职责分工,确保各种工作能够落实到人、管理到人、认责到人。
5 结语
随着大数据技术的发展,未来电网将更加智能化、安全化,必定会向着低成本、高效率、高可靠性的方向转变。而当前的数据分析处理要求一套数据质量管理机制,为了进一步提高广东电网的核心竞争力,向客户提高更好、更安全的服务,有必要积极研究数据质量管理方法。研究能够实现对各种类型数据进行数据质量问题检查、数据质量控制及数据质量问题预防可以为电力行业的发展提供基础支持,促进企业发展。
[1]李翠平,王敏峰.大数据的挑战与机遇[J].科研信息化技术与应用,2013,4(1):12-18.
[2]段军红,张奈丹,赵博等.电力大数据基础体系架构与应用研究[J].中天科技,2015,13(2):92-94.
[3]岳阳,张晓佳,高一丹.基于Hadoop的电力大数据技术体系研究[J].电力与能源,2015,36(2):16-20.
Data Quality;Data Quality Management;Quality Control;Quality Prevention
Data Quality Management Based on Guangdong Power Grid
JIANG Jiang,HUANG Jian-wen,YANG Qiu-yong
(Information Centre of Guangdong Grid Co,Guangzhou510080)
1007-1423(2016)07-0088-04
10.3969/j.issn.1007-1423.2016.07.019
2015-12-07
2016-01-20
随着广东电网智能化建设和规模的扩大,电网系统业务逻辑越来越复杂,数据也越来越庞大,导致类似“系统外部问题”、“系统内部问题”、“核对标准问题”等的数据质量问题,严重影响系统的使用和推广。根据电力大数据的特点和发展趋势,结合广东电网数据质量的现状,从公司业务特点和实际需求出发,提出一种高效的数据质量管理方法,并分析该方法的数据质量检查、数据质量问题控制和数据质量问题预防等方面的实施。
数据质量;数据质量管理;问题控制;问题预防
江疆(1982-),湖北人,博士,研究方向为电力计算应用系统开发与管理、机器学习黄剑文(1963-),广东人,研究生,研究方向为数据分析、数据应用
杨秋勇(1986-),广东人,硕士,研究方向为智能信息处理、数据挖掘
With the expansion of Guangdong Power Grid,the business logic is more and more complex and the database becomes larger and larger, which resulting in questions like"system of external problems","internal system problems","check the standard problems"and so on, that seriously affecting the use and promotion of the system.Considering the characteristics of big data and the business characteristics and the needs of Guangdong Power Grid,proposes an efficient method to manage data quality,and then analyses quality check,quality control and quality prevention during the practice of Guangdong Power Grid.