电力大数据质量评价模型及动态探查技术研究
2014-03-05陈超
陈超
摘 要: 针对电力数据数量多、种类庞杂、横跨专业多等特点而引起的数据质量不高的现状,该项目以数据中心数据为研究对象,通过分析产生数据质量问题的原因,以元数据、数据质量、数据建模等理论为基础,对数据流动过程中的质量检查、质量控制和质量评估等进行深入的研究。构建电力大数据质量评价指标体系,研究电力大数据质量实时监控、快速动态检测方法与关键技术,提出了适合于电力大数据数据质量控制与评估体系模型,实现数据质量管控平台开发,确保企业数据质量,提升数据应用价值。
关键词: 电力大数据; 元数据; 数据质量; 实时监控
中图分类号: TN964?34 文献标识码: A 文章编号: 1004?373X(2014)04?0153?03
Research for electric power big data quality evaluation model and dynamic
exploration technology
CHEN Chao
(Anhui Nari Software Co., Ltd., Hefei 230088, China)
Abstract: For the status quo of bad electric power data quality caused by mass data, complex species, multi?profession involvement and so on, quality inspection, quality control and quality assessment in the flow process of the data from the data center are studied based on metadata, data quality and data modeling theories, and cause analysis of poor data quality. The electric power big data quality evaluation index system was built. The real?time monitoring, rapid motion detection methods and key technologies of the electric power big data quality were researched. The data quality control and assessment system model suitable for the power big data are proposed in thispaper. The development of a data quality control platform was achieved. It ensured the data quality of the enterprise and raised the value of data applications.
Keywords: electric power big data; metadata; data quality; real?time monitoring
0 引 言
近几年,电力行业信息化也得到了长足的发展,我国电力企业信息化起源于20世纪60年代,从初始电力生产自动化到80年代以财务电算化为代表的管理信息化建设,再到近年大规模的企业信息化建设,特别伴随着下一代智能化电网的全面建设,以物联网和云计算为代表的新一代IT技术在电力行业中的广泛应用,电力数据资源开始急剧增长并形成了一定的规模。从长远来看,作为中国经济社会发展的“晴雨表”,电力数据以其与经济发展紧密而广泛的联系,将会呈现出无以伦比的正外部性,对我国经济社会发展以至人类社会进步也将形成更为强大的推动力[1?2]。
随着供电企业信息化持续建设与深化应用,供电企业各项业务已与信息化初步融合,信息系统内业务数据的数量和种类的逐步增多,数据共享需求迫切。而数据质量和数据共享利用水平不高,一是数据对分析决策支持度低,同一数据存在多个数多源、统计口径不一致; 二是数据对运营管理的支持度有待提高,数据质量参差不齐,部分数据无业务系统支持,缺乏统一的规范、标准和明确的数据问责; 三是一线人员数据录入工作量巨大,数据重复录入,业务功能重复; 四是数据质量管控滞后,管控工作片面化,没有形成一个完整性的数据质量管控体系和全面有效的数据质量保障机制,制约数据价值的深度挖掘。因此,有必要围绕企业数据生命周期,紧密结合公司推进管理体制和工作机制创新的要求,基于运营监测(控)中心信息支撑系统建设与应用现状,借鉴公司数据治理管理经验,实现对供电企业数据的全过程质量管理,夯实数据基础,提升数据质量,保障数据的准确、及时、有效和可信,为数据的集成和挖掘应用提供有力保障。
本文根据文献研究成果,围绕运营监测(控)中心数据质量管理所面临的问题与挑战,研究电力大数据数据质量管理规范,构建以业务系统为依托的数据监控体系、质量评价体系[3],设计面向电力大数据的元数据模型[4]、数据质量监控规则、数据质量评价指标,通过运用标准化的数据质量规范,实时监控,在线考评,强化数据质量事中控制,事后评价,问题整改,提升决策分析依据的准确性和实用性。
1 电力大数据质量评价模型及动态探查监控技
术研究与应用
1.1 电力大数据的数据质量评价指标、大数据质量评价模型研究
围绕电力大数据环境下开展数据质量评价所面临的问题与挑战,研究设计面向电力大数据的数据质量评价指标体系,包括质量评价指标、质量评价模型[5?6]及评价方法。具体包括:
(1) 开展大数据下的数据质量评价指标设计研究,分析大数据环境下数据质量的主要影响因素,按数据质量的数据的一致性、数据的准确性、数据的完整性、数据的及时性4个关键特性建立数据质量评价指标,以指导并考核大数据下系统数据质量水平。
(2) 研究建立大数据下的数据质量评价模型,实现质量指标计算、统计分析和综合评价的实时、自动处理,满足系统动态、实时进行数据质量好坏量化诊断和评价的要求,主要包括数据质量指标定义模型、数据质量评估算法或规则及数据质量诊断与评价结果,其中,数据质量指标定义模型,主要研究数据质量层级评价指标树设计、指标权重设计及指标分值计算等;数据质量评估算法或规则研究,主要研究通过一定的数据算法与计算规则建立评估模型,实现对指标权重、指标分数自动计算与分析,并生成诊断与评估结果。
1.2 电力大数据质量快速动态探查检测方法与关键技术研究
在大数据质量评价指标、大数据质量评价模型的基础上,研究大数据质量探查检测[7?8]的关键技术。
(1) 针对大数据质量探查检测数据访问量大和大数据本身的“海量化”特性,研究满足质量探查检测需要的大数据访问、采集技术。包括分布式存储访问优化算法研究;动态智能缓存技术研究。
(2) 针对大数据“快速化”的特性,研究大数据质量分析与处理技术。包括适用于大数据质量探查检测的流计算、基于内存计算的高性能分析、实时数据质量分析的研究。
(3) 针对大数据“多样化”的特性,研究大数据质量探查检测中大数据的自动识别技术:研究基于神经网络的数据识别技术及血缘分析技术。研究基于网格的数据关联性评估技术,实现数据的卡片化、地图化展现与管理。
(4) 针对大数据来源众多,形式多样,研究实时数据调度技术,主要研究基于事件流的复杂事件处理(CEP)技术、并行算法、工作流技术为主的数据调度技术,满足大数据质量快速动态探查检测的要求。
1.3 电力大数据质量快速动态探查检测方法与关键技术研究
在电力大数据相关技术研究基础上,结合电力大数据质量实时监控需求与面临的挑战,研究大数据质量实时监控相关技术。
(1) 研究基于Storm的流式数据质量技术实现数据传输过程不落地进行实时数据质量监控的方法及应用策略,在数据传输过程中,结合Key?Value内存数据库,通过规则库在Storm不同节点的使用分析,达到实时监控的功能。
(2) 研究实时大数据捕获及同步技术,在同步主通道开发旁路数据通道,以支持数据质量实时监控的需求。
(3) 研究接口信息实时采集技术,研究通过API代理调用、日志分析、数据库表记录分析、旁路监听等手段采集基础信息,实现实时数据接口监控;进而实现数据的关联链接和数据血统分析及影响分析。
(4) 研究数据质量监控结果闭环自我提升技术。在数据质量实时监控及接口信息实时监控的基础上,研究基于实时事件触发的数据质量异动处理流程及接口异动处理流程技术。
1.4 电力大数据环境下的外部数据准入机制及关键技术研究
结合电力大数据环境下的外部数据应用需求,研究制定公司大数据背景下外部数据管理目标,建立外部数据准入机制,对外部数据进行分类、分级,并根据外部数据的来源与类型选择不同的管理策略和控制策略。研究完备的外部数据准入机制及关键技术,主要研究外部数据接入检测机制和外部数据接入机制。
(1) 研究外部数据接入检测机制,主要包括数据安全性检测、数据规范性检测、数据身份认证等。数据安全性检测主要检测数据来源,数据规范性检测主要检测数据类型、数据结构、数据规模等方面。
(2) 研究外部数据接入机制,主要包括安全管理机制、数据等级评定、数据接入应急机制、数据回退机制、数据测试管理机制。
(3) 研究外部数据接入关键技术,主要包括数据接入异常检测技术、数据流量控制技术、数据等级保护技术、数据库网关技术、数据复制技术研究等。研究电力大数据环境下外部数据接入的数据清洗转换、数据加载、数据接入服务等关键技术。
1.5 实现电力大数据质量检测与监控系统开发及示范应用
该系统原型分为5个层次:数据资源台账管理、数据传输及调度、接口监控、数据质量监测、展现及应用,如图1所示。
图1 电力大数据质量检测与监控系统原型
数据资源台账管理:模型信息、台账、系统信息等基础信息管理。
数据传输及调度:完成实时、非实时通用数据传输功能;各系统间数据调度功能。
接口监控:进行接口监控:ETL监控、OGG监控、模型监控、WebService监控等。
数据质量监测:核心数据质量监测功能,包括规则管理,质量监测功能及评价通报体系。
展现及应用:在质量监测的结果上,形成各种报表,实现异动数据动态反馈功能。
依据原型系统,结合省电力有限公司数据质量专项治理应用需求,完成示范应用。
2 结 语
本课题重点研究电力大数据的数据质量评价指标,研究电力大数据质量评价模型;研究电力大数据质量快速动态探查检测方法与关键技术;研究电力大数据质量实时监控方法与关键技术;研究电力大数据环境下的外部数据准入机制及关键技术。完成对符合电力大数据特征的公司典型系统数据质量情况的研究与分析,设计电力大数据质量评价指标与模型,形成对电力大数据质量检测、监控、外部数据准入的相关方法与要求,完成相关关键技术研究与有效性验证,为系统提升大数据质量提供统一技术支撑。
参考文献
[1] 李皎.大数据时代到来对电力行业发展提出新要求[J].华北电业,2012(4):82?83.
[2] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146?149.
[3] 匡红刚,王涛,唐融,等.数据质量闭环管控框架数据估值的应用研究大数据时代[J].华东电力,2013,41(3):547?549.
[4] 郭莉.共享数据工程体系结构及元数据服务研究[D].郑州:中国人民解放军信息工程大学,2007.
[5] 黄心宇.数据质量评价模型的建立和实现[J].商场现代化,2008(8):396?397.
[6] 张磊.油田数据质量监督与控制模型研究[D].大庆:东北石油大学,2010.
[7] 鲁均云,李星毅.基于内码序值聚类的相似重复记录检测方法[J].计算机应用研究,2010,27(3):874?878.
[8] 庞雄文,姚占林,李拥军.大数据量的高效重复记录检测方法[J].华中科技大学学报:自然科学版,2010(2):9?11.
(1) 开展大数据下的数据质量评价指标设计研究,分析大数据环境下数据质量的主要影响因素,按数据质量的数据的一致性、数据的准确性、数据的完整性、数据的及时性4个关键特性建立数据质量评价指标,以指导并考核大数据下系统数据质量水平。
(2) 研究建立大数据下的数据质量评价模型,实现质量指标计算、统计分析和综合评价的实时、自动处理,满足系统动态、实时进行数据质量好坏量化诊断和评价的要求,主要包括数据质量指标定义模型、数据质量评估算法或规则及数据质量诊断与评价结果,其中,数据质量指标定义模型,主要研究数据质量层级评价指标树设计、指标权重设计及指标分值计算等;数据质量评估算法或规则研究,主要研究通过一定的数据算法与计算规则建立评估模型,实现对指标权重、指标分数自动计算与分析,并生成诊断与评估结果。
1.2 电力大数据质量快速动态探查检测方法与关键技术研究
在大数据质量评价指标、大数据质量评价模型的基础上,研究大数据质量探查检测[7?8]的关键技术。
(1) 针对大数据质量探查检测数据访问量大和大数据本身的“海量化”特性,研究满足质量探查检测需要的大数据访问、采集技术。包括分布式存储访问优化算法研究;动态智能缓存技术研究。
(2) 针对大数据“快速化”的特性,研究大数据质量分析与处理技术。包括适用于大数据质量探查检测的流计算、基于内存计算的高性能分析、实时数据质量分析的研究。
(3) 针对大数据“多样化”的特性,研究大数据质量探查检测中大数据的自动识别技术:研究基于神经网络的数据识别技术及血缘分析技术。研究基于网格的数据关联性评估技术,实现数据的卡片化、地图化展现与管理。
(4) 针对大数据来源众多,形式多样,研究实时数据调度技术,主要研究基于事件流的复杂事件处理(CEP)技术、并行算法、工作流技术为主的数据调度技术,满足大数据质量快速动态探查检测的要求。
1.3 电力大数据质量快速动态探查检测方法与关键技术研究
在电力大数据相关技术研究基础上,结合电力大数据质量实时监控需求与面临的挑战,研究大数据质量实时监控相关技术。
(1) 研究基于Storm的流式数据质量技术实现数据传输过程不落地进行实时数据质量监控的方法及应用策略,在数据传输过程中,结合Key?Value内存数据库,通过规则库在Storm不同节点的使用分析,达到实时监控的功能。
(2) 研究实时大数据捕获及同步技术,在同步主通道开发旁路数据通道,以支持数据质量实时监控的需求。
(3) 研究接口信息实时采集技术,研究通过API代理调用、日志分析、数据库表记录分析、旁路监听等手段采集基础信息,实现实时数据接口监控;进而实现数据的关联链接和数据血统分析及影响分析。
(4) 研究数据质量监控结果闭环自我提升技术。在数据质量实时监控及接口信息实时监控的基础上,研究基于实时事件触发的数据质量异动处理流程及接口异动处理流程技术。
1.4 电力大数据环境下的外部数据准入机制及关键技术研究
结合电力大数据环境下的外部数据应用需求,研究制定公司大数据背景下外部数据管理目标,建立外部数据准入机制,对外部数据进行分类、分级,并根据外部数据的来源与类型选择不同的管理策略和控制策略。研究完备的外部数据准入机制及关键技术,主要研究外部数据接入检测机制和外部数据接入机制。
(1) 研究外部数据接入检测机制,主要包括数据安全性检测、数据规范性检测、数据身份认证等。数据安全性检测主要检测数据来源,数据规范性检测主要检测数据类型、数据结构、数据规模等方面。
(2) 研究外部数据接入机制,主要包括安全管理机制、数据等级评定、数据接入应急机制、数据回退机制、数据测试管理机制。
(3) 研究外部数据接入关键技术,主要包括数据接入异常检测技术、数据流量控制技术、数据等级保护技术、数据库网关技术、数据复制技术研究等。研究电力大数据环境下外部数据接入的数据清洗转换、数据加载、数据接入服务等关键技术。
1.5 实现电力大数据质量检测与监控系统开发及示范应用
该系统原型分为5个层次:数据资源台账管理、数据传输及调度、接口监控、数据质量监测、展现及应用,如图1所示。
图1 电力大数据质量检测与监控系统原型
数据资源台账管理:模型信息、台账、系统信息等基础信息管理。
数据传输及调度:完成实时、非实时通用数据传输功能;各系统间数据调度功能。
接口监控:进行接口监控:ETL监控、OGG监控、模型监控、WebService监控等。
数据质量监测:核心数据质量监测功能,包括规则管理,质量监测功能及评价通报体系。
展现及应用:在质量监测的结果上,形成各种报表,实现异动数据动态反馈功能。
依据原型系统,结合省电力有限公司数据质量专项治理应用需求,完成示范应用。
2 结 语
本课题重点研究电力大数据的数据质量评价指标,研究电力大数据质量评价模型;研究电力大数据质量快速动态探查检测方法与关键技术;研究电力大数据质量实时监控方法与关键技术;研究电力大数据环境下的外部数据准入机制及关键技术。完成对符合电力大数据特征的公司典型系统数据质量情况的研究与分析,设计电力大数据质量评价指标与模型,形成对电力大数据质量检测、监控、外部数据准入的相关方法与要求,完成相关关键技术研究与有效性验证,为系统提升大数据质量提供统一技术支撑。
参考文献
[1] 李皎.大数据时代到来对电力行业发展提出新要求[J].华北电业,2012(4):82?83.
[2] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146?149.
[3] 匡红刚,王涛,唐融,等.数据质量闭环管控框架数据估值的应用研究大数据时代[J].华东电力,2013,41(3):547?549.
[4] 郭莉.共享数据工程体系结构及元数据服务研究[D].郑州:中国人民解放军信息工程大学,2007.
[5] 黄心宇.数据质量评价模型的建立和实现[J].商场现代化,2008(8):396?397.
[6] 张磊.油田数据质量监督与控制模型研究[D].大庆:东北石油大学,2010.
[7] 鲁均云,李星毅.基于内码序值聚类的相似重复记录检测方法[J].计算机应用研究,2010,27(3):874?878.
[8] 庞雄文,姚占林,李拥军.大数据量的高效重复记录检测方法[J].华中科技大学学报:自然科学版,2010(2):9?11.
(1) 开展大数据下的数据质量评价指标设计研究,分析大数据环境下数据质量的主要影响因素,按数据质量的数据的一致性、数据的准确性、数据的完整性、数据的及时性4个关键特性建立数据质量评价指标,以指导并考核大数据下系统数据质量水平。
(2) 研究建立大数据下的数据质量评价模型,实现质量指标计算、统计分析和综合评价的实时、自动处理,满足系统动态、实时进行数据质量好坏量化诊断和评价的要求,主要包括数据质量指标定义模型、数据质量评估算法或规则及数据质量诊断与评价结果,其中,数据质量指标定义模型,主要研究数据质量层级评价指标树设计、指标权重设计及指标分值计算等;数据质量评估算法或规则研究,主要研究通过一定的数据算法与计算规则建立评估模型,实现对指标权重、指标分数自动计算与分析,并生成诊断与评估结果。
1.2 电力大数据质量快速动态探查检测方法与关键技术研究
在大数据质量评价指标、大数据质量评价模型的基础上,研究大数据质量探查检测[7?8]的关键技术。
(1) 针对大数据质量探查检测数据访问量大和大数据本身的“海量化”特性,研究满足质量探查检测需要的大数据访问、采集技术。包括分布式存储访问优化算法研究;动态智能缓存技术研究。
(2) 针对大数据“快速化”的特性,研究大数据质量分析与处理技术。包括适用于大数据质量探查检测的流计算、基于内存计算的高性能分析、实时数据质量分析的研究。
(3) 针对大数据“多样化”的特性,研究大数据质量探查检测中大数据的自动识别技术:研究基于神经网络的数据识别技术及血缘分析技术。研究基于网格的数据关联性评估技术,实现数据的卡片化、地图化展现与管理。
(4) 针对大数据来源众多,形式多样,研究实时数据调度技术,主要研究基于事件流的复杂事件处理(CEP)技术、并行算法、工作流技术为主的数据调度技术,满足大数据质量快速动态探查检测的要求。
1.3 电力大数据质量快速动态探查检测方法与关键技术研究
在电力大数据相关技术研究基础上,结合电力大数据质量实时监控需求与面临的挑战,研究大数据质量实时监控相关技术。
(1) 研究基于Storm的流式数据质量技术实现数据传输过程不落地进行实时数据质量监控的方法及应用策略,在数据传输过程中,结合Key?Value内存数据库,通过规则库在Storm不同节点的使用分析,达到实时监控的功能。
(2) 研究实时大数据捕获及同步技术,在同步主通道开发旁路数据通道,以支持数据质量实时监控的需求。
(3) 研究接口信息实时采集技术,研究通过API代理调用、日志分析、数据库表记录分析、旁路监听等手段采集基础信息,实现实时数据接口监控;进而实现数据的关联链接和数据血统分析及影响分析。
(4) 研究数据质量监控结果闭环自我提升技术。在数据质量实时监控及接口信息实时监控的基础上,研究基于实时事件触发的数据质量异动处理流程及接口异动处理流程技术。
1.4 电力大数据环境下的外部数据准入机制及关键技术研究
结合电力大数据环境下的外部数据应用需求,研究制定公司大数据背景下外部数据管理目标,建立外部数据准入机制,对外部数据进行分类、分级,并根据外部数据的来源与类型选择不同的管理策略和控制策略。研究完备的外部数据准入机制及关键技术,主要研究外部数据接入检测机制和外部数据接入机制。
(1) 研究外部数据接入检测机制,主要包括数据安全性检测、数据规范性检测、数据身份认证等。数据安全性检测主要检测数据来源,数据规范性检测主要检测数据类型、数据结构、数据规模等方面。
(2) 研究外部数据接入机制,主要包括安全管理机制、数据等级评定、数据接入应急机制、数据回退机制、数据测试管理机制。
(3) 研究外部数据接入关键技术,主要包括数据接入异常检测技术、数据流量控制技术、数据等级保护技术、数据库网关技术、数据复制技术研究等。研究电力大数据环境下外部数据接入的数据清洗转换、数据加载、数据接入服务等关键技术。
1.5 实现电力大数据质量检测与监控系统开发及示范应用
该系统原型分为5个层次:数据资源台账管理、数据传输及调度、接口监控、数据质量监测、展现及应用,如图1所示。
图1 电力大数据质量检测与监控系统原型
数据资源台账管理:模型信息、台账、系统信息等基础信息管理。
数据传输及调度:完成实时、非实时通用数据传输功能;各系统间数据调度功能。
接口监控:进行接口监控:ETL监控、OGG监控、模型监控、WebService监控等。
数据质量监测:核心数据质量监测功能,包括规则管理,质量监测功能及评价通报体系。
展现及应用:在质量监测的结果上,形成各种报表,实现异动数据动态反馈功能。
依据原型系统,结合省电力有限公司数据质量专项治理应用需求,完成示范应用。
2 结 语
本课题重点研究电力大数据的数据质量评价指标,研究电力大数据质量评价模型;研究电力大数据质量快速动态探查检测方法与关键技术;研究电力大数据质量实时监控方法与关键技术;研究电力大数据环境下的外部数据准入机制及关键技术。完成对符合电力大数据特征的公司典型系统数据质量情况的研究与分析,设计电力大数据质量评价指标与模型,形成对电力大数据质量检测、监控、外部数据准入的相关方法与要求,完成相关关键技术研究与有效性验证,为系统提升大数据质量提供统一技术支撑。
参考文献
[1] 李皎.大数据时代到来对电力行业发展提出新要求[J].华北电业,2012(4):82?83.
[2] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146?149.
[3] 匡红刚,王涛,唐融,等.数据质量闭环管控框架数据估值的应用研究大数据时代[J].华东电力,2013,41(3):547?549.
[4] 郭莉.共享数据工程体系结构及元数据服务研究[D].郑州:中国人民解放军信息工程大学,2007.
[5] 黄心宇.数据质量评价模型的建立和实现[J].商场现代化,2008(8):396?397.
[6] 张磊.油田数据质量监督与控制模型研究[D].大庆:东北石油大学,2010.
[7] 鲁均云,李星毅.基于内码序值聚类的相似重复记录检测方法[J].计算机应用研究,2010,27(3):874?878.
[8] 庞雄文,姚占林,李拥军.大数据量的高效重复记录检测方法[J].华中科技大学学报:自然科学版,2010(2):9?11.