基于云计算平台的电力全业务数据中心建设研究
2017-12-22作者李方军国网甘肃省电力公司黄文思罗义旺吴彬郁文龙国网信通亿力科技有限责任公司
作者/李方军,国网甘肃省电力公司;黄文思、罗义旺、吴彬、郁文龙,国网信通亿力科技有限责任公司
基于云计算平台的电力全业务数据中心建设研究
作者/李方军,国网甘肃省电力公司;黄文思、罗义旺、吴彬、郁文龙,国网信通亿力科技有限责任公司
针对电力全业务数据中心建设过程中,传统数据中心普遍存在的成本高、不易扩展、数据存储和处理等方面缺陷,提出基于云计算平台的电力全业务数据中心建设,将云计算平台框架与电力全业务数据框架结合,充分利用云平台的数据存储 、数据计算、以及数据分析处理优势,对电网公司的全类型业务数据通过接入、采集和过滤,构造出全业务数据模型,进行数据分析挖掘,从而优化公司各类业务、管理及决策,有效实现电网公司全业务数据中心的建设和治理。
云计算平台; 全业务; 数据中心; 数据分析
在国家电网公司向大数据信息化企业方向发展的大背景下[1],促使国网电力进行全业务数据的建设和治理,传统的旧业务框架存在诸多问题,如对于融合业务无法实现,系统升级和维护成本的增加,以及业务能力重复利用的效率低下等,以至于传统的业务框架不能提供企业数据的全方位存储,进而导致企业不能有效利用大数据进行深度的数据分析和挖掘,来提高企业的数据运营体系和业务创新等服务。为了更好的实现电力全业务数据中心的建设,完成电力企业数据治理,本文提出了基于云计算平台的电力全业务数据中心建设,通过云计算在大数据的存储与并行计算等方面的优势,结合数据挖掘技术,达成数据共享与业务融合,从而将公司的管理、运转、业务进行全方位合理优化。
1.云计算框架
云计算是以分布式网络为基础,具有大量存储设备和节点,向外界提供数据资源服务,因此它存在基础和服务两种架构,这两种架构依次完成云计算平台的部署、资源服务的供应,从整体上看,云计算框架可以归纳为基础设施与平台应用两个层次,如图1所示,其中基础层次主要负责大数据的存储、运算工作,可以完成海量数据的并行操作;平台应用主要负责提供服务平台与应用软件,为使用者提供相应的软件与网络服务,针对企业级客户,依托云平台资源的高度自动化管理,实现包括服务接入、数据管理、业务监测评估、资源与环境的运行等,并根据工作流程,自主完成企业数据的分析提取,统筹各类数据和管理的融合,从而提高企业的业务效率。
传统网络服务器是通过在电力公司建设机房和机柜,存在建设成本和维护成本高、运行收敛速度慢、网络和自身故障无法保障、资源存储和监测受限等诸多问题,而云计算平台恰好改善了这些缺点。
2.云计算平台下电力全业务数据中心框架
电力全业务数据中心是为电力公司的管理与决策服务的[2],将传统的单一数据存储查找转变为自动化数据采集分析挖掘,提高数据处理能力和管理效率。根据云计算企业级数据框架,以及电网公司当前业务数据的实际现状,提出并设计基于云计算平台的电力全业务数据中心建设框架,该框架利用云计算平台的基础层将采集到的所有数据标准化以后,完成数据的存储与计算,再利用平台应用来完成业务接入与分析服务功能,据此可以得到如图2所示的云计算平台下电力全业务数据中心框架。
图1 云计算框架图
图2 云计算平台下电力全业务数据中心框架
■2.1 业务数据接入
业务数据的接入分为内部数据与外部数据两种情况。根据电网公司的实际业务,内部业务主要包括ERP、营销管理、财务管理、缴费管理、供电信息采集监测、项目管理、员工与客户信息管理等众多项目,应对这些内部业务数据项目采取统一的数据收集,采用数据挖掘与数据分析技术进行相应的数据分析与决策,并且将其进行统筹建模,得到各自的数据模型,再根据模型对相关的业务或者管理进行规范化操作,针对数据中不满足模型规范的噪声数据进行滤除[3],这样便能得到良好的业务接口,从而实现数据资源的优化管理。外部数据作为辅助也需要进行相应的采集,比如当前市场经济形势和气候气象等因素,对于数据分析具有一定影响的因子也应充分考虑。
■2.2 全业务数据统一分析
通过对全业务数据的统一分析,便于通过数据分析计算出电网运行状态和用户的一些信息[4]。
对电网的低压数据采集监控,结合云计算平台的多元异构存储方式,处理得到电网中的低压地区及低压程度信息,并将分析得出的结果及原因及时进行告警,根据警报的严重程度作出相应的业务调度和处理,以及是否需要检修或改造。
利用云计算平台收集用户的相关信息,包含用电量、用电时段、电网操作事件等,根据这些数据可以建立出电网负荷模型,用电分布模型,用户档案信息,并分析出用户的用电习惯,电网的用电负荷情况,电费使用和缴纳情况,或者是否有窃电等行为。
■2.3 数据提取与过滤
数据的提取要初始化存量数据,该过程分为两个步骤,首先要将其接入ODS缓冲区,然后把ODS缓冲区链接到数据池中。在第一个过程中,通过云计算平台的Sqoop组件接入缓冲区的时候,具有宽泛的数据转换功能,对于云计算平台下的多种数据库都具有良好的访问能力。对其进行相应的设置,就可以对普通数据进行识别提取,要想提取得到较为复杂的特征数据,可以调用Sqoop中的模块来完成。
与缓冲区完成连接后,结合文件导入技术,把目标数据与数据存储池进行连接,完成数据的加载、数据校验功能。这种数据的初始化有利于降低平台应用的负载,当平台应用处于忙碌状态时,暂时停止文件导入,待平台应用空闲,便导入文件,优化了平台应用的数据访问和业务管理。
3.云计算平台下电力全业务数据中心建设
■3.1 数据计算
数据计算存在离线数据与实时数据两种情况,根据它们各自的特点,采用不同的方式进行计算。利用Spark优化组件,能够对云计算平台下离线数据进行并行计算,通过迭代计算,可以完成离线数据的批量操作,同时系统会将处理得到的热点和重点数据放置于特殊位置,利于快速提取使用,有效治理数据处理耗时长的问题。
数据流作为实时数据的一种,通过Storm组件进行计算,它的主要任务是把数据放入内存,然后对其处理分析,获取数据流中包含的所需信息,由于该过程是在内存中处理,所以实时性强。对于在线请求,则通过Spark优化组件进行实时处理。
■3.2 数据仓库
利用分布式仓库组件,把数据进行分类存储[5],当平台应用的前端需要数据支持时,直接将仓库中的存储数据提取出即可,此时提取出的数据存放于数据集中,前端数据也是依托数据集的支持,因此通过PostgreSQL优化组件,访问数据库,完成业务数据的存储访问。
4.云计算平台下电力全业务数据中心优势
基于云计算平台的电力全业务数据中心通过电网公司的数据管理和分析挖掘,完成主要业务的接入,搭建相关数据模型,优化管理和业务调度。对于数据的挖掘,相比传统业务数据中心,能够自主完成数据分析模型,为云平台下的海量数据分析提供保障,同时可以自主完成数据处理和评估模型,无需人工参与数据提取、整理和分析。
云计算平台的分析工具具有功能强大的模型组件,使操作人员更容易进行业务数据的处理,通过对模型组件的设置,便可实现数据挖掘模型的构建,并能够通过原始数据,采用图标的形式展现出数据分析挖掘得到的结果,给相关业务人员展示更为清晰全面的分析与决策。
从数据中心框架上,本文提出的基于云计算平台电力全业务数据中心框架在数据的存储、处理等方面,依托云平台,具有明显优势,并且业务升级和维护更简单,数据安全性更高。对于数据接入方面,对于数据类型的兼容性更宽,无论实时性如何,都能有效采集监测,完成调度任务。对于分析服务,完善的模型构建能力,和数据分析能力,使其对业务数据的管理和评估更加高效和准确。
5.结束语
为了解决国家电网公司全业务数据建设和治理问题,提出并设计了基于云计算平台的电力全业务数据中心建设方案,通过云计算充分发挥大数据功能,有效改善了电力全业务数据中心的系统可扩展性,降低了系统成本,利用分布式存储和并行式计算,自主完成数据模型的构建和分析,实现电网公司所有业务的大数据分析处理,进而完成电力全业务数据的整合和治理。
* [1] 国家电网信通部. 国家电网公司关于印发公司全业务统一数据中心总体建设方案的通知[Z]. 2016.
* [2] 段军红,张乃丹,赵博,闫晓斌 .电力大数据基础体系架构与应用研究[J].电力信息与通信技术,2015,13(2):92-95.
* [3] 杨东华, 李宁宁, 王宏志, 等. 基于任务合并的并行大数据清洗过程优化[J]. 计算机学报, 2016, 39(1): 97-108.
* [4] 黄文思, 郝悍勇, 李金湖, 等. 基于决策树算法的电力客户欠费风险预测[J]. 电力信息与通信技术, 2016, 14(1): 19-22.
* [5] JUNG K, LEPENDU P, LYER S, et al. Functional evaluation of out-of-the-box text-mining tools for data-mining tasks[J].Journal of the American Medical Informatics Association,2015, 22(1):121-131.