基于大数据平台的信息系统深化应用开发设计及实现
2017-06-19刘明硕吴军英
刘明硕+吴军英
摘 要:大数据具有数据体量巨大、数据类型多样、处理速度快、价值密度低等特点。随着“十二五”信息化建设的发展,电力公司四大数据中心和各类业务系统存储了数百T的数据。该文首先介绍了大数据和大数据平台的概念,在此基础上分析大数据技术在电力企业中的应用场景。最后,设计并实现了基于大数据平台的信息系统深化应用。
关键词:大数据 Hadoop 数据分析 应用场景
中图分类号:TP27 文献标识码:A 文章编号:1674-098X(2017)02(c)-0151-02
1 大数据平台概述
随着信息技术的高速发展,云计算、物联网、移动应用、社交网络等纷纷得到空前的发展,全球数据信息量呈指数式爆炸增长之势。数据作为企业、社会和国家层面的重要战略资源,被社会各个领域所重视,相继开始其数据的挖掘应用进程,学术界、商界、政府、企业等都将不可避免地进入“大数据时代”。
大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)[1]。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。
大数据平台中应用最广泛的是Hadoop架构,Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS[2]。
2 应用场景设计
该项目涉及的基于大数据分析场景主要包括电网规划研究、市场售电量预测分析、配变重过载预警分析3个主题场景的设计研发。其中,电网规划研究包括:电网运行情况分析、电网薄弱环节监测。市场售电量预测分析包括:售电量特性监测分析、售电量预测分析。配变重过载预警分析包括:短期配变重过载预警分析、中期配变重过载预警分析。
2.1 电网规划研究
通过分析省市县三级社会经济数据,对电网运行情况进行分析,展示各级供电分区与市辖县级供电分区等不同口径的供电指标;结合电网规模线路数据,提供多维度报表数据。结合各电压等级电网结构数据,以及变电站、配电台区、线路等基础数据,进行电网现状分析,同时提供关键指标和报表数据导出功能,供进一步详细分析,从规划设计、建设改造等环节入手,优化电网运行方式,为电网规划提供支撑依据。
通过分析电网设备负载、重过载以及线路卡脖子等相关信息,实施电网薄弱环节监测。依托电网关键运行指标计算结果,分析电网薄弱环节,对不同区域的电网运行情况进行评价,及时发现电网运行问题,提升输、配电网的计算分析能力,支撑规划部门发现电网存在问题,合理分配电网设施下一步投资方向。
2.2 市场售电量预测分析
针对售电量特性监测开展分析。利用营销基础数据平台、用电信息采集系统、营销档案系统等系统,以及营销大数据存储技术,结合相关负荷特性指标,基于从时间、高低压用户(含大客户及高风险客户)、行业及用电类别等多个维度进行建模、详细剖析和监测月均负荷及日负荷情况,分析全省范围的负荷分布情况。同时,对永久性减容销户、暂停/恢复、客户群、电能替代、气象、分布式电源、自备电厂、大用户直购电等影响因素进行关联分析和负荷监测。
同时对售电量预测进行分析。以售电量影响因素分析结果为基础,构建售电量预测模型和用电趋势预测模型,按照日期类型(如节假日及特殊假期)进行区别预测,同时针对大用户、气象敏感度用户群、面临淘汰的高耗能行业、政策电价用电用户等进行售电预测,并对预测结果进行持续跟踪,发现偏差后及时修正。通过负荷监测,预测各地区短期售电量,对负荷数据进行统计分析,支撑有序用电执行效果评估。
2.3 配变重过载预警分析
基于大数据挖掘技术的配变重过载预测分析,能够更加准确,运用回归算法,构建重过载预警模型,建设每周预报(短期)、迎峰度夏、农排专题(中期)分析场景,实现短期和中期配变重过载情况预测。场景将对全市及各区持续发生的配变持续重过载情况进行跟踪分析,重点监测特定时段及区域的配变负载(如采暖期间负荷突然增加),对异常数据进行捕获和钻取分析(如配变容量数据不准确)。同时,对短期(周)及中期(年)的重过载情况进行预测,并与实际发生情况进行比对。
3 系统架构设计及实现
此项目基于Hadoop框架进行设计开发,Hadoop框架中有MapReduce、Hbase和HDFS三大核心设计。MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念“Map(映射)”和“Reduce(归约)”,是它们的主要思想,可以把一个复杂的任务划分为若干个简单的任务分发给网络上的多个节点同时处理。HBase-Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,HBase在Hadoop之上提供了类似于Bigtable的能力,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HDFS是一个主从结构,一个HDFS集群是由一个名字节点,它是一个管理文件命名空间和调节客户端访问文件的主服务器。HDFS的高容错性、高吞吐量等特点使得HDFS适合那些有着超大数据集(large data set)的应用程序。
3.1 系统架构
大数据平台为业务系统大数据应用开发、运行提供统一的平台支撑。其总体架构包括数据整合、数据存储、数据计算、数據分析、平台服务、安全管理、配置管理等模块,并提供各种形式的服务对业务应用提供支撑。大数据平台总体架构图如图1所示。
数据整合:通过数据抽取(ETL)、实时数据采集、文件数据采集、数据库实时复制等多种技术从外部数据源抽取和采集结构化数据(关系数据库记录)、半结构化数据(日志、邮件等)、非结构化数据(文件、视频、音频、网络数据流等)到大数据平台的hive库中。
数据存储:负责进行大数据的存储,针对全数据类型和多样计算需求,以海量规模存储、快速查询读取为特征,存储来自外部数据源的各类数据,支撑数据处理层的高级应用。通常情况下,非结构化数据存储在分布式文件系统HDFS中,半结构化数据采用列式数据库或键值数据库,结构化数据采用行式存储数据库存储,实时性高、计算性能要求高的数据存储在内存数据库或实时数据库。
数据计算:对多样化的大数据提供流计算、批量计算、内存计算、查询计算等计算功能,允许对分布式存储的数据文件或内存数据进行查询和计算。通过Storm流计算技术提供实时分析处理的计算能力,实现实时决策、预警等。通过离线计算提供落地数据的计算能力,实现数据的批量处理。
数据分析:基于Hadoop技术对多样化的大数据进行加工、处理、分析、挖掘,产生新的业务价值,发现业务发展方向,提供业务决策依据。
平台服务:将底层数据分析工具、组件等能力封装后为业务系统的大数据应用提供平台服务支撑,包含存储服务、计算服务、分析服务、展现服务等。
3.2 技术架构
大数据平台技术组件以集成成熟开源产品为主,并对现有可重用的SG-ERP组件进行提升改造,相关生产应用可适时迁移至大数据平台。
大数据平台技术架构包含数据整合、数据存储、数据计算、数据分析、平台服务5个层次,在数据整合方面,融合实时消息队列、数据抽取、日志采集、服务接口等技术,实现异构数据的快速接入;在数据存储方面,采用关系数数据库、分布式文件系统、分布式列式数据库、内存数据库等存储技术,满足海量数据实时、准实时存储需求;在数据计算方面,提供流计算、批量计量、内存计算等数据处理技术;在数据分析方面,采用开源挖掘工具R语言、Mahout,并构建分布式数据挖掘算法库;同时,完善智能分析决策平台的分析模型设计器,构建统一的分析建模能力和运行引擎。在平台服务方面,提供统一的存储、计算、分析、展现等服务。
4 结语
随着电力企业各业务系统数据量的不断增大,以及业务部门数据价值挖掘需求的持续增长,迫切需要用好大数据平台这一数据分析和挖掘技术手段,充分地分析企业信息数据资源,从而可以增强企业的价值创造力和核心竞争力,为用户提供更优质的服务。
参考文献
[1] 肖广娣,凌云.大数据时代信息安全分析[J].电脑知识與技术,2013(9):7937-7938.
[2] 林清滢.基于Hadoop的云计算模型[J].现代计算机,2010(7):114-115.