面向电力大数据的数据管理工具对比
2016-12-17王长刚王景阳
王长刚+王景阳
摘 要:随着电力系统信息化的进步和智能电网的发展,电力系统相关的数据量急增,这些数据是客观的记录,是系统运行情况的真实反映,如果我们想要通过对数据的挖掘来把握电力系统运行行为,那么首先我们就需要对数据进行管理,如何更加科学的管理电力大数据是我们所面临的一个问题。文章综述了数据库一体机、基于Hadoop平台hive数据仓库以及面向列数据库hbase的内部构成和应用范围,详细地分析各自的优势和缺点,并梳理这些数据管理电力大数据时面临的问题。
关键词:电力大数据;管理;工具;对比
引言
电力系统中的能量流——即电能的产生、传输到应用消耗过程,是由用电需求驱动的,既能反映电力系统结构特点,又能反映电力系统运行状况,还能反映电力系统与外部环境(如国民经济、社会活动)的相互作用。因此,把握电力系统中能量流的时空分布特性对提高电力系统运行经济性及安全性具有重要价值,作为电力系统能量流数字化的电力大数据,全面记录了电网的运行状况,包含了电力系统整体动、静态行为的丰富信息。深入挖掘这些信息的价值,有助于提高电力系统运行安全性及经济性。
目前从数据形成知识的过程是借由数据挖掘来实现的,即通过对数据的分析和有效组织和整合提取蕴含在内部的隐层信息、潜在有用信息和知识。实现这一过程需要对数据进行初步核实、建立相应的数学模型、评估分析结果,这些都是依赖数据科学,因此对于如何科学的管理数据、处理数据是一个重要的问题。
1 数据库一体机
数据库一体机是将软件层面的数据库产品与实体计算机硬件有机结合的专门服务于数据处理、传输、储存的实物科技产品。
国内对于数据一体机的探索和研发从未间断过,电力系统数据库一体机经历了上个世纪80年代引进应用系统通用机、90年代建立国产应用通用机、2000年后的open3000系统的应用到现在国网D5000系统的逐步推广,形成了一个数据传输网络化、运行监视全景化、安全评估动态化、调度决策精益化、运行控制自动化和源网协调最优化的一体化智能电网调度系统。
2 基于hadoop运行平台的数据管理工具
2.1 hive数据仓库
Hive是建立在 Hadoop上的数据仓库基础构架。具有简单的类SQL查询语言,称为HQL。同时,MapReduce开发者的可以借此开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作。
Hive构建在基于静态批处理的Hadoop之上,Hadoop通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。Hive查询操作过程严格遵守Hadoop MapReduce的作业执行模型,Hive将用户的HiveQL语句通过解释器转换为MapReduce作业提交到Hadoop集群上,Hive的最佳使用场合是大数据集的批处理作业,例如,网络日志分析。
2.2 Hbase数据库
HBase是一个开源数据库,兼具有分布式和列存储的特点。现存的研究主要集中在多种数据库混合研究上。
国内对于大数据技术相关的数据库的研究也在不断推进中,研究方向和重点主要集中在性能优化、混合数据库的移植性研究上。
3 大数据技术与数据库一体机对比
硬件架构:大数据应用平台和数据一体机隶属于同一梯次,实物架构基本一致,都是通过硬件系统兼容的并行计算来完成上层任务。不同的是,数据化一体机更具有独特性、自身优化特点。
软件体系:两者的最大不同点主要集中在自身软件体系中,数据化一体机软件核心的出口和入口都是面向数据查询语言体系,当然,绝不仅仅局限在语言解析上,还囊括查询过程的优化,数据本身的优化索引,对各种事务数据的掌控能力。
大数据技术中的各种技术更加灵活和易于组织,可以在底层进行服务于自身需求的更新和更改,以mapreduce为例如果运行人员想要实现计算目的,需要手动编译大量的MR程序,把握各种计算逻辑。大数据技术中的另一项突出优点是对非结构化数据的分析能力,hadoop分布式储存系统对非结构化数据的天然兼容性和对数据原始性的保障,可以对非结构化数据进行类结构化数据的查询和索引。
当然数据化一体机由于自身硬件的限制,无法像大数据技术和平台这样易于扩展,对于超大型复杂数据和内在互联逻辑不能完美计算,但是数据化一体机在一定层面上已经改善了传统方式的瓶颈。
4 存在的问题和展望
电力大数据是以结构化数据为主,数据库一体机对于2维数据有着高效的支持度,对于结构性数据具有良好的适应性,但由于数据库一体机下层数据库的建立往往依赖于关系型数据库,内在关联在数据库设计时就已经设定,其上层应用开发受数据组织形式约束,所以在挖掘隐含信息和知识方面没有优势。另外面对非结构化数据(如社会化数据、各种日志甚至图片、视频等)无法映射为关联化和结构化的2维数据时,无法对其进行有效处理。
大数据技术相关的数据管理工具底层数据库隶属于非关系型数据库,由于弱化内在关联关系,所以在数据存储方面可以通过分布式存储来实现大规模数据储存,并且在挖掘隐含信息方面,不受底层数据组织的影响,可以通过自身设计模式进行数据挖掘,但值得注意的是现在大数据并非万金油,在面对处理小型数据量的时候存在高延迟的现象,在离线处理方式mapreduce计算框架下,map和reduce过程都需要初始化,并行任务对HDFS中数据的读取磁盘开销巨大,如何科学的数据分块,如何控制合理的任务总量和并行任务执行数量,如何能够最大限度的发挥服务器的性能,优化存储和查询是需要解决的问题。
2014年2月Spark取代MapReduce成为Apache顶级项目,作为一个基于内存计算为核心的spark逐渐在各个领域上面体现出比mapreduce更快的计算效率,在处理电力大数据方面的研究刚刚起步,如何将内存式计算融入到电力系统多次计算迭代同样也是一个待解决的问题。
参考文献
[1]岳峻松,赵俊峰,赵伟,等.数据库一体机技术架构解析[J].电力信息化,2013,11(4):60-64.
[2]王为国,曾伟民,代伟,等.基于数据仓库的一体化电力调度自动化系统[J].电力系统自动化,2003,27(12):67-70.
[3]冯黄俊,赵景霖,臧菲,等.OPEN3000与DF8003自动化系统应用区别及建议[J].电力与能源,2013,34(z1):53-56,60.
[4]李功新,周文俊,林静怀,等.基于D5000平台的调控操作与防误一体化系统[J].电力自动化设备,2014,34(7):168-173.